Tests dans le processus de développement logiciel. Tester l'efficacité de la publicité moderne Test de la boîte noire

  • 08.08.2021

Le refus des tests est souvent associé à une attitude critique à son égard de la part des publicitaires (surtout créatifs), ainsi qu'à des économies de temps et d'argent. Les tests peuvent ralentir le lancement d'une campagne publicitaire, et donc le produit lui-même. Dans le même temps, il est évident qu'avec des budgets importants, les tests permettent d'éviter des erreurs de plusieurs millions de dollars. Il peut également être utile aux petits annonceurs, pour qui il est facile de trouver des tests simples et peu coûteux. Comme le disent les classiques de la publicité, "les tests peuvent être limités ou même infructueux, mais ils donneront toujours quelque chose sur quoi s'appuyer, pour guider".

Les chercheurs disposent de plusieurs milliers de types de tests. Il n'y a pas moins d'opinions sur l'utilité et l'exactitude de la réalisation de certains tests.

L'une des principales questions des études d'évaluation recherche : "Que tester réellement ?" Les mêmes classiques de la publicité ont fait valoir que «l'effet de la publicité (à l'exception de la publicité de l'expéditeur) est fondamentalement non mesurable ... Les annonceurs, bien sûr, veulent pouvoir rendre compte, mais la publicité doit souvent être mesurée par des méthodes plus modestes et plus intangible que nous ne le souhaiterions. Je crains que nous devions accepter le fait que la plupart des publicités ne peuvent être pleinement amorties que sur une longue période et que le degré de récupération ne peut être vérifié avec certitude.

En effet, il est très difficile d'identifier le facteur décisif dans la relation entre le message publicitaire lui-même et son impact (ou l'absence d'impact) sur un individu. Par exemple, au cours d'une étude, un groupe composé de chefs de produits et de régies publicitaires d'entreprises, responsables de groupes de travail agences de publicité, créatifs, professionnels des médias et professionnels de la recherche, "ont été invités à sélectionner les meilleures annonces parmi celles qui avaient déjà été testées de manière approfondie sur le marché. Résultat? Alors que les experts ont généralement été en mesure de déterminer quelles publicités auraient dû attirer le plus de lecteurs, ils n'ont pas été en mesure de déterminer quelles publicités ont aidé à vendre plus de produit". Comme mentionné précédemment, outre la publicité, il existe trop d'autres facteurs différents qui affectent les ventes. Et selon les experts les plus autorisés, "les méthodes de contrôle rapide et facile de nombreux facteurs qui affectent les ventes n'existent pas".

Selon C. Sandage, W. Freiburger et K. Rotzoll, « la réaction est influencée par de nombreuses « raisons » différentes, et chaque variable du stimulus génère de nombreux « effets ». La même annonce peut, par exemple, irriter, informer, amuser, renforcer la confiance, inciter à l'action, peut être complètement ignorée au moment du contact, et plus tard elle peut être rapidement oubliée ou partiellement mémorisée, elle peut aussi provoquer un changement d'attitude ou sensibilisation. Par conséquent, il est tout à fait clair que, pour décider quels paramètres de la réponse utiliser, le chercheur doit être guidé par le bon sens à bien des égards.

En relation avec ce qui précède, il semble évident que l'annonce (avant qu'elle ne suscite une réaction) doit être vue. Après contact avec la publicité, une personne doit également connaître la marque ou le nom de l'entreprise, comprendre les propriétés, les avantages et les avantages du produit. Une personne peut avoir une prédisposition rationnelle ou émotionnelle à acheter un certain produit. A cela s'ajoute l'avis de la direction de l'un des plus grands annonceurs mondiaux Moteurs généraux: "L'efficacité sera principalement mesurée par la crédibilité, la capacité à utiliser les émotions et la force de persuasion de la publicité."

Les tests peuvent être soumis à certaines réactions humaines précises. Dans ce cas, soit des paramètres uniques, soit un ensemble minimum doivent être évalués, car les tentatives d'analyse simultanée d'un trop grand nombre de paramètres publicitaires actifs peuvent fausser les résultats. Dans le même temps, plus de paramètres en général seront testés, plus précis seront résultat final. «Avec une analyse minutieuse d'un ou deux aspects périphériques de l'efficacité publicitaire, les résultats de ses tests peuvent sembler trop stériles et irréalistes pour ceux qui devront les utiliser dans le processus de prise de décision. S'il assimile sans critique le degré de mémorisation et d'impact, ou le changement d'attitude et les ventes, il lui reste la possibilité de s'appuyer sur une foi qui ne donne aucune garantie.

Ainsi, diverses études ou tests évaluatifs sont réalisés pour tester l'efficacité d'une publicité achevée ou presque achevée. Ils économisent de l'argent en ajustant la publicité avant que les médias ne soient financés. Ainsi, les tests permettent d'éviter des erreurs de plusieurs millions de dollars. Les études d'évaluation peuvent également être utiles après le placement de la publicité, par exemple, lors de l'évaluation des processus d'influence de la publicité sur les ventes en cours.

Cependant, du point de vue des praticiens, toutes ne recherchent pas et n'ont pas toujours de valeur. Parfois, ils peuvent non seulement aider, mais aussi nuire au travail. L'intuition des praticiens peut être un outil plus précis que la recherche scientifique. Les tests et leurs résultats ne sont pas des décisions en eux-mêmes, ils ne font que fournir aux praticiens des informations qui, combinées à l'expérience empirique du publicitaire, leur permettent de prendre des décisions éclairées.

Ce chapitre a passé en revue différentes sortes tests utilisés dans la publicité, diverses méthodes test, critères de test et étapes de test. Les caractéristiques du test de la publicité dans divers médias ont également été prises en compte, pour lesquelles différentes approches sont souvent utilisées.

Une attention particulière a été portée aux préliminaires pré-test, car il augmente la probabilité de préparer les textes les plus efficaces avant que l'argent ne soit dépensé en publicité.

Un autre type de test - le post-test (ou test final), quant à lui, ne présente pas le principal inconvénient inhérent au pré-test - une certaine dose d'artificialité. Lors des tests finaux, le comportement des personnes n'est pas faussé, il est naturel, réaliste. Lors des tests finaux, un certain nombre de facteurs sont pris en compte qui affectent également sérieusement les résultats. Il s'agit tout d'abord des spécificités des moyens de diffusion publicitaire, du moment de placement de la publicité, de la fréquence de sa présentation aux consommateurs, etc.

Si l'ensemble du message publicitaire est généralement testé pour sa capacité à stimuler les ventes, sa force de persuasion, sa reconnaissance et sa mémorisation du produit ou de la marque, le texte publicitaire n'est généralement testé que pour sa force de persuasion. Dans de tels tests, l'attention est principalement attirée sur la compréhension du titre, du slogan, du code, des mots-clés.

Aujourd'hui, nous obtenons de nouveaux outils de test. Par exemple, les en-têtes mot-clé peut être testé avec succès à l'aide d'un système de publicité contextuelle.

Chaque méthode d'évaluation présente une combinaison spécifique d'avantages et d'inconvénients, ainsi que des coûts différents. Les listes de contrôle (listes de contrôle de questions) sont un moyen important et très simple, et surtout peu coûteux, de vérifier l'efficacité des textes publicitaires.

Version vidéo de la conférence " Tester l'efficacité de la publicité moderne"

(préparation de publication)

Des informations plus détaillées sur ce sujet peuvent être trouvées dans le livre de A. Nazaikin

Le but de l'évaluation des performances, que certains ont déjà appelée la "formule du malheur", est simplement de rendre le testeur heureux, de sorte que vous puissiez montrer avec des chiffres que l'un fonctionne bien, et vous devez le féliciter pour cela, et le l'autre est mauvais - et vous devez le fouetter ... L'évaluation uniquement selon ce critère ne peut pas être la seule, elle doit donc être considérée en conjonction avec d'autres indicateurs, tels que la mise en œuvre du plan, l'automatisation des tests, etc.

La performance d'un testeur, comme de tout autre employé, doit être quantifiée, c'est-à-dire dans un indicateur mesurable. Mais quels indicateurs choisir ?

La première chose qui vient à l'esprit est le nombre de défauts trouvés. Et c'est cet indicateur que j'ai immédiatement essayé d'introduire dans Inreco LAN. Cependant, une discussion animée a immédiatement éclaté, ce qui m'a incité à analyser ce critère. Sur ce sujet, je veux discuter dans cet article.

Le nombre de défauts trouvés est un indicateur extrêmement glissant. Toutes les ressources du réseau traitant de ce problème le répètent également (http://www.software-testing.ru/, blogs.msdn.com/imtesty, it4business.ru, sqadotby.blogspot.com, blogs.msdn.com / larryosterman , sql.ru , http://www.testingperspective.com/ et bien d'autres). Après avoir analysé ma propre expérience et ces ressources, je suis arrivé à l'arbre de problèmes suivant :

Tout d'abord, défaut à défaut - discorde. Un testeur peut rechercher des défauts dans l'emplacement des boutons dans une application, un autre peut se plonger dans la logique et proposer des situations de test complexes. Dans la plupart des cas, le premier testeur trouvera plus de défauts, car même la préparation du test lui prendra beaucoup moins de temps, mais la valeur de ces défauts est bien inférieure. Ce problème est facilement résolu en introduisant la criticité du défaut. Il peut être évalué par le nombre de défauts trouvés dans chacune des catégories. Par exemple, nous en avons 4 : critique, significatif, moyen et insignifiant. Mais comme la définition de la criticité n'est pas tout à fait claire, bien que nous ayons des signes formels de criticité, nous pouvons emprunter deux voies plus fiables. La première est qu'une certaine partie des défauts trouvés pendant la période sélectionnée doit être des défauts non critiques. La seconde est de ne pas tenir compte des défauts mineurs dans l'évaluation. Ainsi, on lutte contre la volonté du testeur de noter un maximum de défauts au détriment de la description de défauts mineurs, l'obligeant (ou plus souvent elle) à creuser plus profondément et à trouver des défauts graves. Et ils le sont toujours, croyez mon expérience. J'ai choisi la deuxième option - éliminer les défauts mineurs.

La deuxième raison du « caractère glissant » d'un tel critère est la présence d'un nombre suffisant de défauts dans le système pour que le testeur puisse les trouver. Il y a trois facteurs ici. Le premier est la complexité de la logique et de la technologie du système. Le second est la qualité du codage. Et le troisième est l'étape du projet. Prenons ces trois facteurs dans l'ordre. La complexité de la logique et de la technologie sur lesquelles le système est écrit affecte les défauts potentiels qui peuvent être commis. De plus, la dépendance ici est loin d'être directe. Si vous implémentez une logique simple sur une plate-forme complexe ou inconnue, les erreurs seront principalement liées à l'utilisation incorrecte de la technologie d'implémentation. Si vous implémentez une logique complexe sur une plate-forme primitive, alors, très probablement, des erreurs seront associées à la fois à la logique elle-même et à la complexité de l'implémentation d'une telle logique dans un langage primitif. Autrement dit, un équilibre est nécessaire lors du choix d'une technologie pour la mise en œuvre du système. Mais souvent, la technologie est dictée par le client ou le marché, nous ne pouvons donc guère influencer. Il ne reste donc plus qu'à prendre en compte ce facteur comme un certain coefficient du nombre potentiel de défauts. De plus, la valeur de ce coefficient doit très probablement être déterminée par un expert.

Qualité d'encodage. Ici, nous ne pouvons certainement pas influencer le développeur de quelque manière que ce soit. Mais nous pouvons : a) encore une fois, évaluer de manière experte le niveau du développeur et l'inclure comme un autre facteur et b) essayer d'éviter les erreurs dans le code via des tests unitaires en faisant exigence obligatoire Couverture du code à 100 % avec des tests unitaires.

Stade de projet. On sait depuis longtemps qu'il est impossible de trouver tous les défauts, sauf peut-être pour un programme trivial ou par hasard, car il n'y a pas de limite à la perfection, et tout écart avec la perfection peut être considéré comme un défaut. Mais c'est une chose lorsqu'un projet est en phase de développement actif, et c'en est une autre lorsqu'il est en phase de support. Et si l'on prend également en compte les facteurs de complexité du système et de qualité technologique et de codage, il est clair que tout cela affecte radicalement le nombre de défauts qu'un testeur est capable de trouver. Au fur et à mesure que le projet approche de la fin ou de la phase de support (nous l'appelons tous conditionnellement et le définissons intuitivement maintenant), le nombre de défauts dans le système diminue, et donc le nombre de défauts trouvés également. Et ici, il faut déterminer le moment où il devient déraisonnable d'exiger du testeur qu'il trouve un certain nombre de défauts. Pour déterminer un tel moment, il serait bon de savoir quelle fraction du nombre total de défauts nous sommes capables de trouver et combien de défauts restent encore dans le système. C'est un sujet pour une discussion séparée, mais une méthode statistique assez simple et efficace peut être appliquée.

Sur la base des statistiques des projets précédents, il est possible de comprendre, avec une certaine erreur, combien de défauts se trouvaient dans le système et combien ont été trouvés par l'équipe de test à différentes périodes du projet. Ainsi, vous pouvez obtenir un certain indicateur moyen de l'efficacité de l'équipe de test. Il peut être décomposé pour chaque testeur individuel et obtenir une évaluation personnelle. Plus il y a d'expérience et de statistiques, plus l'erreur sera petite. Vous pouvez également utiliser la méthode "d'ensemencement d'erreurs", lorsque nous savons exactement combien d'erreurs se trouvent dans le système. Naturellement, des facteurs supplémentaires doivent être pris en compte, tels que le type de système, la complexité de la logique, la plate-forme, etc. Ainsi, nous obtenons la relation entre la phase du projet et le pourcentage de défauts trouvés. Vous pouvez maintenant appliquer cette dépendance dans verso: connaissant le nombre de défauts trouvés et la phase actuelle du projet, nous pouvons déterminer le nombre total de défauts dans notre système (avec quelques erreurs, bien sûr). Et ensuite, sur la base des indicateurs d'une évaluation personnelle ou globale, vous pouvez déterminer combien de défauts un testeur ou une équipe est capable de trouver dans la période de temps restante. Sur la base de cette évaluation, il est déjà possible de déterminer le critère d'efficacité du testeur.

La fonction d'indicateur de performance du testeur peut ressembler à ceci :

Défauts- le nombre de défauts constatés,

Gravité– criticité des défauts constatés,

Complexité– la complexité de la logique du système,

Plate-forme– plate-forme de mise en œuvre du système,

Phase- phase du projet,

période est la période considérée.

Mais déjà un critère précis auquel un testeur doit répondre doit être choisi de manière empirique et en tenant compte des spécificités d'une organisation particulière.

Il n'est pas encore possible de prendre en compte tous les facteurs pour le moment, cependant, avec notre développeur principal Ivan Astafiev et la chef de projet Irina Lager, nous avons proposé la formule suivante qui prend en compte le nombre de défauts et leur criticité :

, où

E– efficacité, déterminée par le nombre de défauts constatés,

Client D– le nombre de défauts constatés par le client, mais que le testeur évalué aurait dû constater,

D Testeur- le nombre de défauts constatés par le testeur,

k et – facteurs de correction pour le nombre total de défauts.

Je tiens à noter tout de suite que lors de l'évaluation selon cette formule, seuls les défauts liés au domaine de responsabilité du testeur évalué doivent être pris en compte. Si plusieurs testeurs partagent la responsabilité d'un défaut manqué, ce défaut doit être inclus dans l'évaluation de chaque testeur. De plus, le calcul ne prend pas en compte les défauts peu critiques.

Ainsi, nous avons une parabole du troisième degré, reflétant le critère d'intensité de recherche de défauts, auquel le testeur doit répondre. À cas général, si le score du testeur est supérieur à la parabole, cela signifie qu'il travaille mieux que prévu, s'il est inférieur, alors, en conséquence, pire.

Il y a une nuance associée au nombre total de défauts analysés. Naturellement, plus il y a de statistiques, mieux c'est, mais parfois il faut analyser les différentes étapes du projet, parfois il suffit d'une estimation pour chaque période de temps. Et c'est une chose quand 4 défauts sont constatés durant la période et dont 2 par le client, et c'en est une autre quand 100 défauts sont constatés, dont 50 par le client. Dans les deux cas, le rapport du nombre de défauts constatés par le client et le testeur sera égal à 0,5, mais on comprend que dans le premier cas, tout n'est pas si grave, mais dans le second il est temps de tirer la sonnette d'alarme.

Après avoir essayé sans grand succès de faire une stricte liaison mathématique au nombre total de défauts, nous avons attaché, selon les mots de la même Irina Lager, des «béquilles» à cette formule sous forme d'intervalles, pour chacun desquels nous avons déterminé notre propre coefficients. Il y avait trois intervalles : pour les statistiques de 1 à 20 défauts, de 21 à 60 défauts, et pour les statistiques sur plus de 60 défauts.

Nombre de défauts

k

Estimation de la part admissible des défauts constatés par le client à partir du nombre total de défauts constatés

La dernière colonne du tableau a été introduite pour expliquer le nombre de défauts qu'il est permis au client de trouver dans cet échantillon. En conséquence, plus l'échantillon est petit, plus l'erreur peut être importante et plus le client peut trouver de défauts. Du point de vue de la fonction, cela signifie la valeur minimale limite du rapport du nombre de défauts trouvés par le client et le testeur, après quoi le rendement devient négatif, ou le point où le graphique croise l'axe X. plus l'échantillon est petit, plus l'intersection avec l'axe doit être droite. En termes managériaux, cela signifie que plus l'échantillon est petit, moins une telle évaluation est précise, nous partons donc du principe que les testeurs doivent être évalués moins strictement sur un échantillon plus petit.

Nous avons des graphiques de la forme suivante :

Le graphique noir reflète le critère pour échantillonner plus de 60 défauts, jaune pour 21-60 défauts, vert pour échantillonner moins de 20 défauts. On peut voir que plus l'échantillon est grand, plus le graphique croise à gauche l'axe des X. Comme déjà mentionné, pour l'employé évaluateur, cela signifie que plus l'échantillon est grand, plus vous pouvez faire confiance à ce chiffre.

La méthode d'évaluation consiste à calculer l'efficacité du travail du testeur selon la formule (2), en tenant compte des facteurs de correction et en comparant cette estimation avec la valeur requise sur le graphique. Si le score est supérieur au graphique, le testeur répond aux attentes ; s'il est inférieur, le testeur travaille en dessous de la "barre" requise. Je tiens également à noter que tous ces chiffres ont été sélectionnés de manière empirique et que, pour chaque organisation, ils peuvent être modifiés et sélectionnés avec plus de précision au fil du temps. Par conséquent, tout commentaire (ici ou sur mon blog personnel) et amélioration, je suis le bienvenu.

Cette méthode d'évaluation par le rapport du nombre de défauts constatés par l'équipe de test et le client/utilisateur/client me semble raisonnable et plus ou moins objective. Certes, une telle évaluation ne peut être effectuée qu'après l'achèvement du projet ou, du moins, s'il existe des utilisateurs externes actifs du système. Mais que se passe-t-il si le produit n'est pas encore utilisé ? Comment évaluer le travail d'un testeur dans ce cas ?

De plus, cette technique d'évaluation de l'efficacité d'un testeur pose plusieurs problèmes supplémentaires :

1. Un défaut commence à se diviser en plusieurs plus petits.

· Le gestionnaire de test, qui a remarqué une telle situation, doit l'arrêter par des méthodes informelles.

2. La gestion des défauts devient plus complexe en raison du nombre croissant d'entrées en double.

· Les règles de journalisation des défauts dans le système de suivi des bogues, y compris l'examen obligatoire des défauts similaires, peuvent aider à résoudre ce problème.

3. Le manque d'évaluation de la qualité des défauts constatés, puisque le seul objectif du testeur est le nombre de défauts, et, par conséquent, le manque de motivation du testeur à rechercher des défauts "de qualité". Pourtant, on ne peut pas assimiler la criticité et la « qualité » d'un défaut, le second est un concept moins formalisé.

· Ici, le rôle décisif doit être joué par « l'attitude » à la fois du testeur et du manager. Seule une compréhension générale correcte (!) de la signification d'une telle évaluation quantitative peut résoudre ce problème.

En résumant tout ce qui précède, nous arrivons à la conclusion qu'il est non seulement difficile, mais aussi pas tout à fait correct d'évaluer le travail d'un testeur uniquement par le nombre de défauts trouvés. Par conséquent, le nombre de défauts trouvés ne devrait être qu'un des indicateurs évaluation intégrale le travail du testeur, et non dans sa forme pure, mais en tenant compte des facteurs que j'ai énumérés.

VV Odintsova

A l'aide de nombreuses méthodes de psychodiagnostic, on pense rarement à la qualité de ces outils de travail. Et en vain. Après tout, tout psychologue en exercice sait qu'aucun examen psychologique n'est possible sans de bons outils de diagnostic.

Dans le même temps, les collections populaires de tests psychologiques qui ont été largement publiées récemment ne peuvent malheureusement pas répondre aux exigences d'un vrai professionnel qui doit avoir confiance dans les capacités de diagnostic de l'outil qu'il utilise dans son travail. C'est pourquoi, le problème de trouver une technique de diagnostic bien conçue et fiable reste d'actualité.

La tâche principale du Laboratoire Human Technologies HR est le développement de produits de qualité. L'une des conditions de création de tels produits est le contrôle périodique des méthodes de test quant à leur conformité à un certain nombre d'exigences psychométriques (validité, fiabilité, représentativité, fiabilité). Pour ce faire, après avoir collecté un nombre suffisant de protocoles, une analyse statistique des méthodes de test est réalisée.

Considérons une analyse psychométrique (dont l'échantillon total était de 660 personnes).

Ce test, développé dans les années 90, est destiné au diagnostic express du niveau de sévérité des cinq facteurs dits "grands" de tempérament et de caractère et permet d'étudier la personnalité des adultes à des fins de sélection professionnelle, de consultation professionnelle , détermination des domaines d'assistance psychologique, recrutement collectif, connaissance de soi, etc.

La base de l'universalité des "Big Five Factors" est leur situation croisée : les facteurs d'une évaluation globale fonctionnelle et d'activité d'une personne sont applicables à presque toutes les situations de comportement social et d'activité objective dans lesquelles se trouvent des différences stables entre les personnes. .

Le questionnaire comprend 75 items avec trois options de réponse chacun.

ÉCHELLE les tests sont une reproduction exacte des facteurs des "Big Five" dans leur version internationale (à l'exception du cinquième facteur, qui dans un certain nombre de versions occidentales de B5 est appelé "ouverture à de nouvelles expériences - praticité limitée") :

  • extraversion - introversion
  • consentement - indépendance
  • organisation - impulsivité
  • stabilité émotionnelle - anxiété
  • capacité d'apprentissage - inertie

1. Contrôle de validité

Lors de la vérification des échelles existantes de manière traditionnelle - en calculant les corrélations entre les réponses aux questions et le score total sur l'échelle - nous avons constaté que presque tous les items étaient significativement corrélés avec "leurs" échelles avec un coefficient de corrélation moyen de 0,35.

Lors de la vérification significative la validité du test, nous avons analysé la formulation des items du test qui reflètent de manière significative le domaine pertinent (domaine du comportement) et ont une corrélation significative (positive ou négative) avec le score total :

Échelle Exemples d'éléments de test Coefficient de corrélation
EXTRAVERSION Il est important pour moi d'exprimer mon opinion aux autres (0,31)
J'aime participer à toutes sortes de compétitions, compétitions, etc. (0,41)
J'aime visiter et rencontrer de nouvelles personnes (0,5)
ACCORD La plupart des gens ne peuvent pas faire confiance (-0,23)
Mes intérêts sont avant tout pour moi (-0,22)
"Celui qui aide les gens perd du temps en vain, on ne peut pas devenir célèbre pour de bonnes actions" (-0,3)
"Chacun est pour soi" - c'est le principe qui ne manquera pas (-0,4)
MAÎTRISE DE SOI Quand je vais me coucher, je sais déjà avec certitude ce que je ferai demain. (0,37)
Quand je prends un livre, je le remets toujours à sa place. (0,35)
Avant les affaires responsables, j'établis toujours un plan pour leur mise en œuvre. (0,37)
LA STABILITÉ je rougis facilement (-0,28)
Si j'attrape l'apparition d'une situation indésirable au travail, cela me cause toujours un doute douloureux jusqu'à ce que la situation soit éclaircie (-0,3)
À la fin de la journée, je suis généralement tellement fatigué que la moindre petite chose commence à m'énerver. (-0,32)
C'est facile de ruiner mon humeur (-0,42)

L'analyse des formulations ci-dessus indique une validité de contenu assez élevée du test.

2. Contrôle de fiabilité

La fiabilité du test en tant que moyen de mesure est déterminée par la faible probabilité d'erreurs de mesure des scores de test et la mesure dans laquelle les résultats de mesure sont reproduits lorsque le test est utilisé à plusieurs reprises par rapport à ce groupe de sujets. Afin d'évaluer la contribution de différentes sources à l'erreur de mesure, il est nécessaire d'utiliser différentes méthodes d'évaluation de la fiabilité. L'évaluation de la cohérence interne du test est particulièrement intéressante, elle détermine la part de l'erreur associée à la sélection des tâches.

La cohérence interne du test a été évaluée en calculant le coefficient alpha de Cronbach. Ce coefficient est une mesure de fiabilité basée sur l'homogénéité de l'échelle ou la somme des corrélations entre les réponses des sujets aux questions d'un même formulaire de test.

Dans notre cas, le coefficient de fiabilité alpha de Cronbach calculé pour chaque échelle a montré, dans l'ensemble, un niveau de cohérence interne assez décent, traditionnel pour les questionnaires express de personnalité, dans lesquels les sous-échelles contiennent un nombre limité d'items (moins de 20) :

Rappelons que les exigences psychométriques strictes pour un test de personnalité efficace correspondent à la valeur des coefficients alpha supérieurs à 0,8.

Dans notre cas, le niveau relativement faible des coefficients de fiabilité de Cronbach s'explique par le volume significatif de ces échelles : chaque échelle comporte 15 questions diverses, ce qui permet d'élargir le champ des facteurs étudiés, tout en sacrifiant haut niveau la cohérence interne.

Ceci a eu un effet particulièrement aigu sur les échelles factorielles « CONSENTEMENT » et « CAPACITÉ D'APPRENTISSAGE », selon lesquelles le coefficient alpha était inférieur à 0,6.

3. Vérification de la représentativité

Lors du passage d'un échantillon de normalisation (Fig. 1 - 300 personnes) à un échantillon de population (Fig. 2 - 660 personnes), la stabilité de la configuration de distribution des scores de test se manifeste, ce qui indique la représentativité de la méthodologie de test :

Fig. 1.Échantillon de standardisation (300 personnes)

Fig.2.Échantillon de la population (660 personnes)

En plus de la similarité visuelle de ces distributions, le test statistique du chi carré de Pearson que nous avons utilisé a montré le degré suivant de similarité des distributions :

Ces valeurs du chi carré tombent dans l'intervalle d'incertitude: lorsqu'il est impossible d'accepter ou de rejeter sans équivoque l'hypothèse sur la cohérence des distributions.

Ce résultat peut être dû à la propriété principale du test rapide, à savoir un petit nombre de questions fonctionnant sur chaque échelle. De ce fait, les résultats du test de représentativité peuvent être considérés comme satisfaisants.

4. Validation

Comme les sujets qui ont été testés sur le site étaient dans la situation du client (ils étaient intéressés par des résultats fiables), les résultats obtenus peuvent être considérés comme fiables avec une forte probabilité.

Cependant, en situation d'examen (lorsqu'un tiers s'intéresse aux résultats du test), les données peuvent être faussées par l'intervention de falsifications conscientes (mensonges, manque de sincérité du sujet) ou de facteurs motivationnels inconscients. Pour éviter cela, une échelle de mensonge a été ajoutée à la version destinée à de tels cas (B5splus) (cette version est actuellement en test sur notre site internet) .

Les résultats obtenus témoignent de la qualité et de l'efficacité de la méthodologie, ce qui est important, car le niveau professionnel d'un spécialiste est souvent déterminé par l'outil qu'il utilise.

Cependant, il convient de rappeler que même un outil moderne puissant ne garantit pas l'absence totale d'erreurs. Pour les éviter, il ne suffit pas d'avoir un ordinateur et un programme de test pour cela. Vous avez également besoin d'un psychologue expérimenté pour superviser le test. Ainsi, la présence de tests ayant subi une adaptation psychométrique sérieuse n'annule en rien le professionnalisme et l'expérience d'un psychologue qui est appelé à vérifier la plausibilité des résultats de tests en utilisant des sources d'information parallèles (dont sa propre observation, conversation, etc.) .

Essai Logiciel est une évaluation du logiciel/produit développé pour vérifier ses capacités, capacités et conformité avec les résultats attendus. Il existe différents types de méthodes utilisées dans le domaine des tests et de l'assurance qualité et seront discutées dans cet article.

Les tests logiciels font partie intégrante du cycle de développement logiciel.

Qu'est-ce que le test logiciel ?

Le test logiciel n'est rien de plus que de tester un morceau de code dans des conditions de fonctionnement contrôlées et non contrôlées, d'observer la sortie, puis d'examiner s'il répond à des conditions prédéfinies.

Divers ensembles de cas de test et de stratégies de test visent à atteindre un objectif commun : éliminer les bogues et les erreurs dans le code et garantir des performances logicielles précises et optimales.

Méthodologie des tests

Les méthodes de test couramment utilisées sont les tests unitaires, les tests d'intégration, les tests d'acceptation et les tests système. Le logiciel est soumis à ces tests dans un ordre précis.

3) Test du système

4) Essais d'acceptation

La première étape est un test unitaire. Comme son nom l'indique, il s'agit d'une méthode de test au niveau de l'objet. Les composants logiciels individuels sont testés pour les erreurs. Ce test nécessite une connaissance précise du programme et de chaque module installé. Ainsi, cette vérification est effectuée par des programmeurs et non par des testeurs. Pour ce faire, des codes de test sont créés pour vérifier si le logiciel se comporte comme prévu.


Les modules individuels qui ont déjà été testés à l'unité sont intégrés les uns aux autres et vérifiés pour les défauts. Ce type de test identifie principalement les erreurs d'interface. Les tests d'intégration peuvent être effectués à l'aide d'une approche descendante, en suivant la conception architecturale du système. Une autre approche est l'approche ascendante, qui se fait à partir du bas du flux de contrôle.

Test du système

Dans ce test, l'ensemble du système est vérifié pour les erreurs et les bogues. Ce test est réalisé en interfaçant les composants matériels et logiciels de l'ensemble du système, puis il est testé. Ce test est répertorié sous la méthode de test "boîte noire", où les conditions de fonctionnement attendues pour l'utilisateur du logiciel sont vérifiées.

Essais d'acceptation

Il s'agit du dernier test effectué avant la remise du logiciel au client. Elle est effectuée pour s'assurer que le logiciel qui a été développé répond à toutes les exigences du client. Il existe deux types de tests d'acceptation - l'un effectué par les membres de l'équipe de développement est appelé test d'acceptation interne (test Alpha) et l'autre effectué par le client est appelé test d'acceptation externe.

Lorsque les tests sont effectués avec l'aide de clients potentiels, on parle de tests d'acceptation par les clients. Lorsque les tests sont effectués par l'utilisateur final du logiciel, on parle de tests d'acceptation (tests bêta).

Il existe plusieurs méthodes de test de base qui font partie du régime de test des logiciels. Ces tests sont généralement considérés comme autosuffisants pour trouver des erreurs et des bogues dans tout le système.

Test de la boîte noire

Les tests de boîte noire sont effectués sans aucune connaissance du fonctionnement interne du système. Le testeur incitera le logiciel de l'environnement utilisateur en fournissant diverses entrées et en testant les sorties générées. Ce test est également connu sous le nom de test en boîte noire, en boîte fermée ou en test fonctionnel.

Essais en boîte blanche

Méthode de test " boîte blanche", contrairement à la "boîte noire", prend en compte le fonctionnement interne et la logique du code. Pour effectuer ce test, le testeur doit avoir connaissance du code afin de connaître la partie exacte du code qui comporte des erreurs. Le test est également connu sous le nom de test White-box, Open-Box ou Glass box.

Test de la boîte grise

Le test de la boîte grise, ou test de la boîte grise, est un croisement entre les tests de la boîte blanche et de la boîte noire, où le testeur n'a que les connaissances générales du produit nécessaires pour effectuer le test. Cette vérification est effectuée par le biais de la documentation et du schéma. flux d'informations. Les tests sont effectués par l'utilisateur final ou par des utilisateurs qui semblent être des utilisateurs finaux.

Tests non fonctionnels

La sécurité des applications est l'une des tâches principales du développeur. Les tests de sécurité vérifient la confidentialité, l'intégrité, l'authentification, la disponibilité et la non-répudiation des logiciels. Des tests individuels sont effectués afin d'empêcher tout accès non autorisé au code du programme.

Le test de résistance est une technique dans laquelle le logiciel est exposé à des conditions qui sont en dehors des conditions de fonctionnement normales du logiciel. Après avoir atteint le point critique, les résultats sont enregistrés. Ce test détermine la stabilité de l'ensemble du système.


Le logiciel est testé pour sa compatibilité avec des interfaces externes telles que Systèmes d'exploitation, plates-formes matérielles, navigateurs Web, etc. Le test de compatibilité vérifie si le produit est compatible avec n'importe quelle plate-forme logicielle.


Comme son nom l'indique, cette technique de test teste la quantité de code ou de ressources utilisées par un programme pour effectuer une seule opération.

Ce test teste l'aspect de la convivialité et de l'utilisabilité du logiciel. La facilité avec laquelle un utilisateur peut accéder à un appareil constitue le principal point de test. Les tests d'utilisabilité couvrent cinq aspects des tests : capacité d'apprentissage, performances, satisfaction, mémorisation et erreurs.

Tests dans le processus de développement logiciel

Le modèle en cascade utilise une approche descendante, qu'il soit utilisé pour le développement ou les tests de logiciels.

Les principales étapes impliquées dans cette méthodologie de test de logiciel sont :

  • Analyse des besoins
  • Essai de conception
  • Test de mise en œuvre
  • Tester, déboguer et vérifier le code ou le produit
  • Mise en œuvre et maintenance

Dans cette technique, vous ne passez à l'étape suivante qu'après avoir terminé la précédente. Le modèle utilise une approche non itérative. Le principal avantage de cette méthodologie est son approche simplifiée, systématique et orthodoxe. Cependant, il présente de nombreux inconvénients, car les bogues et les bogues dans le code ne seront découverts qu'au cours de la phase de test. Cela peut souvent entraîner une perte de temps, d'argent et d'autres ressources précieuses.

Modèle agile

Cette méthodologie repose sur une combinaison sélective d'une approche séquentielle et itérative, en plus d'une assez grande variété de nouvelles méthodes de développement. Le développement rapide et progressif est l'un des principes clés de cette méthodologie. L'accent est mis sur l'obtention de résultats rapides, pratiques et visibles. L'interaction et la participation continues des clients font partie intégrante de l'ensemble du processus de développement.

Développement rapide d'applications (RAD). Méthodologie de développement rapide d'applications

Le nom parle de lui-même. Dans ce cas, la méthodologie adopte une approche évolutive rapide, utilisant le principe de la construction de composants. Après avoir compris les différentes exigences ce projet, un prototype rapide est préparé, puis comparé à un ensemble attendu de conditions et de normes de sortie. Les changements et modifications nécessaires sont apportés après une discussion commune avec le client ou l'équipe de développement (dans le cadre des tests logiciels).

Bien que cette approche ait sa part d'avantages, elle peut ne pas être appropriée si le projet est de grande envergure, complexe ou de nature extrêmement dynamique, dans lequel les exigences changent constamment.

modèle en spirale

Comme son nom l'indique, le modèle en spirale est basé sur une approche dans laquelle il y a un certain nombre de cycles (ou spirales) à partir de toutes les étapes successives de modèle de cascade. Une fois le cycle initial terminé, une analyse et un examen approfondis du produit ou du résultat obtenu sont effectués. Si la sortie ne répond pas aux exigences spécifiées ou aux normes attendues, un deuxième cycle est effectué, et ainsi de suite.

Processus unifié rationnel (RUP). Processus unifié rationnel

La méthodologie RUP est également similaire au modèle en spirale, en ce sens que l'ensemble de la procédure de test est divisé en plusieurs cycles. Chaque cycle se compose de quatre étapes - création, développement, construction et transition. À la fin de chaque cycle, le produit/rendement est examiné et un autre cycle (composé des quatre mêmes phases) suit au besoin.

Application technologies de l'information croît chaque jour, l'importance d'un bon test logiciel a également augmenté de façon exponentielle. De nombreuses entreprises maintiennent à cet effet un personnel d'équipes spéciales, dont les capacités se situent au niveau des développeurs.


Traduction: Olga Alifanova

L'assurance qualité fait la distinction entre vérification et validation. La vérification répond à la question de savoir si nous créons correctement le produit, et la validation répond à la question de savoir si nous créons ce dont nous avons besoin. Certaines personnes tracent une ligne de démarcation entre l'assurance qualité et les tests sur la base de ces définitions.

De mon point de vue, l'utilisation des termes « vérification » et « validation » peut conduire à de fausses dichotomies. Pour moi, les tests sont une activité liée à la conception et couvrent donc pas mal de choses. large zone. Je crois que les tests peuvent devenir une sorte de "langage commun". Je crois que les tests peuvent directement coder les spécifications et les exigences. Et je crois que les tests sont une source de connaissances sur un domaine ou un produit. Trop insister sur la différence entre vérification et validation est un moyen inefficace et inefficace de comprendre comment les tests complètent l'assurance qualité.

De mon point de vue, l'incapacité à percevoir les tests et l'assurance qualité comme deux processus différents et complémentaires est une perception qui manque clairement de finesse.

En fait, je suis d'accord que les différences entre vérification et validation sont tout à fait justifiées. Après tout, l'efficacité est la capacité de faire quelque chose de bien. L'efficacité, en revanche, est la capacité à produire le résultat correct. L'efficacité est centrée sur le processus et vise à le mener à son terme, et l'efficacité est sur le produit (c'est-à-dire, en fait, sur le résultat de ce processus). On peut également dire que l'efficacité se concentre principalement sur l'évitement des erreurs, et l'efficacité sur le succès, quel que soit le nombre d'erreurs commises en cours de route.

Cependant, il me semble qu'il existe un moyen de faire la distinction entre l'efficience et l'efficacité qui est bien meilleur que de comprendre la différence entre la vérification et la validation. Après tout, les tests nécessitent vraiment de la flexibilité et de l'innovation.

Et c'est précisément à ce moment que surgit un curieux paradoxe. Vous avez besoin d'un niveau décent de discipline et de courage pour maintenir une performance continue et continue. Cependant, c'est la discipline et la résilience au changement qui rendent les processus inflexibles ! Si vous faites la même chose de la même manière encore et encore, rien d'innovant ne vous frappera jamais.

Étant donné que l'efficacité dans ce contexte est liée à la vérification, cela signifie que la vérification peut devenir une activité statique.

La performance, en revanche, est beaucoup plus adaptable au changement et nécessite plus de flexibilité. Pour la réalisation bons résultats l'innovation doit être encouragée, car alors les gens réfléchiront à ce qu'ils font exactement maintenant, et s'il vaut la peine de faire exactement cela dans un contexte spécifique et sous l'influence de facteurs spécifiques. Cependant, cette flexibilité et cette adaptabilité conduisent à trop de choix et à une incapacité potentielle à faire des efforts de routine conscients qui peuvent être reproduits en dehors de la situation actuelle.

Étant donné que la performance dans notre contexte est liée à la validation, tout ce qui précède signifie que la validation peut devenir une activité trop dynamique.

C'est là que la prise de décision intelligente entre en jeu, brisant ce cercle vicieux et vous donnant la possibilité d'évaluer votre efficacité et votre efficience, en la regardant avec des yeux différents. L'élégance des solutions ne se contente pas de répondre aux questions, avons-nous fait quelque chose de mieux, ou avons-nous pensé à quelque chose de mieux, mais donne plutôt une réponse, sommes-nous devenus plus conscients de ce qui se passe, avons-nous créé une base pour les activités futures ?

La finesse peut aussi être vue comme la minimisation de la complexité. Dans le monde du développement, les gens divisent souvent la complexité des décisions en obligatoire et aléatoire. Par conséquent, pour que les solutions de test soient élégantes, elles doivent être constituées uniquement de "complexité obligatoire" et pratiquement pas de complexité aléatoire. Cela semble mystérieux, n'est-ce pas? Oui, c'est possible, car il y a tellement d'opinions sur le début de la "complexité". Pour moi, la complexité des décisions dans les tests survient lorsqu'il n'y a pas de choix dans le système et qu'il y a une grande incertitude.

Si vous permettez aux tests d'être innovants et flexibles (c'est-à-dire efficaces) tout en maintenant un certain niveau de rigueur et de discipline (efficacité), vous devriez avoir un ensemble de règles sur la façon de gérer le choix (dans le sens de comment fournir ce choix) et l'incertitude (comment le détruire).

Je ne m'ennuierai pas sur ce sujet, mais je donnerai simplement des exemples de ce dont je parle. Dans mes exemples, je veux essayer d'amener les équipes de test à penser leurs tests en termes "d'efficacité", "d'efficacité" et "d'élégance". Je vais commencer par quelques axiomes (je ne choisirai pas un autre mot) et essayer de rendre mes exemples aussi courts et clairs que possible. Il y a des choses auxquelles toute l'équipe doit croire - ou du moins agir comme si elle y croyait. Et mon premier axiome affirme ce dont j'ai parlé plus haut !

  • Les tests peuvent être effectués de manière efficace, efficace et gracieuse.
  • Les tests nécessitent une recherche active, professionnelle et technique.
  • Le but du test est une présentation claire des informations nécessaires à temps.
  • Les testeurs sont, en un sens, des rédacteurs et des éditeurs. Par conséquent, une éthique de grâce et de fierté professionnelle sont des attributs indispensables d'un bon travail motivé avec le niveau d'attention approprié.

Voici quelques exemples pour illustrer ces points. Examinons d'abord tous ces concepts en relation avec le test.

  • Efficace le test doit se concentrer sur l'entrée, le processus, la sortie.
  • Productif Le test doit être expressif et démontrer le but du test.
  • Efficace le test doit se concentrer sur un résultat cohérent d'une action particulière, et non sur plusieurs à la fois.
  • Productif Le test regroupe des observations liées.
  • Efficace le test donne un exemple concret des données recherchées.
  • Productif le test raconte Conditions Générales, sous lequel les données de test doivent tomber.
  • Élégant le test décrit le comportement spécifique du système et sa fonctionnalité.

Appliquons maintenant ces concepts à la suite de tests :

  • Efficace la suite de tests détermine quelles données sont valides et lesquelles ne le sont pas.
  • Efficace la suite de tests vérifie les données valides et non valides.
  • Productif la suite de tests regroupe les types de données en classes.
  • Élégant une suite de tests peut être conçue pour étudier les objectifs et les processus de l'entreprise.

Enfin, appliquons ces définitions aux tests en tant qu'activité :

  • Efficace testing utilise des scripts qui structurent le processus de recherche.
  • Productif testing applique des pratiques exploratoires qui apportent de la variabilité aux scripts.
  • gracieux testing utilise des pratiques exploratoires scénarisées pour démontrer la valeur d'une application à un consommateur en examinant comment elle est utilisée.
  • Efficace les tests utilisent des scénarios pour montrer comment un produit remplit son objectif.
  • Productif testing utilise des scénarios qui montrent ce qui doit se passer pour qu'un besoin utilisateur soit satisfait.
  • gracieux testing décrit les exigences et démontre les capacités de l'application.

Il est important d'être conscient de tout cela, car ce que vous faites et comment vous le faites est la base de ce que vous ferez et comment vous ferez à l'avenir. Il soutient également la dynamique de groupe et les réflexions sur les concepts ci-dessus. Voici ce que je veux dire :

  • Certains testeurs préfèrent se référer aux cas de test en tant que "conditions de test". Certains sont à l'opposé. Certaines personnes ignorent les deux termes. Je crois que les tests de performance regroupent les conditions de test et en font des variations de cas de test. Les tests de performance utilisent des conditions de test spécifiées par des paramètres spécifiques des données souhaitées.
  • La terminologie "test positif/négatif" est depuis longtemps passée de mode pour les testeurs expérimentés. Les tests gracieux se concentrent sur la description des conditions valides et non valides. Cela signifie que les testeurs doivent tester de manière efficace et efficiente en identifiant toutes les conditions de test qui peuvent changer (ce qui conduit à son tour à un regroupement de conditions valides et non valides), ainsi qu'en s'assurant qu'ils prennent des décisions éclairées en choisissant certains ensembles de données et en ignorant les le repos.
  • Les beaux tests sont les champions de vos tests. Si vous avez un groupe de tests qui vérifient réellement des choses similaires et que votre temps est limité, vous n'aurez que le temps d'en exécuter certains. Dans de tels cas, utilisez des tests qui sont plus susceptibles de révéler toute une couche d'erreurs. De tels tests peuvent être extrêmement élégants.
  • Un test efficace ne doit être ni trop simple ni trop complexe. Bien sûr, il est possible d'entasser toute une série de tests dans un seul cas, mais les effets secondaires possibles de cette façon de créer des tests peuvent masquer un tas de bugs. Par conséquent, les cas de résultats doivent inclure différents points de vue (ou un chemin différent vers le même point de vue) et être exécutés séparément.
  • Certaines techniques de test sont extrêmement efficaces pour sélectionner des données spécifiques et organiser ces données en combinaison ou en séquence. Mais une solution élégante viendra lorsque les testeurs choisiront ces données en fonction de l'interaction de différentes fonctionnalités et flux de données, et exploreront les chemins à travers l'interface utilisateur en comprenant comment une personne vivante utilisera ce système.
  • Un cas réussi devrait être en mesure de vous donner des informations. Vous avez besoin de tests qui répondront aux questions que vous posez. Le but du test n'est pas forcément de trouver un bug, son but est de récolter des informations. Un test n'est pas utile lorsqu'il peut trouver un bogue - il devrait pouvoir vous fournir des informations (bien que ces informations puissent également être la présence d'un bogue si quelque chose ne va pas avec l'application). Une solution élégante vise toujours à obtenir certaines informations lors des tests.
  • Des tests efficaces nécessitent de comprendre les exigences et leur lien avec la façon dont les utilisateurs perçoivent la valeur de notre produit. Nous devons comprendre nos utilisateurs, pas seulement lire les spécifications et les exigences ! Les tests gracieux utilisent des heuristiques pour structurer cette compréhension. Cela oblige également les tests à raconter des histoires convaincantes sur les actions de personnes réelles.

J'aurais peut-être dû préciser dès le départ que mon objectif n'était pas de me présenter comme la vérité ultime en termes de réponse à la question de savoir quel type de test serait efficace, efficient et élégant. Je voulais juste faire passer mon message : je crois que les équipes de test qui comprennent la différence entre ces concepts sont capables de