Teste în procesul de dezvoltare software. Testarea eficacității reclamei moderne Testarea cutiei negre

  • 08.08.2021

Refuzul testării este adesea asociat cu o atitudine critică față de aceasta din partea lucrătorilor din publicitate (în special creativi), precum și cu economisirea de bani și timp. Testarea poate încetini lansarea unei campanii de publicitate și, prin urmare, a produsului în sine. În același timp, este evident că, cu bugete mari, testarea ajută la evitarea erorilor de milioane de dolari. Poate fi util și pentru micii advertiseri, pentru care este ușor să găsești teste simple, ieftine. După cum spun clasicii publicității, „testarea poate fi limitată sau chiar fără succes, dar va oferi totuși ceva pe care să construim, să ghideze”.

Cercetătorii au câteva mii de tipuri de teste. Nu mai puține păreri sunt despre utilitatea și corectitudinea efectuării anumitor teste.

Una dintre principalele întrebări ale studiilor de evaluare cercetare: „Ce să testăm de fapt?” Aceiași clasici ai publicității au susținut că „efectul publicității (cu excepția publicității expeditorului) este practic de nemăsurat... Agenții de publicitate, desigur, vor să fie capabili să dea socoteală, dar publicitatea de multe ori trebuie măsurată prin metode care sunt mai modeste. și mai intangibil decât ne-am dori. Mi-e teamă că va trebui să ne înțelegem cu faptul că majoritatea reclamelor se pot achita pe deplin doar pe o perioadă lungă de timp, iar gradul de rambursare nu poate fi verificat cu nicio certitudine.

Într-adevăr, este foarte greu de identificat factorul decisiv în relația dintre mesajul publicitar în sine și impactul acestuia (sau lipsa acestui impact) asupra unui individ. De exemplu, în cursul unui studiu, un grup format din manageri de produse și manageri de servicii de publicitate ai firmelor, șefi de grupuri de lucru agentii de publicitate, creatorii, profesioniștii media și profesioniștii din cercetare, „au fost rugați să selecteze cele mai bune reclame dintre cele care au fost deja testate temeinic pe piață. Rezultat? În timp ce experții au putut determina, în general, care anunțuri ar fi trebuit să atragă cei mai mulți cititori, ei nu au putut determina care anunțuri au ajutat la vânzare mai mult produs". După cum am menționat mai devreme, pe lângă publicitate, există prea mulți alți factori diferiți care afectează vânzările. Iar conform celor mai de încredere experți, „metode de control rapid și ușor al numeroși factori care afectează vânzările nu există”.

Potrivit lui C. Sandage, W. Freiburger și K. Rotzoll, „reacția este influențată de multe „motive” diferite și fiecare variabilă a stimulului generează multe „efecte”. Același anunț poate, de exemplu, să irită, să informeze, să distreze, să întărească încrederea, să încurajeze acțiunea, poate fi complet ignorat în momentul contactului, iar mai târziu poate fi uitat rapid sau parțial amintit, poate provoca și o schimbare de atitudine sau conștientizarea. Prin urmare, este destul de clar că, pentru a decide ce parametri ai răspunsului să folosească, cercetătorul ar trebui să fie ghidat de bunul simț în multe privințe.

În legătură cu cele de mai sus, pare evident că anunțul (înainte de a se reacționa la el) trebuie văzut. După contactul cu publicitatea, o persoană trebuie să cunoască și numele mărcii sau al companiei, să înțeleagă proprietățile, avantajele și beneficiile produsului. O persoană poate avea o predispoziție rațională sau emoțională de a cumpăra un anumit produs. La aceasta putem adăuga opinia conducerii unuia dintre cei mai mari agenți de publicitate din lume Motoare generale: „Eficacitatea va fi măsurată în primul rând prin credibilitate, capacitatea de a folosi emoțiile și persuasivitatea reclamei”.

Testarea poate fi supusă exact anumitor reacții umane. În acest caz, ar trebui evaluați fie parametri unici, fie un set minim, deoarece încercările de a analiza prea mulți parametri de publicitate activi simultan pot încurca rezultatele. În același timp, cu cât vor fi testați mai mulți parametri în general, cu atât mai precis vor fi rezultat final. „Cu o analiză atentă a doar unul sau două aspecte periferice ale eficienței publicității, rezultatele testării acesteia pot părea prea sterile și nerealiste pentru cei care vor trebui să le folosească în procesul de luare a deciziilor. Dacă echivalează necritic gradul de memorabilitate și impact, sau schimbarea de atitudine și vânzări, el rămâne cu posibilitatea de a se baza pe credința care nu dă nicio garanție.

Deci, sunt efectuate diverse studii sau teste evaluative pentru a testa eficacitatea reclamei finalizate sau aproape finalizate. Economisesc bani ajustând publicitatea înainte ca mass-media să fie finanțată. Astfel, testarea ajută la evitarea erorilor de milioane de dolari. Studiile de evaluare pot fi utile și după ce a fost plasată publicitate, de exemplu, atunci când se evaluează procesele de influență a publicității asupra vânzărilor curente.

Cu toate acestea, din punctul de vedere al practicienilor, nu toate cercetările și nu au întotdeauna valoare. Uneori, ele nu numai că pot ajuta, ci și pot dăuna muncii. Intuiția practicienilor poate fi un instrument mai precis decât cercetarea științifică. Testele și rezultatele lor nu sunt decizii în sine, ele oferă doar practicienilor informații care, atunci când sunt combinate cu experiența empirică a lucrătorului în publicitate, le permit să ia decizii informate.

Acest capitol a trecut în revistă tipuri diferite teste utilizate în publicitate, diverse metode testare, criterii de testare și pași de testare. Au fost, de asemenea, luate în considerare caracteristicile de testare a publicității în diverse medii, pentru care sunt adesea folosite abordări diferite.

O atenție deosebită a fost acordată preliminariei pre-testare, deoarece crește probabilitatea de a pregăti cele mai eficiente texte înainte ca banii să fie cheltuiți pe publicitate.

Un alt tip de testare - post-testarea (sau testarea finală), la rândul său, nu are principalul dezavantaj inerent pre-testării - o anumită cantitate de artificialitate. În timpul testării finale, comportamentul oamenilor nu este distorsionat, este natural, realist. În timpul testării finale, sunt luați în considerare o serie de factori care afectează serios și rezultatele. În primul rând, acesta este specificul mijloacelor de distribuție a reclamelor, timpul de plasare a reclamei, frecvența prezentării acesteia către consumatori etc.

Dacă întregul mesaj publicitar, de regulă, este testat pentru capacitatea de a stimula vânzările, pentru persuasivitatea, recunoașterea și memorarea produsului sau a mărcii, atunci textul publicitar este de obicei testat doar pentru persuasivitate. În astfel de teste, atenția se atrage în primul rând asupra înțelegerii titlului, sloganului, codului, cuvintelor cheie.

Astăzi primim noi instrumente pentru testare. De exemplu, antete cuvânt cheie poate fi testat cu succes folosind un sistem de publicitate contextuală.

Fiecare metodă de evaluare are o combinație specifică de avantaje și dezavantaje, precum și costuri diferite. Un mijloc important și foarte simplu și, cel mai important, ieftin de verificare a eficienței textelor publicitare sunt listele de verificare (listele de verificare cu întrebări).

Versiunea video a prelegerii " Testarea eficacității reclamei moderne"

(se pregatesc pentru publicare)

Informații mai detaliate despre acest subiect pot fi găsite în cartea lui A. Nazaikin

Scopul evaluării performanței, pe care unii l-au numit deja „formula nefericirii” este doar acela de a face testerul fericit, astfel încât să puteți arăta cu numere că unul funcționează bine și trebuie să-l bătuți pe cap pentru asta, și altul este rău - și trebuie să-l biciuiți ... Evaluarea numai conform acestui criteriu nu poate fi singura, prin urmare, ar trebui luată în considerare împreună cu alți indicatori, cum ar fi punerea în aplicare a planului, automatizarea testelor etc.

Performanța unui tester, ca orice alt angajat, ar trebui cuantificată, adică într-un indicator măsurabil. Dar ce indicatori să alegi?

Primul lucru care îmi vine în minte este numărul de defecte găsite. Și acest indicator a fost pe care am încercat imediat să îl introduc în Inreco LAN. Totuși, imediat a apărut o discuție aprinsă, care m-a determinat să analizez acest criteriu. Pe acest subiect, vreau să discut în acest articol.

Numărul de defecte găsite este un indicator extrem de alunecos. Toate resursele din rețea care discută această problemă repetă și acest lucru (http://www.software-testing.ru/, blogs.msdn.com/imtesty, it4business.ru, sqadotby.blogspot.com, blogs.msdn.com / larryosterman , sql.ru , http://www.testingperspective.com/ și multe, multe altele). După ce mi-am analizat propria experiență și aceste resurse, am ajuns la următorul arbore de probleme:

În primul rând, defect la defect - discordie. Un tester poate căuta defecte în locația butoanelor dintr-o aplicație, altul poate să aprofundeze în logică și să vină cu situații complexe de testare. În cele mai multe cazuri, primul tester va găsi mai multe defecte, deoarece chiar și pregătirea testului îi va lua mult mai puțin timp, dar valoarea unor astfel de defecte este mult mai mică. Această problemă este ușor de rezolvat prin introducerea criticității defectului. Poate fi evaluat după numărul de defecte găsite în fiecare dintre categorii. De exemplu, avem 4 dintre ele: critice, semnificative, medii și nesemnificative. Dar, deoarece definiția criticității nu este complet clară, deși avem semne formale de criticitate, putem merge pe două căi mai sigure. Prima este că o anumită parte a defectelor găsite în perioada selectată ar trebui să fie defecte necritice. Al doilea este de a nu lua în considerare defectele minore în evaluare. Astfel, luptăm împotriva dorinței testerului de a nota cât mai multe defecte în detrimentul descrierii defectelor minore, obligându-l (sau mai des pe ea) să sape mai adânc și să găsească defecte serioase. Și ei sunt întotdeauna, credeți-mi experiența. Am ales a doua opțiune - aruncați defecte minore.

Al doilea motiv pentru „alunecarea” unui astfel de criteriu este prezența unui număr suficient de defecte în sistem, astfel încât testatorul să le poată găsi. Există trei factori aici. Primul este complexitatea logicii și tehnologiei sistemului. Al doilea este calitatea codării. Iar a treia este etapa de proiect. Să luăm acești trei factori în ordine. Complexitatea logicii și tehnologiei pe care este scris sistemul afectează potențialele defecte care pot fi făcute. Mai mult decât atât, dependența aici este departe de a fi directă. Dacă implementați o logică simplă pe o platformă complexă sau necunoscută, atunci erorile vor fi legate în principal de utilizarea incorectă a tehnologiei de implementare. Dacă implementați o logică complexă pe o platformă primitivă, atunci, cel mai probabil, erorile vor fi asociate atât cu logica în sine, cât și cu complexitatea implementării unei astfel de logici într-un limbaj primitiv. Adică este nevoie de un echilibru atunci când alegeți o tehnologie pentru implementarea sistemului. Dar adesea tehnologia este dictată de client sau de piață, așa că cu greu putem influența. Prin urmare, rămâne doar să luăm în considerare acest factor ca un anumit coeficient al numărului potențial de defecte. Mai mult, valoarea acestui coeficient, cel mai probabil, trebuie să fie determinată de un expert.

Calitate de codificare. Aici cu siguranță nu putem influența dezvoltatorul în niciun fel. Dar putem: a) din nou, să evaluăm cu experiență nivelul dezvoltatorului și să-l includem ca un alt factor și b) să încercăm să prevenim erorile în cod prin teste unitare făcând cerinta obligatorie Acoperire de cod 100% cu teste unitare.

Etapa proiectului. Se știe de mult că este imposibil să găsești toate defectele, cu excepția poate unui program banal sau întâmplător, deoarece nu există o limită a perfecțiunii, iar orice discrepanță cu perfecțiunea poate fi considerată un defect. Dar una este atunci când un proiect este în faza de dezvoltare activă și cu totul alta când este în faza de suport. Și dacă luăm în considerare și factorii complexității sistemului și tehnologiei și calitatea codificării, este clar că toate acestea afectează radical numărul de defecte pe care un tester este capabil să le găsească. Pe măsură ce proiectul se apropie de finalizare sau de faza de suport (numim totul condiționat și îl definim intuitiv acum), numărul de defecte din sistem scade și, prin urmare, și numărul de defecte găsite. Și aici este necesar să se determine momentul în care devine nerezonabil să se solicite testerului să găsească un anumit număr de defecte. Pentru a determina un astfel de moment, ar fi bine să știm ce fracțiune din numărul total de defecte reușim să găsim și câte defecte au mai rămas în sistem. Acesta este un subiect pentru o discuție separată, dar poate fi aplicată o metodă statistică destul de simplă și eficientă.

Pe baza statisticilor proiectelor anterioare, se poate înțelege, cu o anumită eroare, câte defecte au fost în sistem și câte au fost găsite de echipa de testare în diferite perioade ale proiectului. Astfel, puteți obține un anumit indicator mediu al eficienței echipei de testare. Poate fi descompus pentru fiecare tester individual și poate obține o evaluare personală. Cu cât mai multă experiență și statistici, cu atât eroarea va fi mai mică. De asemenea, puteți folosi metoda „sămânțare erori”, când știm exact câte erori sunt în sistem. Desigur, trebuie luați în considerare factori suplimentari, cum ar fi tipul de sistem, complexitatea logicii, platforma și așa mai departe. Așadar, obținem relația dintre faza proiectului și procentul de defecte constatate. Acum puteți aplica această dependență în reversul: cunoscând numărul de defecte găsite și faza curentă a proiectului, putem determina numărul total de defecte din sistemul nostru (cu oarecare eroare, desigur). Și apoi, pe baza indicatorilor unei evaluări personale sau de ansamblu, puteți determina câte defecte este capabilă să găsească un tester sau o echipă în perioada de timp rămasă. Pe baza acestei evaluări, este deja posibil să se determine criteriul de eficacitate a testerului.

Funcția indicatorului de performanță al testerului ar putea arăta astfel:

Defecte- numărul de defecte constatate,

Severitate– criticitatea defectelor constatate,

Complexitate– complexitatea logicii sistemului,

platformă– platforma de implementare a sistemului,

Fază- faza proiectului,

perioadă este perioada de timp luată în considerare.

Dar deja un criteriu specific pe care trebuie să-l îndeplinească un tester trebuie să fie selectat empiric și ținând cont de specificul unei anumite organizații.

Nu este încă posibil să luăm în considerare toți factorii în acest moment, cu toate acestea, împreună cu dezvoltatorul nostru principal Ivan Astafiev și managerul de proiect Irina Lager, am venit cu următoarea formulă care ia în considerare numărul de defecte și criticitatea acestora:

, Unde

E– eficiență, determinată de numărul de defecte constatate,

D Client– numărul de defecte constatate de client, dar pe care testatorul evaluat ar fi trebuit să le constate,

D Tester- numărul de defecte constatate de tester,

kși d– factori de corectare pentru numărul total de defecte.

Vreau să remarc imediat că la evaluarea conform acestei formule trebuie luate în considerare numai acele defecte care se referă la aria de responsabilitate a testerului evaluat. Dacă mai mulți testeri împărtășesc responsabilitatea pentru un defect ratat, atunci acel defect trebuie inclus în evaluarea fiecărui tester. De asemenea, calculul nu ia în considerare defectele critice scăzute.

Astfel, avem o parabolă de gradul trei, care reflectă criteriul de intensitate a depistarii defectelor, pe care trebuie să-l îndeplinească testerul. LA caz general, dacă scorul testerului este peste parabolă, înseamnă că el lucrează mai bine decât se aștepta, dacă mai mic, atunci, în consecință, mai rău.

Există o nuanță asociată cu numărul total de defecte analizate. Desigur, cu cât mai multe statistici, cu atât mai bine, dar uneori trebuie să analizezi diferitele etape ale proiectului, alteori doar o estimare pentru fiecare perioadă de timp. Și una este când se constată 4 defecte în perioada și 2 dintre ele sunt de către client, și cu totul alta când se constată 100 de defecte, iar 50 dintre ele sunt de către client. În ambele cazuri, raportul dintre numărul de defecte constatate de client și tester va fi egal cu 0,5, dar înțelegem că în primul caz nu totul este atât de rău, dar în al doilea este timpul să tragem un semnal de alarmă.

După ce am încercat fără prea mult succes să facem o legare matematică strictă a numărului total de defecte, am atașat, în cuvintele aceleiași Irinei Lager, acestei formule „cârje” sub formă de intervale, pentru fiecare dintre ele ne-am stabilit propriile noastre. coeficienți. Au fost trei intervale: pentru statistici de la 1 la 20 de defecte, de la 21 la 60 de defecte și pentru statistici pe mai mult de 60 de defecte.

Numărul de defecte

k

d

Partea estimată admisă a defectelor constatate de client din numărul total de defecte constatate

Ultima coloană din tabel a fost introdusă pentru a explica câte defecte este permis ca clientul să găsească în acest eșantion. În consecință, cu cât eșantionul este mai mic, cu atât eroarea poate fi mai mare și cu atât mai multe defecte pot fi găsite de către client. Din punct de vedere al funcției, aceasta înseamnă valoarea minimă limită a raportului dintre numărul de defecte constatate de client și tester, după care randamentul devine negativ, sau punctul în care graficul traversează axa X. cu cât eșantionul este mai mic, cu atât intersecția cu axa ar trebui să fie mai dreaptă. În termeni manageriali, aceasta înseamnă că, cu cât eșantionul este mai mic, cu atât o astfel de evaluare este mai puțin precisă, prin urmare, pornim de la principiul că testerii ar trebui să fie evaluați mai puțin strict pe un eșantion mai mic.

Avem grafice de forma următoare:

Graficul negru reflectă criteriul pentru prelevarea a mai mult de 60 de defecte, galben pentru 21-60 de defecte, verde pentru eșantionarea a mai puțin de 20 de defecte. Se poate observa că cu cât eșantionul este mai mare, cu atât graficul traversează mai mult spre stânga axa X. După cum sa menționat deja, pentru angajatul evaluator, aceasta înseamnă că cu cât eșantionul este mai mare, cu atât poți avea mai multă încredere în această cifră.

Metoda de evaluare constă în calcularea eficienței muncii testerului conform formulei (2), luând în considerare factorii de corecție și compararea acestei estimări cu valoarea cerută pe grafic. Dacă scorul este mai mare decât graficul, testerul îndeplinește așteptările; dacă este mai mic, testerul lucrează sub „bara” necesară. De asemenea, vreau să remarc că toate aceste cifre au fost selectate empiric, iar pentru fiecare organizație ele pot fi modificate și selectate mai precis în timp. Prin urmare, orice comentarii (aici sau pe blogul meu personal) și îmbunătățiri, sunt doar binevenite.

Această metodă de evaluare prin raportul dintre numărul de defecte constatate de echipa de testare și client/utilizator/client mi se pare rezonabilă și mai mult sau mai puțin obiectivă. Este adevărat, o astfel de evaluare poate fi efectuată numai după finalizarea proiectului sau, cel puțin, dacă există utilizatori externi activi ai sistemului. Dar dacă produsul nu este încă utilizat? Cum se evaluează munca unui tester în acest caz?

În plus, această tehnică de evaluare a eficacității unui tester creează câteva probleme suplimentare:

1. Un defect începe să se împartă în câteva mai mici.

· Managerul de testare, care a observat o astfel de situație, ar trebui să o oprească prin metode informale.

2. Gestionarea defectelor devine mai complexă din cauza numărului tot mai mare de intrări duplicat.

· Regulile pentru înregistrarea defectelor în sistemul de urmărire a erorilor, inclusiv revizuirea obligatorie a defectelor similare, pot ajuta la rezolvarea acestei probleme.

3. Lipsa evaluării calității defectelor constatate, întrucât singurul scop al testerului este numărul de defecte și, ca urmare, lipsa motivației testerului de a căuta defecte „de calitate”. Totuși, nu se poate echivala criticitatea și „calitatea” unui defect, al doilea este un concept mai puțin formalizat.

· Aici rolul decisiv ar trebui să fie jucat de „atitudinea” atât a testatorului, cât și a managerului. Numai o înțelegere generală corectă (!) a semnificației unei astfel de evaluări cantitative poate rezolva această problemă.

Rezumând toate cele de mai sus, ajungem la concluzia că nu este doar dificil, dar nici în întregime corect să evaluezi munca unui tester doar după numărul de defecte constatate. Prin urmare, numărul de defecte găsite ar trebui să fie doar unul dintre indicatori evaluare integrală munca testatorului, și nu în forma sa pură, ci ținând cont de factorii pe care i-am enumerat.

V. V. Odintsova

Folosind numeroase metode de psihodiagnostic, rareori ne gândim la calitatea acestor instrumente de lucru. Și degeaba. La urma urmei, orice psiholog practicant știe că nici un singur examen psihologic nu este posibil fără instrumente bune de diagnostic.

În același timp, colecțiile populare de teste psihologice care au fost publicate pe scară largă recent, din păcate, nu pot satisface cerințele unui adevărat profesionist care trebuie să aibă încredere în capacitățile de diagnosticare ale instrumentului pe care îl folosește în munca sa. De aceea, problema găsirii unei tehnici de diagnostic bine concepută și fiabilă rămâne relevantă.

Sarcina principală a Human Technologies HR-Laboratory este dezvoltarea de produse de calitate. Una dintre condițiile pentru crearea unor astfel de produse este verificările periodice ale metodelor de testare pentru conformitatea acestora cu o serie de cerințe psihometrice (validitate, fiabilitate, reprezentativitate, fiabilitate). Pentru a face acest lucru, după colectarea unui număr suficient de protocoale, se efectuează o analiză statistică a metodelor de testare.

Luați în considerare o analiză psihometrice (al cărei eșantion total a fost de 660 de persoane).

Acest test, dezvoltat în anii 90, este destinat pentru diagnosticarea expresă a nivelului de severitate a celor cinci așa-numiți factori „mari” de temperament și caracter și este folosit pentru a studia personalitatea adulților în scopul selecției profesionale, consultării profesionale. , determinarea domeniilor de asistență psihologică, recrutare de grup, autocunoaștere etc.

Baza universalității „Cinci factori mari” este situația lor încrucișată: factorii unei evaluări funcționale și activități globale a unei persoane sunt aplicabili aproape oricărei situații de comportament social și activitate obiectivă în care se găsesc diferențe stabile între oameni. .

Chestionarul include 75 de itemi cu trei variante de răspuns fiecare.

SCARĂ testele sunt o reproducere exactă a factorilor „Cinci mari” în versiunea lor internațională (cu excepția celui de-al cincilea factor, care într-o serie de versiuni occidentale ale B5 este denumit „deschidere către experiență nouă - caracter practic limitat”) :

  • extraversiune - introversiune
  • consimțământ – independență
  • organizare – impulsivitate
  • stabilitate emoțională – anxietate
  • învățare – inerție

1. Verificare valabilitate

La verificarea scalelor existente în mod tradițional – prin calcularea corelațiilor dintre răspunsurile la întrebări și punctajul total pe scară – am constatat că aproape toți itemii se corelează semnificativ cu scalele „lor” cu un coeficient de corelație mediu de 0,35.

La verificare plin de înțeles validitatea testului, am analizat formularea itemilor testului care reflectă în mod semnificativ domeniul relevant (zona de comportament) și au o corelație semnificativă (pozitivă sau negativă) cu scorul total:

Scară Exemple de elemente de testare Coeficient de corelație
EXTRAVERSIUNEA Este important pentru mine să-mi exprim părerea altora (0,31)
Îmi place să particip la tot felul de competiții, concursuri etc. (0,41)
Îmi place să vizitez și să cunosc oameni noi (0,5)
ACORD Majoritatea oamenilor nu pot avea încredere (-0,23)
Interesele mele sunt mai presus de toate pentru mine (-0,22)
„Cine îi ajută pe oameni pierde timpul în zadar, nu se poate deveni faimos pentru fapte bune” (-0,3)
„Fiecare este pentru sine” - acesta este principiul care nu va eșua (-0,4)
AUTOCONTROL Când mă culc, știu deja sigur ce voi face mâine. (0,37)
Când iau o carte, o pun mereu înapoi la locul ei. (0,35)
Înainte de afacerile responsabile, întocmesc întotdeauna un plan pentru implementarea lor. (0,37)
STABILITATE Roșesc ușor (-0,28)
Dacă surprind apariția unei situații nedorite la locul de muncă, atunci acest lucru îmi provoacă întotdeauna îndoieli dureroase până când situația este clarificată (-0,3)
La sfârșitul zilei, de obicei devin atât de obosit încât orice lucru mic începe să mă enerveze. (-0,32)
Este ușor să-mi stric starea de spirit (-0,42)

Analiza formulărilor de mai sus indică o validitate a conținutului destul de ridicată a testului.

2. Verificarea fiabilității

Fiabilitatea testului ca mijloc de măsurare este determinată de probabilitatea scăzută a erorilor de măsurare a scorurilor testelor și de măsura în care rezultatele măsurătorilor sunt reproduse atunci când testul este utilizat în mod repetat în raport cu acest grup de subiecți. Pentru a evalua contribuția diferitelor surse la eroarea de măsurare, este necesar să se utilizeze diferite metode de apreciere a fiabilității. Un interes deosebit este evaluarea consistenței interne a testului, determinând partea erorii care este asociată cu selecția sarcinilor.

Consistența internă a testului a fost evaluată prin calcularea coeficientului alfa lui Cronbach. Acest coeficient este o măsură a fiabilității bazată pe omogenitatea scalei sau suma corelațiilor dintre răspunsurile subiecților la întrebări din cadrul aceleiași forme de test.

În cazul nostru, coeficientul de fiabilitate alfa lui Cronbach calculat pentru fiecare scală a arătat, în ansamblu, un nivel destul de decent de consistență internă, tradițional pentru chestionarele expres de personalitate, în care subscalele conțin un număr limitat de itemi (mai puțin de 20):

Reamintim că cerințele psihometrice stricte pentru un test de personalitate care funcționează eficient corespund valorii coeficienților alfa de peste 0,8.

În cazul nostru, nivelul relativ scăzut al coeficienților de fiabilitate ai lui Cronbach poate fi explicat prin volumul semnificativ al acestor scale: fiecare scală are 15 întrebări diverse, ceea ce face posibilă extinderea domeniului de aplicare a factorilor studiați, sacrificând în același timp nivel inalt Consistenta interna.

Acest lucru a avut un efect deosebit de acut asupra scalelor de factori „CONSENTAMENT” și „ABILITATE DE ÎNVĂȚARE”, conform cărora coeficientul alfa era sub 0,6.

3. Verificarea reprezentativității

La trecerea de la un eșantion de standardizare (Fig. 1 - 300 de persoane) la un eșantion de populație (Fig. 2 - 660 de persoane), se manifestă stabilitatea configurației distribuției scorului de test, ceea ce indică reprezentativitatea metodologiei de testare:

Fig.1. Eșantion de standardizare (300 de persoane)

Fig.2. Eșantion de populație (660 persoane)

În plus față de similitudinea vizuală a acestor distribuții, testul Pearson statistic chi-pătrat pe care l-am folosit a arătat următorul grad de similaritate al distribuțiilor:

Aceste valori ale chi-pătratului se încadrează în intervalul de incertitudine: atunci când este imposibil să se accepte sau să respingă fără echivoc ipoteza despre consistența distribuțiilor.

Acest rezultat se poate datora proprietății principale a testului rapid, și anume, un număr mic de întrebări care lucrează pe fiecare scară. Având în vedere acest fapt, rezultatele testului de reprezentativitate pot fi considerate satisfăcătoare.

4. Validare

Întrucât subiecții care au fost testați pe site se aflau în situația clientului (au fost interesați de rezultate de încredere), rezultatele obținute pot fi considerate de încredere cu o mare probabilitate.

Totuși, într-o situație de examinare (când o terță parte este interesată de rezultatele testelor), datele pot fi distorsionate prin intervenția unor falsificări conștiente (minciuni, nesinceritatea subiectului) sau factori motivaționali inconștienți. Pentru a evita acest lucru, la versiunea destinată unor astfel de cazuri a fost adăugată o scară de minciună (B5splus) (această versiune este în prezent testată pe site-ul nostru) .

Rezultatele obținute sunt dovada calității și eficacității înalte a metodologiei, ceea ce este important, deoarece nivelul profesional al unui specialist este adesea determinat de instrumentul pe care îl folosește.

Cu toate acestea, trebuie amintit că chiar și un instrument modern puternic nu garantează absența completă a erorilor. Pentru a le evita, nu este suficient să ai un computer și un program de testare pentru acesta. De asemenea, aveți nevoie de un psiholog cu experiență pentru a supraveghea testul. Deci prezența unor teste care au suferit o adaptare psihommetrică serioasă nu anulează deloc profesionalismul și experiența unui psiholog care este chemat să verifice plauzibilitatea rezultatelor testelor folosind surse paralele de informații (inclusiv propria sa observație, conversație etc.) .

Testare software este o evaluare a software-ului/produsului dezvoltat pentru a verifica capacitățile, capacitățile și conformitatea acestuia cu rezultatele așteptate. Există diferite tipuri de metode utilizate în domeniul testării și asigurării calității și vor fi discutate în acest articol.

Testarea software-ului este o parte integrantă a ciclului de dezvoltare a software-ului.

Ce este testarea software-ului?

Testarea software-ului nu este altceva decât testarea unei bucăți de cod în condiții de operare controlate și necontrolate, observarea rezultatelor și apoi examinarea dacă îndeplinește condiții predefinite.

Diverse seturi de cazuri de testare și strategii de testare au ca scop atingerea unui obiectiv comun - eliminarea erorilor și erorilor din cod și asigurarea performanței software precise și optime.

Metodologia de testare

Metodele de testare utilizate în mod obișnuit sunt testarea unitară, testarea de integrare, testarea de acceptare și testarea sistemului. Software-ul este supus acestor teste într-o anumită ordine.

3) Testarea sistemului

4) Teste de acceptare

Primul pas este un test unitar. După cum sugerează și numele, aceasta este o metodă de testare la nivel de obiect. Componentele software individuale sunt testate pentru erori. Acest test necesită cunoaștere precisă a programului și a fiecărui modul instalat. Astfel, această verificare este făcută de programatori, nu de testeri. Pentru a face acest lucru, sunt create coduri de testare care verifică dacă software-ul se comportă conform intenției.


Modulele individuale care au fost deja testate unitar sunt integrate între ele și verificate pentru defecțiuni. Acest tip de testare identifică în primul rând erorile de interfață. Testarea integrării se poate face folosind o abordare de sus în jos, urmând proiectarea arhitecturală a sistemului. O altă abordare este abordarea de jos în sus, care se face din partea de jos a fluxului de control.

Testarea sistemului

În această testare, întregul sistem este verificat pentru erori și bug-uri. Acest test este realizat prin interfațarea componentelor hardware și software ale întregului sistem, apoi este testat. Această testare este listată sub metoda de testare „cutie neagră”, în care sunt verificate condițiile de funcționare așteptate pentru utilizatorul software-ului.

Teste de acceptare

Acesta este ultimul test care se efectuează înainte de a preda software-ul către client. Se realizează pentru a se asigura că software-ul care a fost dezvoltat îndeplinește toate cerințele clienților. Există două tipuri de testare de acceptare - una care este efectuată de membrii echipei de dezvoltare este cunoscută sub denumirea de testare de acceptare internă (testare Alpha), iar cealaltă care este efectuată de client este cunoscută ca testare de acceptare externă.

Când testarea se face cu ajutorul clienților potențiali, se numește testare de acceptare a clienților. Când testarea este efectuată de utilizatorul final al software-ului, este cunoscută sub numele de testare de acceptare (testare beta).

Există mai multe metode de testare de bază care fac parte din regimul de testare a software-ului. Aceste teste sunt de obicei considerate autosuficiente în găsirea erorilor și erorilor în întregul sistem.

Testarea cutiei negre

Testarea cutiei negre se face fără cunoștințe despre funcționarea internă a sistemului. Testerul va stimula software-ul mediului utilizator prin furnizarea de diverse intrări și testarea ieșirilor generate. Acest test este, de asemenea, cunoscut sub denumirea de testare cutie neagră, cutie închisă sau testare funcțională.

Testarea cutiei albe

Metoda de testare" cutie alba", spre deosebire de „cutia neagră”, ia în considerare funcționarea internă și logica codului. Pentru a efectua acest test, testerul trebuie să aibă cunoștințe despre cod pentru a afla exact partea de cod care are erori. Aceasta testul este, de asemenea, cunoscut sub denumirea de testare White-box, Open-Box sau Glass box.

Testarea cutiei gri

Testarea cutie gri sau testarea cutie gri este o încrucișare între testarea cutie albă și cutie neagră, în care testatorul are doar cunoștințele generale despre produs necesare pentru a finaliza testul. Această verificare se face prin documentație și schemă. fluxurile de informații. Testarea este efectuată de utilizatorul final sau de utilizatorii care par a fi utilizatori finali.

Teste nefuncționale

Securitatea aplicației este una dintre sarcinile principale ale dezvoltatorului. Testarea de securitate verifică software-ul pentru confidențialitate, integritate, autentificare, disponibilitate și non-repudiere. Sunt efectuate teste individuale pentru a preveni accesul neautorizat la codul programului.

Testarea la stres este o tehnică în care software-ul este expus la condiții care sunt în afara condițiilor normale de funcționare ale software-ului. După atingerea punctului critic, rezultatele sunt înregistrate. Acest test determină stabilitatea întregului sistem.


Software-ul este testat pentru compatibilitate cu interfețe externe, cum ar fi Sisteme de operare, platforme hardware, browsere web etc. Testul de compatibilitate verifică dacă produsul este compatibil cu orice platformă software.


După cum sugerează și numele, această tehnică de testare testează cantitatea de cod sau resurse utilizate de un program pentru a efectua o singură operație.

Această testare testează aspectul ușurinței de utilizare și al utilizării software-ului. Ușurința cu care un utilizator poate accesa un dispozitiv constituie punctul principal de testare. Testarea de utilizare acoperă cinci aspecte ale testării - capacitatea de învățare, performanță, satisfacție, memorabilitate și erori.

Teste în procesul de dezvoltare software

Modelul cascadă folosește o abordare de sus în jos, indiferent dacă este utilizat pentru dezvoltarea de software sau testare.

Principalii pași implicați în această metodologie de testare a software-ului sunt:

  • Analiza Nevoilor
  • Test de proiectare
  • Test de implementare
  • Testarea, depanarea și verificarea codului sau produsului
  • Implementare si intretinere

În această tehnică, treci la următorul pas doar după ce l-ai finalizat pe cel precedent. Modelul folosește o abordare non-iterativă. Principalul avantaj al acestei metodologii este abordarea sa simplificată, sistematică și ortodoxă. Cu toate acestea, are multe dezavantaje, deoarece erorile și erorile din cod nu vor fi descoperite până în faza de testare. Acest lucru poate duce adesea la pierderi de timp, bani și alte resurse valoroase.

Model Agil

Această metodologie se bazează pe o combinație selectivă a unei abordări secvențiale și iterative, pe lângă o varietate destul de mare de noi metode de dezvoltare. Dezvoltarea rapidă și progresivă este unul dintre principiile cheie ale acestei metodologii. Accentul se pune pe obținerea de rezultate rapide, practice și vizibile. Interacțiunea și participarea continuă cu clienții este o parte integrantă a întregului proces de dezvoltare.

Dezvoltare rapidă a aplicațiilor (RAD). Metodologia de dezvoltare rapidă a aplicațiilor

Numele vorbește de la sine. În acest caz, metodologia adoptă o abordare evolutivă rapidă, folosind principiul construcției componentelor. După înțelegerea diferitelor cerințe acest proiect, este pregătit un prototip rapid și apoi comparat cu un set așteptat de condiții și standarde de ieșire. Schimbările și modificările necesare se fac după o discuție comună cu clientul sau echipa de dezvoltare (în contextul testării software-ului).

Deși această abordare are partea ei de avantaje, poate să nu fie adecvată dacă proiectul este de natură mare, complex sau extrem de dinamic, în care cerințele sunt în continuă schimbare.

model în spirală

După cum sugerează și numele, modelul spirală se bazează pe o abordare în care există un număr de cicluri (sau spirale) din toate etapele succesive în model de cascadă. După finalizarea ciclului inițial, se efectuează o analiză și o revizuire amănunțită a produsului sau a rezultatelor obținute. Dacă rezultatul nu îndeplinește cerințele specificate sau standardele așteptate, se efectuează un al doilea ciclu și așa mai departe.

Procesul rațional unificat (RUP). Proces rațional unificat

Metodologia RUP este, de asemenea, similară cu modelul în spirală, în sensul că întreaga procedură de testare este împărțită în mai multe cicluri. Fiecare ciclu constă din patru etape - creare, dezvoltare, construcție și tranziție. La sfârșitul fiecărui ciclu, produsul/randamentul este revizuit și urmează un ciclu suplimentar (constând din aceleași patru faze), după cum este necesar.

Aplicație tehnologia Informatiei crește în fiecare zi, de asemenea, importanța testării corecte a software-ului a crescut exponențial. Multe firme mențin un personal de echipe speciale pentru aceasta, ale căror capacități sunt la nivelul dezvoltatorilor.


Traducere: Olga Alifanova

Asigurarea calității face distincția între verificare și validare. Verificarea răspunde la întrebarea dacă creăm produsul corect, iar validarea răspunde la întrebarea dacă creăm ceea ce avem nevoie. Unii oameni trag o linie de demarcație între asigurarea calității și testarea bazată pe aceste definiții.

Din punctul meu de vedere, folosirea termenilor „verificare” și „validare” poate duce la false dihotomii. Pentru mine, testarea este o activitate legată de design și, prin urmare, acoperă destul de mult. zonă largă. Consider că testele pot deveni un fel de „limbaj comun”. Cred că testele pot codifica direct specificațiile și cerințele. Și cred că testele sunt o sursă de cunoștințe despre un domeniu sau despre un produs. Prea mult accent pe diferența dintre verificare și validare este o modalitate ineficientă și ineficientă de a înțelege modul în care testarea completează asigurarea calității.

Din punctul meu de vedere, incapacitatea de a percepe testarea și asigurarea calității ca două procese diferite și complementare este o percepție căreia îi lipsește în mod clar o oarecare finețe.

De fapt, sunt de acord că diferențele dintre verificare și validare sunt destul de justificate. La urma urmei, eficiența este capacitatea de a face ceva corect. Eficiența, pe de altă parte, este capacitatea de a produce rezultatul corect. Eficiența se concentrează pe proces și are ca scop aducerea acestuia la final, iar eficiența se află pe produs (adică, de fapt, pe rezultatul acestui proces). Se mai poate spune că eficiența se concentrează în primul rând pe evitarea greșelilor, iar eficiența se concentrează pe succes, indiferent de numărul de greșeli făcute pe parcurs.

Cu toate acestea, mi se pare că există o modalitate de a face distincția între eficiență și eficacitate, care este mult mai bună decât înțelegerea diferenței dintre verificare și validare. La urma urmei, testarea necesită cu adevărat flexibilitate și inovație.

Și tocmai acesta este punctul în care apare un paradox curios. Aveți nevoie de un nivel decent de disciplină și seriozitate pentru a menține performanța continuă și continuă. Cu toate acestea, disciplina și rezistența la schimbare fac procesele inflexibile! Dacă faci același lucru în același mod iar și iar, nimic inovator nu te va lovi vreodată.

Deoarece eficiența în acest context este legată de verificare, aceasta înseamnă că verificarea poate deveni o activitate statică.

Performanța, pe de altă parte, este mult mai adaptabilă la schimbări și necesită mai multă flexibilitate. Pentru realizare rezultate bune inovația ar trebui încurajată, pentru că atunci oamenii se vor gândi la ce anume fac acum și dacă merită să facă exact asta într-un context specific și sub influența unor factori specifici. Cu toate acestea, această flexibilitate și adaptabilitate duce la prea multe alegeri și la o potențială incapacitate de a face eforturi conștiente de rutină care pot fi replicate în afara situației actuale.

Deoarece performanța în contextul nostru este legată de validare, toate cele de mai sus înseamnă că validarea poate deveni o activitate excesiv de dinamică.

Aici intervine luarea deciziilor inteligente, rupând acest cerc vicios și oferindu-ți posibilitatea de a-ți evalua eficacitatea și eficiența, privind-o cu alți ochi. Eleganța soluțiilor nu doar răspunde la întrebări, am făcut ceva mai bun, sau ne-am gândit la ceva mai bun, ci mai degrabă dă un răspuns, am devenit mai conștienți de ceea ce se întâmplă, am creat o bază pentru activități viitoare?

Finețea poate fi văzută și ca minimizarea complexității. În lumea dezvoltării, oamenii împart adesea complexitatea deciziilor în obligatorii și aleatorii. Prin urmare, pentru ca soluțiile de testare să fie elegante, acestea trebuie să conțină doar „complexitate obligatorie” și practic nicio complexitate aleatorie. Sună misterios, nu-i așa? Da, se poate, pentru că există atât de multe opinii despre unde începe „complexitatea”. Pentru mine, complexitatea deciziilor în testare apare atunci când nu există opțiuni în sistem și există o incertitudine mare.

Dacă permiteți testării să fie inovatoare și flexibile (adică, eficiente), menținând în același timp un anumit nivel de rigoare și disciplină (eficacitate), ar trebui să aveți un set de reguli despre cum să gestionați alegerea (în sensul modului de a oferi acea alegere) și incertitudinea (cum să o distrugi).

Nu mă voi plictisi cu acest subiect, ci pur și simplu dau exemple despre ceea ce vorbesc. În exemplele mele, vreau să încerc să fac echipele de testare să se gândească la testele lor în termeni de „eficiență”, „eficiență” și „eleganță”. Voi începe cu câteva axiome (nu voi alege un alt cuvânt) și voi încerca să îmi fac exemplele cât mai scurte și cât mai clare posibil. Sunt lucruri în care întreaga echipă trebuie să creadă – sau cel puțin să acționeze ca și cum ar crede în ele. Și prima mea axiomă afirmă ceea ce am vorbit mai sus!

  • Testarea poate fi efectuată eficient, eficient și grațios.
  • Testarea necesită cercetare activă, profesională, tehnică.
  • Scopul testării este o prezentare clară a informațiilor necesare la timp.
  • Testerii sunt, într-un fel, scriitori și editori. Prin urmare, o etică a harului și mândria profesională sunt atribute indispensabile ale muncii bune, motivate, cu nivelul de atenție adecvat.

Iată câteva exemple pentru a ilustra aceste puncte. Mai întâi, să ne uităm la toate aceste concepte în relație cu testul.

  • Efectiv testul ar trebui să se concentreze pe intrare, proces, ieșire.
  • Productiv Testul trebuie să fie expresiv și să demonstreze scopul testului.
  • Efectiv testul ar trebui să se concentreze pe un rezultat coerent al unei anumite acțiuni, și nu pe mai multe în același timp.
  • Productiv Testul grupează observații legate.
  • Efectiv testul oferă un exemplu concret al datelor dorite.
  • Productiv testul spune despre Termeni si Conditii Generale, sub care ar trebui să se încadreze datele de testare.
  • Elegant testul descrie comportamentul specific al sistemului și funcționalitatea acestuia.

Acum să aplicăm aceste concepte la suita de teste:

  • Efectiv suita de teste determină ce date sunt valide și care nu.
  • Efectiv suita de teste verifică atât date valide, cât și nevalide.
  • Productiv suita de teste grupează tipurile de date în clase.
  • Elegant o suită de teste poate fi proiectată pentru a studia obiectivele și procesele de afaceri.

În cele din urmă, să aplicăm aceste definiții testării ca activitate:

  • Efectiv testarea utilizează scripturi care structurează procesul de cercetare.
  • Productiv testarea aplică practici exploratorii care aduc variabilitate scripturilor.
  • graţios testarea utilizează practici exploratorii scriptate pentru a demonstra valoarea unei aplicații pentru un consumator, examinând modul în care este utilizată.
  • Efectiv testarea utilizează scenarii pentru a arăta cum un produs își îndeplinește scopul.
  • Productiv testarea utilizează scenarii care demonstrează ce trebuie să se întâmple pentru ca un utilizator să fie satisfăcut.
  • graţios testarea descrie cerințele și demonstrează capacitățile aplicației.

Este important să fii conștient de toate acestea, pentru că ceea ce faci și cum o faci stă la baza a ceea ce și cum vei face în viitor. De asemenea, susține dinamica grupului și reflecțiile asupra conceptelor de mai sus. Iată ce vreau să spun:

  • Unii testeri preferă să se refere la cazurile de testare drept „condiții de testare”. Unele sunt inverse. Unii oameni ignoră ambii termeni. Cred că testarea performanței grupează condițiile de testare și le face variații ale cazurilor de testare. Testarea performanței utilizează condiții de testare specificate de parametrii specifici ai datelor dorite.
  • Terminologia „testare pozitivă/negativă” a ieșit de mult timp în modă pentru testerii cu experiență. Testarea grațioasă se concentrează pe descrierea condițiilor valide și invalide. Aceasta înseamnă că testerii trebuie să testeze eficient și eficient prin identificarea tuturor condițiilor de testare care se pot schimba (care, la rândul său, conduce la o grupare de condiții valide și invalide), precum și asigurându-se că iau decizii în cunoștință de cauză alegând anumite seturi de date și ignorând odihnă.
  • Testele fine sunt campionii testelor tale. Dacă aveți un grup de teste care verifică de fapt lucruri similare, iar timpul dvs. este limitat, veți avea timp doar să rulați unele dintre ele. În astfel de cazuri, utilizați teste care au mai multe șanse să dezvăluie un întreg strat de erori. Astfel de teste pot fi extrem de elegante.
  • Un test eficient nu trebuie să fie nici prea simplu, nici prea complex. Desigur, este posibil să înghesuiți o serie întreagă de teste într-un singur caz, dar posibilele efecte secundare ale acestui mod de a crea teste pot masca o grămadă de erori. Prin urmare, cazurile rezultat trebuie să includă puncte de vedere diferite (sau o cale diferită către același punct de vedere) și să fie executate separat.
  • Unele tehnici de testare sunt extrem de eficiente în selectarea datelor specifice și organizarea acestor date în combinație sau secvență. Dar o soluție elegantă va veni atunci când testerii vor alege aceste date pe baza interacțiunii diferitelor funcționalități și fluxuri de date și vor explora căile prin interfața cu utilizatorul cu o înțelegere a modului în care o persoană vie va folosi acest sistem.
  • Un caz de succes ar trebui să vă poată oferi informații. Ai nevoie de teste care să răspundă la întrebările pe care le pui. Scopul testului nu este neapărat de a găsi un bug, scopul său este de a colecta informații. Un test nu este valoros atunci când poate găsi o eroare - ar trebui să vă poată furniza informații (deși acele informații ar putea fi și prezența unei erori dacă ceva nu merge bine cu aplicația). O soluție elegantă vizează întotdeauna obținerea anumitor informații în timpul testării.
  • Testarea eficientă necesită înțelegerea cerințelor și a modului în care acestea se raportează la modul în care utilizatorii percep valoarea produsului nostru. Trebuie să ne înțelegem utilizatorii, nu doar să citim specificațiile și cerințele! Testarea grațioasă folosește euristica pentru a structura această înțelegere. De asemenea, forțează testarea să spună povești convingătoare despre acțiunile oamenilor reali.

Poate că ar fi trebuit să subliniez de la început că scopul meu nu a fost să mă prezint ca adevărul suprem în ceea ce privește răspunsul la întrebarea ce fel de testare ar fi eficient, eficient și elegant. Am vrut doar să-mi transmit punctul de vedere: cred că echipele de testare care înțeleg diferența dintre aceste concepte sunt capabile să