Metodologie; a invetigaci; n Măsuri de acord asupra indicelui Kappa

M. cercetare

Index de conținut

Introducere

În orice studiu de cercetare, o problemă cheie este fiabilitatea procedurilor de măsurare utilizate. După cum subliniază Fleiss în contextul studiilor clinice, nici măcar modelul cel mai elegant nu ar fi capabil să atenueze daunele cauzate de un sistem de măsurare nesigur.

O sursă importantă de eroare de măsurare a fost recunoscută în mod tradițional în variabilitatea între observatori. În consecință, un obiectiv al studiilor de fiabilitate ar trebui să fie estimarea gradului unei astfel de variabilități.

În acest sens, două aspecte diferite fac de obicei parte din studiul fiabilității: pe de o parte, părtinire între observatori –Declarată mai puțin riguros, tendința unui observator de a da în mod constant valori mai mari decât altul– și a altuia, a acord între observatori –Adică în ce măsură observatorii sunt de acord în măsurarea lor–.

Ținând cont de acest al doilea aspect, modalitatea specifică de abordare a problemei depinde îndeaproape de natura datelor: dacă acestea sunt continue, utilizarea estimatorilor coeficientului de corelație intraclasă este comună, în timp ce atunci când se tratează date categorice, cea mai utilizată statistică este indicele kappa, căruia îi dedicăm restul acestui articol.

Indicele Kappa

Să presupunem că doi observatori diferiți clasifică independent un eșantion de n itemi în același set de categorii nominale C. Rezultatul acestei clasificări poate fi rezumat într-un tabel precum tabelul 1, în care fiecare valoare xij reprezintă numărul de itemi care au fost clasificați de observatorul 1 din categoria i și de observatorul 2 din categoria j.

De exemplu, ne putem gândi la doi radiologi care se confruntă cu sarcina de a clasifica un eșantion de radiografii folosind scara: „anormal”, discutabil „normal”. Tabelul 2 prezintă un set de date ipotetic pentru acest exemplu, aranjat în conformitate cu schema din tabelul 1.

Dintr-un punct de vedere tipic statistic, este mai potrivit să ne eliberăm de eșantionul specific (cele n itemi care sunt clasificați de către cei doi observatori) și să gândim în funcție de populația din care se presupune că a fost extras eșantionul. Consecința practică a acestei modificări de cadru este că trebuie să modificăm schema tabelului 1 pentru a înlocui valorile xij ale fiecărei celule cu probabilitățile comune, pe care le vom nota cu Π ij (tabelul 3).

Cu tipul de schematizare pe care l-am propus în tabelele 1 sau 3, este evident că răspunsurile care indică acord sunt cele care sunt situate pe diagonala principală. Într-adevăr, dacă o bucată de date este situată pe diagonala menționată, aceasta înseamnă că ambii observatori au clasificat articolul în aceeași categorie a sistemului de clasificare. Din această observație rezultă în mod firesc cea mai simplă dintre măsurile de acord pe care le vom lua în considerare: suma probabilităților de-a lungul diagonalei principale. În simboluri, dacă notăm această măsură cu Π 0, va fi

unde indicii însumării merg de la i = 1 la i = C.

Evident, este adevărat că
valoarea 0 corespunzătoare acordului minim posibil și 1 maximului.

Deși acest index simplu a fost propus ocazional ca o măsură de acord de alegere, interpretarea sa nu este lipsită de probleme. Tabelul 4 ilustrează tipul de dificultăți care pot apărea. În cazul A, Π 0 = 0,2, prin urmare acordul este mult mai mic decât în cazul B, unde Π 0 = 0,8. Cu toate acestea, condiționat de distribuțiile marginale, se observă că în cazul A concordanța este maxim posibil, în timp ce în cazul B este minim.