Metodologie; a invetigaci; n Metode neparametrice pentru compararea a două probe

M. cercetare

Index de conținut

Introducere

Atunci când se analizează datele colectate pentru o investigație, alegerea unei metode de analiză adecvate este crucială pentru a nu trage concluzii eronate. Selectarea celei mai adecvate tehnici de analiză trebuie făcută luând în considerare diferitele aspecte legate de proiectarea studiului și de natura datelor care trebuie cuantificate. Numărul grupurilor de observații care trebuie comparate, natura acestora (în funcție de faptul că sunt eșantioane independente sau observații repetate asupra aceluiași indivizi), tipul de date (variabile continue/calitative) sau distribuția probabilității lor sunt elemente determinante timpul pentru a afla despre tehnicile statistice care pot fi utilizate.

În analiza datelor cantitative, metodele statistice cele mai cunoscute și utilizate în practică, cum ar fi testul t Student sau analiza varianței, se bazează pe ipoteze care nu sunt întotdeauna verificate de datele disponibile. Astfel, este obișnuit să presupunem că variabila de interes urmează, de exemplu, o distribuție gaussiană. Atunci când absența normalității este evidentă sau nu poate fi asumată pe deplin de o dimensiune redusă a eșantionului, o transformare a variabilei de interes (de exemplu, transformarea logaritmică) este de obicei utilizată pentru a simetriza distribuția acesteia sau pentru a justifica utilizarea tehnicilor recurgere obișnuită la robustețea lor (adică sensibilitatea lor scăzută la absența normalității). Există și alte metode, numite de obicei non-parametrice, care nu necesită acest tip de ipoteză despre distribuția datelor, sunt ușor de implementat și pot fi calculate chiar și cu dimensiuni mici ale eșantionului. În lucrarea de față vor fi descrise unele dintre metodele non-parametrice cele mai utilizate în practică.

Două eșantioane independente: testul U Mann-Whitney și testul sumelor de rang Wilcoxon

În multe situații, se dorește testarea dacă distribuția unei variabile X este egală în două populații sau dacă variabila respectivă tinde să fie mai mare (sau mai mică) într-unul din cele două grupuri, pe baza datelor eșantionului. De exemplu, poate fi interesant să comparăm pierderea în greutate la pacienții supuși la două diete diferite sau nivelul durerii la subiecții cu osteoartrita care primesc un tratament față de placebo. În teoria statistică „tradițională”, testul care ar fi aplicat pentru a face acest tip de comparație ar fi testul t al lui Student pentru două eșantioane independente, fiind testul U Mann-Whitney sau testul fără caracter al testului sumelor de rang Wilcoxon. care ar putea fi folosit și în această situație.

Într-un mod mai formal, să presupunem că există observații ale aceleiași variabile X (scădere în greutate, scor de durere etc.) în două populații diferite pe probe de mărimea n1 și respectiv n2:

Populația 1:
Populația 2:

O modalitate intuitivă de a continua este de a ordona observațiile obținute, indiferent de populația lor de origine, de la cea mai mică la cea mai mare valoare și de a atribui intervale datelor astfel ordonate. În acest fel, observației cu o valoare mai mică i se atribuie rangul 1, următorul rang 2 și așa mai departe. În cazul legăturilor (dacă două sau mai multe observații coincid în valoare), fiecăreia dintre aceste observații i se va atribui media intervalelor care ar fi atribuite dacă nu ar exista nicio legătură.

Dacă nu există diferențe în distribuția între cele două populații, intervalele trebuie amestecate aleatoriu între cele două probe. Pe de altă parte, dacă suma intervalelor atribuite observațiilor uneia dintre populații este mult mai mare decât suma intervalelor atribuite observațiilor celeilalte populații, aceasta ar indica o diferență în distribuția variabilei X între amândoi.

Să notăm prin rangul atribuit fiecărei observații disponibile. Vom considera suma rangurilor dintr-una din populații ca o statistică de contrast pentru testul sumelor de rang Wilcoxon:

Distribuția probabilității statisticilor anterioare a fost tabelată pentru eșantioane mici și în absența legăturilor (Tabelul 1). Astfel, Tabelul 1 este util pentru a ști dacă rezultatul este semnificativ bilateral dacă se lucrează cu o certitudine de 95% și dimensiunile eșantionului ≤15.

Pentru dimensiuni mai mari de eșantioane (> 15), este adecvat să se utilizeze aproximarea normală, obținând de la T variabila:

unde și sunt media și deviația standard a lui T dacă ipoteza nulă este adevărată și sunt date de următoarele formule:

Numărul de legături trebuie să fie, de asemenea, mic în raport cu numărul total de observații. În cazul legăturilor, varianța statisticii T trebuie modificată, astfel încât expresia anterioară să fie următoarea:

Odată ce valoarea z a fost obținută, aceasta trebuie trimisă la tabelele distribuției normale pentru a obține valoarea de semnificație asociată.

Pentru a ilustra utilizarea acestui test, vom lua în considerare datele din Tabelul 2, corespunzătoare valorilor de măsurare a durerii (pe o scară de la 0 la 10) în două grupuri de 11 pacienți supuși a două tratamente analgezice diferite. În acest caz n1 = n2 = 11. Suma intervalelor atribuite observațiilor primului grup este T = 171 și media acestuia