Evaluarea clasificării - metodele naturii

Subiecte

Publicare
Date de cercetare
metode statistice
O remediere a erorilor la acest articol a fost publicată pe 29 septembrie 2016.

Acest articol a fost actualizat

Este important să înțelegem atât ceea ce exprimă o valoare metrică, cât și ceea ce ascunde.

Luna trecută am examinat utilizarea regresiei logistice pentru clasificare, în care clasa unui punct de date este prevăzută având în vedere datele de instruire 1. Luna aceasta, am discutat despre modul de evaluare a performanței clasificatorului pe un set de teste - date care nu au fost utilizate pentru antrenament și pentru care se cunoaște adevărata clasificare. Clasificatorii sunt în mod obișnuit evaluați utilizând o metrică numerică, cum ar fi precizia, sau o reprezentare grafică a performanței, cum ar fi o curbă caracteristică de funcționare a receptorului (ROC). Vom examina câteva valori comune ale clasificatorului și vom discuta despre capcanele bazării pe o singură valoare.

Valorile ne ajută să înțelegem cum funcționează un clasificator; multe sunt disponibile, unele cu numeroși parametri reglabili. Înțelegerea valorilor este, de asemenea, esențială pentru evaluarea rapoartelor altora: dacă un studiu prezintă o singură valoare, s-ar putea pune la îndoială performanța clasificatorului atunci când este evaluat folosind alte valori. Pentru a ilustra procesul de alegere a unei valori, vom simula un test de diagnostic ipotetic. Acest test clasifică un pacient cu sau fără o boală fatală pe baza mai multor factori clinici. La evaluarea clasificatorului, luăm în considerare doar rezultatele testului; nici mecanismul de clasificare subiacent și nici factorii clinici de bază nu sunt relevanți.

Metricele de clasare sunt calculate din pozitivele adevărate (TP), falsele pozitive (FP), falsele negative (FN) și adevăratele negative (TN), toate acestea fiind tabelate în așa-numita matrice de confuzie (Fig. 1). Relevanța fiecăreia dintre aceste patru cantități va depinde de scopul clasificatorului și va motiva alegerea metricei. Pentru un test medical care determină dacă pacienții primesc un tratament ieftin, sigur și eficient, FP-urile nu ar fi la fel de importante ca FN-urile, reprezentând pacienții care ar putea suferi fără un tratament adecvat. În schimb, dacă tratamentul ar fi un medicament experimental, ar fi necesar un test foarte conservator cu puține FP pentru a evita testarea medicamentului la indivizi neafectați.

Cercurile albastre și gri indică cazuri cunoscute ca pozitive (TP + FN) și negative (FP + TN), respectiv, iar fundalurile/pătratele albastre și gri reprezintă cazuri prezise ca pozitive (TP + FP) și negative (FN + TN)., respectiv. Ecuațiile pentru calcularea fiecărei valori sunt codificate grafic în termeni de cantități din matricea de confuzie. FDR, rata de descoperire falsă.

Imagine la dimensiune completă

( anunț ) Fiecare panou afișează trei scenarii de clasificare diferite, cu un tabel de valori corespunzătoare pentru precizie (ac), sensibilitate (sn), precizie (pr), scor F 1 (F 1) și coeficient de corelație Matthews (MCC). Scenariile dintr-un grup au aceeași valoare (0,8) pentru metrica cu caractere aldine în fiecare tabel: ( la ) precizie, ( ) sensibilitate (recuperare), ( c ) precizie și ( d ) F scor 1. În fiecare panou, observațiile care nu contribuie la metrica corespunzătoare sunt tăiate cu o linie roșie. Codarea culorilor este aceeași ca în Figura 1; de exemplu, cercurile albastre (cazuri despre care se știe că sunt pozitive) pe un fundal gri (despre care se estimează că sunt negative) sunt FN.

Imagine la dimensiune completă

În mod ideal, un test medical ar trebui să aibă un număr foarte mic de FN și FP. Persoanele care nu au boala nu ar trebui să primească tratament inutil sau împovărate cu stresul unui rezultat pozitiv al testului, iar celor care au boala nu ar trebui să li se ofere un fals optimism în ceea ce privește lipsa bolii. Au fost propuse mai multe valori agregate pentru evaluarea clasamentului care rezumă mai complet matricea confuziei. Cel mai popular este scorul F β, care folosește parametrul β pentru a controla echilibrul dintre rechemare și precizie și este definit ca F β = (1 + β 2) (Precision × Recovery)/(β 2 × Precision + Recovery). Pe măsură ce β scade, precizia primește o greutate mai mare. Cu β = 1, avem scorul F 1 utilizat în mod obișnuit, care echilibrează în mod egal reamintirea și precizia și se reduce la ecuația mai simplă 2TP/(2TP + FP + FN).