Explorarea cadrelor de date; R pentru analiza științifică reproductibilă
Foaie de parcurs
ÎntrebăriCum pot manipula un cadru de date?

Puteți adăuga și elimina rânduri și coloane.
Fii capabil să elimini rândurile cu valori NA .
Poți adăuga două cadre de date.
Fii capabil să articulezi ce este un factor și cum să faci o conversie între factor și caracter .
Să puteți înțelege proprietățile de bază ale unui cadru de date, inclusiv dimensiunea, clasa sau tipul coloanelor, numele și primele rânduri.
Până acum, ați văzut tipurile și structurile de date R de bază și tot ceea ce faceți va fi o manipulare a acestor instrumente. Acum vom învăța un lucru sau două despre lucrul cu clasa cadrelor de date (structura de date pe care o veți folosi de cele mai multe ori și care va fi vedeta spectacolului). Un cadru de date este tabelul pe care îl creăm atunci când încărcăm informații dintr-un fișier CSV.
Cuvinte cheie
Comandă: Traducere
nrow: numărul de rânduri
ncol: numărul de coloane
rbind: combina rânduri
cbind: combinați coloane
Adăugarea de coloane și rânduri la un cadru de date
Am aflat că coloanele dintr-un cadru de date sunt vectori. Prin urmare, știm că datele noastre sunt în concordanță cu tipul de date din acea coloană. Dacă dorim să adăugăm o nouă coloană, putem începe prin crearea unui nou vector:
Îl putem adăuga apoi sub formă de coloană prin:
Rețineți că va eșua dacă încercăm să adăugăm un vector cu un număr diferit de intrări decât numărul de rânduri din cadrul de date.
Pentru că nu am lucrat? Sigur, R vrea să vadă un element în noua noastră coloană pentru fiecare rând din tabel:
Pentru ca acesta să funcționeze, trebuie să avem nrow (pisici) = lungime (vârstă). Vom suprascrie conținutul pisicilor cu noul nostru cadru de date.
Acum, ce zici de adăugarea de rânduri, în acest caz, ultima dată când am văzut că rândurile unui cadru de date sunt alcătuite din liste:
Ce înseamnă eroarea dată de R? „Nivelul factorului nevalid” ne spune ceva despre factori ... dar ce este un factor? Un factor este un tip de date în R. Un factor este o categorie (de exemplu, culoare) cu care R poate face anumite operații. De exemplu:
De asemenea, ordinea factorilor poate fi rearanjată.
Factori
Obiectele clasei de factori sunt un alt tip de date pe care trebuie să le folosim cu grijă. Când R creează un factor, permite doar valorile care erau inițial acolo când am încărcat datele. De exemplu, în cazul nostru „negru”, „scorțișoară” și „tigrat”. Orice categorie nouă care nu se încadrează în aceste categorii va fi respinsă (și va deveni NA).
Avertismentul (Warning) ne spune să adăugăm „broască țestoasă” la factorul nostru de culoare. Dar celelalte valori, 3.3 (de tip numeric), TRUE (de tip logic) și 9 (de tip numeric) au fost adăugate cu succes la greutate, cum ar fi șir și, respectiv, vârstă, deoarece acele valori nu sunt de tip factor. Pentru a adăuga o nouă categorie „broască țestoasă” în cadrul de date pentru pisici din coloana de culoare, trebuie să adăugăm în mod explicit „broască țestoasă” ca un nou nivel (nivel) în factorul:
Alternativ, putem schimba coloana pentru a introduce caracter. În acest caz, pierdem categoriile, dar de acum înainte putem adăuga orice cuvânt în coloană, fără probleme cu nivelurile factorilor.
Provocarea 1
Să ne imaginăm că, la fel ca câinii, un an uman este echivalent cu 7 ani la pisici (compania Purina folosește un algoritm mai sofisticat).
- Creați un vector numit human.age multiplicând pisicile $ vârsta cu 7.
- Conversia vârstei umane în factor.
- Conversia vârstei umane înapoi la un vector numeric folosind funcția as.numeric (). Acum împărțiți la 7 pentru a reveni la epocile inițiale. Explicați ce s-a întâmplat.