Procesul de extragere a datelor

"Exploatarea datelor face parte dintr - un proces de a pacali: descoperirea cunoașterii. cu toate acestea, Data Mining este un proces în sine, care la rândul său constă în mai multe faze."
Recomandarea anterioară, citiți:
Faze de extragere a datelor
Așa cum am comentat anterior, Exploatarea datelor face parte dintr-un proces de rang superior: descoperirea cunoașterii. Cu toate acestea, Data Mining este un proces în sine, care la rândul său constă în mai multe faze.
Vom lua ca referință modelul CRISP (așa-numitul proces de industrie încrucișată) Procesul de extragere a datelor.
Acest model furnizează descrierea ciclului de viață al proiectului Data Mining, fazele acestui proiect, sarcinile respective pentru fiecare fază și diferitele relații dintre acestea.
ciclul de viață al proiectului de data mining constă din șase faze: înțelegerea afacerii, înțelegerea datelor, pregătirea datelor, modelarea, evaluarea și implementarea.
La acest nivel de descriere, nu este posibil să se identifice toate relațiile, cu toate acestea, este important să rețineți că mișcarea repetitivă între diferite faze este importantă pentru a asigura o imagine de ansamblu, adică, deoarece există o dependență între faze și rezultatele obținute în acestea, după finalizarea sarcinilor fiecărei faze este necesar să se verifice impactul acestora asupra restului pentru a menține coerența procesului.
Pot exista relații între orice fază sau sarcină a procesului de extragere a datelor, variind în funcție de obiectivele procesului, contextul acestuia sau interesul utilizatorului față de date.
Într-un mod similar cu cele comentate mai sus, data mining nu se termină odată ce soluția este implementată. Informațiile ascunse care au fost descoperite în timpul procesului și soluția în sine pot provoca noi întrebări care conduc la repornirea tuturor fazelor într-un proces de îmbunătățire, astfel încât procesele miniere ulterioare să beneficieze de experiențele anterioare.
În continuare, vom vedea un mic detaliu al fiecărei faze a procesului:
Înțelegerea afacerii
Aceasta este faza cu care se deschide procesul. Este axat pe înțelegerea obiectivelor și a cerințelor proiectului începând din perspectiva afacerii.
După aceea, este necesar să dobândim aceste cunoștințe despre date (repetăm, întotdeauna din punct de vedere al afacerii) și să le transformăm în definiția unei probleme de data mining, întocmind un plan preliminar în conformitate cu obiectivele planificate.
Înțelegerea datelor
Faza de înțelegere a datelor începe cu colectarea inițială a datelor pentru a continua cu activități care vă permit să obțineți o familiaritate cu acestea care vă permite să identificați problemele de calitate a datelor.
calitatea datelor are mai multe dimensiuni: precizie (care reflectă ceea ce se întâmplă), întreg (că datele complete sunt în sistem), şansă (accesibil atunci când este necesar), relevanţă, nivelul de detaliu și consistență (aceleași date în toate domeniile sau sistemele), deci va fi necesar să verificați modul în care datele sunt în fiecare dintre aceste dimensiuni.