Ce este Știința Datelor?
Știința datelor joacă un rol din ce în ce mai important în viața companiilor din secolul XXI.
În realitate știința datelor nu se referă la realizarea unor modele complicate sau de vizualizări extraordinare, dar nici la scrierea codurilor. Aceasta se orientează spre utilizarea datelor, ca să poți asigura afacerii tale cât mai multe beneficii.
Influența în cauză poate lua mai multe forme; de la simpla observare, până la datele și promovarea produselor. Aici își intră în rol acele instrumente ca de exemplu realizarea unor modele complicate, scrierea codurilor sau vizualizarea datelor. Practic, aflându-te în posesia datelor este de datoria ta să le utilizezi eficient pentru a rezolva probleme reale de afaceri, indiferent de instrumentele utilizate.
Interpretarea greșită a științei datelor
În legătură cu știința datelor circulă numeroase concepții eronate, mai ales pe Youtube. Cauza acestora constă în faptul că există diferențe imense între subiectul discuțiilor și adevăratele necesități ale industriei. Chiar de aceea trebuie clarificate unele aspecte.
Înainte ca știința datelor să fie un subiect atât de discutat, într-un articol din 1996 a fost popularizată expresia extragerea cunoștințelor, cu referire la descoperirea cunoștințelor în bazele de date. Aceasta a descris procesul general al descoperirii datelor și informațiilor utile. În 2001, William S. Cleveland dorea să ridice extragerea cunoștințelor la un nivel superior. El a făcut acest lucru prin combinarea extragerii cunoștințelor cu informatica; a reușit să facă statisticile mult mai tehnice, care conform părerii lui sunt capabile să extindă posibilitățile extragerii cunoștințelor din date și pot conferi forță inovației. Astfel, statisticile s-au putut bucura de avantajele capacității de calcul; această combinație o numim știința datelor. Cam tot atunci a apărut web 2.0, unde domeniile web n-au mai fost doar simple pliante digitale, ci platforme destinate partajării experienței comune de către milioane de utilizatori.
Web 2.0 – Big Data
Acestea erau domenii web ca MySpace în 2003, Facebook în 2004 și YouTube în 2005. În momentul de față, prin intermediul acestor pagini putem interacționa în diverse moduri, ca de exemplu prin: comentarii, trimiterea de obiecte, recenzii, încărcări, distribuiri – în tot acest timp, pe internet lăsăm în urmă amprente digitale. Toate acestea contribuie la crearea și modelarea acelui ecosistem pe care-l cunoaștem și apreciem în ziua de azi.
Cantitatea de date a devenit mult prea mare pentru utilizarea tehnologiilor tradiționale. Acest volum crescut de date îl numim Big Data. Acesta a deschis calea spre explorarea oportunităților de utilizare a datelor. În același timp, apariția Big Data presupune necesitatea unei infrastructuri sofisticate a datelor – chiar și pentru rezolvarea unor chestiuni mărunte, trebuie să existe un suport pentru gestionarea datelor. A fost nevoie de modele de calcul paralel, ca de exemplu MapReduce, Hadoop și Spark; astfel, creșterea Big Data din 2010 a atras după sine și ascensiunea științei datelor.
La vremea respectivă au fost analizate toate aspectele științei datelor, legate de colectarea, analiza și modelarea datelor. Însă cea mai importantă parte este aplicarea; toate felurile de aplicări, inclusiv învățarea automată. Așadar, în 2010, cu ajutorul noii cantități de date, a fost posibilă abordarea axată pe baze de date, în locul celei întemeiate pe învațarea automată.
A devenit posibilă punerea în aplicare a teoriilor despre mașinile vectoriale care susțin rețele neuronale repetitive; ceva care schimbă mersul lucrurilor și elemente ale stilului nostru de viață. Deep learning (învățarea profundă) nu mai este doar un concept academic. Învățarea automată a devenit un domeniu util palpabil, capabil să influențeze viața noastră de zi cu zi.
Specialiștii în știința datelor, ca analiști de date
Spațiul media a fost dominat de învățarea automată și inteligența artificială (AI), estompând celelalte aspecte ale științei datelor – de exemplu analiza exploratorie, experimentarea și abilitatea numită inteligența în afaceri. Lumea se gândea la știința datelor prin prisma acestora, pe când cercetătorii s-au concentrat pe AI și învățarea automată.
În domeniu își fac apariția specialiștii în știința datelor, adesea cu rol de analiști de date. Aceștia au fost nevoiți să se adapteze, întucât majoritatea lor se ocupă de mai multe probleme tehnice. Ca să-și dezvolte produsele, companiile mari ca Google, Facebook sau Netflix trebuie să facă doar modificări elementare – pentru rezolvarea acestora nu necesită echipamente sofisticate pentru învățare sau cunoștințe statistice. A fi un analist priceput nu înseamnă neapărat că dispui de fel și fel de modele sofisticate; înseamnă mai degrabă ce efecte produce activitatea ta. Din moment ce nu manipulezi datele ci cauți doar soluții, trebuie să fii un bun strateg. Companiile îți transmit spre soluționare multe probleme dificile și ambigue, așteptându-se să le indici direcția potrivită.
Ierarhia nevoilor
Odată ce-am încheiat cu exemplele aplicării științei datelor în viața reală, vom trece mai departe. Prima dată ne vom uita pe diagrama de mai jos; aceasta este foarte utilă deoarece ne prezintă nevoile științei datelor. Chiar dacă ele sunt foarte evidente, tindem să le uităm. La baza piramidei găsim „colectarea” – e clar deci că înainte de-a putea utiliza datele, trebuie mai întâi să le aduni.
Prin urmare, este foarte importantă colectarea datelor, ce cuprinde o serie de eforturi de inginerie științifică; spațiul media ne-a arătat cât este de dificilă gestionarea acestui volum imens de date. Alături de asta, am amintit deja și calculul paralel, reprezentat de Hadoop și Spark. Toate acestea cuprind aspecte cunoscute. Dar lucrul mai puțin cunoscut se află între aceste două elemente.
În mod surprinzător, este unul dintre cele mai importante lucruri pentru companii, fiindcă încearcă să le arate ce să facă cu produsele. Ce înțelegem prin asta? Faptul că utilizarea datelor și a perspectivelor pe care le ascunde trebuie explicată, la fel și cum influențează consumatorii și parametrii – foarte importante ca să aflăm ce se întâmplă cu produsul în realitate.
Cu ajutorul acestor indicatori poți afla rata succesului de care te bucuri. În același timp, testul B este de asemenea important – ca experiment care-ți permite să afli care versiune a produsului este cea mai bună.
Toate acestea sunt de fapt lucruri deosebit de importante, dar omise de spațiul media, preocupat de lucrurile din vârf – AI și deep learning.
Ce face de fapt un specialist în știința datelor?
Atunci când abordăm lucrurile din punctul de vedere al unei companii sau industrii, partea cea mai importantă nu este cea care dă rezultate prin cel mai mic efort posibil. De aceea se află AI și deep learning în vârful piramidei nevoilor. În acest domeniu este mult mai importantă testarea analizelor – motiv pentru care sunt angajați destul de mulți specialiști.
Ce face deci un specialist în știința datelor? Depinde de companie și mărimea acesteia. Astfel, la una aflată la început de drum lipsește suportul financiar și din lipsă de fonduri va exista doar un specialist în știința datelor; iar acesta va trebui să se ocupe singur de tot ce ține de domeniul său de activitate. De aceea, s-ar putea să se acumuleze multe sarcini ce trebuie rezolvate. Poate că un specialist în știința datelor nu se va ocupa de AI sau deep learning, fiindcă priorițățile companiei sunt altele momentan.
Dar poate că va trebui să se ocupe de toate. Se poate întâmpla să fie nevoit să configureze întreaga infrastructură de date. E posibil să fie obligat să adauge câteva coduri software pentru înregistrare și tot el să execute analiza, să creeze indicatorii și în final să-l aștepte efectuarea testelor A / B. Deci în cazul unui start-up – ce are nevoie de un specialist în știința datelor – toate acestea merg împreună și sunt executate, în general, de către o singură persoană (din cauza lipsei de personal).
Dar să vedem întreprinderile mijlocii. Ele dispun de resurse financiare mai consistente și pot astfel să separe treaba inginerilor (de date) de cea a specialiștilor în știința datelor.
Îndemânarea este esențială
Ca specialist în știința datelor, trebuie să fii un tehnician desăvârșit. Din acest motiv pe asemenea posturi sunt angajați doar cei cu masterate și doctorate – companiile dorind ca aceștia să fie capabili și de rezolvarea unor probleme mai complexe.
Să vorbim acum despre companiile mari. Datorită dimensiunilor acestora, e foarte probabil că pot cheltui mult mai mulți bani pe angajați. În cazul lor angajatul nu trebuie să se gândească la treburi suplimentare pe care nu dorește să le facă; aici se poate concentra pe sarcinile pe care s-a specializat și care-i fac (probabil) plăcere.
Sperăm c-ai reușit să înțelegi noțiunile de bază ale științei datelor și ale extragerii cunoștințelor. Dacă ai întrebări suplimentare sau ai nevoie de ajutor, apelează la noi cu încredere.