Mi az Adattudomány?
Az adattudomány egyre nagyobb szerepet játszik a XXI. századi vállalatok életében.
Tulajdonképpen az adattudomány nem a bonyolult modellek készítéséről szól és nem is arról, hogy félelmetes vizualizációkat készítünk, de nem is kódírásról. Az adattudomány az adatok felhasználását célozza meg, hogy a lehető legnagyobb mértékű hatással tudj lenni a vállalatodra.
Ez a befolyás többféleképpen jelentkezhet. Lehet betekintés formájában, adattermék formájában vagy termékajánlás formájában egyaránt. Ilyenkor van szükség olyan eszközökre, mint például a bonyolult modellek készítése vagy adatmegjelenítések készítése és itt jöhet képbe a kód írása is. Alapvetően adattudósként a te feladatod az adatok felhasználása valódi vállalati problémák megoldására, a felhasznált eszközöktől függetlenül.
Az adattudomány félreértelmezése
Jelenleg sok tévhit kering az adattudományról, különösen a YouTube-on. Ennek az lehet az oka, hogy hatalmas eltérések vannak abban, hogy mi a népszerű beszédtéma manapság és hogy mire lenne szükség az iparágban. Éppen ezért szeretnénk világossá tenni néhány dolgot.
Az adattudomány előtt az adatbányászat kifejezést népszerűsítették egy 1996-os cikkben, amely az adatbányászatról és az ismeretek felfedezéről szólt az adatbázisokban. Ebben az adatok és hasznos információk felfedezésének általános folyamatára utalt a kifejezés. 2001-ben William S. Cleveland az adatbányászatot egy magasabb szintre akarta emelni.
Ezt a számítógépes tudomány és az adatbányászat kombinálásával tette. Sokkal technikaibbá tette a statisztikákat, amelyek szerinte kibővítenék az adatbányászat lehetőségeit és erőt jelentenek az innovációhoz. Most kihasználhatod a számítási teljesítmény előnyeit a statisztikák számára. Ezt a kombót nevezik adattudománynak. Mindegy körülbelül abban az időben történt, amikor megjelent a web 2.0, ahol a webhelyek már nem csupán digitális röpcédulák voltak, hanem platformok a több millió felhasználó közös tapasztalatainak megosztására.
Web 2.0 – Big Data
Ezek olyan webhelyek voltak, mint a MySpace 2003-ban, a Facebook 2004-ben és a YouTube-ban 2005-ben. Manapság többféleképpen is interakcióba léphetünk ezekkel az oldalakkal, például hozzászólhatunk, küldhetünk dolgokat, megjegyzéseket tehetünk, feltölthetünk és megoszthatunk, miközben digitális lábnyomokat hagyunk magunk után az interneten. Ez segített létrehozni és alakítani azt az ökoszisztémát, amelyet ma ismerünk és szeretünk. Manapság, olyan sok adat, hogy túl sokká vált a hagyományos technológiák használatához. Ilyen adatmennyiséget úgynevezett Big Data-nak (Nagy Adat) hívjuk.
Ez megnyitotta a lehetőségek világát az adatok felhasználásával történő betekintés megtalálásában. De ez azt is jelentette, hogy a legegyszerűbb kérdésekhez kifinomult adat-infrastruktúrára van szükség, csak az adatok kezelésének támogatása érdekében. Párhuzamos számítástechnikára volt szükségünk, mint például a MapReduce, a Hadoop és a Spark, így a Big Data 2010-es növekedése az adattudomány növekedését idézte elő.
Tehát akkoriban az adattudományi folyóirat szinte mindent leírt az adattudományról, amelynek köze van az adatgyűjtéshez, elemzéshez, modellezéshez. Ennek legfontosabb része azonban az alkalmazás. Mindenféle alkalmazás, beleértve a gépi tanulást is. Tehát 2010-ben, az új adatmennyiséggel, lehetővé tették a gépi ismereteken alapuló megközelítés helyett azt, hogy adatközpontú megközelítését alkalmazzanak.
Az ismétlődő ideghálózatokat támogató vektorgépekről szóló összes elméleti elemzés megvalósíthatóvá vált. Ez olyasvalami, ami megváltoztathatja az életmódot és a világban tapasztalható dolgokat. A deep learning (mély tanulás) már nem akadémiai koncepció ebben a dolgozatban. A gépi tanulás kézzelfogható hasznos osztályává vált, amely hatással lehet mindennapi életünkre.
Adattudósok, mint elemzők
Tehát a gépi tanulás és az AI (mesterséges intelligencia) uralta a médiát, illetve elhomályosította az adattudomány minden más aspektusát, például a feltáró elemzést, a kísérletezést valamint a készségeket, amelyeket hagyományosan üzleti intelligenciának nevezünk. A nagyközönség így gondolt az adattudományra, míg a kutatók a gépi tanulásra és az AI-re összpontosítottak.
Az iparág elemzőként alkalmazza az adattudósokat. Ebben az esetben van egy kis eltérés, aminek az oka az, hogy ezeknek az adattudósoknak a többsége valószínűleg több technikai problémán dolgozik. A nagyvállalatok, mint például a Google, a Facebook, a Netflix annyira alap goldokat kell megoldjon ahhoz, hogy fejlesszék termékeiket, hogy nem igényelnek fejlett gépeket a tanuláshoz vagy nem szükségesek statisztikai ismeretek ezeknek ezeknek a problémáknak a megoldására. Ha jó adattudós vagy, az nem azt jelenti, hogy ilyen és olyan fejlett modelleid vannak. Ez inkább arról szól, hogy mekkora hatást gyakorolhat a munkád. Nem vagy adatcsaló. Te egy problémamegoldó vagy. Te stratéga vagy. A cégek a leginkább a félreérthető és legkeményebb problémákat adják át neked megoldásra. És elvárják, hogy a céget a helyes irányba vezesd.
A szükségletek hierarchiája
Rendben, fejezzük be az adatok tudományával kapcsolatos valós életbeli példákkal a Silicon Valley-nél. De először is nézzük meg a lenti diagramot. Ez egy nagyon hasznos diagram, amely elmondja az adattudomány igényeit. Ez elég nyilvánvaló, de hajlamosak vagyunk elfelejteni. A piramis alján van a „gyűjtés”, tehát nyilvánvalóan valamilyen adatot kell összegyűjtened ahhoz, hogy felhasználhasd ezeket az adatokat.
Tehát nagyon fontos az adatok mérnöki erőfeszítéseinek átalakítását tároló adatgyűjtés, és a médiában valóban elég jól összefoglalták a nagy adatok miatt, hogy milyen nehéz ezeket az adatokat kezelni. Beszéltünk a párhuzamos számítástechnikáról, ami a Hadoop-ot és a Spark-ot takarja, valamint ezekhez hasonló dolgokat. Ezekről tudunk. A kevésbé ismert dolog azonban a kettő közt van.
Meglepő módon ez az egyik legfontosabb dolog a vállalatok számára, mert megpróbálja elmondani a cégnek, hogy mit tegyen a termékkel. Mit értünk ezalatt? El kell magyarázni az adatok felhasználását, hogy milyen betekintések fedhetőek fel ebből, mi történik a felhasználókkal, majd a paraméterekkel, ez azért fontos, hogy megtudjuk, mi történik valójában a termékkel.
Ezek a mutatók elárulják, sikeres vagy-e vagy sem. És akkor, természetesen, a B-tesztelés is fontos. Ez az a kísérlet, amely lehetővé teszi, hogy megtudd, melyik termékverzió a legjobb. Tehát ezek a dolgok valóban nagyon fontosak, de a média nem foglalkozik velük. Amit a média tárgyal, az a csúcson lévő rész, az AI és mély tanulás. Amikor egy cég szemszögéből, vagy az iparág nézőpontjából közelítjük meg a dolgokat, valójában nem az a rész legfontosabb, vagy legalábbis nem az a dolog, amely a legkevesebb erőfeszítést beleadva hozza ki a legnagyobb eredményt.
Akkor mit csinál az adattudós igazóból?
Ezért van az AI és a deep learning az igények hierarchiájának tetején, viszont az elemzések tesztelése, valójában sokkal fontosabb az ipar számára, ezért rengeteg adattudóst alkalmazunk, akik ilyesmivel foglalkoznak. Tehát mit is csinál az adattudós? Az, hogy egy adattudós pontosan mit csinál, az a cégtől és annak méretétől függ. Nos, egy induló cégnél hiányzik a pénzógyi támogatás, így csak egyetlen egy adattudós van, hiszen nincs pénz még több személyzetre. Annak az egy adattudósnak mindent el kell végeznie ami ebbe a kategóriába beletartozik. Ezért előfordulhat, hogy minden amit látsz, az adattudósra vár, az ő feladata elvégezni azokat. Lehet, hogy nem fogsz AI val vagy mély tanulással foglalkozni adattudósként, mert ez jelenleg nem prioritás a cégnél. De lehet, hogy mindent el kell végezz.
Az is lehet, hogy be kell állítani a teljes adat-infrastruktúrát. Lehet, hogy még be kell írnod néhány szoftverkódot a naplózás hozzáadásához, majd magadnak kell elvégezned az elemzést, majd a mutatókat is egyedül kell elkészíteni, továbbá neked kell majd A / B tesztet is végezni. Ezért az induló vállalkozások esetében, ha adattudósokra van szükségük, ez az egész összetartozik, tehát mindent neked kell megcsinálnod adattudósként, mert nincs rá más ember. De nézzük meg a közepes méretű vállalatokat.
Ezek mostmár sokkal több pénzügyi erőforrással rendelkeznek. Elkülöníthetik az adatmérnököket és az adattudósokat. Tehát általában a gyűjtés során a szoftverfejlesztés az adatmérnökök feladata lesz, nem az adattudósé.
A szakértelem elengedhetetlen
Adattudósként sokkal technikusabbnak kell lenned. Ezért csak PhD-vel vagy mesterfokozattal vesznek fel erre embereket, mert azt akarják, hogy képesek legyenek a bonyolultabb problémák megoldására is. Beszéljünk most egy nagyvállalatról. Mivel sokkal nagyobb a cég, valószínűleg sokkal több pénzzel rendelkezik, vagyis többet tud költeni az alkalmazottakra.
Ebben az esetben a munkavállalónak nem kell azokon a dolgokon gondolkodjon, amiket nem akar csinálni vagy nem szívesen csinálna, és összpontosíthatnak azokra a dolgokra, amelyekben a legjobbak, illetve amiket szeretnek csinálni.
Reméljük neked is sikerült megérteni az adattudomány az adatbányászat alapjait. Ha további kérdésed merülne fel vagy segítségre van szükséged, keress fel minket bátran.
Érdekelnek a kriptopénzek? Ne maradj le a legérdekesebb infókról, csatlakozz hozzánk a lenti elérhetőségeken!
Kezdőknek | Közösség | Egyéb |
---|---|---|
Bitcoin Útmutató | Likeolj minket Facebookon! | Legfrissebb Hírek |
Ethereum Útmutató | Csatlakozz Discord-on! | Videók |
Kripto Szótár | Kövess minket Youtuben is! | Altcoinok |