Mi az adattudomány? Beginner's Guide to Data Science

Az adattudomány a mesterséges intelligencia jövője. Ismerje meg, mi az a Data Science, hogyan adhat hozzá értéket vállalkozásához és annak életciklusának egyes szakaszaihoz.

Amint a világ belépett a big data korszakába, a tárolás iránti igény is nőtt. Ez volt a legnagyobb kihívás és aggodalom a vállalati ipar számára 2010-ig. A fő hangsúly az adatok tárolására szolgáló keretrendszer és megoldások felépítésére irányult. Most, amikor a Hadoop és más keretrendszerek sikeresen megoldották a tárolás problémáját, a hangsúly átkerült az adatok feldolgozására. A Data Science itt a titkos szósz. A hollywoodi sci-fi filmekben látott összes ötlet valóra válhat a Data Science által. Az adattudomány a mesterséges intelligencia jövője. Ezért nagyon fontos megérteni, mi is az a Data Science, és hogyan tud hozzáadni értéket a vállalkozásához.



Megjelent az Edureka 2019 Tech Karrier Útmutató! A legforróbb munkakörök, pontos tanulási utak, iparági kilátások és egyebek az útmutatóban. Letöltés Most.

Ebben a blogban a következő témákkal foglalkozom.



E blog végére megértheti, mi is az a Data Science, és annak szerepe abban, hogy értelmes betekintést nyerjen ki a körülöttünk lévő összetett és nagy adathalmazokból.Ha részletes ismereteket szeretne szerezni az adattudományról, regisztrálhat élőben által Edureka 24/7 támogatással és egész életen át tartó hozzáféréssel.

Mi az adattudomány?

Az Data Science különféle eszközök, algoritmusok és gépi tanulási elvek keveréke azzal a céllal, hogy felfedezzék a rejtett mintákat a nyers adatokból. De miben különbözik ettől a statisztikusok évek óta?



A válasz a magyarázat és az előrejelzés közötti különbségben rejlik.

Data Analyst v / s Data Science - Edureka

Amint a fenti képből látható, egy adatelemzőáltalában az adatok előzményeinek feldolgozásával magyarázza a folyamatokat. Másrészt a Data Scientist nemcsak a feltáró elemzést végzi, hogy betekintést nyerjen belőle, hanem különféle fejlett gépi tanulási algoritmusokkal is azonosítja a jövőben egy adott esemény előfordulását. Az adatkutató sok szempontból, néha korábban nem ismert szögekből fogja megnézni az adatokat.



tömb rendezés c ++

Tehát a Data Science elsősorban döntések és előrejelzések meghozatalára szolgál, a prediktív oksági elemzés, a vényköteles elemzés (prediktív plusz döntéstudomány) és a gépi tanulás felhasználásával.

  • Prediktív oksági elemzés - Ha olyan modellt szeretne, amely megjósolhatja egy adott esemény lehetőségeit a jövőben, akkor prediktív oksági elemzéseket kell alkalmaznia. Tegyük fel, hogy ha hitelre költi a pénzt, akkor az aggodalomra ad okot, hogy az ügyfelek időben teljesítik-e a jövőbeni hitelkifizetéseket. Itt elkészíthet egy modellt, amely prediktív elemzéseket végezhet az ügyfél fizetési előzményeivel annak előrejelzésére, hogy a jövőbeni fizetések időben lesznek-e.
  • Vényköteles elemzés: Ha olyan modellre vágyik, amelynek intelligenciája van a saját döntéseinek meghozatalában, és képes dinamikus paraméterekkel módosítani, akkor mindenképpen előírnia kell a vényköteles elemzéseket. Ez a viszonylag új terület a tanácsadásról szól. Más szavakkal, nemcsak megjósolja, hanem javasolja az előírt cselekvések és a kapcsolódó eredmények sorát.
    Erre a legjobb példa a Google önvezető autója, amelyet korábban is megbeszéltem. A járművek által összegyűjtött adatok felhasználhatók az önvezető autók képzésére. Ezen adatokon algoritmusokat futtathat, hogy intelligenciát hozzon létre. Ez lehetővé teszi az autójának, hogy olyan döntéseket hozzon, mint amikor forduljon, melyik utat választja,mikor kell lassítani vagy gyorsítani.
  • Gépi tanulás előrejelzések készítéséhez - Ha rendelkezik pénzügyi társaság tranzakciós adataival, és modellt kell készítenie a jövőbeli trend meghatározásához, akkor a gépi tanulási algoritmusok a legjobbak. Ez a felügyelt tanulás paradigmája alá tartozik. Felügyeltnek hívják, mert már vannak olyan adatai, amelyek alapján edzeni tudja gépeit. Például egy csalásfelderítési modell kiképezhető a csalárd vásárlások korábbi nyilvántartásának felhasználásával.
  • Gépi tanulás a minta felfedezéséhez - Ha nincsenek paraméterei, amelyek alapján előrejelzéseket tehet, akkor meg kell találnia az adatkészlet rejtett mintáit, hogy értelmes előrejelzéseket tudjon készíteni. Ez nem más, mint a felügyelet nélküli modell, mivel nincsenek előre definiált címkéi a csoportosításhoz. A minták felfedezéséhez a leggyakoribb algoritmus a fürtözés.
    Tegyük fel, hogy telefonszolgáltatónál dolgozik, és hálózatot kell létrehoznia tornyok elhelyezésével egy régióban. Ezután a fürtözési technikával megkeresheti azokat a toronyhelyeket, amelyek biztosítják, hogy minden felhasználó optimális jelerősséget kapjon.

Lássuk, hogyan különbözik a fent leírt megközelítések aránya az adatelemzés és az adattudomány szempontjából. Amint az alábbi képen látható, Adatelemzésmagában foglalja a leíró elemzéseket és az előrejelzéseket bizonyos mértékig. Másrészt az adattudomány inkább a prediktív ok-okozati elemzésről és a gépi tanulásról szól.

Data Science Analytics - Edureka

Most, hogy tudod, mi is pontosan a Data Science, tudd meg most, miért is volt rá szükség.

Miért éppen az adattudomány?

  • Hagyományosan a rendelkezésünkre álló adatok többnyire strukturáltak és kis méretűek voltak, amelyeket egyszerű BI eszközök segítségével elemezhettünk.Ellentétben ahagyományos rendszerek, amelyek többnyire strukturáltak voltak, ma az adatok nagy része strukturálatlan vagy félig strukturált. Vessünk egy pillantást az alábbi kép adattrendjeire, amely azt mutatja, hogy 2020-ig az adatok több mint 80% -a strukturálatlan lesz.
    Strukturálatlan adatok áramlása - Edureka
    Ezeket az adatokat különböző forrásokból állítják elő, például pénzügyi naplókból, szöveges fájlokból, multimédiás űrlapokból, érzékelőkből és eszközökből. Az egyszerű BI eszközök nem képesek feldolgozni ezt a hatalmas mennyiségű és változatos adatot. Ezért van szükség bonyolultabb és fejlettebb elemző eszközökre és algoritmusokra a feldolgozáshoz, elemzéshez és értelmes betekintés levonásához.

Nem csak ezért vált ilyen népszerűvé a Data Science. Ássunk mélyebbre, és nézzük meg, hogyan használják a Data Science-t a különböző területeken.

  • Mi lenne, ha meg tudná érteni az ügyfelek pontos követelményeit a meglévő adatok alapján, például az ügyfél korábbi böngészési előzményei, vásárlási előzményei, kora és jövedelme alapján. Kétségtelen, hogy mindezen adatok korábban is megvoltak, de most a rengeteg adat és sokféleség mellett hatékonyabban képezheti a modelleket, és pontosabban ajánlhatja a terméket az ügyfeleknek. Nem lenne csodálatos, mivel több vállalkozást hoz a szervezetébe?
  • Vegyünk egy másik forgatókönyvet a Data Science szerepének megértéséhez Döntéshozatal.Mi lenne, ha az autójának lenne intelligenciája hazavezetni? Az önvezető autók szenzorokból gyűjtenek élő adatokat, beleértve a radarokat, fényképezőgépeket és lézereket, hogy térképet készítsenek a környezetéről. Ezen adatok alapján olyan döntéseket hoz, mint például mikor kell gyorsítani, mikor kell gyorsítani, mikor kell előzni, hol kell fordulni - a fejlett gépi tanulási algoritmusok felhasználásával.
  • Lássuk, hogyan használható a Data Science a prediktív elemzésben. Vegyük példának az időjárás-előrejelzést. A hajók, repülőgépek, radarok, műholdak adatai összegyűjthetők és elemezhetők a modellek elkészítéséhez. Ezek a modellek nemcsak az időjárást jelzik előre, hanem segítenek a természetes csapások előfordulásának előrejelzésében is. Ez segít abban, hogy előzetesen meghozza a megfelelő intézkedéseket, és sok értékes életet menthet meg.

Vessünk egy pillantást az alábbi infografikára, hogy lássuk az összes olyan területet, ahol a Data Science létrehozza a benyomását.

Adattudományi felhasználási esetek - Edureka

Ki az adatkutató?

A Data Scientists-en számos definíció érhető el. Egyszerű szavakkal: az adatkutató az, aki az adattudomány művészetét gyakorolja.A „Data Scientist” kifejezés már létezikmegalkotta, miután figyelembe vette azt a tényt, hogy egy adatkutató sok információt merít a tudományos területekről és alkalmazásokból, legyen szó statisztikáról vagy matematikáról.

Mit csinál egy Data Scientist?

Az adattudósok azok, akik összetett adatproblémákat törnek fel bizonyos tudományos területeken szerzett erős szakértelemmel. A matematikával, statisztikákkal, informatikával stb. Kapcsolatos elemekkel dolgoznak (bár nem biztos, hogy szakértők ezeken a területeken).Sokat használják a legújabb technológiákat a megoldások megtalálásában és a szervezet növekedése és fejlődése szempontjából döntő következtetések levonásában. Az adatkutatók sokkal hasznosabb formában mutatják be az adatokat, összehasonlítva a strukturált és strukturálatlan formákban rendelkezésükre álló nyers adatokkal.

Ha többet szeretne megtudni egy Data Scientistről, olvassa el ezt a cikket

Tovább haladva, most megvitathatjuk a BI-t. Biztos vagyok benne, hogy Ön is hallott már az üzleti intelligenciáról (BI). Az Data Science gyakran összetévesztésre kerül a BI-vel. Mondok néhány tömör és világos szótellentétek a kettő között, amelyek segítenek a jobb megértésben. Nézzük meg.

Üzleti intelligencia (BI) és adattudomány

  • Az üzleti intelligencia (BI) alapvetően a korábbi adatokat elemzi, hogy utólag és betekintést találjon az üzleti trendek leírására. Itt a BI lehetővé teszi adatok külső és belső forrásokból történő előkészítését, előkészítését, lekérdezések futtatását és irányítópultok létrehozását az olyan kérdések megválaszolásához, mint példáulnegyedéves bevételi elemzésvagy üzleti problémák. A BI képes értékelni bizonyos események hatásait a közeljövőben.
  • A Data Science egy előremutatóbb megközelítés, feltáró módszer, amelynek középpontjában a múltbeli vagy a jelenlegi adatok elemzése és a jövőbeni eredmények előrejelzése áll a tájékozott döntések meghozatala céljából. A „mi” és „hogyan” események nyitott kérdéseire válaszol.

Vessünk egy pillantást néhány ellentétes tulajdonságra.

Jellemzők Üzleti intelligencia (BI) Adattudomány
AdatforrásokStrukturált
(Általában SQL, gyakran Data Warehouse)
Strukturált és strukturálatlan egyaránt

(naplók, felhőadatok, SQL, NoSQL, szöveg)

MegközelítésStatisztika és megjelenítésStatisztika, gépi tanulás, grafikonelemzés, neurolingvisztikai programozás (NLP)
FókuszMúlt és jelenJelen és jövő
EszközökPentaho, Microsoft BI,QlikView, RRapidMiner, BigML, Weka, R

Ez arról szólt, hogy mi az adattudomány, most értsük meg az adattudomány életciklusát.

A Data Science projektekben elkövetett gyakori hiba az adatgyűjtésbe és -elemzésbe rohan, anélkül, hogy megértené a követelményeket, vagy akár az üzleti problémát megfelelően megfogalmazza. Ezért nagyon fontos az Ön számára, hogy a projekt zökkenőmentes működésének biztosítása érdekében kövesse az Data Science életciklusának összes szakaszát.

Az adattudomány életciklusa

Itt van egy rövid áttekintés az adattudomány életciklusának fő szakaszairól:

Az adattudomány életciklusa - Edureka


Az adattudomány felfedezése - Edureka1. fázis - felfedezés:
A projekt megkezdése előtt fontos megérteni a különféle specifikációkat, követelményeket, prioritásokat és a szükséges költségvetést. Képesnek kell lennie arra, hogy a megfelelő kérdéseket feltegye.Itt értékeli, hogy rendelkezik-e a szükséges erőforrásokkal az emberek, a technológia, az idő és az adatok tekintetében a projekt támogatásához.Ebben a szakaszban meg kell kereteznie az üzleti problémát és meg kell fogalmaznia a kezdeti hipotéziseket (IH) a teszteléshez.

Data Science adatok előkészítése - Edureka

2. szakasz - Adat-előkészítés: Ebben a szakaszban analitikai homokozóra van szüksége, amelyben elemzéseket végezhet a projekt teljes időtartama alatt. A modellezés előtt fel kell tárnia, elő kell dolgoznia és feltételeket kell tárolnia. Ezenkívül elvégzi az ETLT-t (kibont, átalakít, betölt és átalakít), hogy az adatokat be tudja vinni a homokozóba. Vessünk egy pillantást az alábbi statisztikai elemzési folyamatra.

Az adattudomány életciklusa
Használhatja az R adattisztításhoz, átalakításhoz és vizualizációhoz. Ez segít kiszámítani a kiugró értékeket és kapcsolatot kialakítani a változók között.Miután megtisztította és előkészítette az adatokat, itt az ideje a feltárásnakanalitikaRajta. Lássuk, hogyan érheti el ezt.

3. szakasz - Modelltervezés: Data Science modelltervezés - Edureka Itt határozza meg a változók közötti kapcsolatok megrajzolásának módszereit és technikáit.Ezek a kapcsolatok fogják megalapozni az algoritmusokat, amelyeket a következő fázisban fog megvalósítani.A feltáró adatelemzést (EDA) különféle statisztikai képletek és vizualizációs eszközök segítségével fogja alkalmazni.

Vessünk egy pillantást a különböző modelltervezési eszközökre.

Modelltervező eszközök az adattudományban - Edureka

  1. R teljes modellezési képességekkel rendelkezik, és jó környezetet biztosít az értelmező modellek felépítéséhez.
  2. SQL elemzési szolgáltatások képes adatbázison belüli elemzéseket végezni általános adatbányászati ​​funkciók és alapvető prediktív modellek felhasználásával.
  3. SAS / HOZZÁFÉRÉS felhasználható a Hadoop adataihoz való hozzáféréshez, és megismételhető és újrafelhasználható modell folyamatábra létrehozására használható.

Bár sok eszköz van jelen a piacon, de az R a leggyakrabban használt eszköz.

Most, hogy betekintést nyert az adatainak természetébe, és eldöntötte az alkalmazandó algoritmusokat. A következő szakaszban megteszialkalmazés készítsen egy modellt.

Data Science modellépítés - Edureka4. fázis - modellépítés: Ebben a szakaszban fejleszteni fog képzési és tesztelési célú adatkészleteket. Itt yMeg kell fontolnia, hogy a meglévő eszközei elegendőek lesznek-e a modellek futtatásához, vagy erősebb környezetre (például gyors és párhuzamos feldolgozásra) van szükség. A modell felépítéséhez elemezni fogja a különböző tanulási technikákat, például az osztályozást, az asszociációt és a klaszterezést.

A modellépítést a következő eszközökkel érheti el.

Modellépítő eszközök az adattudományban

5. fázis - Operacionalizálás: Az adattudomány operacionalizálódik - Edureka Ebben a szakaszban végső jelentéseket, tájékoztatókat, kódexet és technikai dokumentumokat ad át.Ezenkívül néha egy kísérleti projekt valós idejű gyártási környezetben is megvalósul. Ez tiszta képet nyújt a teljesítményről és az egyéb kapcsolódó korlátozásokról kis léptékben a teljes telepítés előtt.


Kommunikáció az adattudományban - Edureka6. szakasz - Eredmények közlése:
Most fontos felmérni, hogy sikerült-e elérni az első szakaszban tervezett célját. Tehát az utolsó szakaszban meghatározza az összes legfontosabb megállapítást, közli az érdekeltekkel és meghatározza az eredményeketprojekt sikere vagy kudarca az 1. szakaszban kidolgozott kritériumok alapján.

Most esettanulmányt készítek, hogy elmagyarázzam Önnek a fent leírt különféle fázisokat.

Esettanulmány: A cukorbetegség megelőzése

Mi lenne, ha megjósolhatnánk a cukorbetegség előfordulását és előzetesen megtennénk a megfelelő intézkedéseket annak megelőzésére?
Ebben a felhasználási esetben meg fogjuk jósolni a cukorbetegség előfordulását a teljes életciklus felhasználásával, amelyet korábban tárgyaltunk. Menjünk át a különböző lépéseken.

1. lépés:

  • Első,az adatokat a kórtörténet alapján gyűjtjükaz 1. fázisban tárgyaltak szerint. Az alábbiakban a minta adataira hivatkozhat.

Data Science minta adatai - Edureka

  • Amint láthatja, az alább említett különféle attribútumokkal rendelkezünk.

Tulajdonságok:

  1. npreg - Terhes alkalmak száma
  2. glükóz - plazma glükózkoncentráció
  3. bp - Vérnyomás
  4. bőr - tricepsz bőrréteg vastagsága
  5. bmi - Testtömegindex
  6. ped - Diabetes törzskönyvfüggvény
  7. kor - kor
  8. jövedelem - Jövedelem

2. lépés:

  • Miután megvan az adat, meg kell tisztítanunk és elő kell készítenünk az adatokat az adatok elemzéséhez.
  • Ezeknek az adatoknak sok ellentmondása van, például hiányzó értékek, üres oszlopok, hirtelen értékek és helytelen adatformátum, amelyeket meg kell tisztítani.
  • Itt az adatokat egyetlen táblázatba rendeztük különböző attribútumok alatt - strukturáltabbá téve őket.
  • Vessünk egy pillantást az alábbi mintaadatokra.

A Data Science következetlen adatai - Edureka

Ezeknek az adatoknak sok ellentmondása van.

  1. Az oszlopban npreg , „Egy” van beírvaszavak,mivel ennek numerikus formában kell lennie, mint az 1.
  2. Oszlopban bp az egyik érték 6600, ami lehetetlen (legalábbis ember számára) mivel a bp nem tud ilyen hatalmas értéket elérni.
  3. Amint láthatja a Jövedelem oszlop üres, és szintén nincs értelme a cukorbetegség előrejelzésében. Ezért felesleges itt lenni, és el kell távolítani az asztalról.
  • Tehát megtisztítjuk és előfeldolgozzuk ezeket az adatokat a kiugró értékek eltávolításával, a nullértékek kitöltésével és az adattípus normalizálásával. Ha emlékszel, ez a második szakaszunk, amely az adatok előfeldolgozása.
  • Végül megkapjuk az alább látható tiszta adatokat, amelyek felhasználhatók az elemzéshez.

Data Science következetes adatok - Edureka

3. lépés:

Most végezzünk néhány elemzést a 3. szakaszban korábban tárgyaltak szerint.

  • Először az adatokat betöltöttük az analitikai homokozóba, és különféle statisztikai függvényeket alkalmazunk rajta. Például R-nek olyan funkciói vannak, mint körülír amely megadja számunkra a hiányzó és egyedi értékek számát. Használhatjuk az összefoglaló függvényt is, amely statisztikai információkat ad számunkra, mint az átlag, a medián, a tartomány, a min és a max értékek.
  • Ezután vizualizációs technikákat használunk, például hisztogramokat, vonaldiagramokat és dobozdiagramokat, hogy korrekt képet kapjunk az adatok eloszlásáról.

Data Science vizualizáció - Edureka

4. lépés:

Az előző lépésből származó felismerések alapján a döntési fa a legalkalmasabb az ilyen típusú problémákra. Lássuk, hogyan?

  • Mivel már megvannak a fő jellemzők az elemzésre, mint a npreg, bmi stb., tehát használni fogjukfelügyelt tanulási technika amodell itt.
  • Különösen azért használtuk a döntési fát, mert minden attribútumot egy menetben figyelembe vesz, mint amilyenek avalamint a nemlineáris összefüggésű kapcsolatok. Esetünkben lineáris kapcsolat áll fenn a között npreg és kor, mivel a nemlineáris kapcsolat a npreg és ped .
  • A döntési fa modellek szintén nagyon robusztusak, mivel az attribútumok különböző kombinációjával különféle fákat készíthetünk, majd végül a lehető legnagyobb hatékonysággal valósíthatjuk meg.

Vessünk egy pillantást a döntési fánkra.

Tervezési fa adatkészlet

Itt a legfontosabb paraméter a glükózszint, tehát ez a gyökércsomópontunk. Most az aktuális csomópont és értéke határozza meg a következő fontos paramétert. Addig megy, amíg meg nem kapjuk az eredményt pozíció vagy neg . A Pos azt jelenti, hogy a cukorbetegség tendenciája pozitív, a neg pedig azt, hogy a cukorbetegség negatív.

Ha többet szeretne megtudni a döntési fa végrehajtásáról, olvassa el ezt a blogot

5. lépés:

Ebben a szakaszban egy kis kísérleti projektet fogunk lefolytatni annak ellenőrzésére, hogy az eredményeink megfelelőek-e. Megvizsgáljuk a teljesítménykorlátokat is, ha vannak ilyenek. Ha az eredmények nem pontosak, akkor újra kell terveznünk és újra kell építenünk a modellt.

6. lépés:

Miután sikeresen végrehajtottuk a projektet, megosztjuk a kimenetet a teljes telepítéshez.

Adatkutatónak lenni könnyebb megmondani, mint megtenni. Tehát lássuk, mi minden szükséges ahhoz, hogy Data Scientist legyünk.Az adatkutatónak alapvetően szükségesek a készségekhárom fő területről, az alábbiak szerint.

Adattudományi ismeretek - Edureka

Amint a fenti képen látható, különféle kemény és lágy készségeket kell megszereznie. Önnek jónak kell lennie statisztika és matematika adatok elemzésére és vizualizálására. Mondanom sem kell, Gépi tanulás az adattudomány középpontjában áll, és megköveteli, hogy jó legyen benne. Ezenkívül meg kell értenie a tartomány azon dolgozik, hogy világosan megértse az üzleti problémákat. Az Ön feladata itt nem ér véget. Képesnek kell lennie különféle algoritmusok megvalósítására, amelyek jót igényelnek kódolás készségek. Végül, miután meghozott bizonyos kulcsfontosságú döntéseket, fontos, hogy azokat eljuttassa az érdekelt felekhez. Annyira jó kommunikáció határozottan brownie pontokat ad hozzá képességeidhez.

Arra kérem Önt, hogy tekintse meg ezt a Data Science videó oktatóanyagot, amely elmagyarázza, mi is az a Data Science, és mindazt, amit a blogban tárgyaltunk. Menj, élvezd a videót, és mondd el, mit gondolsz.

Mi az adattudomány? Adattudományi tanfolyam - Adattudományi oktatóanyag kezdőknek | Edureka

Ez az Edureka Data Science kurzus videó bemutatja az adattudomány szükségességét, ami az adattudomány, az adattudomány üzleti felhasználási esetei, a BI vs az adattudomány, az adatelemző eszközök, az adattudomány életciklusa és a bemutató.

Végül nem lesz téves azt állítani, hogy a jövő az adatkutatóké. Az előrejelzések szerint 2018 év végéig körülbelül egymillió adatkutatóra lesz szükség. Egyre több adat ad lehetőséget a legfontosabb üzleti döntések meghozatalára. Hamarosan megváltoztatja a körülöttünk lévő adatokkal átitatott világ szemléletét. Ezért az adatkutatónak magasan képzettnek és motiváltnak kell lennie a legösszetettebb problémák megoldására.

Remélem, hogy tetszett olvasni a blogomat, és megértette, mi az a Data Science.Nézze meg a mi oldalunkat itt oktatók által vezetett élő képzés és valós projekt-tapasztalat jár.