Big Data bemutató: Minden, amit tudnia kell a Big Data-ról!

Ez a Big Data Tutorial blog teljes áttekintést nyújt a Big Data-ról, annak jellemzőiről, alkalmazásairól, valamint a Big Data kihívásairól.

Big Data bemutató

Big Data, nem hallottad még ezt a kifejezést? Biztos vagyok benne, hogy van. Az elmúlt 4-5 évben mindenki a Big Data-ról beszél. De valóban tudja, mi is ez a Big Data, hogyan befolyásolja az életünket, és miért vadásznak a szervezetek szakemberekre ? Ebben a Big Data bemutatóban teljes betekintést nyújtok a Big Data-ba.



Az alábbiakban bemutatom azokat a témákat, amelyekkel a Big Data bemutatóban foglalkozom:



  • A Big Data története
  • Big Data Driving tényezők
  • Mi a Big Data?
  • Nagy adatok jellemzői
  • A nagy adatok típusai
  • Példák a nagy adatokra
  • A Big Data alkalmazásai
  • Kihívások a nagy adatokkal

Big Data bemutató - Edureka

Hadd kezdjem ezt a Big Data bemutatót egy novellával.



A Big Data története

Az ókorban az emberek egyik faluból a másik faluba lovaskocsival utaztak, de az idő múlásával a falvak városokká váltak, és az emberek elterjedtek. Az egyik városból a másikba megtett távolság is nőtt. Tehát problémává vált a városok közötti utazás, a csomagokkal együtt. Kékből, egy okos fella azt javasolta, hogy inkább gondozzunk és etessünk egy lovat, hogy megoldjuk ezt a problémát. Ha ezt a megoldást nézem, nem is olyan rossz, de mit gondolsz, egy lóból elefánt válhat? Nem hiszem. Egy másik okos srác azt mondta, hogy ahelyett, hogy 1 ló húzná a szekeret, legyen 4 ló, hogy meghúzzuk ugyanazt a szekeret. Ti mit gondoltok erről a megoldásról? Szerintem fantasztikus megoldás. Most az emberek nagy távolságokat tudnak megtenni kevesebb idő alatt, sőt több poggyászt is magukkal vihetnek.

php print_r karakterláncra

Ugyanez a koncepció érvényes a Big Data-ra is. A Big Data szerint a mai napig rendben voltunk az adatok tárolásával a szervereinkre, mert az adatok mennyisége meglehetősen korlátozott volt, és az adatok feldolgozásához szükséges idő is rendben volt. De most ebben a jelenlegi technológiai világban az adatok túl gyorsan nőnek, és az emberek sokszor támaszkodnak az adatokra. Az adatok növekedésének sebességével is lehetetlenné válik az adatok tárolása bármely szerveren.

A Big Data Tutorial blogon keresztül fedezzük fel a Big Data forrásait, amelyeket a hagyományos rendszerek nem tudnak tárolni és feldolgozni.



Big Data Driving tényezők

A földi bolygó adatmennyisége sok okból exponenciálisan növekszik. Különböző források és napi tevékenységeink rengeteg adatot generálnak. A web feltalálásával az egész világ online lett, minden egyes tettünk digitális nyomot hagy. Az intelligens objektumok online elérésével az adatok növekedési üteme gyorsan növekedett. A Big Data fő forrásai a közösségi média oldalak, érzékelő hálózatok, digitális képek / videók, mobiltelefonok, vásárlási tranzakciós nyilvántartások, webnaplók, orvosi dokumentumok, archívumok, katonai felügyelet, e-kereskedelem, összetett tudományos kutatások és így tovább. Mindezek az információk körülbelül Quintillion bájt adatot jelentenek. 2020-ig az adatmennyiség körülbelül 40 zettabájt lesz, ami megegyezik azzal, hogy a bolygón minden egyes homokszem hozzáadódik hetvenötel.

Mi a Big Data?

A Big Data egy olyan kifejezés, amelyet nagy és összetett adatkészletek gyűjteményére használnak, és amelyet nehéz tárolni és feldolgozni a rendelkezésre álló adatbázis-kezelő eszközök vagy a hagyományos adatfeldolgozó alkalmazások segítségével. A kihívás magában foglalja ezen adatok rögzítését, kurálását, tárolását, keresését, megosztását, továbbítását, elemzését és megjelenítését.

Nagy adatok jellemzői

A nagy adatot meghatározó öt jellemző a következő: volumen, sebesség, változatosság, verabilitás és érték.

  1. HANGERŐ

    A mennyiség az „adatmennyiségre” utal, amely napról napra nagyon gyors ütemben növekszik. Az emberek, a gépek és a közösségi médiában való interakcióik által generált adatok nagysága hatalmas. A kutatók azt jósolták, hogy 2020-ig 40 Zettabájt (40 000 Exabájt) keletkezik, ami 2005-höz képest 300-szoros növekedést jelent.

  2. SEBESSÉG

    A sebességet az a sebesség határozza meg, amelyben a különböző források naponta generálják az adatokat. Ez az adatáramlás hatalmas és folyamatos. Jelenleg 1,03 milliárd napi aktív felhasználó (Facebook DAU) van a mobilon, ami éves szinten 22% -os növekedést jelent. Ez megmutatja, hogy milyen gyorsan növekszik a felhasználók száma a közösségi médiában, és milyen gyorsan generálódnak naponta az adatok. Ha képes kezelni a sebességet, képes lesz betekintést generálni és valós idejű adatok alapján döntéseket hozni.

  3. FAJTA

    Mivel sok forrás járul hozzá a Big Data-hoz, az általuk generált adatok típusa más. Lehet strukturált, félig strukturált vagy strukturálatlan. Ennélfogva sokféle adat gyűlik össze minden nap. Korábban az Excel és az adatbázisokból szereztük be az adatokat, most képek, hangok, videók, érzékelő adatok stb. Formájában érkeznek, amint az az alábbi képen látható. Ezért a strukturálatlan adatok ilyen sokfélesége problémákat okoz az adatok rögzítésében, tárolásában, bányászatában és elemzésében.

  4. VERACITY

    A valódiság az adatok inkonzisztenciája és hiányossága miatt kétséges vagy bizonytalan adatokra vonatkozik. Az alábbi képen láthatja, hogy kevés érték hiányzik a táblázatból. Néhány értéket nehéz elfogadni, például - 15000 minimális érték a 3. sorban, ez nem lehetséges. Ez a következetlenség és hiányosság a valódiság.
    A rendelkezésre álló adatok néha rendetlenné válhatnak, és nehezen bízhatnak meg bennük. A nagy adatok sok formájával a minőség és a pontosság nehezen ellenőrizhető, mint például a hashtagekkel, rövidítésekkel, elírásokkal és köznyelvi beszédekkel ellátott Twitter-bejegyzések. A mennyiség és az adatok pontatlanságának oka gyakran a mennyiség.

    • Az adatok bizonytalansága miatt minden harmadik üzleti vezető nem bízik a döntések meghozatalában használt információkban.
    • Egy felmérés során kiderült, hogy a válaszadók 27% -a nem volt biztos abban, hogy adatai mennyi pontatlanok voltak.
    • A gyenge adatminőség évi 3,1 billió dollárba kerül az Egyesült Államok gazdaságának.
  5. ÉRTÉK

    A volumen, a sebesség, a változatosság és a valódiság megvitatása után van egy másik V, amelyet figyelembe kell venni a Big Data, azaz az érték nézegetésekor. Nagyon jó, ha nagyokhoz is hozzáférünkadatdehacsak nem tudjuk értékké alakítani, használhatatlan. Az értékgé változtatás alatt azt értem, hogy növeli-e a nagy adatokat elemző szervezetek előnyeit? A Big Data-n dolgozó szervezet magas ROI-t (Return On Investment) ér el? Hacsak nem növeli nyereségüket azáltal, hogy a Big Data-n dolgozik, haszontalan.

Nézze át az alábbi Big Data videónkat, hogy többet tudjon meg a Big Data-ról:

Big Data bemutató kezdőknek | Mi a nagy adat | Edureka

Amint azt a Variety-ben tárgyaltuk, különböző típusú adatok vannak, amelyek minden nap generálódnak. Tehát most értsük meg az adattípusokat:

A nagy adatok típusai

A Big Data háromféle lehet:

  • Strukturált
  • Félig strukturált
  • Strukturálatlan

  1. Strukturált

    A rögzített formátumban tárolható és feldolgozható adatokat strukturált adatoknak nevezzük. A relációs adatbázis-kezelő rendszerben (RDBMS) tárolt adatok a „strukturált” adatok egyik példája. Könnyű a strukturált adatok feldolgozása, mivel fix sémája van. A Strukturált Lekérdezési Nyelvet (SQL) gyakran használják az ilyen típusú adatok kezelésére.

  2. Félig strukturált

    A félig strukturált adatok olyan adattípusok, amelyek nem rendelkeznek az adatmodell formális felépítésével, azaz a relációs DBMS-ben egy táblázatmeghatározással, de ennek ellenére vannak olyan szervezeti tulajdonságai, mint a címkék és más jelölők a szemantikai elemek elkülönítésére, ami megkönnyíti Elemezni. Az XML fájlok vagy a JSON dokumentumok példák a félig strukturált adatokra.

  3. Strukturálatlan

    Azokat az adatokat, amelyeknek ismeretlen formájuk van, és nem tárolhatók az RDBMS-ben, és nem lehet elemezni, hacsak nem strukturált formátumba transzformálják őket, strukturálatlan adatoknak hívjuk. A szövegfájlok és a multimédiás tartalmak, például képek, hanganyagok, videók a strukturálatlan adatok példái. A strukturálatlan adatok gyorsabban nőnek, mint mások, szakértők szerint a szervezetben az adatok 80 százaléka strukturálatlan.

Mostanáig a Big Data bevezetéséről számoltam be. Ezenkívül ez a Big Data bemutató a Big Data példáiról, alkalmazásokról és kihívásokról szól.

Példák a nagy adatokra

Naponta több millió bájtnyi adatot töltünk fel. A világ adatainak 90% -át az elmúlt két évben hozták létre.

  • Walmart többet kezel 1 millió ügyfelek tranzakciói óránként.
  • A Facebook tárolja, eléri és elemzi 30+ petabájt a felhasználó által generált adatok száma.
  • 230+ millió a tweetekből minden nap létrejön.
  • Több mint 5 milliárd az emberek világszerte telefonálnak, írnak SMS-t, tweetelnek és böngésznek mobiltelefonon.
  • A YouTube-felhasználók feltöltik 48 óra új videót a nap minden percében.
  • Amazon kezeli 15 millió Az ügyfél a felhasználói adatok adatfolyamának megadásához kattintson napi adatfolyamra.
  • 294 milliárd e-maileket küldünk minden nap. A Services elemzi ezeket az adatokat, hogy megtalálják a spameket.
  • A modern autók közel vannak 100 érzékelő amely figyeli az üzemanyagszintet, az abroncsnyomást stb., minden jármű rengeteg érzékelő adatot generál.

A Big Data alkalmazásai

Nem beszélhetünk az adatokról anélkül, hogy ne beszélnénk azokról az emberekről, akiknek előnyeit élvezik a Big Data alkalmazások. Ma szinte az összes iparág egyik vagy másik módon kihasználja a Big Data alkalmazásokat.

  • Intelligensebb egészségügyi ellátás : A páciens adatainak petabájtját felhasználva a szervezet értelmes információkat nyerhet ki, majd olyan alkalmazásokat hozhat létre, amelyek előre megjósolhatják a beteg romló állapotát.
  • Telecom : A távközlési szektor információkat gyűjt, elemez és megoldásokat kínál a különböző problémákra. A Big Data alkalmazások használatával a távközlési vállalatok jelentősen csökkenteni tudták az adatcsomag-veszteséget, amely a hálózatok túlterhelése esetén következik be, és így zökkenőmentes kapcsolatot biztosítanak ügyfeleik számára.
  • Kiskereskedelem : A kiskereskedelem a legszűkebb árrésszel rendelkezik, és a big data egyik legnagyobb haszonélvezője. A nagy adatok kiskereskedelmi felhasználásának szépsége a fogyasztói magatartás megértése. Az Amazon ajánló motorja a fogyasztó böngészési előzményei alapján nyújt javaslatokat.
  • Forgalomirányítás : A forgalmi torlódások világszerte számos város számára nagy kihívást jelentenek. Az adatok és az érzékelők hatékony felhasználása kulcsfontosságú a forgalom jobb kezeléséhez, mivel a városok egyre sűrűbben laknak.
  • Gyártás : A feldolgozóipar nagy adatainak elemzése csökkentheti az alkatrészek hibáit, javíthatja a termékek minőségét, növelheti a hatékonyságot, és időt és pénzt takaríthat meg.
  • Keresési minőség : Valahányszor információt nyerünk ki a google-ból, egyidejűleg adatokat is generálunk hozzá. A Google ezeket az adatokat tárolja, és felhasználja a keresés minőségének javítása érdekében.

Valaki helyesen mondta: - A kertben nem minden rózsás! . Eddig ebben a Big Data oktatóanyagban most megmutattam neked a Big Data rózsás képét. De ha ilyen könnyű volt kihasználni a Big Data-t, nem gondolja, hogy az összes szervezet befektetne ebbe? Hadd mondjam el előre, ez nem így van. Számos kihívás jelentkezik, amikor a Big Data-val dolgozik.

Most, hogy ismeri a Big Data-t és annak különféle szolgáltatásait, a blog következő része a Big Data Tutorial-on megvilágítja a Big Data néhány fő kihívását.

Kihívások a nagy adatokkal

Hadd mondjak el néhány kihívást, amelyek a Big Data-val együtt járnak:

  1. Adat minőség - A probléma itt a 4thV azaz a verabilitás. Az itteni adatok nagyon rendetlenek, következetlenek és hiányosak. A piszkos adatok évente 600 milliárd dollárba kerültek a vállalatoknak az Egyesült Államokban.
  1. Felfedezés - A Big Data-on betekintést találni, mint tűt találni a szénakazalban. A petabájtnyi adat elemzése rendkívül hatékony algoritmusok segítségével a minták és a betekintések megtalálásához nagyon nehéz.
  1. Tárolás - Minél több adata van a szervezetnek, annál összetettebbé válhatnak a kezelésének problémái. Az itt felmerülő kérdés a „Hol tároljuk?”. Szükségünk van egy olyan tárolórendszerre, amely igény szerint könnyedén növelheti vagy csökkentheti.
  1. Analitika - A Big Data esetében legtöbbször nincs tudomásunk arról, hogy milyen adatokkal van dolgunk, ezért az adatok elemzése még nehezebb.
  1. Biztonság - Mivel az adatok hatalmas méretűek, a biztonság megőrzése újabb kihívás. Ez magában foglalja a felhasználói hitelesítést, a hozzáférés korlátozását egy felhasználó alapján, az adatelérési előzmények rögzítését, az adatok titkosításának megfelelő használatát stb.
  1. Tehetség hiánya - A nagy szervezetekben rengeteg Big Data projekt zajlik, de egy kifinomult csapat fejlesztőkből, adatkutatókból és elemzőkből áll, akik megfelelő mennyiségű domain-ismerettel is rendelkeznek.

Hadoop a mentéshez

Megváltónk van a Big Data kihívások kezelésére - annak Hadoop . A Hadoop egy nyílt forráskódú, Java-alapú programozási keretrendszer, amely támogatja a rendkívül nagy adathalmazok tárolását és feldolgozását elosztott számítási környezetben. Ez az Apache projekt része, amelyet az Apache Software Foundation támogat.

php telepítése a Windows 10-re

A Hadoop elosztott feldolgozásával nagy mennyiségű strukturált és strukturálatlan adatot hatékonyabban kezel, mint a hagyományos vállalati adattárház. A Hadoop lehetővé teszi alkalmazások futtatását több ezer árucikkes hardver csomópontú rendszereken, és több ezer terabájtos adatot kezel. A szervezetek azért veszik át a Hadoop-ot, mert ez egy nyílt forráskódú szoftver, és áruhardveren (az Ön személyi számítógépén) futtatható.A kezdeti költségmegtakarítás drámai, mivel az árucikk-hardver nagyon olcsó. A szervezeti adatok növekedésével menet közben további és újabb árucikk-hardvereket kell hozzáadnia a tároláshoz, ezért Hadoop gazdaságosnak bizonyul.Ezenkívül a Hadoop mögött egy robusztus Apache-közösség áll, amely továbbra is hozzájárul a fejlődéséhez.

Ahogy korábban ígértem, ezen a Big Data Tutorial blogon keresztül a lehető legnagyobb betekintést nyújtottam a Big Data-ba. Ezzel vége a Big Data Tutorialnak. A következő lépés a Hadoop megismerése és megtanulása. Nekünk van sorozat Hadoop bemutató blogok, amelyek részletesen megismerik a Hadoop teljes ökoszisztémáját.

Minden jót, Boldog Hadooping!

Most, hogy megértette, mi a Big Data, nézze meg a az Edureka, egy megbízható online tanulási vállalat, amelynek több mint 250 000 elégedett tanulóval rendelkező hálózata elterjedt az egész világon. Az Edureka Big Data Hadoop tanúsító tanfolyam segít a tanulóknak a HDFS, a fonal, a MapReduce, a Pig, a Hive, a HBase, az Oozie, a Flume és a Sqoop szakértőivé válni, valós idejű felhasználási esetek felhasználásával a kiskereskedelem, a szociális média, a repülés, az idegenforgalom és a pénzügy területén.

Van egy kérdésünk? Kérjük, említse meg a megjegyzések részben, és kapcsolatba lépünk Önnel.

Kapcsolódó hozzászólások: