Alapvető Hadoop eszközök a nagy adatok összeomlásához

A Hadoop a híres szó az informatikai világban manapság, és ez a bejegyzés a Hadoop alapvető eszközeit írja le, amelyek megroppantják a Big Data-t.



Ma az informatikai világ legnépszerűbb kifejezése a „Hadoop”. Rövid időn belül Hadoop tömegesen növekedett, és hasznosnak bizonyult a különféle projektek nagy gyűjteményénél. A Hadoop közösség gyorsan fejlődik, és kiemelkedő szerepet játszik ökoszisztémájában.



Itt van egy áttekintés a Big Data kezeléséhez használt alapvető Hadoop-eszközökről.

a tabló adatkeverése nem működik

ambari



Ambari egy Apache projekt, amelyet a Hortonworks támogat. Web alapú GUI-t (Graphical User Interface) kínál varázsló szkriptekkel a klaszterek felállításához a legtöbb szabványos összetevővel. Az Ambari biztosítja, kezeli és ellenőrzi a Hadoop-munkák összes csoportját.

hdfs-logo

Az HDFS , az Apache licenc alatt terjesztett, alapvető keretrendszert kínál az adatgyűjtések felosztására több csomópont között. A HDFS-ben a nagy fájlok blokkokra vannak bontva, ahol több csomópont tartja az összes blokkot egy fájlból. Az állományrendszert úgy tervezték, hogy keverje a hibatűrést a nagy átviteli sebességgel. A HDFS blokkjai betöltődnek az állandó streaming biztosítása érdekében. A késleltetés minimalizálása érdekében általában nincsenek gyorsítótárban.



hbaselogo

HBase egy oszloporientált adatbázis-kezelő rendszer, amely a HDFS tetején fut. A HBase alkalmazások Java-ban íródnak, hasonlóan a MapReduce alkalmazáshoz. Táblázatkészletet tartalmaz, ahol minden táblázat sorokat és oszlopokat tartalmaz, mint egy hagyományos adatbázis. Amikor az adatok a nagy táblába esnek, a HBase tárolja az adatokat, megkeresi és automatikusan megosztja a táblázatot több csomópont között, hogy a MapReduce feladatok lokálisan futtathassák azokat. A HBase korlátozott garanciát vállal egyes helyi változásokra. Az egyetlen sorban bekövetkező változások egyszerre lehetnek sikeresek vagy sikertelenek.

hive

Ha már ismeri az SQL-t, akkor kihasználhatja a Hadoop használatát Kaptár . A Hive-ot néhány ember fejlesztette ki a Facebookon. Az Apache Hive szabályozza a bitek kibontásának folyamatát a HBase összes fájljából. Támogatja a Hadoop HDFS-jében és a kompatibilis fájlrendszerekben tárolt nagy adatkészletek elemzését. Ezenkívül biztosít egy HSQL (HiveSQL) nevű SQL-szerű nyelvet, amely bejut a fájlokba és kivonja a kódhoz szükséges kivonatokat.

sqoop

Apache Sqoop kifejezetten a hagyományos adatbázisok tömeges adatainak hatékony átvitele a Hive vagy a HBase rendszerbe. Arra is felhasználható, hogy adatokat gyűjtsön a Hadoop-ból, és exportálja azokat külső strukturált adattárházakba, például relációs adatbázisokba és vállalati adattárházakba. Az Sqoop egy parancssori eszköz, amely leképezi a táblákat és az adattárolási réteget, lefordítja a táblákat a HDFS, a HBase vagy a Hive konfigurálható kombinációjává.

Pig1

Amikor a tárolt adatok láthatók Hadoop számára, Apache Pig belemerül az adatokba, és futtatja a saját nyelvén írt kódot, Pig Pig néven. Pig Latin tele van absztrakciókkal az adatok kezeléséhez. A Pig szabványos funkciókkal rendelkezik olyan általános feladatokhoz, mint az adatok átlagolása, a dátumokkal való munka vagy a karakterláncok közötti különbségek keresése. A Pig azt is lehetővé teszi a felhasználó számára, hogy önállóan írjon nyelveket, az úgynevezett UDF (User Defined Function), amikor a standard funkciók elmaradnak.

zookeper

Állatgondozó egy központosított szolgáltatás, amely karbantartja, konfigurálja az információkat, nevet ad és elosztott szinkronizációt biztosít a fürtön keresztül. Fájlrendszer-szerű hierarchiát ír elő a fürtön, és tárolja a gépek összes metaadatát, így szinkronizálhatjuk a különböző gépek munkáját.

NoSQL

Néhány Hadoop-fürt integrálódik a rendszerbe NoSQL adattárak, amelyek saját mechanizmusukkal rendelkeznek az adatok csomópontfürtön keresztüli tárolására. Ez lehetővé teszi számukra az adatok tárolását és visszakeresését a NoSQL adatbázis összes szolgáltatásával, ezt követően a Hadoop felhasználható adatelemzési feladatok ütemezésére ugyanazon a fürtön.

mahoutlogo

Elefántápoló nagyszámú algoritmus, osztályozás és adatelemzés Hadoop-fürtbe történő szűrésének megvalósítására készült. Számos standard algoritmus, például a K-átlag, a Dirichelet, a párhuzamos minta és a Bayes-osztályozás készen áll arra, hogy Hadoop stílusú térképpel fusson az adatokon, és csökkentse.

Lucene, Java-ban írva és könnyen integrálható a Hadoop-tal, a Hadoop természetes kísérője. Ez egy eszköz strukturálatlan szöveg nagy blokkjainak indexelésére. Lucene kezeli az indexelést, míg Hadoop az egész fürtön elosztott lekérdezéseket. A Lucene-Hadoop funkciók gyorsan fejlődnek, ahogy új projekteket fejlesztenek.

Avro

Euro egy sorosító rendszer, amely az adatokat a megértés sémájával együtt kapcsolja össze. Minden csomag JSON adatstruktúrával rendelkezik. A JSON elmagyarázza, hogyan lehet elemezni az adatokat. A JSON fejléce határozza meg az adatok felépítését, ahol elkerülhető, hogy a mezők megjelöléséhez extra címkéket kell írni az adatokba. A kimenet lényegesen kompaktabb, mint az olyan hagyományos formátumok, mint az XML.

A munka egyszerűsíthető lépésekre bontásával. A projekt több Hadoop-munkára való felosztása után Oozie megfelelő sorrendben kezdi el feldolgozni őket. A DAG (Directed Acyclic Graph) által meghatározott munkafolyamatot kezeli, és nincs szükség időszerű monitorozásra.

GIS Tools

A földrajzi térképekkel való munka nagy feladat a Hadoopot futtató klaszterek számára. A GIS ( Földrajzi információs rendszer ) eszközök a Hadoop projektekhez a legjobb Java alapú eszközöket adaptálták a földrajzi információk megértéséhez, hogy a Hadoop segítségével fussanak. Az adatbázisok most már koordináták segítségével kezelhetik a földrajzi lekérdezéseket, a kódok pedig telepíthetik a térinformatikai eszközöket.

Az összes adat összegyűjtése egyenlő tárolással és elemzéssel. Apache Flume „speciális ügynököket” küld a HDFS-ben tárolt információk összegyűjtése érdekében. Az összegyűjtött információk lehetnek naplófájlok, Twitter API vagy weboldaladatok. Ezek az adatok láncolhatók és elemzéseknek vethetők alá.

Spark

Szikra a következő generáció, amely nagyjából úgy működik, mint a memóriában tárolt adatokat feldolgozó Hadoop. Célja, hogy az adatelemzés futtatható és írható legyen egy általános végrehajtási modellel. Ez optimalizálhatja az önkényes operátordiagramokat és támogathatja a memóriában történő számítást, ami lehetővé teszi az adatok gyorsabb lekérdezését, mint a lemezalapú motorok, például a Hadoop.

SQL a Hadoopon

Amikor a fürt összes adata gyors ad-hoc lekérdezésre van szükség, új Hadoop-feladat írható, de ez eltart egy ideig. Amikor a programozók ezt gyakrabban kezdték el csinálni, előálltak az SQL egyszerű nyelvén írt eszközökkel. Ezek az eszközök gyors hozzáférést biztosítanak az eredményekhez.

Apache Drill

Az Apache Drill alacsony késleltetésű ad-hoc lekérdezéseket kínál számos és változatos adatforráshoz, beleértve a beágyazott adatokat is. A Google Dremel ihlette Drill-t úgy tervezték, hogy 10 000 szerverre méretezhesse, és másodpercek alatt lekérdezze a petabájt adatot.

Ezek a Hadoop alapvető eszközei a Big Data összeomlásához!

Van egy kérdésünk? Kérjük, említse meg őket a megjegyzések részben, és mi kapcsolatba lépünk Önnel.

Kapcsolódó hozzászólások:

Gyakorlati okok a Hadoop 2.0 elsajátítására