Mély merülés disznóba

Ez a blogbejegyzés mélyen elmerül a disznóban és annak funkcióiban. Megtalál egy bemutatót arról, hogyan lehet a Hadoopon dolgozni a Pig segítségével, Java-függőség nélkül.



Az egyik legnagyobb oka annak, hogy a Hadoop népszerűsége az utóbbi időben az egekbe szöktetett, az a tény, hogy a Pig és a Hive funkciók, mint például a Pig és a Hive, a tetején futnak, lehetővé téve a nem programozók számára a korábban a Java programozók számára kizárólagos funkciókat. Ezek a tulajdonságok a Hadoop szakemberek iránti növekvő igény következményei voltak. A Hadoop nem Java háttérrel rendelkező szakemberei által használt egyéb szolgáltatások a Flume, a Sqoop, a HBase és az Oozie.



Ha meg szeretné érteni, miért nincs szüksége Java-ra a Hadoop elsajátításához, nézze meg ezt a blogot .

1Sertéselőzmények



Értsük meg, hogyan működnek ezek a funkciók.

Mindannyian tudjuk, hogy a programozási ismeretek elengedhetetlenek a MapReduce kódok írásához. De mi van, ha rendelkezem egy eszközzel, amely képes a kódolásra, ha csak a részleteket adnám meg? A disznó ott mutatja ki izomerejét. Pig a Pig Latin nevű platformot használja, amely a Java MapReduce idiómából absztrakciót készít egy jelöléssé, amely a MapReduce programozást magas szintre teszi, hasonlóan az SQL-hez az RDBMS rendszerek számára. A Pig Latin MapReduce programmal írt kódok automatikusan konvertálódnak egyenértékű MapReduce függvényekké. Nem fantasztikus? Egy másik észbontó tény, hogy a Java 200 sorának cseréjéhez csak 10 sertéssorra van szükség.



10 sor Pig = 200 Java sor

Ez nem csak azt jelenti, hogy a nem Java szakemberek a Hadoop-ot használják, hanem arról is tanúskodnak, hogy a Pig-t ugyanannyi technikai fejlesztő használja.

Ezenkívül, ha saját MapReduce kódot szeretne írni, akkor ezt bármelyik nyelven megteheti, például Perl, Python, Ruby vagy C. Néhány alapvető művelet, amelyet bármely adatkészleten elvégezhetünk a Pig használatával, a Csoport, Csatlakozás, Szűrés és Rendezés . Ezek a műveletek strukturált, strukturálatlan és félig strukturált adatokon is elvégezhetők. Ad-hoc módon biztosítják a MapReduce munkák létrehozását és végrehajtását nagyon nagy adathalmazokon.

Ezután értsük meg Hive-ot. Ez egy nyílt forráskódú, peta-byte méretű Hadoop-alapú adattárházi keretrendszer az adatok összegzéséhez, lekérdezéséhez és elemzéséhez. A Hive SQL-szerű felületet biztosít a Hadoop számára. A Hive segítségével fájlokat olvashat és írhat a Hadoopon, és futtathatja a jelentéseket egy BI eszközből. A Hadoop néhány jellemző funkciója:

egyszerű egyesítés rendezési program c ++ nyelven

Hadd mutassak egy bemutatót a Pig on Clickstream adathalmaz segítségével
Ezeket a Clickstream adatokat felhasználjuk, és átalakításokat, csatlakozásokat és csoportosításokat hajtunk végre.

A ClickStream egy egérkattintássorozat, amelyet a felhasználó az internet elérése közben hajt végre, különös tekintettel arra, hogy figyelemmel kíséri az ember marketing célú érdeklődését. Főleg olyan online kiskereskedelmi webhelyek használják, mint a Flipkart és az Amazon, akik nyomon követik tevékenységét ajánlások generálása érdekében. Az általunk használt Clickstream adatkészlet a következő mezőket tartalmazza:

1. A webalkalmazás által támogatott nyelv típusa

2. Böngésző típusa

3. Csatlakozás típusa

4. Országazonosító

5. Időbélyegző

6. URL

7. Felhasználói állapot

8. A felhasználó típusa

A megfelelő mezőkkel így fog kinézni.

Az alábbiakban felsoroljuk azokat a böngészőtípusokat, amelyeket különböző emberek használtak, amikor egy adott webhelyen szörföltek. A lista között vannak olyan böngészők, mint az Internet Explorer, a Google Chrome, a Lynx és így tovább.

Az internetkapcsolat típusa lehet LAN / Modem / Wifi. A teljes listát lásd az alábbi képen:

A következő képen megtalálja azoknak az országoknak a listáját, ahonnan a webhely vonzotta a közönséget, valamint azonosítójukkal együtt.

Miután összegyűjtöttük az összes adatsort, el kell indítanunk a Pig's Grunt shell-t, amelyet a Pig parancsok futtatásához indítunk.

Az első dolog, amit meg kell tennünk a Grunt shell elindításakor, az az, hogy a Clickstream adatokat betöltjük Pig relációjába. A reláció nem más, mint egy táblázat. Az alábbiakban bemutatjuk azt a parancsot, amelyet egy HDFS-ben található fájl betöltésére használunk Pig relációjába.

A reláció sémáját ellenőrizhetjük a click_stream leírással.

Most hozzá kell adnunk a referenciafájlokat, amelyek részletesen tartalmazzák az azonosítókkal rendelkező országok listáját és a különböző böngészőtípusokat, valamint azonosítóikat.

Most két referenciafájlunk van, de kapcsolatuk kialakításához össze kell őket kapcsolni.
Futtatjuk a connection_ref parancsot a kapcsolat típusának jelzésére.

Most, hogy van működő kapcsolatunk és kialakított kapcsolatunk, megmutatjuk, hogyan alakíthatjuk át ezeket az adatokat.
A Clickstream egyes rekordjaihoz egy új rekordot hozunk létre, más formátumban, vagyis az átalakított adatokkal. Az új formátum olyan mezőket tartalmaz, mint a TimeStamp, a Böngésző típusa, az Országazonosítók és még néhány.

Szűrő műveletet hajthatunk végre a Big Data levágására. A különböző típusú felhasználók rendszergazdák, vendégek vagy botok. Bemutatónkban leszűrtem a vendégek listáját.

Ha emlékszel, az Országazonosító megtalálható a Clickstream-ben, és betöltöttünk egy country_ref fájlt, amely tartalmazza az országok nevét és azonosítóit. Így elvégezhetünk egy Join műveletet a két fájl között, és egyesíthetjük az adatokat, hogy betekintést nyerjünk.

Ha összekapcsoltuk az adatokat, akkor a Csoportosítással megtudhatjuk a különböző országokat, ahonnan a felhasználók tartózkodnak. Miután megvan ezek az adatok, elvégezhetünk egy Count műveletet, hogy azonosítsuk az adott országból származó felhasználók számát.

Nem rakétatudomány, hogy betekintést nyerjen a Big Data-ból. Ez csak néhány a sok általam bevezetett funkció közül, és olyan eszközökkel, mint a Hive, a Hbase, az Oozie, a Sqoop és a Flume, az adatok kincse még várat magára. Tehát azok, akik visszatartják magukat a Hadoop elsajátításától, ideje megváltozni.

Van egy kérdésünk? Kérjük, említse meg őket a megjegyzések részben, és mi kapcsolatba lépünk Önnel.

Kapcsolódó hozzászólások:

4 módszer az R és a Hadoop együttes használatára

Minden a Cloudera tanúsított fejlesztőjéről az Apache Hadoop számára