Hogyan hozzunk létre Hadoop-fürtöt az Amazon EMR-lel?

Ebben a cikkben megvizsgáljuk az AWS EMR szolgáltatást, és közben megtanuljuk, hogyan lehet Hadoop-fürtöt létrehozni az Amazon EMR-lel?

Ebben a cikkben a létrehozásról Klaszter Az Amazon EMR segítségével megtudhatnánk, hogyan lehet egyszerűen futtatni és méretezni a Hadoop és Big Data alkalmazásokat. A következő hivatkozásokkal foglalkozunk ebben a cikkben,



Továbbhaladva ezzel Hogyan hozzunk létre Hadoop-fürtöt az Amazon EMR-lel?



Hogyan hozzunk létre Hadoop-fürtöt az Amazon EMR-lel?

Amikor keresünk valamit a Google-ben vagy a Yahoo-ban, akkor a másodperc töredéke alatt kapjuk meg a választ. Hogyan lehetséges, hogy a Google, a Yahoo és más keresőmotorok ilyen gyorsan visszaadják az eredményeket az egyre növekvő webről? A keresőmotorok bejárják az internetet, letöltik a weboldalakat és indexet hoznak létre az alábbiak szerint. Bármely tőlünk származó lekérdezéshez az index segítségével kiderítik, hogy mi az összes weboldal, amely tartalmazza a keresett szöveget. Ha megnézzük az alábbi indexet a jobb oldalon, egyértelműen megtudhatjuk, hogy van Hadoop, van 1., 2. és 3. weboldal.

Kép - Hadoop-klaszter létrehozása az Amazon EMR-rel - EdurekaAztán a PageRanking algoritmus használatos, amely azon alapul, hogy az oldalak hogyan kapcsolódnak ahhoz, hogy kiderüljön, melyik oldal jelenik meg felül és melyik alul. Az alábbi forgatókönyv szerint W1 a „legnépszerűbb”, mert mindenki hivatkozik rá, a W4 pedig a „legkevésbé népszerű”, mivel senki sem. Tehát a keresési eredmények között a W1 felül, a W4 alul látható.



A weblapok robbanásával ezek a keresőmotorok kihívásokat találtak az index létrehozására és a PageRanking számítások elvégzésére. Itt történt a Hadoop születése a Yahoo-ban, majd később az ASF (Apache Software Foundation) keretében FOSS (Free and Open Source Software) lett. Miután az ASF alatt sok vállalat kezdett érdeklődni a Hadoop iránt, és hozzájárult annak javításához. Hadoop indította el a Big Data forradalmat, de sok más szoftver, mint a Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume elkezdett fejlődni a Hadoop korlátozásainak és hiányosságainak kezelése érdekében.

A webes keresők elsőként alkalmazták a Hadoop-ot, de később sok használati eset kezdett fejlődni, ahogy egyre több adat keletkezett. Vegyünk egy példát egy e-kereskedelmi alkalmazásra, amelyet könyvek ajánlására használnak a felhasználók számára. Az alábbi ábra szerint az 1. felhasználó megvásárolta a 1. könyvet, a 2. könyvet és a 3. könyvet, a 2. felhasználó pedig néhány könyvet stb. Alaposan szemügyre véve megfigyelhetjük, hogy a user1 és a user2 hasonló ízlésűek, mint a book1 és a book2 vásárlásakor. Tehát a book3 ajánlható a user2-nek, a book4 pedig a user1-nek. Ezt hívják Collaborative Filteringnek, egyfajta Machine Learning algoritmusnak. Megfordíthatjuk az alábbi ábrát, és hasonló könyveket kaphatunk.

bináris-decimális átalakító java

A fenti esetben létrehoztunk indexet, a PageRanked-et és ajánlottuk a felhasználónak, az adatok mérete kicsi volt, így képessé váltuk az adatok vizualizálására, és ebből néhány eredményre következtetni. Mivel az adatok nagysága napról napra növekszik és kontroll nélkül megy, itt jönnek létre a Big Data eszközök, például a Hadoop.



A Hadoop rengeteg problémát megold, de a Hadoop és más Big Data szoftverek telepítése soha nem volt ilyen egyszerű feladat. Nagyon sok konfigurációs paraméter módosítható, például integrációs, telepítési és konfigurációs problémák. Itt vannak olyan vállalatok, mint a Cloudera, és a Databricks segítséget nyújtanak. Megkönnyítik a Big Data szoftver telepítését és kereskedelmi támogatást nyújtanak, például mondjuk valami történik a gyártásban. Az Amazon EMR (Elastic MapReduce) sokkal könnyebbé teszi a Hadoop stb. Használatának egyszerűségét. Az Elastic MapReduce elnevezés kissé téves elnevezés, mivel az EMR más elosztott számítási modelleket is támogat, mint például a Resilient Distributed Datasets, és nem csak a MapReduce.

Ebben az oktatóanyagban azt vizsgáljuk meg, hogyan állíthatunk be egy EMR-fürtöt az AWS Cloud-on, és a következő oktatóanyagban azt vizsgáljuk meg, hogyan futtassuk a Spark, Hive és más programokat a tetején.

Továbbhaladva ezzel Hogyan hozzunk létre Hadoop-fürtöt az Amazon EMR-lel?

Bemutató: EMR-fürt létrehozása az AWS-ben

1. lépés: Lépjen az EMR kezelő konzolra, és kattintson a „Fürt létrehozása” elemre. A konzolban a megszűnt fürt szintén két hónapig ingyenesen megtakarításra kerül. Ez lehetővé teszi a megszűnt fürt klónozását és újbóli létrehozását.

2. lépés : A gyorsbeállítások képernyőn kattintson a „Ugrás a speciális beállításokhoz” elemre a fürt sokkal részletesebb megadásához.

3. lépés: A Speciális beállítások lapon különféle szoftvereket választhatunk ki, amelyeket telepíteni kell az EMR fürtbe. SQL felülethez a Hive kiválasztható. Az adatfolyam nyelvi felületéhez a Pig választható. Az elosztott alkalmazáskoordinációhoz a ZooKeeper kiválasztható és így tovább. Ez a fül lehetővé teszi számunkra a lépések hozzáadását is, ami opcionális feladat. A lépések nagy adatfeldolgozási feladatok a MapReduce, Pig, Hive stb. Használatával. Hozzáadhatók ezen a lapon vagy később, miután a fürt létrejött. A „Next” gombra kattintva válassza ki az EMR-fürthöz szükséges hardvert.

4. lépés: Hadoop a master-worker architektúrát követi, ahol a master elvégzi az összes koordinációt, például a munka ütemezését és kijelölését, valamint az előrehaladásuk ellenőrzését, míg a munkavállalók az adatok feldolgozásának és tárolásának tényleges munkáját végzik. Az egyetlen mester egypontos kudarc (SPOF). Az Amazon EMR támogatja a multimestert a magas rendelkezésre álláshoz (HA). Az előző lépés lehetővé teszi egy több masterből álló fürt beállítását az EMR-ben.

Az EMR kétféle csomópontot engedélyez, a Core és a Task. A mag csomópontot az adatok feldolgozására és tárolására egyaránt használják, a feladat csomópontot pedig csak az adatok feldolgozására. Ehhez az oktatóanyaghoz csak egy magot és nem Feladat csomópontot választhatunk ki, mivel ez kevesebb költséggel jár számunkra. Válasszon is Spot példányok felett Igény szerint mivel a Spot példányok olcsóbbak. A Spot példányok elkapása az, hogy az AWS automatikusan megszüntetheti őket az a-val két perces értesítés . Ez jó a gyakorlat kedvéért, és néhány tényleges helyzetben is. A spot példányok automatikusan megszűnnek, mivel alacsony prioritásúak más példánytípusokkal szemben. Kattintson a „Tovább” gombra.

5. lépés: Adja meg a fürt nevét. és kattintson a „Tovább” gombra. Figyelje meg, hogy a „lezárásvédelem” alapértelmezés szerint be van kapcsolva, ez biztosítja, hogy az EMR-fürtöt ne töröljék véletlenül, mivel néhány lépést vezet be a fürt leállításakor.

6. lépés: A lapon megadják az EMR-fürt különféle biztonsági beállításait. Az EC2 példányba történő bejelentkezéshez ki kell választani a KeyPair-ot. Az EMR automatikusan létrehozza a megfelelő szerepeket és biztonsági csoportokat, és csatolja őket a fő és a dolgozó EC2 csomópontokhoz. Kattintson a „Fürt létrehozása” elemre.

A fürt létrehozása néhány percet vesz igénybe, mivel az EC2 példányokat fel kell vásárolni, és a különböző Big Data szoftvereket telepíteni és konfigurálni kell. A fürt állapota kezdetben „Induló” állapotban lenne, és továbblépne „Várakozó” állapotba. A „Várakozás” állapotban az EMR-klaszter egyszerűen arra vár, hogy különböző Big Data feldolgozási feladatokat nyújtsunk be, például MR, Spark, Hive stb.

Ezenkívül vegye észre az EC2 kezelői konzolt, és vegye figyelembe, hogy a fő és a dolgozó EC2 példányoknak futó állapotban kell lenniük. Ezek azok a Spot példányok, amelyeket az EMR fürt létrehozásának részeként hoztak létre. Ugyanez az EC2 megfigyelhető az EMR kezelő konzol Hardver lapján is. Vegye figyelembe, hogy a Hardver fülön a Spot EC2 példányok ára 0,032 $ / óra. A Spot példányok ára folyamatosan változik, és jóval alacsonyabb, mint az On-Demand EC2 árképzése.

só vs szakács vs báb

7. lépés: Most, hogy az EMR-fürt sikeresen hozzá lett adva, hozzáadhatók a Steps vagy a Big Data feldolgozó feladatok. Lépjen a Lépések fülre, kattintson a „Lépés hozzáadása” elemre, és válassza ki a lépés típusát (MR, Hive, Spark stb.). Ugyanezt fogjuk felfedezni a következő oktatóanyagban. Most kattintson a Mégse gombra.

8. lépés: Most, hogy láttuk, hogyan kell elindítani az EMR-t, láthatjuk, hogyan állítsuk le ugyanezt.

8.1 lépés: Kattintson a Befejezés gombra.

8.2 lépés: Amint azt az előző lépésekben említettük, a „Lezárás védelme” be van kapcsolva az EMR-fürtnél, és a Terminálás gomb le van tiltva. Kattintson a Módosítás gombra.

mi a példa a java-ban

8.3 lépés: Válassza az „Off” választógombot, és kattintson a pipára. Most a Befejezés gombot engedélyezni kell. Ez az EMR által bevezetett további lépés, csak annak biztosítása érdekében, hogy ne véletlenül töröljük az EMR-fürtöt.

Figyelje meg, hogy az EMR-fürt végződő állapotban lesz, és az EC2-k megszűnnek. Végül az EMR-fürt a Befejezett állapotba kerül, innen leáll az AWS-sel történő számlázásunk. Ügyeljen arra, hogy megszüntesse a fürtöt, nehogy további AWS-költségek merüljenek fel.

Következtetés

Ebben az oktatóanyagban láthattuk, hogyan lehet néhány percen belül elindítani az EMR fürtöt a webkonzolról (böngésző), ugyanez automatizálható a , AWS SDK vagy a AWS CloudFormation . Amint észrevette, az EMR-fürt létrehozása percek kérdése, és a Big Data feldolgozása azonnal elindítható, miután a feldolgozás megtörtént, a kimenet tárolható S3 vagy a DynamoDB és így a fürt leállítása a számlázás leállításához. Ezen árképzési modell és a könnyű használat miatt az EMR nagy sikert arat azokban, akik a Big Data feldolgozásával foglalkoznak. Nem kell hatalmas mennyiségű szervert vásárolni, licenceket szerezni a Big Data szoftverhez és fenntartani őket. ”

Tehát ez a srácok, ezzel eljutottunk a cikkünkhöz: Hogyan készítsünk Hadoop-fürtöt az Amazon EMR-rel?Abban az esetben, ha szakértelmet szeretne szerezni ebben a témában, az Edureka olyan tananyaggal állt elő, amely pontosan lefedi, hogy mire lenne szüksége a megoldás-építész vizsga feltöréséhez! Megtekintheti a kurzus részleteit kiképzés.

Ha bármilyen kérdése van ezzel a bloggal kapcsolatban, kérjük, tegye fel kérdését az alábbi megjegyzések részben, és mi örömmel válaszolunk Önnek leghamarabb.