A Hadoop 2.0 Cluster Architecture Federation áttekintése

Az Apache Hadoop 2.x jelentős fejlesztésekből áll a Hadoop 1.x-hez képest. Ez a blog a Hadoop 2.0 Cluster Architecture Federation és annak összetevőiről szól.

Hadoop 2.0 Cluster Architecture Federation

Bevezetés:

Ebben a blogban elmélyülök a Hadoop 2.0 Cluster Architecture Federation szövetségben. Az Apache Hadoop az Apache Hadoop 1.x megjelenése óta sokat fejlődött. Mint az előző blogomból tudod, hogy a a Master / Slave topológiát követi, ahol a NameNode mester démonként működik, és felelős más DataNodes nevű szolga csomópontok kezeléséért. Ebben az ökoszisztémában ez az egyetlen Master Daemon vagy a NameNode lesz a szűk keresztmetszet, és éppen ellenkezőleg, a vállalatoknak rendelkezniük kell a rendelkezésre álló NameNode-tal. Éppen ez az oka lett a HDFS Federation Architecture és HA (magas rendelkezésre állású) építészet .



Ebben a blogban a következő témákkal foglalkozom:



  • A jelenlegi HDFS architektúra
  • A jelenlegi HDFS architektúra korlátai
  • HDFS Szövetségi Építészet

A jelenlegi HDFS architektúra áttekintése:

Single Namespace HDFS Architecture - A Hadoop 2.0 Cluster Architecture Federation áttekintése - Edureka

Amint a fenti ábrán látható, a jelenlegi HDFS-nek két rétege van:



  • HDFS névtér (NS): Ez a réteg felel a könyvtárak, fájlok és blokkok kezeléséért. Ez biztosítja a Névtérrel kapcsolatos összes fájlrendszeri műveletet, például a fájlok vagy a fájlkönyvtárak létrehozását, törlését vagy módosítását.
  • Tárolási réteg: Két alapkomponensből áll.
    1. Blokkkezelés : A következő műveleteket hajtja végre:
      • Rendszeresen ellenőrzi a DataNodes szívverését, és kezeli a DataNode klasztertagságát.
      • Kezeli a blokkjelentéseket és fenntartja a blokk helyét.
      • Támogatja a blokk műveleteket, például a blokk helyének létrehozását, módosítását, törlését és kiosztását.
      • Fenntartja a replikációs tényezőt az egész fürtön.

2. Fizikai tárolás : DataNodes kezeli, amelyek felelősek az adatok tárolásáért, és ezáltal olvasási / írási hozzáférést biztosítanak a HDFS-ben tárolt adatokhoz.

Tehát a jelenlegi HDFS architektúra lehetővé teszi, hogy egyetlen névtér legyen egy fürt számára. Ebben az architektúrában egyetlen NameNode felelős a névtér kezeléséért. Ez az architektúra nagyon kényelmes és könnyen megvalósítható. Ezenkívül elegendő képességet biztosít a kis termelési klaszter igényeinek kielégítésére.

A jelenlegi HDFS korlátai:

Mint korábban tárgyaltuk, a jelenlegi HDFS valóban elég volt egy kis termelési klaszter igényeihez és felhasználási eseteihez. De a nagy szervezetek, mint a Yahoo, a Facebook talált néhány korlátozást, mivel a HDFS-klaszter ugrásszerűen növekedett. Vessünk egy gyors pillantást néhány korlátozásra:



megtalálja a legnagyobb számot a java tömbben
  1. A névtér nem méretezhető mint a DataNodes. Ezért csak annyi DataNode lehet a fürtben, amelyet egyetlen NameNode képes kezelni.
  2. A két réteg, azaz a Névtér réteg és a tárolóréteg az szorosan összekapcsolt ami nagyon megnehezíti a NameNode alternatív megvalósítását.
  3. A teljes Hadoop rendszer teljesítménye a áteresztőképesség a NameNode elemre. Ezért az összes HDFS-művelet teljes teljesítménye attól függ, hogy a NameNode hány feladatot képes kezelni egy adott időpontban.
  4. A NameNode a teljes névteret a RAM-ban tárolja a gyors hozzáférés érdekében. Ez korlátozásokhoz vezet a memória méret azaz azon névtér-objektumok (fájlok és blokkok) száma, amelyekkel egyetlen névtér-kiszolgáló képes megbirkózni.
  5. A HDFS-t telepítő szervezetek (szállítók) közül sok lehetővé teszi, hogy több szervezet (bérlő) használja a fürt névterét. Tehát nincs elkülönítve a névtér, ezért van nincs elszigeteltség a klasztert használó bérlői szervezetek között.

HDFS Szövetség architektúra:

  • A HDFS Federation Architecture-ben a névszolgáltatás vízszintes skálázhatósága van. Ezért több Névcsomópontunk van, amelyek egyesítettek, azaz egymástól függetlenek.
  • A DataNodes az alján található, azaz az alatta lévő tárolóréteg.
  • Minden DataNode regisztrál a fürt összes NameNode-jával.
  • A DataNodes periodikus szívveréseket továbbít, blokkol jelentéseket és kezeli a NameNodes parancsokat.

A HDFS Federation Architecture képi ábrázolása az alábbiakban látható:

Mielőtt továbblépnék, hadd szóljak röviden a fenti építészeti képről:

  • Több névtér van (NS1, NS2,…, NSn), és mindegyiket a megfelelő NameNode kezeli.
  • Minden névtérnek saját blokkkészlete van (az NS1-nek van 1-es poolja, az NSk-nek van pool-ja stb.).
  • Amint a képen látható, az 1. készlet (ég kék) blokkjai az DataNode 1, DataNode 2 és így tovább tárolódnak. Hasonlóképpen, az egyes blokkkészletek összes blokkja az összes DataNode-on található.

Most ismerjük meg részletesen a HDFS Szövetségi Építészet összetevőit:

Blokk medence:

A blokkkészlet nem más, mint egy adott névtérhez tartozó blokkok halmaza. Tehát van egy blokkkészletünk, ahol minden blokkkészletet a másiktól függetlenül kezelnek. Ez a függetlenség, ahol az egyes blokkkészleteket egymástól függetlenül kezelik, lehetővé teszi a névtér számára, hogy blokk-azonosítókat hozzon létre új blokkokhoz anélkül, hogy más névterekkel lenne összehangolva. Az összes blokkkészletben található adatblokkok az összes DataNode-ban tárolódnak. Alapvetően a blokkkészlet olyan absztrakciót biztosít, hogy a DataNodes-ben (például az Egyetlen névtér architektúrában) található adatblokkok csoportosíthatók legyenek egy adott névtérnek megfelelően.

Névtér kötet:

A névtér kötet nem más, mint névtér a blokkkészletével együtt. Ezért a HDFS-szövetségben több névtér-kötetünk van. Ez egy önálló menedzsment egység, vagyis minden névtér-kötet függetlenül működhet. Ha töröl egy NameNode vagy névteret, akkor a DataNode-okon található megfelelő blokkkészlet is törlődik.

Demo On Hadoop 2.0 Cluster Architecture Federation | Edureka

Azt hiszem, van egy nagyon jó ötleted a HDFS Federation Architecture-ről. Ez inkább elméleti koncepció, és az emberek általában nem használják a gyakorlati termelési rendszerben. A HDFS Federation esetében vannak olyan megvalósítási problémák, amelyek megnehezítik a telepítést. Ezért a HA (magas rendelkezésre állású) építészet az egyetlen kudarcpont probléma megoldása. Kitértem a HDFS HA ​​építészet a következő blogomban.

Most, hogy megértette a Hadoop HDFS Federation Architecture-t, nézze meg a az Edureka, egy megbízható online tanulási vállalat, amelynek több mint 250 000 elégedett tanulóval rendelkező hálózata elterjedt az egész világon. Az Edureka Big Data Hadoop tanúsító tanfolyam segít a tanulóknak a HDFS, a fonal, a MapReduce, a Pig, a Hive, a HBase, az Oozie, a Flume és a Sqoop szakértőivé válni, valós idejű felhasználási esetek felhasználásával a kiskereskedelem, a szociális média, a repülés, az idegenforgalom és a pénzügy területén.

Van egy kérdésünk? Kérjük, említse meg a megjegyzések részben, és mi kapcsolatba lépünk Önnel.

báb vs szakács vs dokkoló