Bevezetés az Apache Hive-ba

Az Apache Hive egy adattároló csomag, amely a Hadoop tetejére épült, és adatelemzésre szolgál. A Hive olyan felhasználóknak szól, akik jól érzik magukat az SQL-ben.



Az Apache Hive egy adattároló csomag, amely a Hadoop tetejére épült, és adatelemzésre szolgál. A Hive olyan felhasználóknak szól, akik jól érzik magukat az SQL-ben. Hasonló az SQL-hez és HiveQL-nek hívják, amelyet strukturált adatok kezelésére és lekérdezésére használnak. Az Apache Hive a Hadoop összetettségének elvont összetételéhez szokott. Ez a nyelv lehetővé teszi a hagyományos térkép / redukció programozók számára, hogy csatlakoztassák egyedi leképezőiket és szűkítőiket. A Hive népszerű tulajdonsága, hogy nincs szükség a Java megtanulására.



A Hive, egy Hadoopon alapuló, nyílt forráskódú, béta-bájt dátumú raktározási keretrendszert fejlesztette ki a Facebook Adatinfrastruktúra csapata. A Hive szintén az egyik olyan technológia, amelyet a Facebook követelményeinek kielégítésére használnak. A Hive nagyon népszerű a belső felhasználók számára a Facebookon, és több ezer felhasználó futtatására használják a fürtön több száz felhasználóval, sokféle alkalmazáshoz. A Hive-Hadoop klaszter a Facebookon több mint 2PB nyers adatot tárol, és rendszeresen napi 15 TB adatot tölt be.

Vizsgáljuk meg néhány jellemzőjét, amelyek népszerűvé és felhasználóbaráttá teszik:



  • Lehetővé teszi a programozók számára, hogy egyedi Mappereket és Reduktorokat csatlakoztassanak.
  • Adattárház infrastruktúrával rendelkezik.
  • Eszközöket biztosít az ETL egyszerű adatkezeléséhez.
  • QL nevű SQL-szerű lekérdezési nyelvet határoz meg.

Apache Hive használati eset - Facebook:

Kaptár használati eset - Facebook

A Hive bevezetése előtt a Facebooknak számos kihívással kellett szembenéznie, mivel a létrehozott adatok nagysága nőtt vagy inkább felrobbant, ami igazán megnehezítette azok kezelését. A hagyományos RDBMS nem tudta kezelni a nyomást, és ennek eredményeként a Facebook kereste a jobb lehetőségeket. Ennek a küszöbön álló kérdésnek a megoldására a Facebook kezdetben megpróbálta használni a Hadoop MapReduce alkalmazást, de a programozás nehézségei és az SQL kötelező ismeretei miatt nem praktikus megoldássá tette. A kaptár lehetővé tette számukra, hogy legyőzzék az előttük álló kihívásokat.

A Hive segítségével most a következőket tudják elvégezni:



  • Az asztalok részletekben és vödrökben is elhelyezhetők
  • A séma rugalmassága és evolúciója
  • JDBC / ODBC illesztőprogramok állnak rendelkezésre
  • A kaptár táblák közvetlenül meghatározhatók a HDFS-ben
  • Bővíthető - típusok, formátumok, függvények és szkriptek

Kaptár használati esete az egészségügyben:

Hol használjuk a kaptárat?

Az Apache Hive a következő helyeken használható:

  • Adatbányászat
  • Napló feldolgozása
  • Dokumentum indexelés
  • Az üzleti intelligenciával szembesülő ügyfél
  • Prediktív modellezés
  • Hipotézis tesztelés

Hive építészet:

apache-szikra a hadoop mapreduce-hoz képest

A kaptár a következő fő összetevőkből áll:

  • Metastore - A metaadatok tárolása.
  • JDBC / ODBC - Lekérdező fordító és végrehajtó motor az SQL lekérdezések MapReduce sorrenddé alakítására.
  • SerDe és ObjectInspectors - Adatformátumokhoz és -típusokhoz.
  • UDF / UDAF - A felhasználó által definiált funkciókhoz.
  • Ügyfelek - Hasonló a MySQL parancssorhoz és a webes felhasználói felülethez.

A kaptár összetevői:

Metastore:

A Metastore tárolja a táblák, partíciók és oszlopok adatait. A Metastore tárolásának 3 módja van: Beágyazott, Helyi és Távoli. Leginkább a Remote Metastore-t használják gyártási módban.

A kaptár korlátai:

A kaptár a következő korlátozásokkal rendelkezik, és ilyen körülmények között nem használható:

  • Nem online tranzakciók feldolgozására készült.
  • Elfogadható késést biztosít az interaktív adatböngészéshez.
  • Nem kínál valós idejű lekérdezéseket és sorszintű frissítéseket.
  • A kaptár lekérdezéseinek késleltetése általában nagyon magas.

Van egy kérdésünk? Említse meg őket a megjegyzések részben, és mi kapcsolatba lépünk Önnel.

Kapcsolódó hozzászólások:

Hive parancsok