MongoDB a Hadoop-tal és a kapcsolódó Big Data technológiákkal

A MongoDB, a Hadoop és a kapcsolódó Big Data Technologies hatékony kombinációja, amely megoldást kínál az elemzés összetett helyzetére.

A relációs adatbázisok hosszú ideig elegendőek voltak a kis vagy közepes adatkészletek kezeléséhez. De az adatok növekedésének óriási sebessége megvalósíthatatlanná teszi az adattárolás és -keresés hagyományos megközelítését. Ezt a problémát újabb technológiák oldják meg, amelyek képesek kezelni a Big Data-t. A Hadoop, a Hive és a Hbase a népszerű platform az ilyen típusú nagy adathalmazok működtetésére. A NoSQL vagy a Nem csak az SQL adatbázisok, például a MongoDB mechanizmust biztosítanak az adatok vesztes konzisztencia modellben történő tárolására és visszakeresésére, olyan előnyökkel, mint:



  • Vízszintes méretezés
  • Magasabb rendelkezésre állás
  • Gyorsabb hozzáférés

A MongoDB mérnöki csapata a közelmúltban frissítette a Hadoop MongoDB csatlakozóját, hogy jobban integrálódjon. Ez megkönnyíti a Hadoop felhasználók számára:



  • Integrálja a valós idejű adatokat a MongoDB-től a Hadoop-tal a mély, offline elemzéshez.
  • A Connector a Hadoop MapReduce elemző erejét tárja fel a MongoDB élő alkalmazásadataira, gyorsabban és hatékonyabban növelve az értéket a big data-ból.
  • A csatlakozó a MongoDB-t Hadoop-kompatibilis fájlrendszerként mutatja be, amely lehetővé teszi, hogy a MapReduce job közvetlenül olvasható legyen a MongoDB-ről, anélkül, hogy először másolná azt HDFS-be (Hadoop fájlrendszer), ezáltal feleslegessé téve a Terabájtnyi adat áthelyezését a hálózaton keresztül.
  • A MapReduce feladatok szűrőként adhatják át a lekérdezéseket, így elkerülve a teljes gyűjtemények beolvasását, és kihasználhatják a MongoDB gazdag indexálási képességeinek előnyeit is, beleértve a földrajzi, a szöveges keresés, a tömb, az összetett és a ritka indexeket.
  • A MongoDB-től olvasva a Hadoop-feladatok eredményei visszaírhatók a MongoDB-be is, a valós idejű működési folyamatok és az eseti lekérdezések támogatása érdekében.

Hadoop és MongoDB használati esetek:

Nézzünk meg egy magas szintű leírást arról, hogy a MongoDB és Hadoop hogyan illeszkedhetnek össze egy tipikus Big Data-veremben. Elsősorban a következőkkel rendelkezünk:

hogyan kell használni a várakozást és értesítést Java-ban
  • A MongoDB használt „Operatív” valós idejű adattár
  • Hadoop for offline kötegelt adatfeldolgozás és elemzés

Olvassa el, hogy megtudja, miért és hogyan használták a MongoDB-t olyan vállalatok és szervezetek, mint az Aadhar, a Shutterfly, a Metlife és az eBay .



A MongoDB alkalmazása Hadoop segítségével a kötegelt összesítésben:

A legtöbb esetben a MongoDB által biztosított beépített összesítési funkció elegendő az adatok elemzéséhez. Bizonyos esetekben azonban lényegesen összetettebb adatok összesítésére lehet szükség. Itt tudja a Hadoop hatékony keretet biztosítani a komplex elemzésekhez.

Ebben a forgatókönyvben:

  • Az adatok a MongoDB-ből származnak, és a Hadoop-on belül egy vagy több MapReduce-feladaton keresztül kerülnek feldolgozásra. Az adatok a MapReduce munkahelyeken belül más helyekről is beszerezhetők egy több adatforrásból álló megoldás kifejlesztése érdekében.
  • Ezeknek a MapReduce-feladatoknak a kimenete ezután visszaírható a MongoDB-hez egy későbbi szakaszban történő lekérdezéshez és esetleges elemzéshez.
  • A MongoDB tetejére épített alkalmazások ezért felhasználhatják a kötegelt elemzésből származó információkat a végső kliens számára történő bemutatáshoz vagy más downstream szolgáltatások engedélyezéséhez.

Hadoop Mongo DB összesítés



Alkalmazás az adattárolásban:

Tipikus gyártási beállítás esetén az alkalmazás adatai több adattárolóban is megtalálhatók, mindegyiknek megvan a saját lekérdezési nyelve és funkciója. A forgatókönyvek összetettségének csökkentése érdekében a Hadoop adattárházként használható, és központosított adattárként működik a különböző forrásokból származó adatok számára.

Ilyen esetekben:

  • Időszakos MapReduce feladatok betöltési adatok MongoDB a Hadoop.
  • Amint a MongoDB és más források adatai rendelkezésre állnak a Hadoop-ban, a nagyobb adatkészlet lekérdezhető.
  • Az adatelemzőknek most lehetőségük van a MapReduce vagy a Pig használatával olyan munkák létrehozására, amelyek lekérdezik a MongoDB-ből származó adatokat tartalmazó nagyobb adatkészleteket.

hozz létre ec2 példányt pillanatképből

A MongoDB mögött dolgozó csapat biztosította, hogy a Big Data technológiákkal, például a Hadoop-val való gazdag integrációjával képes jól integrálódni a Big Data Stack-be, és segít megoldani néhány összetett építészeti kérdést az adattárolás, visszakeresés, feldolgozás, összesítés és raktározás terén. . Maradjon velünk a következő karrierlehetőségekről szóló bejegyzésünkön, akik Hadoopot vállalják a MongoDB-vel. Ha már dolgozik a Hadoop-tal, vagy csak felveszi a MongoDB-t, nézze meg a MongoDB számára kínált tanfolyamokat