Informatica ETL: Kezdő útmutató az ETL megértéséhez az Informatica PowerCenter használatával

Az Informatica ETL fogalmainak és az ETL különböző szakaszainak megértése és egy alkalmazási eset gyakorlása, amely magában foglalja az alkalmazottak adatbázisát.

Az Informatica ETL célja, hogy a felhasználók számára biztosítsa nemcsak az adatok forrásforrásokból történő kinyerését és az adattárházba történő bevitelét, hanem egy közös platformot is biztosít a felhasználók számára, hogy integrálják adataikat a különböző platformokról és alkalmazásokból.Ez a kereslet növekedéséhez vezetett .Mielőtt az Informatica ETL-ről beszélnénk, először értsük meg, miért van szükségünk az ETL-re.



Miért van szükségünk ETL-re?

Minden vállalatezeknek a napoknak muszáj nagy mennyiségű adatot dolgozzon fel különböző forrásokból. Ezeket az adatokat úgy kell feldolgozni, hogy betekintő információkat nyújtsanak az üzleti döntések meghozatalához. De az ilyen adatoknak gyakran a következő kihívások vannak:



  • A nagyvállalatok rengeteg adatot generálnak, és az ilyen hatalmas adatcsomó bármilyen formátumú lehet. Több adatbázisban és sok strukturálatlan fájlban érhetők el.
  • Ezeket az adatokat össze kell gyűjteni, összevonni, összehasonlítani és zökkenőmentes egészként működtetni kell. De a különböző adatbázisok nem kommunikálnak jól!
  • Számos szervezet valósított meg interfészeket ezen adatbázisok között, de a következő kihívásokkal kellett szembenézniük:
    • Minden adatbázis-párnak egyedi felületre van szüksége.
    • Ha egy adatbázist megváltoztat, sok interfészt frissíteni kell.

Az alábbiakban láthatja a szervezet különböző adatbázisait és azok kölcsönhatásait:

Szervezet különféle adatkészlete - Informatica - ETL - Edureka

A szervezet különböző részlegei által használt különféle adatbázisok



Az adatbázisok különböző kölcsönhatásai egy szervezetben

Amint fentebb láthattuk, egy szervezetnek különféle részlegei lehetnek különböző adatbázisokkal, és a köztük lévő interakció nehezen megvalósítható, mivel különféle interakciós interfészeket kell létrehozni számukra. E kihívások leküzdésére a lehető legjobb megoldás a Adatintegráció amely lehetővé tenné a különböző adatbázisokból és formátumokból származó adatok egymással való kommunikációját. Az alábbi ábra segít megérteni, hogyan válik az Adatintegrációs eszköz közös interfésszé a különböző adatbázisok közötti kommunikációhoz.

Különböző adatbázisok kapcsolódnak az adatintegráción keresztül



De az adatintegráció végrehajtására különböző folyamatok állnak rendelkezésre. E folyamatok közül az ETL a legoptimálisabb, leghatékonyabb és legmegbízhatóbb folyamat. Az ETL révén a felhasználó nemcsak be tudja hozni az adatokat különböző forrásokból, hanem elvégezheti a különféle műveleteket az adatokon, mielőtt ezeket az adatokat a végcélig tárolja.

A piacon elérhető különféle elérhető ETL eszközök közül az Informatica PowerCenter a piac vezető adatintegrációs platformja. Az Informatica PowerCenter interaktív, közel 500 000 platform és alkalmazás kombinációján végzett teszteléssel, a lehető legszélesebb skálán működik az eltérő szabványokkal, rendszerekkel és alkalmazásokkal. Most értsük meg az Informatica ETL folyamatának lépéseit.

Informatika ETL Informatica építészet | Informatica PowerCenter bemutató | Edureka

Ez az Edureka Informatica oktatóanyag segít megérteni az ETL alapjait az Informatica Powercenter segítségével.

Az Informatica ETL folyamat lépései:

Mielőtt áttérnénk az Informatica ETL különféle lépéseire, legyen egy áttekintésünk az ETL-ről. Az ETL-ben az extrakció az, ahol az adatokat homogén vagy heterogén adatforrásokból nyerik ki, az átalakítás, ahol az adatokat átalakítják, hogy a megfelelő formátumban vagy struktúrában tárolják őket lekérdezés és elemzés céljából, valamint a betöltést, ahol az adatokat betöltik a végső céladatbázisba, működési adattár, adattár vagy adattárház. Az alábbi kép segít megérteni, hogyan zajlik az Informatica ETL folyamata.

ETL folyamatáttekintés

Amint fentebb látható, az Informatica PowerCenter különféle forrásokból származó adatokat tölthet be, és egyetlen adattárházba tárolhatja őket. Most nézzük meg az Informatica ETL folyamatának lépéseit.

Az Informatica ETL folyamat főként 4 lépésből áll, most már értsük meg őket alaposan:

  1. Kivonat vagy rögzítés
  2. Súroljon vagy tisztítson
  3. Átalakítás
  4. Betöltés és indexelés

1. Kivonat vagy rögzítés: Amint az az alábbi képen látható, a Capture or Extract az Informatica ETL folyamat első lépése.Az a folyamat, amikor pillanatképet kap a kiválasztott adathalmazról a forrásból, amelyet be kell tölteni az adattárházba. A pillanatkép az adatbázisban található adatok csak olvasható statikus nézete. Az Extract folyamat kétféle lehet:

  • Teljes kivonat: Az adatokat teljesen kivonják a forrásrendszerből, és nem kell nyomon követni az adatforrás legutóbbi sikeres kivonása óta bekövetkezett változásokat.
  • Növényi kivonat: Ez csak azokat a változásokat rögzíti, amelyek a legutóbbi teljes kivonat óta történtek.

1. fázis: Kivonat vagy rögzítés

2. Súroljon vagy tisztítson: Ez a folyamat a forrásból származó adatok tisztítását különféle mintafelismerési és mesterséges intelligencia-technikák alkalmazásával az előrehaladott adatok minőségének javítása érdekében. Általában az olyan hibák, mint a helyesírási hibák, a hibás dátumok, a helytelen mezőhasználat, a nem egyező címek, a hiányzó adatok, az ismétlődő adatok, az ellentmondásokkiemelve, majd javítva vagy eltávolítvaebben a lépésben. Ezenkívül olyan műveleteket is végeznek, mint a dekódolás, az újraformázás, az időbélyegzés, az átalakítás, a kulcsgenerálás, az egyesítés, a hibadetektálás / naplózás, a hiányzó adatok felkutatása. Amint az az alábbi képen látható, ez az Informatica ETL folyamat második lépése.

2. fázis: Adatok súrolása vagy tisztítása

3. Átalakítás: Amint az az alábbi képen látható, ez az Informatica ETL folyamat harmadik és legfontosabb lépése. A transzformációk az adatok átalakítása a forrásrendszer formátumából az Adattár csontvázába. A transzformációt alapvetően olyan szabálykészlet képviseletére használják, amelyek meghatározzák az adatáramlást és az adatok betöltését a célokba. Ha többet szeretne megtudni az átalakításról, nézze meg Átalakulások az Informaticában Blog.

3. fázis: Átalakulás

4. Terhelés és index: Ez az Informatica ETL folyamat utolsó lépése, amint az az alábbi képen látható. Ebben a szakaszban az átalakított adatokat elhelyezzük a raktárban, és indexeket hozunk létre az adatok számára. Az adatbetöltésnek két fő típusa áll rendelkezésre a betöltési folyamat alapján:

  • Teljes vagy ömlesztett terhelés :Az adatbetöltési folyamat, amikor a legelső alkalommal végezzük el. A job a teljes adatmennyiséget kivonja egy forrás táblából, és a szükséges átalakítások végrehajtása után betölti a cél adattárházba. Ez egy egyszeri futtatás lesz, majd a változtatásokat önmagában rögzítik az inkrementális kivonat részeként.
  • Növekményes vagy Frissítés : Csak a módosított adatok frissülnek a célban, majd teljes terhelés következik. A módosításokat rögzítjük, ha összehasonlítjuk a létrehozott vagy módosított dátumot a munka utolsó futtatásának dátumával.A módosított adatok önmagukban származnak a forrásból, és frissülnek a célban anélkül, hogy a meglévő adatokat befolyásolnák.

4. fázis: Betöltés és indexelés

Ha megértette az Informatica ETL folyamatát, most jobb helyzetben vagyunk, hogy értékeljük, miért az Informatica a legjobb megoldás ilyen esetekben.

Az Informatica ETL jellemzői:

Az összes adatintegrációs és ETL művelethez az Informatica biztosított Informatica PowerCenter . Nézzük meg most az Informatica ETL néhány főbb jellemzőjét:

  • Lehetőséget nyújt számos transzformációs szabály megadására egy GUI-val.
  • Programokat generál az adatok átalakításához.
  • Több adatforrás kezelése.
  • Támogatja az adatok kinyerését, tisztítását, összesítését, átszervezését, átalakítását és betöltését.
  • Automatikusan generál programokat az adatok kinyerésére.
  • Nagy sebességű céladattárházak betöltése.

Az alábbiakban bemutatunk néhány tipikus esetet, amelyekben az Informatica PowerCentert használják:

  1. Adatmigrálás:

Egy vállalat új elszámolható kérelmet vásárolt a számviteli részlegéhez. A PowerCenter áthelyezheti a meglévő fiókadatokat az új alkalmazásba. Az alábbi ábra segít megérteni, hogyan használhatja az Informatica PowerCentert az adatok migrálásához. Az Informatica PowerCenter az adattovábbítási folyamat során adózási, számviteli és egyéb törvényesen előírt célokból könnyen megőrizheti az adatsort.

Adatok áttelepítése egy régebbi számviteli alkalmazásból egy új alkalmazásba

  1. Alkalmazásintegráció:

Tegyük fel, hogy az A vállalat megvásárolja a B vállalatot. Tehát a konszolidáció előnyeinek elérése érdekében a Company-B számlázási rendszerét be kell építeni a Company-A számlázási rendszerébe, amely az Informatica PowerCenter használatával könnyen elvégezhető. Az alábbi ábra segít megérteni, hogyan használhatja az Informatica PowerCentert az alkalmazások integrálásához a vállalatok között.

Az alkalmazások integrálása a vállalatok között

  1. Adattárolás

Az adattárházakban tipikusan szükséges műveletek a következők:

  • A sok forrásból származó információk elemzéshez való egyesítése.
  • Adatok áthelyezése sok adatbázisból az Adattárházba.

A fenti tipikus esetek mindegyike könnyen elvégezhető az Informatica PowerCenter használatával. Az alábbiakban láthatja, hogy az Informatica PowerCentert különféle adatbázisokból - például az Oracle, a SalesForce stb. - származó adatok összevonására használják, és az Informatica PowerCenter által létrehozott közös adattárházba viszik.

Adatok Különböző adatbázisokból integrálva egy közös adattárházba

  1. Középprogram

Tegyük fel, hogy egy kiskereskedelmi szervezet az SAP R3-at használja kiskereskedelmi alkalmazásaihoz, az SAP BW-t pedig az adattárházaként. Közvetlen kommunikáció e két alkalmazás között a kommunikációs interfész hiánya miatt nem lehetséges. Az Informatica PowerCenter azonban használható köztes szoftverként e két alkalmazás között. Az alábbi képen láthatja annak architektúráját, hogy az Informatica PowerCentert hogyan használják középprogramként az SAP R / 3 és az SAP BW között. Az SAP R / 3 alkalmazásai továbbítják adataikat az ABAP keretrendszerbe, majd továbbítják azokat azSAP értékesítési pont (POS) és SAPSzolgáltatási számlák (BOS). Az Informatica PowerCenter segíti az adatok átadását ezekből a szolgáltatásokból az SAP Business Warehouse (BW) -be.

Az Informatica PowerCenter mint middleware az SAP kiskereskedelmi architektúrában

Noha látta az Informatica ETL néhány fő jellemzőjét és tipikus forgatókönyvét, remélem, megértette, miért az Informatica PowerCenter a legjobb eszköz az ETL folyamathoz. Lássuk most az Informatica ETL használati esetét.

Felhasználási eset: Két táblázat összekapcsolása egyetlen részletes táblázat megszerzéséhez

Tegyük fel, hogy az ügyfelek számára bölcs szállítást kíván biztosítani az alkalmazottak számára, mivel az osztályok különböző helyeken találhatók. Ehhez először tudnia kell, hogy az egyes alkalmazottak melyik osztályhoz tartoznak, és az osztály helyét. Az alkalmazottak adatait azonban különböző táblákban tárolják, és össze kell kapcsolnia a Department adatait egy meglévő adatbázissal, amely tartalmazza az összes alkalmazott adatait. Ehhez először mindkét táblát betöltjük az Informatica PowerCenterbe, elvégezzük az adatok forrásminősítő átalakítását, és végül a részleteket a céladatbázisba töltjük..Fogjunk hozzá:

1. lépés : Nyissa meg a PowerCenter Designer alkalmazást.

Az alábbiakban az Informatica PowerCenter Designer kezdőlapja található.

Most csatlakozzunk a tárhoz. Ha még nem konfigurálta az adattárakat, vagy bármilyen problémával szembesül, ellenőrizheti a mi oldalunkat Blog.

2. lépés: Kattintson a jobb gombbal az adattárra, és válassza a Csatlakozás lehetőséget.

A Csatlakozás lehetőségre kattintva a rendszer kéri az alábbi képernyőt, és kéri az adattár felhasználónevét és jelszavát.

Miután csatlakozott a tárához, meg kell nyitnia a munkamappát az alábbiak szerint:

A rendszer kéri a leképezés nevét. Adja meg a leképezés nevét, és kattintson az OK gombra (ezt neveztem el: m-MUNKAVÁLLALÓ ).

3. lépés: Töltsük be most a táblázatokat az adatbázisból, kezdje azáltal, hogy csatlakozik az adatbázishoz. Ehhez válassza a Források lapot és az Importálás az adatbázisból lehetőséget az alábbiak szerint:

Az Importálás az adatbázisból gombra kattintva a rendszer az alábbiak szerint kéri az adatbázist, valamint annak felhasználónévét és jelszavát a csatlakozáshoz (az Oracle adatbázist és a HR felhasználót használom).

Kattintson a Connect gombra a csatlakozáshoz az adatbázishoz.

4. lépés: Ahogy csatlakozni szeretnék a MUNKAVÁLLALÓK és OSZTÁLY táblázatokat, kiválasztom őket, és rákattintok az OK gombra.
A források az alábbiak szerint láthatók lesznek a térképkészítő munkaterületén.

5. lépés: Hasonlóképpen töltse be a céltáblát a leképezésbe.

6. lépés: Most kapcsoljuk össze a Forrás minősítőt és a céltáblát. Kattintson a jobb gombbal a munkaterület bármely üres pontjára, és válassza az Autolink lehetőséget az alábbiak szerint:

Az alábbiakban található az Autolink által összekapcsolt térkép.

7. lépés: Mivel mindkét táblát össze kell kapcsolnunk a Forrásminősítővel, válassza ki az Osztály tábla oszlopait, és dobja be a Forrásminősítőbe az alábbiak szerint:

különbség felülbírálás és túlterhelés között

Dobja az oszlop értékeit a Forrásminősítőbe SQ_EMPLOYEES .

Az alábbiakban a frissített Forrásminősítő található.

8. lépés: Kattintson duplán a Forrásminősítőre az átalakítás szerkesztéséhez.

Megjelenik az Átalakítás szerkesztése felugró ablak az alábbiak szerint. Kattintson a Tulajdonságok fülre.

9. lépés: A Tulajdonságok lapon kattintson a UserDefined Join sor Érték mezőjére.

A következő SQL szerkesztőt fogja kapni:

10. lépés: Belép EMPLOYEES.DEPARTMENT_ID = DEPARTMENT.DEPARTMENT_ID feltételként az SQL mező mindkét táblájának összekapcsolásához, és kattintson az OK gombra.

11. lépés: Most kattintson az SQL Query sorra az SQL létrehozásához a csatlakozáshoz, az alábbiak szerint:

A következő SQL szerkesztőt kapja: Kattintson az SQL létrehozása opcióra.

A következő SQL jön létre az előző lépésben megadott feltételhez. Kattintson az OK gombra.

12. lépés: Kattintson az Alkalmaz és az OK gombra.

Az alábbiakban elkészült a feltérképezés.

Befejeztük annak tervezését, hogy miként kell az adatokat a forrásból a célba továbbítani. A tényleges adatátvitel azonban még várat magára, és ehhez a PowerCenter Workflow Design alkalmazást kell használnunk. A munkafolyamat végrehajtása az adatok átviteléhez vezet a forrásból a célba. Ha többet szeretne megtudni a munkafolyamatról, ellenőrizze a Informatica oktatóanyag: Munkafolyamat Blog

13. lépés: LMost indítsuk el a Workflow Manager alkalmazást a W ikonra kattintva az alábbiak szerint:

Az alábbiakban a munkafolyamat-tervező honlapja található.

14. lépés: Hozzunk létre most egy új munkafolyamatot a térképezéshez. Kattintson a Munkafolyamat fülre, és válassza az Opció létrehozása lehetőséget.

Megkapja az alábbi előugró ablakot. Adja meg a munkafolyamat nevét, és kattintson az OK gombra.

15. lépés : A munkafolyamat létrehozása után megkapjuk a Start ikont a Workflow Manager munkaterületen.

Adjunk hozzá egy új munkamenetet a munkaterülethez az alábbiak szerint: kattintson a munkamenet ikonjára és kattintson a munkaterületre:

Kattintson a munkaterületre a Munkamenet ikon elhelyezéséhez.

16. lépés: A munkamenet hozzáadása közben ki kell választania a fenti lépésekben létrehozott és mentett leképezést. (M-EMPLOYEE néven mentettem el).

Az alábbiakban látható a munkaterület a munkamenet ikon hozzáadása után.

17. lépés : Most, hogy létrehozott egy új munkamenetet, össze kell kapcsolnunk a start feladattal. Megtehetjük, ha a linkfeladat ikonra kattintunk az alábbiak szerint:

Először kattintson a Start ikonra, majd a Munkamenet ikonra a hivatkozás létrehozásához.

Az alábbiakban egy összekapcsolt munkafolyamat látható.

18. lépés: Most, hogy befejeztük a tervezést, kezdjük el a munkafolyamatot. Kattintson a Munkafolyamat fülre, és válassza a Munkafolyamat indítása lehetőséget.

Munkafolyamat-kezelő a Workflow Monitor elindításával.

19. lépés : A munkafolyamat elindítása után a Workflow Manager automatikusan elinduléslehetővé teszi a munkafolyamat végrehajtásának figyelemmel kísérését. Az alábbiakban látható, hogy a Munkafolyamat-figyelő a munkafolyamat állapotát mutatja.

20. lépés: A munkafolyamat állapotának ellenőrzéséhez kattintson a jobb gombbal a munkafolyamatra, és válassza az Futtatási tulajdonságok letöltése parancsot az alábbiak szerint:

Válassza a Forrás / célstatisztika fület.

Az alábbiakban láthatja az átalakítás után a forrás és a cél között áthelyezett sorok számát.

Az eredményt ellenőrizheti az alábbi céltáblázat ellenőrzésével is.

Remélem, hogy ez az Informatica ETL blog hasznos volt ahhoz, hogy megismerje az ETL fogalmait az Informatica használatával, és elegendő érdeklődést váltott ki az Ön számára, hogy többet megtudjon az Informatica-ról.

Ha hasznosnak találta ezt a blogot, megnézheti az Informatica Tutorial blogsorozatunkat is , Informatica bemutató: Az Informatica „Inside Out” megértése és Informatica átalakulások: Az Informatica PowerCenter szíve és lelke . Abban az esetben, ha az Informatica tanúsítással kapcsolatos részletekre kíváncsi, megnézheti blogunkat Informatica tanúsítás: Csak annyit kell tudni .

Ha már úgy döntött, hogy az Informatica-t karrierként választja, akkor azt javasoljuk, hogy vessen egy pillantást a mi oldalunkra tanfolyam oldal. Az Edurekában található Informatica tanúsító képzés az Informatica szakértőjévé tesz Önnek élő oktatói vezetésű gyakorlatokon és gyakorlati képzésen, valós élethasználati esetek felhasználásával.