ETL versus ELT: moet de verschillen kennen

Inhoudsopgave:

Anonim

Wat is ETL?

ETL is een afkorting van Extract, Transform en Load. In dit proces extraheert een ETL-tool de gegevens uit verschillende RDBMS-bronsystemen en transformeert vervolgens de gegevens zoals het toepassen van berekeningen, aaneenschakelingen, enz. En laadt de gegevens vervolgens in het datawarehouse-systeem.

In ETL zijn gegevens stromen van de bron naar het doel. In ETL zorgt de proces-transformatie-engine voor eventuele gegevenswijzigingen.

Wat is ELT?

ELT is een andere methode om naar de toolbenadering van gegevensverplaatsing te kijken. In plaats van de gegevens te transformeren voordat ze zijn geschreven, laat ELT het doelsysteem de transformatie uitvoeren. De gegevens werden eerst naar het doel gekopieerd en vervolgens op hun plaats getransformeerd.

ELT wordt meestal gebruikt met no-Sql-databases zoals Hadoop-cluster, data-apparaat of cloudinstallatie.

BELANGRIJK VERSCHIL

  • ETL staat voor Extract, Transform en Load terwijl ELT staat voor Extract, Load, Transform.
  • ETL laadt gegevens eerst in de staging-server en vervolgens in het doelsysteem, terwijl ELT gegevens rechtstreeks in het doelsysteem laadt.
  • ETL-model wordt gebruikt voor on-premise, relationele en gestructureerde gegevens, terwijl ELT wordt gebruikt voor schaalbare gestructureerde en ongestructureerde gegevensbronnen in de cloud.
  • ETL wordt voornamelijk gebruikt voor een kleine hoeveelheid gegevens, terwijl ELT wordt gebruikt voor grote hoeveelheden gegevens.
  • ETL biedt geen ondersteuning voor data lake, terwijl ELT ondersteuning voor data lake biedt.
  • ETL is eenvoudig te implementeren, terwijl ELT niche-vaardigheden vereist om te implementeren en te onderhouden.

Verschil tussen ETL en ELT

ETL- en ELT-processen verschillen in de volgende parameters:

Parameters ETL ELT
Werkwijze De gegevens worden getransformeerd op de staging-server en vervolgens overgebracht naar Datawarehouse DB. Gegevens blijven in de database van het Datawarehouse.
Code gebruik Gebruikt voor
  • Rekenintensieve transformaties
  • Kleine hoeveelheid gegevens
Gebruikt voor grote hoeveelheden gegevens
Transformatie Transformaties worden gedaan in ETL-server / staging-gebied. Transformaties worden uitgevoerd in het doelsysteem
Tijdsbelasting Gegevens worden eerst in enscenering geladen en later in het doelsysteem geladen. Tijds intensief. Gegevens worden slechts één keer in het doelsysteem geladen. Sneller.
Tijdtransformatie ETL-proces moet wachten tot de transformatie is voltooid. Naarmate de gegevensgrootte toeneemt, neemt de transformatietijd toe. In het ELT-proces is snelheid nooit afhankelijk van de grootte van de gegevens.
Tijdsonderhoud Het heeft veel onderhoud nodig omdat u gegevens moet selecteren om te laden en te transformeren. Weinig onderhoud omdat gegevens altijd beschikbaar zijn.
Implementatiecomplexiteit In een vroeg stadium gemakkelijker te implementeren. Om ELT te implementeren, moet de procesorganisatie een grondige kennis van tools en deskundige vaardigheden hebben.
Ondersteuning voor datawarehouse ETL-model dat wordt gebruikt voor on-premise, relationele en gestructureerde gegevens. Gebruikt in schaalbare cloudinfrastructuur die gestructureerde, ongestructureerde databronnen ondersteunt.
Data Lake-ondersteuning Ondersteund niet. Maakt het gebruik van Data Lake met ongestructureerde data mogelijk.
Complexiteit Het ETL-proces laadt alleen de belangrijke gegevens, zoals geïdentificeerd tijdens het ontwerp. Dit proces omvat ontwikkeling van de output naar achteren en het laden van alleen relevante gegevens.
Kosten Hoge kosten voor kleine en middelgrote bedrijven. Lage instapkosten bij gebruik van online Software as a Service-platforms.
Opzoeken In het ETL-proces moeten zowel feiten als dimensies beschikbaar zijn in de verzamelplaats. Alle gegevens zijn beschikbaar omdat uitpakken en laden in één enkele handeling plaatsvinden.
Aggregaties De complexiteit neemt toe met de extra hoeveelheid gegevens in de dataset. De kracht van het doelplatform kan een aanzienlijke hoeveelheid gegevens snel verwerken.
Berekeningen Overschrijft bestaande kolom of moet de dataset toevoegen en naar het doelplatform pushen. Voeg eenvoudig de berekende kolom toe aan de bestaande tabel.
Looptijd Het proces wordt al meer dan twee decennia gebruikt. Het is goed gedocumenteerd en de beste praktijken zijn gemakkelijk beschikbaar. Relatief nieuw concept en complex om te implementeren.
Hardware De meeste tools hebben unieke hardwarevereisten die duur zijn. Het zijn van SaaS-hardwarekosten is geen probleem.
Ondersteuning voor ongestructureerde gegevens Ondersteunt meestal relationele gegevens Ondersteuning voor ongestructureerde gegevens die direct beschikbaar zijn.