Top 25 ETL-test interviewvragen & Antwoorden

Hieronder volgen veelgestelde vragen in interviews voor eerstejaarsstudenten en ervaren ETL-testers en ontwikkelaars.

1) Wat is ETL?

In de architectuur van datawarehousing is ETL een belangrijk onderdeel dat de gegevens voor elk bedrijfsproces beheert. ETL staat voor Extract, Transform en Load . Extract doet het proces van het lezen van gegevens uit een database. Transform zorgt voor het converteren van gegevens naar een formaat dat geschikt zou kunnen zijn voor rapportage en analyse. Terwijl laden het proces van het schrijven van de gegevens naar de doeldatabase doet.

2) Leg uit wat de ETL-testactiviteiten omvatten?

ETL-testen omvatten

Controleer of de gegevens correct worden getransformeerd volgens de zakelijke vereisten
Controleer of de geprojecteerde gegevens in het datawarehouse worden geladen zonder enige afkapping en gegevensverlies
Zorg ervoor dat de ETL-applicatie ongeldige gegevens rapporteert en vervangt door standaardwaarden
Zorg ervoor dat gegevens op het verwachte tijdsbestek worden geladen om de schaalbaarheid en prestaties te verbeteren

3) Wat zijn de soorten datawarehousing-toepassingen en wat is het verschil tussen datamining en datawarehousing?

De soorten datawarehouse-applicaties zijn

Info verwerking
Analytische verwerking
Datamining

Datamining kan worden gedefinieerd als het proces van het extraheren van verborgen voorspellende informatie uit grote databases en het interpreteren van de gegevens, terwijl datawarehousing mogelijk gebruik maakt van een datamijn voor een snellere analytische verwerking van de gegevens. Datawarehousing is het proces waarbij gegevens uit meerdere bronnen worden samengevoegd tot één gemeenschappelijke opslagplaats

4) Wat zijn de verschillende tools die in ETL worden gebruikt?

Cognos-beslissingsstroom
Oracle Warehouse Builder
Business Objects XI
SAS bedrijfsmagazijn
SAS Enterprise ETL-server

5) Wat is een feit? Wat zijn de soorten feiten?

Het is een centraal onderdeel van een meerdimensionaal model dat de te analyseren maatregelen bevat. Feiten zijn gerelateerd aan afmetingen.

Soorten feiten zijn

Bijkomende feiten
Semi-additieve feiten
Niet-additieve feiten

6) Leg uit wat zijn Cubes en OLAP Cubes?

Kubussen zijn gegevensverwerkingseenheden die bestaan uit feitentabellen en dimensies uit het datawarehouse. Het biedt multidimensionale analyse.

OLAP staat voor Online Analytics Processing, en OLAP-kubus slaat grote gegevens op in mutidimensionale vorm voor rapportagedoeleinden. Het bestaat uit feiten die als maatregelen worden genoemd, gecategoriseerd op basis van dimensies.

7) Leg uit wat het traceerniveau is en wat voor typen zijn?

Traceringsniveau is de hoeveelheid gegevens die is opgeslagen in de logbestanden. Traceringsniveau kan worden ingedeeld in twee Normaal en Verbose. Normaal niveau legt het traceerniveau op een gedetailleerde manier uit, terwijl uitgebreid de traceerniveaus op elke rij uitlegt.

8) Leg uit wat de kern van de feiten is?

Grain fact kan worden gedefinieerd als het niveau waarop de feitelijke informatie wordt opgeslagen. Het is ook bekend als Fact Granularity

9) Leg uit wat feitloos feitenschema is en wat zijn maatregelen?

Een feitentabel zonder metingen staat bekend als Feitenloze feitentabel. Het kan het aantal voorkomende gebeurtenissen bekijken. Het wordt bijvoorbeeld gebruikt om een gebeurtenis vast te leggen, zoals het aantal werknemers in een bedrijf.

De numerieke gegevens op basis van kolommen in een feitentabel staan bekend als Metingen

10) Leg uit wat transformatie is?

Een transformatie is een repository-object dat gegevens genereert, wijzigt of doorgeeft. Er zijn twee soorten transformatie: actief en passief

11) Leg het gebruik van Lookup Transformation uit?

De opzoektransformatie is handig voor

Een gerelateerde waarde uit een tabel halen met behulp van een kolomwaarde
Update langzaam veranderende afmetingentabel
Controleer of er al records in de tabel staan

12) Leg uit wat partitioneren, hash-partitioneren en round robin-partitioneren is?

Om de prestaties te verbeteren, worden transacties onderverdeeld, dit wordt Partitionering genoemd. Partioning stelt Informatica Server in staat om meerdere verbindingen met verschillende bronnen tot stand te brengen

De soorten partities zijn

Round-Robin partitionering:

Door informatica worden de gegevens gelijkmatig over alle partities verdeeld
In elke partitie waar het aantal te verwerken rijen ongeveer gelijk is, is deze partitie van toepassing

Hash-partitionering:

Met het oog op het partitioneren van sleutels om gegevens onder partities te groeperen, past de Informatica-server een hash-functie toe
Het wordt gebruikt om ervoor te zorgen dat de processen groepen rijen met dezelfde partitiesleutel in dezelfde partitie moeten worden gegarandeerd

13) Wat is het voordeel van het gebruik van DataReader Destination Adapter?

Het voordeel van het gebruik van de DataReader Destination Adapter is dat het een ADO-recordset (bestaande uit records en kolommen) in het geheugen vult en de gegevens van de DataFlow-taak vrijgeeft door de DataReader-interface te implementeren, zodat andere toepassingen de gegevens kunnen gebruiken.

14) Wat zijn de mogelijke manieren om de tabel bij te werken met SSIS (SQL Server Integration Service)?

Om de tabel bij te werken met SSIS zijn de mogelijke manieren:

Gebruik een SQL-commando
Gebruik een verzameltafel
Gebruik cache
Gebruik de scripttaak
Gebruik de volledige databasenaam voor het bijwerken als MSSQL wordt gebruikt

15) Als u een niet-OLEDB-bron (Object Linking and Embedding Database) heeft voor het opzoeken, wat zou u dan doen?

Als u een niet-OLEBD-bron heeft voor het zoeken, moet u Cache gebruiken om gegevens te laden en deze als bron te gebruiken

16) In welk geval gebruikt u dynamische cache en statische cache in verbonden en niet-verbonden transformaties?

Dynamische cache wordt gebruikt wanneer u hoofdtabel en langzaam veranderende afmetingen (SCD) type 1 moet bijwerken
Voor platte bestanden wordt een statische cache gebruikt

17) Leg uit wat de verschillen zijn tussen niet-verbonden en verbonden opzoeken?

Verbonden opzoeken	Niet-verbonden lookup
Connected lookup neemt deel aan mapping	- Het wordt gebruikt wanneer de opzoekfunctie wordt gebruikt in plaats van een expressie-transformatie tijdens het in kaart brengen
Er kunnen meerdere waarden worden geretourneerd	- Retourneert slechts één uitvoerpoort
Het kan worden verbonden met andere transformaties en retourneert een waarde	Een andere transformatie kan niet worden aangesloten
Statische of dynamische cache kan worden gebruikt voor verbonden lookup	Niet verbonden als enige statische cache
Connected lookup ondersteunt door de gebruiker gedefinieerde standaardwaarden	Niet-verbonden opzoeken ondersteunt geen door de gebruiker gedefinieerde standaardwaarden
In Connected Lookup kunnen meerdere kolommen uit dezelfde rij worden geretourneerd of in de cache voor dynamische opzoekingen worden ingevoegd	Niet-verbonden lookup duidt één retourpoort aan en retourneert één kolom uit elke rij

18) Leg uit wat de gegevensbronweergave is?

Een gegevensbronweergave maakt het mogelijk om het relationele schema te definiëren dat zal worden gebruikt in de databases van analyseservices. In plaats van rechtstreeks vanuit gegevensbronobjecten, worden dimensies en kubussen gemaakt op basis van gegevensbronweergaven.

19) Leg uit wat het verschil is tussen OLAP-tools en ETL-tools?

Het verschil tussen ETL en OLAP-tool is dat

ETL-tool is bedoeld voor het extraheren van gegevens uit de legacysystemen en het laden in een gespecificeerde database met een proces van het opschonen van gegevens.

Voorbeeld: datafase, Informatica etc.

Hoewel OLAP bedoeld is voor rapportagedoeleinden in OLAP-gegevens die beschikbaar zijn in een multidirectioneel model.

Voorbeeld: Business Objects, Cognos etc.

20) Hoe kunt u SAP-gegevens extraheren met Informatica?

Met de power connect optie extraheert u SAP data met behulp van informatica
Installeer en configureer de PowerConnect-tool
Importeer de bron in de Source Analyzer. Tussen Informatica en SAP Powerconnect fungeren als gateaway. De volgende stap is om de ABAP-code voor de mapping te genereren, zodat alleen informatica gegevens uit SAP kan halen
Om bronnen van externe systemen aan te sluiten en te importeren wordt Power Connect gebruikt

21) Wat is het verschil tussen Power Mart en Power Center?

Krachtcentrum	Power Mart
Stel dat u een enorme hoeveelheid gegevens verwerkt	Stel dat u een kleine hoeveelheid gegevens verwerkt
Het ondersteunt ERP-bronnen zoals SAP, people soft etc.	Het ondersteunt geen ERP-bronnen
Het ondersteunt lokale en wereldwijde repository	Het ondersteunt lokale repository
Het converteert lokale naar globale repository	Het heeft geen specificatie om lokaal naar globale repository te converteren

22) Leg uit wat een verzamelplaats is en wat het doel is van een verzamelplaats?

Gegevensstaging is een gebied waar u de gegevens tijdelijk op de datawarehouse-server bewaart. Data staging omvat de volgende stappen

Extractie van brongegevens en gegevenstransformatie (herstructurering)
Datatransformatie (data-opschoning, waardetransformatie)
Vervangende toetsopdrachten

23) Wat is een busschema?

Voor de verschillende bedrijfsprocessen om de gemeenschappelijke dimensies te identificeren, wordt het BUS-schema gebruikt. Het wordt geleverd met conforme afmetingen samen met een gestandaardiseerde definitie van informatie

24) Leg uit wat het opschonen van gegevens is?

Het opschonen van gegevens is een proces waarbij gegevens uit het datawarehouse worden verwijderd. Het verwijdert ongewenste gegevens zoals rijen met null-waarden of extra spaties.

25) Leg uit wat zijn schema-objecten?

Schema-objecten zijn de logische structuur die rechtstreeks verwijzen naar de databasegegevens. Schema-objecten omvatten tabellen, views, sequentiesynoniemen, indexen, clusters, functiepakketten en databasekoppelingen

26) Verklaar deze termen Sessie, Worklet, Mapplet en Workflow?

Mapplet: het rangschikt of creëert sets van transformatie
Worklet: het vertegenwoordigt een specifieke reeks gegeven taken
Workflow: het is een reeks instructies die de server vertellen hoe taken moeten worden uitgevoerd
Sessie: het is een set parameters die de server vertelt hoe gegevens van bronnen naar doel moeten worden verplaatst

Gratis pdf-download: Vragen en antwoorden over ETL-testinterviews