Top 25 ETL-test interviewvragen & Antwoorden

Anonim

Hieronder volgen veelgestelde vragen in interviews voor eerstejaarsstudenten en ervaren ETL-testers en ontwikkelaars.

1) Wat is ETL?

In de architectuur van datawarehousing is ETL een belangrijk onderdeel dat de gegevens voor elk bedrijfsproces beheert. ETL staat voor Extract, Transform en Load . Extract doet het proces van het lezen van gegevens uit een database. Transform zorgt voor het converteren van gegevens naar een formaat dat geschikt zou kunnen zijn voor rapportage en analyse. Terwijl laden het proces van het schrijven van de gegevens naar de doeldatabase doet.

2) Leg uit wat de ETL-testactiviteiten omvatten?

ETL-testen omvatten

  • Controleer of de gegevens correct worden getransformeerd volgens de zakelijke vereisten
  • Controleer of de geprojecteerde gegevens in het datawarehouse worden geladen zonder enige afkapping en gegevensverlies
  • Zorg ervoor dat de ETL-applicatie ongeldige gegevens rapporteert en vervangt door standaardwaarden
  • Zorg ervoor dat gegevens op het verwachte tijdsbestek worden geladen om de schaalbaarheid en prestaties te verbeteren

3) Wat zijn de soorten datawarehousing-toepassingen en wat is het verschil tussen datamining en datawarehousing?

De soorten datawarehouse-applicaties zijn

  • Info verwerking
  • Analytische verwerking
  • Datamining

Datamining kan worden gedefinieerd als het proces van het extraheren van verborgen voorspellende informatie uit grote databases en het interpreteren van de gegevens, terwijl datawarehousing mogelijk gebruik maakt van een datamijn voor een snellere analytische verwerking van de gegevens. Datawarehousing is het proces waarbij gegevens uit meerdere bronnen worden samengevoegd tot één gemeenschappelijke opslagplaats

4) Wat zijn de verschillende tools die in ETL worden gebruikt?

  • Cognos-beslissingsstroom
  • Oracle Warehouse Builder
  • Business Objects XI
  • SAS bedrijfsmagazijn
  • SAS Enterprise ETL-server

5) Wat is een feit? Wat zijn de soorten feiten?

Het is een centraal onderdeel van een meerdimensionaal model dat de te analyseren maatregelen bevat. Feiten zijn gerelateerd aan afmetingen.

Soorten feiten zijn

  • Bijkomende feiten
  • Semi-additieve feiten
  • Niet-additieve feiten

6) Leg uit wat zijn Cubes en OLAP Cubes?

Kubussen zijn gegevensverwerkingseenheden die bestaan ​​uit feitentabellen en dimensies uit het datawarehouse. Het biedt multidimensionale analyse.

OLAP staat voor Online Analytics Processing, en OLAP-kubus slaat grote gegevens op in mutidimensionale vorm voor rapportagedoeleinden. Het bestaat uit feiten die als maatregelen worden genoemd, gecategoriseerd op basis van dimensies.

7) Leg uit wat het traceerniveau is en wat voor typen zijn?

Traceringsniveau is de hoeveelheid gegevens die is opgeslagen in de logbestanden. Traceringsniveau kan worden ingedeeld in twee Normaal en Verbose. Normaal niveau legt het traceerniveau op een gedetailleerde manier uit, terwijl uitgebreid de traceerniveaus op elke rij uitlegt.

8) Leg uit wat de kern van de feiten is?

Grain fact kan worden gedefinieerd als het niveau waarop de feitelijke informatie wordt opgeslagen. Het is ook bekend als Fact Granularity

9) Leg uit wat feitloos feitenschema is en wat zijn maatregelen?

Een feitentabel zonder metingen staat bekend als Feitenloze feitentabel. Het kan het aantal voorkomende gebeurtenissen bekijken. Het wordt bijvoorbeeld gebruikt om een ​​gebeurtenis vast te leggen, zoals het aantal werknemers in een bedrijf.

De numerieke gegevens op basis van kolommen in een feitentabel staan ​​bekend als Metingen

10) Leg uit wat transformatie is?

Een transformatie is een repository-object dat gegevens genereert, wijzigt of doorgeeft. Er zijn twee soorten transformatie: actief en passief

11) Leg het gebruik van Lookup Transformation uit?

De opzoektransformatie is handig voor

  • Een gerelateerde waarde uit een tabel halen met behulp van een kolomwaarde
  • Update langzaam veranderende afmetingentabel
  • Controleer of er al records in de tabel staan

12) Leg uit wat partitioneren, hash-partitioneren en round robin-partitioneren is?

Om de prestaties te verbeteren, worden transacties onderverdeeld, dit wordt Partitionering genoemd. Partioning stelt Informatica Server in staat om meerdere verbindingen met verschillende bronnen tot stand te brengen

De soorten partities zijn

Round-Robin partitionering:

  • Door informatica worden de gegevens gelijkmatig over alle partities verdeeld
  • In elke partitie waar het aantal te verwerken rijen ongeveer gelijk is, is deze partitie van toepassing

Hash-partitionering:

  • Met het oog op het partitioneren van sleutels om gegevens onder partities te groeperen, past de Informatica-server een hash-functie toe
  • Het wordt gebruikt om ervoor te zorgen dat de processen groepen rijen met dezelfde partitiesleutel in dezelfde partitie moeten worden gegarandeerd

13) Wat is het voordeel van het gebruik van DataReader Destination Adapter?

Het voordeel van het gebruik van de DataReader Destination Adapter is dat het een ADO-recordset (bestaande uit records en kolommen) in het geheugen vult en de gegevens van de DataFlow-taak vrijgeeft door de DataReader-interface te implementeren, zodat andere toepassingen de gegevens kunnen gebruiken.

14) Wat zijn de mogelijke manieren om de tabel bij te werken met SSIS (SQL Server Integration Service)?

Om de tabel bij te werken met SSIS zijn de mogelijke manieren:

  • Gebruik een SQL-commando
  • Gebruik een verzameltafel
  • Gebruik cache
  • Gebruik de scripttaak
  • Gebruik de volledige databasenaam voor het bijwerken als MSSQL wordt gebruikt

15) Als u een niet-OLEDB-bron (Object Linking and Embedding Database) heeft voor het opzoeken, wat zou u dan doen?

Als u een niet-OLEBD-bron heeft voor het zoeken, moet u Cache gebruiken om gegevens te laden en deze als bron te gebruiken

16) In welk geval gebruikt u dynamische cache en statische cache in verbonden en niet-verbonden transformaties?

  • Dynamische cache wordt gebruikt wanneer u hoofdtabel en langzaam veranderende afmetingen (SCD) type 1 moet bijwerken
  • Voor platte bestanden wordt een statische cache gebruikt

17) Leg uit wat de verschillen zijn tussen niet-verbonden en verbonden opzoeken?

Verbonden opzoeken

Niet-verbonden lookup

  • Connected lookup neemt deel aan mapping

- Het wordt gebruikt wanneer de opzoekfunctie wordt gebruikt in plaats van een expressie-transformatie tijdens het in kaart brengen

  • Er kunnen meerdere waarden worden geretourneerd

- Retourneert slechts één uitvoerpoort

  • Het kan worden verbonden met andere transformaties en retourneert een waarde
  • Een andere transformatie kan niet worden aangesloten
  • Statische of dynamische cache kan worden gebruikt voor verbonden lookup
  • Niet verbonden als enige statische cache
  • Connected lookup ondersteunt door de gebruiker gedefinieerde standaardwaarden
  • Niet-verbonden opzoeken ondersteunt geen door de gebruiker gedefinieerde standaardwaarden
  • In Connected Lookup kunnen meerdere kolommen uit dezelfde rij worden geretourneerd of in de cache voor dynamische opzoekingen worden ingevoegd
  • Niet-verbonden lookup duidt één retourpoort aan en retourneert één kolom uit elke rij

18) Leg uit wat de gegevensbronweergave is?

Een gegevensbronweergave maakt het mogelijk om het relationele schema te definiëren dat zal worden gebruikt in de databases van analyseservices. In plaats van rechtstreeks vanuit gegevensbronobjecten, worden dimensies en kubussen gemaakt op basis van gegevensbronweergaven.

19) Leg uit wat het verschil is tussen OLAP-tools en ETL-tools?

Het verschil tussen ETL en OLAP-tool is dat

ETL-tool is bedoeld voor het extraheren van gegevens uit de legacysystemen en het laden in een gespecificeerde database met een proces van het opschonen van gegevens.

Voorbeeld: datafase, Informatica etc.

Hoewel OLAP bedoeld is voor rapportagedoeleinden in OLAP-gegevens die beschikbaar zijn in een multidirectioneel model.

Voorbeeld: Business Objects, Cognos etc.

20) Hoe kunt u SAP-gegevens extraheren met Informatica?

  • Met de power connect optie extraheert u SAP data met behulp van informatica
  • Installeer en configureer de PowerConnect-tool
  • Importeer de bron in de Source Analyzer. Tussen Informatica en SAP Powerconnect fungeren als gateaway. De volgende stap is om de ABAP-code voor de mapping te genereren, zodat alleen informatica gegevens uit SAP kan halen
  • Om bronnen van externe systemen aan te sluiten en te importeren wordt Power Connect gebruikt

21) Wat is het verschil tussen Power Mart en Power Center?

Krachtcentrum

Power Mart

  • Stel dat u een enorme hoeveelheid gegevens verwerkt
  • Stel dat u een kleine hoeveelheid gegevens verwerkt
  • Het ondersteunt ERP-bronnen zoals SAP, people soft etc.
  • Het ondersteunt geen ERP-bronnen
  • Het ondersteunt lokale en wereldwijde repository
  • Het ondersteunt lokale repository
  • Het converteert lokale naar globale repository
  • Het heeft geen specificatie om lokaal naar globale repository te converteren

22) Leg uit wat een verzamelplaats is en wat het doel is van een verzamelplaats?

Gegevensstaging is een gebied waar u de gegevens tijdelijk op de datawarehouse-server bewaart. Data staging omvat de volgende stappen

  • Extractie van brongegevens en gegevenstransformatie (herstructurering)
  • Datatransformatie (data-opschoning, waardetransformatie)
  • Vervangende toetsopdrachten

23) Wat is een busschema?

Voor de verschillende bedrijfsprocessen om de gemeenschappelijke dimensies te identificeren, wordt het BUS-schema gebruikt. Het wordt geleverd met conforme afmetingen samen met een gestandaardiseerde definitie van informatie

24) Leg uit wat het opschonen van gegevens is?

Het opschonen van gegevens is een proces waarbij gegevens uit het datawarehouse worden verwijderd. Het verwijdert ongewenste gegevens zoals rijen met null-waarden of extra spaties.

25) Leg uit wat zijn schema-objecten?

Schema-objecten zijn de logische structuur die rechtstreeks verwijzen naar de databasegegevens. Schema-objecten omvatten tabellen, views, sequentiesynoniemen, indexen, clusters, functiepakketten en databasekoppelingen

26) Verklaar deze termen Sessie, Worklet, Mapplet en Workflow?

  • Mapplet: het rangschikt of creëert sets van transformatie
  • Worklet: het vertegenwoordigt een specifieke reeks gegeven taken
  • Workflow: het is een reeks instructies die de server vertellen hoe taken moeten worden uitgevoerd
  • Sessie: het is een set parameters die de server vertelt hoe gegevens van bronnen naar doel moeten worden verplaatst

Gratis pdf-download: Vragen en antwoorden over ETL-testinterviews