Hier zijn veelgestelde interviewvragen voor data-ingenieurs voor zowel eerstejaars als ervaren kandidaten om de juiste baan te vinden.
1) Leg Data Engineering uit.
Data engineering is een term die wordt gebruikt in big data. Het richt zich op de toepassing van dataverzameling en onderzoek. De gegevens die uit verschillende bronnen worden gegenereerd, zijn slechts onbewerkte gegevens. Data engineering helpt om deze ruwe data om te zetten in bruikbare informatie.
2) Wat is datamodellering?
Datamodellering is de methode om complex softwareontwerp als een diagram te documenteren, zodat iedereen het gemakkelijk kan begrijpen. Het is een conceptuele weergave van data-objecten die zijn gekoppeld tussen verschillende data-objecten en de regels.
3) Maak een lijst van verschillende soorten ontwerpschema's in Gegevensmodellering
Er zijn hoofdzakelijk twee soorten schema's bij het modelleren van gegevens: 1) Sterschema en 2) Sneeuwvlokschema.
4) Maak onderscheid tussen gestructureerde en ongestructureerde gegevens
Hieronder volgt een verschil tussen gestructureerde en ongestructureerde gegevens:
Parameter | Gestructureerde gegevens | Ongestructureerde gegevens |
Opslag | DBMS | Onbeheerde bestandsstructuren |
Standaard | ADO.net, ODBC en SQL | STMP, XML, CSV en SMS |
Integratietool | ELT (extraheren, transformeren, laden) | Handmatige gegevensinvoer of batchverwerking met codes |
schaalvergroting | Schemaschaling is moeilijk | Schalen is heel eenvoudig. |
5) Leg alle componenten van een Hadoop-applicatie uit
Hieronder volgen de componenten van de Hadoop-applicatie:
- Hadoop Common: het is een algemene set hulpprogramma's en bibliotheken die door Hadoop worden gebruikt.
- HDFS: deze Hadoop-applicatie heeft betrekking op het bestandssysteem waarin de Hadoop-gegevens zijn opgeslagen. Het is een gedistribueerd bestandssysteem met een hoge bandbreedte.
- Hadoop MapReduce: het is gebaseerd op het algoritme voor het verstrekken van grootschalige gegevensverwerking.
- Hadoop YARN: het wordt gebruikt voor resourcebeheer binnen het Hadoop-cluster. Het kan ook worden gebruikt voor het plannen van taken voor gebruikers.
6) Wat is NameNode?
Het is het middelpunt van HDFS. Het slaat gegevens van HDFS op en volgt verschillende bestanden in de clusters. Hier worden de feitelijke gegevens niet opgeslagen. De gegevens worden opgeslagen in DataNodes.
7) Definieer Hadoop-streaming
Het is een hulpprogramma waarmee u de kaart kunt maken en banen kunt verminderen en deze naar een specifiek cluster kunt verzenden.
8) Wat is de volledige vorm van HDFS?
HDFS staat voor Hadoop Distributed File System.
9) Definieer Block en Block Scanner in HDFS
Blokken zijn de kleinste eenheid van een gegevensbestand. Hadoop splitst automatisch grote bestanden op in kleine stukjes.
Block Scanner verifieert de lijst met blokken die op een DataNode worden gepresenteerd.
10) Wat zijn de stappen die optreden wanneer Block Scanner een beschadigd datablok detecteert?
Hieronder volgen de stappen die optreden wanneer Block Scanner een beschadigd gegevensblok vindt:
1) Allereerst, wanneer Block Scanner een beschadigd gegevensblok vindt, rapporteert DataNode aan NameNode
2) NameNode start het proces van het maken van een nieuwe replica met behulp van een replica van het beschadigde blok.
3) Het aantal replica's van de juiste replica's probeert overeen te komen met de replicatiefactor. Als de match gevonden is, wordt het beschadigde gegevensblok niet verwijderd.
11) Noem twee berichten die NameNode ontvangt van DataNode?
Er zijn twee berichten die NameNode ontvangt van DataNode. Dit zijn 1) blokrapport en 2) hartslag.
12) Maak een lijst van verschillende XML-configuratiebestanden in Hadoop?
Er zijn vijf XML-configuratiebestanden in Hadoop:
- Mapred-site
- Kernsite
- HDFS-site
- Garen-site
13) Wat zijn vier V's van big data?
Vier V's van big data zijn:
- Snelheid
- Verscheidenheid
- Volume
- Waarheid
14) Leg de kenmerken van Hadoop uit
Belangrijke kenmerken van Hadoop zijn:
- Het is een open-source framework dat freeware beschikbaar is.
- Hadoop is compatibel met de vele soorten hardware en biedt gemakkelijk toegang tot nieuwe hardware binnen een specifiek knooppunt.
- Hadoop ondersteunt een snellere gedistribueerde verwerking van gegevens.
- Het slaat de gegevens op in het cluster, dat onafhankelijk is van de rest van de bewerkingen.
- Hadoop maakt het mogelijk om 3 replica's te maken voor elk blok met verschillende knooppunten.
15) Leg de belangrijkste methoden van Reducer uit
- setup (): Het wordt gebruikt voor het configureren van parameters zoals de grootte van invoergegevens en gedistribueerde cache.
- cleanup (): deze methode wordt gebruikt om tijdelijke bestanden op te schonen.
- reduce (): Het is een hart van de reducer die eenmaal per toets wordt aangeroepen met de bijbehorende gereduceerde taak
16) Wat is de afkorting van COSHH?
De afkorting van COSHH is een op classificatie en optimalisatie gebaseerd schema voor heterogene Hadoop-systemen.
17) Leg Star Schema uit
Star Schema of Star Join Schema is het eenvoudigste type datawarehouse-schema. Het staat bekend als sterschema omdat de structuur als een ster is. In het Star-schema kan het midden van de ster één feitentabel en meerdere bijbehorende dimensietabellen hebben. Dit schema wordt gebruikt voor het opvragen van grote gegevenssets.
18) Hoe implementeer je een big data-oplossing?
Volg de volgende stappen om een big data-oplossing te implementeren.
1) Integreer gegevens met behulp van gegevensbronnen zoals RDBMS, SAP, MySQL, Salesforce
2) Bewaar geëxtraheerde gegevens in een NoSQL-database of HDFS.
3) Implementeer een big data-oplossing met behulp van verwerkingsframeworks zoals Pig, Spark en MapReduce.
19) Leg FSCK uit
File System Check of FSCK is een commando dat wordt gebruikt door HDFS. De FSCK-opdracht wordt gebruikt om inconsistenties en problemen in het bestand te controleren.
20) Leg het sneeuwvlokschema uit
Een sneeuwvlokschema is een uitbreiding van een sterrenschema en voegt extra dimensies toe. Het wordt zo genoemd als sneeuwvlok omdat het diagram eruitziet als een sneeuwvlok. De dimensietabellen zijn genormaliseerd, waardoor gegevens worden opgesplitst in aanvullende tabellen.
21) Maak onderscheid tussen Star- en Snowflake-schema
Ster | Sneeuwvlokschema |
Dimensionale hiërarchieën worden opgeslagen in een dimensionale tabel. | Elke hiërarchie wordt opgeslagen in afzonderlijke tabellen. |
De kans op gegevensredundantie is groot | De kans op gegevensredundantie is klein. |
Het heeft een heel eenvoudig DB-ontwerp | Het heeft een complex DB-ontwerp |
Bied een snellere manier om kubussen te verwerken | De verwerking van kubussen is traag vanwege de complexe verbinding. |
22) Leg het gedistribueerde bestandssysteem van Hadoop uit
Hadoop werkt met schaalbare gedistribueerde bestandssystemen zoals S3, HFTP FS, FS en HDFS. Hadoop Distributed File System is gemaakt op het Google File System. Dit bestandssysteem is zo ontworpen dat het gemakkelijk kan worden uitgevoerd op een groot cluster van het computersysteem.
23) Leg de belangrijkste verantwoordelijkheden van een data-engineer uit
Data-ingenieurs hebben veel verantwoordelijkheden. Ze beheren het bronsysteem van gegevens. Data-ingenieurs vereenvoudigen de complexe datastructuur en voorkomen de reduplicatie van data. Vaak bieden ze ook ELT en datatransformatie.
24) Wat is de volledige vorm van YARN?
De volledige vorm van YARN is Yet Another Resource Negotiator.
25) Maak een lijst van verschillende modi in Hadoop
Modi in Hadoop zijn 1) Standalone-modus 2) Pseudo-gedistribueerde modus 3) Volledig gedistribueerde modus.
26) Hoe zorg je voor beveiliging in Hadoop?
Voer de volgende stappen uit om beveiliging in Hadoop te bereiken:
1) De eerste stap is om het authenticatiekanaal van de client aan de server te beveiligen. Geef de klant een tijdstempel.
2) In de tweede stap gebruikt de cliënt het ontvangen tijdstempel om TGS om een serviceticket te vragen.
3) In de laatste stap gebruikt de klant een serviceticket voor zelfverificatie bij een specifieke server.
27) Wat is hartslag in Hadoop?
In Hadoop communiceren NameNode en DataNode met elkaar. Heartbeat is het signaal dat door DataNode regelmatig naar NameNode wordt gestuurd om zijn aanwezigheid te tonen.
28) Maak onderscheid tussen NAS en DAS in Hadoop
NAS | DAS |
De opslagcapaciteit is 10 9 tot 10 12 in bytes. | De opslagcapaciteit is 10 9 in byte. |
De beheerkosten per GB zijn matig. | De beheerkosten per GB zijn hoog. |
Verzend gegevens via Ethernet of TCP / IP. | Verzend gegevens met behulp van IDE / SCSI |
29) Maak een lijst van belangrijke velden of talen die door data engineer worden gebruikt
Hier zijn een paar velden of talen die door data engineer worden gebruikt:
- Waarschijnlijkheid en lineaire algebra
- Machine leren
- Trendanalyse en regressie
- Hive QL- en SQL-databases
30) Wat is big data?
Het is een grote hoeveelheid gestructureerde en ongestructureerde gegevens die niet gemakkelijk kunnen worden verwerkt met traditionele gegevensopslagmethoden. Data-engineers gebruiken Hadoop om big data te beheren.
31) Wat is FIFO-planning?
Het is een Hadoop-algoritme voor taakplanning. In deze FIFO-planning selecteert een verslaggever taken uit een werkwachtrij, de oudste taak eerst.
32) Noem de standaardpoortnummers waarop de taakvolger, NameNode en taakvolger worden uitgevoerd in Hadoop
De standaardpoortnummers waarop taakvolger, NameNode en taakvolger worden uitgevoerd in Hadoop zijn als volgt:
- Taaktracker draait op 50060-poort
- NameNode draait op 50070-poort
- Job Tracker draait op 50030-poort
33) Hoe Block Scanner op HDFS Data Node uit te schakelen
Om Block Scanner op HDFS Data Node uit te schakelen, stelt u dfs.datanode.scan.period.hours in op 0.
34) Hoe definieer je de afstand tussen twee knooppunten in Hadoop?
De afstand is gelijk aan de som van de afstand tot de dichtstbijzijnde knooppunten. De methode getDistance () wordt gebruikt om de afstand tussen twee knooppunten te berekenen.
35) Waarom commodity-hardware gebruiken in Hadoop?
Commodity-hardware is gemakkelijk te verkrijgen en betaalbaar. Het is een systeem dat compatibel is met Windows, MS-DOS of Linux.
36) Definieer replicatiefactor in HDFS
Replicatiefactor is een totaal aantal replica's van een bestand in het systeem.
37) Welke gegevens worden opgeslagen in NameNode?
Namenode slaat de metadata op voor de HDFS, zoals blokinformatie en naamruimte-informatie.
38) Wat bedoel je met Rack Awareness?
In Haddop-cluster gebruikt Namenode de Datanode om het netwerkverkeer te verbeteren tijdens het lezen of schrijven van elk bestand dat zich dichter bij het nabijgelegen rack bevindt voor een lees- of schrijfverzoek. Namenode houdt de rack-id van elke DataNode bij om rackinformatie te verkrijgen. Dit concept wordt in Hadoop Rack Awareness genoemd.
39) Wat zijn de functies van Secondary NameNode?
Hieronder volgen de functies van Secondary NameNode:
- FsImage die een kopie van het EditLog- en FsImage-bestand opslaat.
- NameNode crash: Als de NameNode crasht, kan de FsImage van Secondary NameNode worden gebruikt om de NameNode opnieuw te maken.
- Checkpoint: het wordt gebruikt door Secondary NameNode om te bevestigen dat gegevens niet beschadigd zijn in HDFS.
- Update: het werkt automatisch het EditLog- en FsImage-bestand bij. Het helpt om het FsImage-bestand op Secondary NameNode up-to-date te houden.
40) Wat gebeurt er als NameNode niet beschikbaar is en de gebruiker een nieuwe taak verzendt?
NameNode is het enige storingspunt in Hadoop, dus de gebruiker kan geen nieuwe taak indienen en kan niet worden uitgevoerd. Als de NameNode niet beschikbaar is, kan de taak mislukken, omdat deze gebruiker moet wachten tot NameNode opnieuw is opgestart voordat hij een taak uitvoert.
41) Wat zijn de basisfasen van reducer in Hadoop?
Er zijn drie basisfasen van een verloopstuk in Hadoop:
1. Shuffle: hier kopieert Reducer de uitvoer van Mapper.
2. Sorteren: In sort sorteert Hadoop de invoer naar Reducer met dezelfde sleutel.
3. Verkleinen: in deze fase worden de uitvoerwaarden die aan een sleutel zijn gekoppeld, verlaagd om de gegevens in de uiteindelijke uitvoer te consolideren.
42) Waarom gebruikt Hadoop het Context-object?
Hadoop-framework gebruikt Context-object met de Mapper-klasse om te communiceren met het resterende systeem. Context-object haalt de systeemconfiguratiedetails en taak op in zijn constructor.
We gebruiken Context-object om de informatie door te geven in de methoden setup (), cleanup () en map (). Dit object maakt essentiële informatie beschikbaar tijdens de kaartbewerkingen.
43) Definieer Combiner in Hadoop
Het is een optionele stap tussen Map en Reduce. Combiner neemt de uitvoer van de kaartfunctie, maakt sleutelwaardeparen en verzendt deze naar Hadoop Reducer. De taak van Combiner is om het uiteindelijke resultaat van Map samen te vatten in samenvattingsrecords met een identieke sleutel.
44) Wat is de standaard replicatiefactor die beschikbaar is in HDFS. Wat geeft het aan?
De standaard replicatiefactor die beschikbaar is in HDFS is drie. De standaardreplicatiefactor geeft aan dat er van elke gegevens drie replica's zullen zijn.
45) Wat bedoel je met datalocatie in Hadoop?
In een Big Data-systeem zijn de gegevens enorm groot, en daarom heeft het geen zin om gegevens over het netwerk te verplaatsen. Nu probeert Hadoop berekeningen dichter bij gegevens te brengen. Op deze manier blijven de gegevens lokaal op de opgeslagen locatie.
46) Definieer Balancer in HDFS
In HDFS is de balancer een administratieve functie die door beheerders wordt gebruikt om gegevens in DataNodes opnieuw in evenwicht te brengen en blokken te verplaatsen van overbenutte naar onderbenutte knooppunten.
47) Verklaar Veilige modus in HDFS
Het is een alleen-lezenmodus van NameNode in een cluster. Aanvankelijk bevindt NameNode zich in Safemode. Het verhindert het schrijven naar het bestandssysteem in Safemode. Op dit moment verzamelt het gegevens en statistieken van alle DataNodes.
48) Wat is het belang van gedistribueerde cache in Apache Hadoop?
Hadoop heeft een handige functie, de zogenaamde Distributed Cache, die de prestaties van taken verbetert door de bestanden die door applicaties worden gebruikt in het cachegeheugen te plaatsen. Een toepassing kan een bestand voor de cache specificeren met behulp van JobConf-configuratie.
Hadoop-framework maakt een replica van deze bestanden naar de knooppunten waarop een taak moet worden uitgevoerd. Dit wordt gedaan voordat de uitvoering van de taak begint. Gedistribueerde cache ondersteunt de distributie van alleen-lezen bestanden, evenals zip- en jars-bestanden.
49) Wat is Metastore in Hive?
Het slaat zowel het schema op als de locatie van de Hive-tabel.
Hive-tabel definieert, toewijzingen en metagegevens die worden opgeslagen in Metastore. Dit kan worden opgeslagen in RDBMS ondersteund door JPOX.
50) Wat bedoel je met SerDe in Hive?
SerDe is een korte naam voor Serializer of Deserializer. In Hive staat SerDe toe om gegevens uit een tabel te lezen naar en te schrijven naar een specifiek veld in elk formaat dat je wilt.
51) Lijst met componenten die beschikbaar zijn in het Hive-gegevensmodel
Er zijn de volgende componenten in het Hive-gegevensmodel:
- Tabellen
- Partities
- Emmers
52) Leg het gebruik van Hive in het Hadoop-ecosysteem uit.
Hive biedt een interface om gegevens te beheren die zijn opgeslagen in het Hadoop-ecosysteem. Hive wordt gebruikt voor het in kaart brengen van en werken met HBase-tabellen. Hive-query's worden geconverteerd naar MapReduce-taken om de complexiteit te verbergen die gepaard gaat met het maken en uitvoeren van MapReduce-taken.
53) Lijst met verschillende complexe gegevenstypen / verzameling worden ondersteund door Hive
Hive ondersteunt de volgende complexe gegevenstypen:
- Kaart
- Struct
- Array
- Unie
54) Leg uit hoe het .hiverc-bestand in Hive wordt gebruikt?
In Hive is .hiverc het initialisatiebestand. Dit bestand wordt in eerste instantie geladen wanneer we Command Line Interface (CLI) voor Hive starten. We kunnen de beginwaarden van parameters in .hiverc-bestand instellen.
55) Is het mogelijk om meer dan één tabel in Hive te maken voor een enkel gegevensbestand?
Ja, we kunnen meer dan één tabelschema maken voor een gegevensbestand. Hive slaat het schema op in Hive Metastore. Op basis van dit schema kunnen we verschillende resultaten uit dezelfde gegevens halen.
56) Leg verschillende SerDe-implementaties uit die beschikbaar zijn in Hive
Er zijn veel SerDe-implementaties beschikbaar in Hive. U kunt ook uw eigen aangepaste SerDe-implementatie schrijven. Hieronder volgen enkele beroemde SerDe-implementaties:
- OpenCSVSerde
- RegexSerDe
- DelimitedJSONSerDe
- ByteStreamTypedSerDe
57) Lijsttabel genererende functies die beschikbaar zijn in Hive
Hieronder volgt een lijst met functies voor het genereren van tabellen:
- Explode (matrix)
- JSON_tuple ()
- Stapel ()
- Explode (kaart)
58) Wat is een scheefgetrokken tabel in Hive?
Een Skewed-tabel is een tabel die vaker kolomwaarden bevat. Wanneer we in Hive een tabel specificeren als SKEWED tijdens het maken, worden scheve waarden naar afzonderlijke bestanden geschreven en gaan de resterende waarden naar een ander bestand.
59) Maak een lijst van objecten die zijn gemaakt door de instructie create in MySQL.
Objecten gemaakt door create statement in MySQL zijn als volgt:
- Database
- Inhoudsopgave
- Tafel
- Gebruiker
- Procedure
- Op gang brengen
- Evenement
- Visie
- Functie
60) Hoe de databasestructuur in MySQL bekijken?
Om de databasestructuur in MySQL te zien, kunt u
DESCRIBE commando. Syntaxis van deze opdracht is DESCRIBE Tabelnaam ;.
61) Hoe zoek ik naar een specifieke string in de MySQL-tabelkolom?
Gebruik de regex-operator om te zoeken naar een tekenreeks in de MySQL-kolom. Hier kunnen we ook verschillende soorten reguliere expressies definiëren en zoeken naar het gebruik van regex.
62) Leg uit hoe data-analyse en big data de omzet van het bedrijf kunnen verhogen?
Hieronder volgen de manieren waarop data-analyse en big data de omzet van het bedrijf kunnen verhogen:
- Gebruik gegevens efficiënt om ervoor te zorgen dat uw bedrijf groeit.
- Verhoog de klantwaarde.
- Analytisch worden om de prognoses van het personeelsbestand te verbeteren.
- De productiekosten van de organisaties verlagen.