Hieronder volgen veelgestelde vragen in sollicitatiegesprekken voor zowel eerstejaars als ervaren Data Scientist.
1. Wat is datawetenschap?
Data Science is een combinatie van algoritmen, tools en machine learning-techniek die u helpt om gemeenschappelijke verborgen patronen uit de gegeven onbewerkte gegevens te vinden.
2. Wat is logistieke regressie in Data Science?
Logistische regressie wordt ook wel het logit-model genoemd. Het is een methode om de binaire uitkomst te voorspellen op basis van een lineaire combinatie van voorspellende variabelen.
3. Noem drie soorten vertekeningen die kunnen optreden tijdens het nemen van steekproeven
In het steekproefproces zijn er drie soorten vertekeningen, namelijk:
- Selectiebias
- Onder dekking vooringenomenheid
- Overlevingsvooroordeel
4. Bespreek het algoritme van de beslissingsboom
Een beslissingsboom is een populair algoritme voor machinaal leren onder supervisie. Het wordt voornamelijk gebruikt voor regressie en classificatie. Het maakt het mogelijk een dataset op te splitsen in kleinere subsets. De beslissingsboom kan zowel categorische als numerieke gegevens verwerken.
5. Wat is Prior waarschijnlijkheid en waarschijnlijkheid?
Prioriteitskans is het aandeel van de afhankelijke variabele in de dataset, terwijl de waarschijnlijkheid de waarschijnlijkheid is dat een bepaalde observant wordt geclassificeerd in de aanwezigheid van een andere variabele.
6. Leg de aanbevelingssystemen uit?
Het is een subklasse van technieken voor het filteren van informatie. Het helpt u de voorkeuren of beoordelingen te voorspellen die gebruikers waarschijnlijk aan een product zullen geven.
7. Noem drie nadelen van het gebruik van een lineair model
Drie nadelen van het lineaire model zijn:
- De aanname van lineariteit van de fouten.
- U kunt dit model niet gebruiken voor binaire of telresultaten
- Er zijn tal van overfitting-problemen die het niet kan oplossen
8. Waarom moet u resampling uitvoeren?
Opnieuw bemonsteren wordt gedaan in onderstaande gevallen:
- De nauwkeurigheid van steekproefstatistieken schatten door willekeurig te tekenen met vervanging uit een set van het datapunt of door als subsets van toegankelijke data te gebruiken
- Vervanging van labels op datapunten bij het uitvoeren van noodzakelijke tests
- Modellen valideren door willekeurige subsets te gebruiken
9. Maak een lijst van de bibliotheken in Python die worden gebruikt voor gegevensanalyse en wetenschappelijke berekeningen.
- SciPy
- Panda's
- Matplotlib
- NumPy
- SciKit
- Seaborn
10. Wat is vermogensanalyse?
De vermogensanalyse is een integraal onderdeel van het experimentele ontwerp. Het helpt u bij het bepalen van de steekproefomvang die nodig is om het effect van een bepaalde omvang te achterhalen van een oorzaak met een specifiek niveau van zekerheid. Het stelt u ook in staat om een bepaalde kans in te zetten in een beperking van de steekproefomvang.
11. Verklaar Gezamenlijk filteren
Gezamenlijke filtering die wordt gebruikt om naar juiste patronen te zoeken door samenwerkende standpunten, meerdere gegevensbronnen en verschillende agenten.
12. Wat is vooringenomenheid?
Bias is een fout die in uw model is geïntroduceerd vanwege de oversimplificatie van een algoritme voor machine learning. "Het kan leiden tot ondermaatse aanpassingen.
13. Bespreek 'Naïef' in een Naive Bayes-algoritme?
Het model van het naïeve Bayes-algoritme is gebaseerd op de stelling van Bayes. Het beschrijft de waarschijnlijkheid van een gebeurtenis. Het is gebaseerd op voorkennis van omstandigheden die mogelijk verband houden met die specifieke gebeurtenis.
14. Wat is een lineaire regressie?
Lineaire regressie is een statistische programmeermethode waarbij de score van een variabele 'A' wordt voorspeld uit de score van een tweede variabele 'B'. B wordt de voorspellende variabele genoemd en A de criteriumvariabele.
15. Geef het verschil aan tussen de verwachte waarde en de gemiddelde waarde
Er zijn niet veel verschillen, maar beide termen worden in verschillende contexten gebruikt. Gemiddelde waarde wordt over het algemeen aangeduid als u een kansverdeling bespreekt, terwijl naar verwachte waarde wordt verwezen in de context van een willekeurige variabele.
16. Wat is het doel van het uitvoeren van A / B-testen?
AB-testen die worden gebruikt om willekeurige experimenten uit te voeren met twee variabelen, A en B. Het doel van deze testmethode is om veranderingen in een webpagina te ontdekken om de uitkomst van een strategie te maximaliseren of te vergroten.
17. Wat is ensembleleren?
Het ensemble is een methode om een diverse groep leerlingen te combineren om te improviseren op de stabiliteit en voorspellende kracht van het model. Twee soorten Ensemble-leermethoden zijn:
Opzakken
Bagging-methode helpt u om vergelijkbare leerlingen te implementeren op kleine steekproefpopulaties. Het helpt je om betere voorspellingen te doen.
Stimuleren
Boosting is een iteratieve methode waarmee u het gewicht van een waarneming kunt aanpassen, afhankelijk van de laatste classificatie. Boosting vermindert de bias-fout en helpt u sterke voorspellende modellen te bouwen.
18. Verklaar Eigenwaarde en Eigenvector
Eigenvectoren zijn bedoeld om lineaire transformaties te begrijpen. Datawetenschappers moeten de eigenvectoren berekenen voor een covariantiematrix of correlatie. Eigenwaarden zijn de richtingen langs het gebruik van specifieke lineaire transformatiehandelingen door samen te drukken, om te draaien of uit te rekken.
19. Definieer de term kruisvalidatie
Kruisvalidatie is een validatietechniek om te evalueren hoe de resultaten van statistische analyse generaliseren voor een onafhankelijke dataset. Deze methode wordt gebruikt in achtergronden waar het doel wordt voorspeld, en men moet inschatten hoe nauwkeurig een model zal presteren.
20. Leg de stappen uit voor een Data-analyseproject
De volgende zijn belangrijke stappen die betrokken zijn bij een analyseproject:
- Begrijp het zakelijke probleem
- Onderzoek de gegevens en bestudeer ze zorgvuldig.
- Bereid de gegevens voor op modellering door ontbrekende waarden te zoeken en variabelen te transformeren.
- Begin met het uitvoeren van het model en analyseer het Big data-resultaat.
- Valideer het model met een nieuwe dataset.
- Implementeer het model en volg het resultaat om de prestaties van het model voor een specifieke periode te analyseren.
21. Bespreek kunstmatige neurale netwerken
Kunstmatige neurale netwerken (ANN) zijn een speciale set algoritmen die een revolutie teweeg hebben gebracht in machine learning. Het helpt je om je aan te passen aan veranderende input. Het netwerk genereert dus het best mogelijke resultaat zonder de outputcriteria opnieuw te ontwerpen.
22. Wat is rugvoortplanting?
Back-propagation is de essentie van neurale net-training. Het is de methode om de gewichten van een neuraal net af te stemmen, afhankelijk van het foutenpercentage dat in het vorige tijdperk is verkregen. Een juiste afstemming van de helpt u om foutenpercentages te verminderen en het model betrouwbaar te maken door de generalisatie ervan te vergroten.
23. Wat is een willekeurig bos?
Random forest is een machine learning-methode die u helpt bij het uitvoeren van alle soorten regressie- en classificatietaken. Het wordt ook gebruikt voor het behandelen van ontbrekende waarden en uitbijterwaarden.
24. Wat is het belang van een selectiebias?
Selectiebias treedt op wanneer er geen specifieke randomisatie wordt bereikt bij het selecteren van individuen of groepen of gegevens die moeten worden geanalyseerd. Het suggereert dat de gegeven steekproef niet exact de populatie vertegenwoordigt die bedoeld was om te worden geanalyseerd.
25. Wat is de K-gemiddelden-clustermethode?
K-betekent clustering is een belangrijke leermethode zonder toezicht. Het is de techniek om gegevens te classificeren met behulp van een bepaalde set clusters die K-clusters worden genoemd. Het wordt ingezet voor groepering om de gelijkenis in de gegevens te achterhalen.
26. Leg het verschil uit tussen Data Science en Data Analytics
Datawetenschappers moeten gegevens opsplitsen om waardevolle inzichten te extraheren die een data-analist kan toepassen op reële bedrijfsscenario's. Het belangrijkste verschil tussen de twee is dat de datawetenschappers meer technische kennis hebben dan bedrijfsanalisten. Bovendien hebben ze geen kennis nodig van de business die nodig is voor datavisualisatie.
27. P-waarde uitleggen?
Wanneer u een hypothesetest in statistieken uitvoert, stelt een p-waarde u in staat om de sterkte van uw resultaten te bepalen. Het is een numeriek getal tussen 0 en 1. Op basis van de waarde kunt u de sterkte van het specifieke resultaat aangeven.
28. Definieer de term deep learning
Deep Learning is een subtype van machine learning. Het betreft algoritmen die zijn geïnspireerd door de structuur die kunstmatige neurale netwerken (ANN) worden genoemd.
29. Leg de methode uit om gegevens te verzamelen en te analyseren om sociale media te gebruiken om de weersomstandigheden te voorspellen.
U kunt sociale-mediagegevens verzamelen met behulp van Facebook, Twitter en de API's van Instagram. Voor de tweeter kunnen we bijvoorbeeld een feature uit elke tweet construeren, zoals getweet datum, retweets, lijst met volgers, etc. Vervolgens kun je een multivariate tijdreeksmodel gebruiken om de weersomstandigheden te voorspellen.
30. Wanneer moet het algoritme in Data science worden bijgewerkt?
U moet een algoritme bijwerken in de volgende situatie:
- U wilt dat uw datamodel evolueert als datastromen die infrastructuur gebruiken
- De onderliggende gegevensbron verandert
Als het niet-stationair is
31. Wat is normale distributie
Een normale verdeling is een set van een continue variabele die over een normale curve of in de vorm van een belcurve is verspreid. Je kunt het beschouwen als een continue kansverdeling die handig is bij statistieken. Het is handig om de variabelen en hun relaties te analyseren wanneer we de normale verdelingskromme gebruiken.
32. Welke taal is het beste voor tekstanalyse? R of Python?
Python zal geschikter zijn voor tekstanalyse omdat het bestaat uit een rijke bibliotheek die bekend staat als panda's. Hiermee kunt u gegevensanalysetools en gegevensstructuren van hoog niveau gebruiken, terwijl R deze functie niet biedt.
33. Leg de voordelen uit van het gebruik van statistieken door datawetenschappers
Statistieken helpen datawetenschappers om een beter beeld te krijgen van de verwachtingen van de klant. Door gebruik te maken van de statistische methode kunnen Data Scientists kennis opdoen over de interesse, het gedrag, de betrokkenheid, de retentie, etc. van de consument. Het helpt je ook om krachtige datamodellen te bouwen om bepaalde gevolgtrekkingen en voorspellingen te valideren.
34. Noem verschillende soorten Deep Learning Frameworks
- Pytorch
- Microsoft Cognitive Toolkit
- TensorFlow
- Caffe
- Chainer
- Keras
35. Leg Auto-Encoder uit
Autoencoders zijn lerende netwerken. Het helpt u om inputs om te zetten in outputs met minder fouten. Dit betekent dat u de uitvoer zo dicht mogelijk bij de invoer krijgt.
36. Definieer de Boltzmann-machine
Boltzmann-machines is een eenvoudig leeralgoritme. Het helpt u om die kenmerken te ontdekken die complexe regelmatigheden in de trainingsgegevens vertegenwoordigen. Met dit algoritme kunt u de gewichten en de hoeveelheid optimaliseren voor het gegeven probleem.
37. Leg uit waarom het opschonen van gegevens essentieel is en welke methode u gebruikt om schone gegevens te behouden
Vervuilde data leidt vaak tot de verkeerde binnenkant, wat het vooruitzicht van elke organisatie kan schaden. Als u bijvoorbeeld een gerichte marketingcampagne wilt voeren. Onze gegevens vertellen u echter ten onrechte dat een specifiek product gewild zal zijn bij uw doelgroep; de campagne zal mislukken.
38. Wat is scheve distributie en uniforme distributie?
Scheve verdeling treedt op wanneer gegevens aan een kant van de plot worden gedistribueerd, terwijl uniforme verdeling wordt geïdentificeerd wanneer de gegevens worden verspreid, is gelijk in het bereik.
39. Wanneer treedt onderfitting op in een statisch model?
Underfitting treedt op wanneer een statistisch model of machine learning-algoritme de onderliggende trend van de gegevens niet kan vastleggen.
40. Wat is bekrachtigingsleren?
Reinforcement Learning is een leermechanisme om situaties om te zetten in acties. Het eindresultaat zou u moeten helpen om het binaire beloningssignaal te verhogen. Bij deze methode wordt een leerling niet verteld welke actie hij moet ondernemen, maar moet hij in plaats daarvan ontdekken welke actie een maximale beloning biedt. Zoals deze methode gebaseerd op het belonings- / strafmechanisme.
41. Noem veelgebruikte algoritmen.
Vier meest gebruikte algoritmen door datawetenschapper zijn:
- Lineaire regressie
- Logistieke regressie
- Willekeurig bos
- KNN
42. Wat is precisie?
Precisie is de meest gebruikte foutmetriek in een classificatiemechanisme. Het bereik is van 0 tot 1, waarbij 1 staat voor 100%
43. Wat is een univariate analyse?
Een analyse die op geen enkel attribuut tegelijk wordt toegepast, staat bekend als univariate analyse. Boxplot wordt veel gebruikt, univariate model.
44. Hoe overwin je uitdagingen voor je bevindingen?
Om de uitdagingen van mijn bevinding te overwinnen, moet men de discussie aanmoedigen, leiderschap tonen en verschillende opties respecteren.
45. Verklaar de techniek van clusterbemonstering in de datawetenschap
Een clusterbemonsteringsmethode wordt gebruikt wanneer het een uitdaging is om de doelpopulatie verspreid over de populatie te bestuderen, en eenvoudige willekeurige steekproeven kunnen niet worden toegepast.
46. Geef het verschil aan tussen een validatieset en een testset
Een validatieset die meestal wordt beschouwd als een onderdeel van de trainingsset, omdat deze wordt gebruikt voor parameterkeuze, wat u helpt om overfitting van het model dat wordt gebouwd te voorkomen.
Terwijl een testset wordt gebruikt voor het testen of evalueren van de prestaties van een getraind machine learning-model.
47. Verklaar de term binominale waarschijnlijkheidsformule?
"De binominale verdeling bevat de kansen van elk mogelijk succes bij N proeven voor onafhankelijke gebeurtenissen die een kans hebben dat π zich voordoet."
48. Wat is een terugroepactie?
Een terugroepactie is een verhouding tussen het werkelijke positieve tarief en het werkelijke positieve tarief. Het varieert van 0 tot 1.
49. Bespreek de normale verdeling
Normale verdeling gelijkmatig verdeeld als zodanig zijn het gemiddelde, de mediaan en de modus gelijk.
50. Hoe kunt u tijdens het werken aan een dataset belangrijke variabelen selecteren? Leg uit
De volgende methoden voor variabeleselectie die u kunt gebruiken:
- Verwijder de gecorreleerde variabelen voordat u belangrijke variabelen selecteert
- Gebruik lineaire regressie en selecteer variabelen die afhankelijk zijn van die p-waarden.
- Gebruik achterwaartse, voorwaartse selectie en stapsgewijze selectie
- Gebruik Xgboost, Random Forest en het belang van plotvariabelen.
- Meet de informatiewinst voor de gegeven set features en selecteer dienovereenkomstig top n features.
51. Is het mogelijk om de correlatie tussen continue en categorische variabele vast te leggen?
Ja, we kunnen de covariantietechniek analyseren om de associatie tussen continue en categorische variabelen vast te leggen.
52. Het behandelen van een categorische variabele als een continue variabele zou resulteren in een beter voorspellend model?
Ja, de categorische waarde moet alleen als een continue variabele worden beschouwd als de variabele ordinaal van aard is. Het is dus een beter voorspellend model.