Top 50 vragen over Machine Learning-sollicitatiegesprekken & Antwoorden

Anonim

Download PDF

1) Wat is machine learning?

Machine learning is een tak van de informatica die zich bezighoudt met systeemprogrammering om automatisch te leren en te verbeteren met ervaring. Bijvoorbeeld: robots zijn zo geprogrammeerd dat ze de taak kunnen uitvoeren op basis van gegevens die ze van sensoren verzamelen. Het leert automatisch programma's van gegevens.

2) Noem het verschil tussen datamining en machine learning?

Machine learning houdt verband met de studie, het ontwerp en de ontwikkeling van de algoritmen die computers de mogelijkheid geven om te leren zonder expliciet te worden geprogrammeerd. Datamining kan worden gedefinieerd als het proces waarin de ongestructureerde gegevens proberen kennis of onbekende interessante patronen te extraheren. Tijdens dit proces worden leeralgoritmen gebruikt.

3) Wat is 'overfitting' bij machinaal leren?

Bij machine learning treedt er 'overfitting' op wanneer een statistisch model willekeurige fouten of ruis beschrijft in plaats van de onderliggende relatie. Wanneer een model buitengewoon complex is, wordt normaal gesproken overfitting waargenomen, omdat er te veel parameters zijn met betrekking tot het aantal trainingsdatatypes. Het model vertoont slechte prestaties die overfit zijn.

4) Waarom gebeurt er overfitting?

De mogelijkheid van overfitting bestaat omdat de criteria die worden gebruikt voor het trainen van het model niet dezelfde zijn als de criteria die worden gebruikt om de doeltreffendheid van een model te beoordelen.

5) Hoe kun je overfitting voorkomen?

Door veel data te gebruiken kan overfitting worden voorkomen, overfitting gebeurt relatief omdat je een kleine dataset hebt en je probeert ervan te leren. Maar als je een kleine database hebt en je wordt gedwongen om met een daarop gebaseerd model te komen. In een dergelijke situatie kunt u een techniek gebruiken die bekend staat als kruisvalidatie . Bij deze methode wordt de dataset opgesplitst in twee secties, test- en trainingsdatasets, de testdataset test alleen het model, terwijl in de trainingsdataset de datapunten het model bedenken.

Bij deze techniek krijgt een model meestal een dataset met bekende data waarop training (trainingsdataset) wordt uitgevoerd en een dataset met onbekende data waartegen het model wordt getoetst. Het idee van kruisvalidatie is om een ​​dataset te definiëren om het model in de trainingsfase te “testen”.

6) Wat is inductief machine learning?

Het inductieve machine learning omvat het proces van leren aan de hand van voorbeelden, waarbij een systeem uit een reeks geobserveerde gevallen een algemene regel probeert op te wekken.

7) Wat zijn de vijf populaire algoritmen van Machine Learning?

  • Beslissingsbomen
  • Neurale netwerken (terugvoortplanting)
  • Probabilistische netwerken
  • Naaste buur
  • Ondersteuning van vectormachines

8) Wat zijn de verschillende algoritmetechnieken in Machine Learning?

De verschillende soorten technieken in Machine Learning zijn

  • Leren onder toezicht
  • Ongecontroleerd leren
  • Semi-begeleid leren
  • Versterkend leren
  • Transductie
  • Leren om te leren

9) Wat zijn de drie fasen om de hypothesen of het model in machine learning op te bouwen?

  • Model gebouw
  • Model testen
  • Het model toepassen

10) Wat is de standaardbenadering van begeleid leren?

De standaardbenadering van begeleid leren is om de voorbeeldset op te splitsen in de trainingsset en de test.

11) Wat is 'Trainingsset' en 'Testset'?

Op verschillende gebieden van de informatiewetenschap, zoals machine learning, wordt een set gegevens gebruikt om de potentieel voorspellende relatie te ontdekken die bekend staat als 'Training Set'. Trainingsset is een voorbeeld dat aan de leerling wordt gegeven, terwijl Testset wordt gebruikt om de juistheid van de hypothesen die door de leerling zijn gegenereerd te testen, en het is de reeks voorbeelden die de leerling tegenhoudt. Trainingsset onderscheidt zich van Testset.

12) Benoem verschillende benaderingen voor machine learning?

De verschillende benaderingen in Machine Learning zijn

  • Concept versus classificatie leren
  • Symbolisch versus statistisch leren
  • Inductief versus analytisch leren

13) Wat is geen machine learning?

  • Kunstmatige intelligentie
  • Op regels gebaseerde gevolgtrekking

14) Leg uit wat de functie is van 'Unsupervised Learning'?

  • Vind clusters van de gegevens
  • Zoek laag-dimensionale weergaven van de gegevens
  • Vind interessante richtingen in gegevens
  • Interessante coördinaten en correlaties
  • Vind nieuwe observaties / database-opschoning

15) Leg uit wat de functie is van 'Begeleid leren'?

  • Classificaties
  • Spraakherkenning
  • Regressie
  • Voorspel tijdreeksen
  • Tekenreeksen annoteren

16) Wat is algoritme-onafhankelijk machine learning?

Machine learning waarbij wiskundige grondslagen onafhankelijk zijn van een bepaalde classificatie of leeralgoritme, wordt algoritme-onafhankelijk machine learning genoemd?

17) Wat is het verschil tussen kunstmatig leren en machine learning?

Het ontwerpen en ontwikkelen van algoritmen op basis van het gedrag op basis van empirische gegevens staat bekend als Machine Learning. Hoewel kunstmatige intelligentie naast machine learning ook andere aspecten omvat, zoals kennisrepresentatie, natuurlijke taalverwerking, planning, robotica enz.

18) Wat is classificator in machine learning?

Een classificator in een machine learning is een systeem dat een vector van discrete of continue kenmerkwaarden invoert en een enkele discrete waarde, de klasse, uitvoert.

19) Wat zijn de voordelen van Naive Bayes?

In Naïve Bayes zal classificator sneller convergeren dan discriminerende modellen zoals logistieke regressie, dus je hebt minder trainingsgegevens nodig. Het belangrijkste voordeel is dat het geen interacties tussen functies kan leren.

20) Op welke gebieden wordt patroonherkenning gebruikt?

Patroonherkenning kan worden gebruikt in

  • Computer visie
  • Spraakherkenning
  • Datamining
  • Statistieken
  • Informeel ophalen
  • Bio-informatica

21) Wat is genetische programmering?

Genetisch programmeren is een van de twee technieken die worden gebruikt bij machine learning. Het model is gebaseerd op het testen en selecteren van de beste keuze uit een reeks resultaten.

22) Wat is inductieve logica-programmering bij machinaal leren?

Inductieve logische programmering (ILP) is een subveld van machine learning waarbij logische programmering wordt gebruikt die achtergrondkennis en voorbeelden vertegenwoordigt.

23) Wat is modelselectie bij machinaal leren?

Het proces van het selecteren van modellen uit verschillende wiskundige modellen, die worden gebruikt om dezelfde dataset te beschrijven, staat bekend als modelselectie. Modelkeuze wordt toegepast op het gebied van statistiek, machine learning en datamining.

24) Wat zijn de twee methoden die worden gebruikt voor de kalibratie in Supervised Learning?

De twee methoden die worden gebruikt voor het voorspellen van goede kansen bij begeleid leren zijn

  • Platt-kalibratie
  • Isotone regressie

Deze methoden zijn ontworpen voor binaire classificatie en zijn niet triviaal.

25) Welke methode wordt vaak gebruikt om overfitting te voorkomen?

Als er voldoende gegevens zijn, wordt 'Isotonic Regression' gebruikt om een ​​overfittingprobleem te voorkomen.

26) Wat is het verschil tussen heuristiek voor het leren van regels en heuristieken voor beslissingsbomen?

Het verschil is dat de heuristieken voor beslissingsbomen de gemiddelde kwaliteit van een aantal onsamenhangende sets evalueren, terwijl regelleerlingen alleen de kwaliteit evalueren van de set instanties die onder de kandidaatregel vallen.

27) Wat is Perceptron in machine learning?

In Machine Learning is Perceptron een algoritme voor gecontroleerde classificatie van de invoer in een van verschillende mogelijke niet-binaire outputs.

28) Verklaar de twee componenten van het Bayesiaanse logische programma?

Bayesiaanse logica-programma bestaat uit twee componenten. De eerste component is een logische; het bestaat uit een reeks Bayesiaanse clausules, die de kwalitatieve structuur van het domein weergeven. De tweede component is een kwantitatieve component, deze codeert de kwantitatieve informatie over het domein.

29) Wat zijn Bayesian Networks (BN)?

Bayesian Network wordt gebruikt om het grafische model voor de waarschijnlijkheidsrelatie tussen een reeks variabelen weer te geven.

30) Waarom wordt op een instantie gebaseerd leeralgoritme ook wel Lazy learning-algoritme genoemd?

Instance-based learning-algoritme wordt ook wel Lazy learning-algoritme genoemd, omdat ze het inductie- of generalisatieproces vertragen totdat classificatie is uitgevoerd.

31) Wat zijn de twee classificatiemethoden die SVM (Support Vector Machine) aankan?

  • Combineren van binaire classificaties
  • Binair aanpassen om leren van meerdere klassen op te nemen

32) Wat is ensemble-leren?

Om een ​​bepaald rekenprogramma op te lossen, worden meerdere modellen, zoals classificaties of experts, strategisch gegenereerd en gecombineerd. Dit proces staat bekend als ensemble-leren.

33) Waarom wordt ensemble-leren gebruikt?

Ensemble-leren wordt gebruikt om de classificatie, voorspelling, functiebenadering enz. Van een model te verbeteren.

34) Wanneer ensemble-leren gebruiken?

Ensemble-leren wordt gebruikt wanneer u componentclassificaties maakt die nauwkeuriger en onafhankelijker van elkaar zijn.

35) Wat zijn de twee paradigma's van ensemblemethoden?

De twee paradigma's van ensemblemethoden zijn

  • Sequentiële ensemblemethoden
  • Parallelle ensemble-methoden

36) Wat is het algemene principe van een ensemble-methode en wat is bagging en boosting in de ensemble-methode?

Het algemene principe van een ensemble-methode is om de voorspellingen van verschillende modellen gebouwd met een bepaald leeralgoritme te combineren om de robuustheid van een enkel model te verbeteren. Opzakken is een methode als geheel om onstabiele schattings- of classificatieschema's te verbeteren. Terwijl de boosting-methode opeenvolgend wordt gebruikt om de vertekening van het gecombineerde model te verminderen. Boosting en Bagging kunnen beide fouten verminderen door de variantie-term te verkleinen.

37) Wat is bias-variantie-decompositie van classificatiefouten in de ensemble-methode?

De verwachte fout van een leeralgoritme kan worden ontleed in bias en variantie. Een bias-term meet hoe nauw de gemiddelde classificator die door het leeralgoritme wordt geproduceerd, overeenkomt met de doelfunctie. De variantie-term meet hoeveel de voorspelling van het leeralgoritme fluctueert voor verschillende trainingssets.

38) Wat is een algoritme voor incrementeel leren in ensemble?

Incrementele leermethode is het vermogen van een algoritme om te leren van nieuwe gegevens die mogelijk beschikbaar zijn nadat de classificator al is gegenereerd op basis van een reeds beschikbare gegevensset.

39) Waar worden PCA, KPCA en ICA voor gebruikt?

PCA (Principal Components Analysis), KPCA (Kernel based Principal Component Analysis) en ICA (Independent Component Analysis) zijn belangrijke extractietechnieken voor features die worden gebruikt om de dimensionaliteit te verminderen.

40) Wat is dimensiereductie bij machine learning?

In Machine Learning en statistiek is dimensiereductie het proces van het verminderen van het aantal willekeurige variabelen dat in overweging wordt genomen en kan worden onderverdeeld in feature selectie en feature extractie.

41) Wat zijn ondersteuningsvectormachines?

Ondersteunende vectormachines zijn leeralgoritmen onder supervisie die worden gebruikt voor classificatie en regressieanalyse.

42) Wat zijn de componenten van relationele evaluatietechnieken?

De belangrijkste componenten van relationele evaluatietechnieken zijn

  • Data-acquisitie
  • Ground Truth Acquisition
  • Kruisvalidatietechniek
  • Type zoekopdracht
  • Metrisch scoren
  • Significantietest

43) Wat zijn de verschillende methoden voor opeenvolgend begeleid leren?

De verschillende methoden om problemen met sequentieel begeleid leren op te lossen zijn

  • Schuifraam methoden
  • Terugkerende schuiframen
  • Verborgen Markow-modellen
  • Maximale entropie Markow-modellen
  • Voorwaardelijke willekeurige velden
  • Grafiek transformatornetwerken

44) Op welke gebieden in robotica en informatieverwerking ontstaat een sequentieel voorspellingsprobleem?

De gebieden in robotica en informatieverwerking waar sequentiële voorspellingsproblemen optreden, zijn

  • Imitatie leren
  • Gestructureerde voorspelling
  • Modelgebaseerd leren van bekrachtiging

45) Wat is statistisch leren in een batch?

Statistische leertechnieken maken het mogelijk om een ​​functie of voorspeller te leren uit een set geobserveerde gegevens die voorspellingen kunnen doen over ongeziene of toekomstige gegevens. Deze technieken bieden garanties voor de prestaties van de geleerde voorspeller op de toekomstige ongeziene gegevens op basis van een statistische aanname over het gegevensgeneratieproces.

46) Wat is PAC-leren?

PAC-leren (waarschijnlijk ongeveer correct) is een leerraamwerk dat is geïntroduceerd om leeralgoritmen en hun statistische efficiëntie te analyseren.

47) Wat zijn de verschillende categorieën waarin u het leerproces van opeenvolging kunt categoriseren?

  • Volgorde voorspelling
  • Sequentie generatie
  • Volgordeherkenning
  • Opeenvolgende beslissing

48) Wat is opeenvolgend leren?

Sequentieleren is een methode om op een logische manier les te geven en te leren.

49) Wat zijn twee technieken van Machine Learning?

De twee technieken van Machine Learning zijn

  • Genetische programmering
  • Inductief leren
50) Geef een populaire toepassing van machine learning die u dagelijks ziet?

De aanbevelingsengine die door grote e-commercewebsites wordt geïmplementeerd, maakt gebruik van machine learning.