Wat is supervised machine learning?
Bij Supervised learning train je de machine met behulp van data die goed 'gelabeld' zijn . Het betekent dat sommige gegevens al zijn getagd met het juiste antwoord. Het is te vergelijken met leren dat plaatsvindt in aanwezigheid van een begeleider of een docent.
Een algoritme voor leren onder supervisie leert van gelabelde trainingsgegevens en helpt u om uitkomsten voor onvoorziene gegevens te voorspellen.
Het succesvol bouwen, schalen en implementeren van nauwkeurige gesuperviseerde machine learning-modellen kost tijd en technische expertise van een team van zeer bekwame datawetenschappers. Bovendien moet de datawetenschapper modellen opnieuw opbouwen om ervoor te zorgen dat de gegeven inzichten waar blijven totdat de gegevens veranderen.
In deze tutorial leer je:
- Wat is supervised machine learning?
- Hoe begeleid leren werkt
- Typen algoritmen voor machinaal leren onder supervisie
- Supervised vs. unsupervised Machine learning-technieken
- Uitdagingen bij machinaal leren onder supervisie
- Voordelen van begeleid leren:
- Nadelen van begeleid leren
- Best practices voor begeleid leren
Hoe begeleid leren werkt
U wilt bijvoorbeeld een machine trainen om u te helpen voorspellen hoe lang het duurt om van uw werkplek naar huis te rijden. Hier begint u met het maken van een set gelabelde gegevens. Deze gegevens omvatten
- Weersomstandigheden
- Tijd van de dag
- Vakantie
Al deze details zijn uw input. De output is de hoeveelheid tijd die nodig was om op die specifieke dag terug naar huis te rijden.
Je weet instinctief dat als het buiten regent, het langer duurt om naar huis te rijden. Maar de machine heeft gegevens en statistieken nodig.
Laten we nu eens kijken hoe u een begeleid leermodel van dit voorbeeld kunt ontwikkelen dat de gebruiker helpt bij het bepalen van de reistijd. Het eerste dat u moet maken, is een trainingsset. Deze trainingsset bevat de totale reistijd en bijbehorende factoren zoals het weer, de tijd, enz. Op basis van deze trainingsset kan uw machine zien dat er een directe relatie is tussen de hoeveelheid regen en de tijd die u nodig heeft om naar huis te gaan.
Het stelt dus vast dat hoe meer het regent, hoe langer u zult rijden om terug naar uw huis te gaan. Het kan ook het verband zien tussen de tijd dat u van uw werk vertrekt en de tijd dat u onderweg bent.
Hoe dichter je bij 18.00 uur bent, hoe langer het duurt voordat je thuiskomt. Mogelijk vindt uw machine een aantal relaties met uw gelabelde gegevens.
Dit is het begin van uw datamodel. Het begint te beïnvloeden hoe regen invloed heeft op de manier waarop mensen rijden. Het begint ook te zien dat meer mensen op een bepaald moment van de dag reizen.
Typen algoritmen voor machinaal leren onder supervisie
Regressie:
De regressietechniek voorspelt een enkele outputwaarde met behulp van trainingsgegevens.
Voorbeeld : u kunt regressie gebruiken om de huizenprijs te voorspellen op basis van trainingsgegevens. De invoervariabelen zijn de plaats, de grootte van een huis, enz.
Sterke punten: Outputs hebben altijd een probabilistische interpretatie en het algoritme kan worden geregulariseerd om overfitting te voorkomen.
Zwakke punten : Logistische regressie kan ondermaats presteren als er meerdere of niet-lineaire beslissingsgrenzen zijn. Deze methode is niet flexibel, dus het legt geen complexere relaties vast.
Logistieke regressie:
Logistische regressiemethode die wordt gebruikt om discrete waarden te schatten op basis van een reeks onafhankelijke variabelen. Het helpt u om de waarschijnlijkheid van optreden van een gebeurtenis te voorspellen door gegevens aan een logit-functie aan te passen. Daarom wordt het ook wel logistieke regressie genoemd. Omdat het de waarschijnlijkheid voorspelt, ligt de uitvoerwaarde tussen 0 en 1.
Hier zijn een paar soorten regressie-algoritmen
Classificatie:
Classificatie betekent dat de uitvoer binnen een klasse wordt gegroepeerd. Als het algoritme de invoer in twee verschillende klassen probeert te labelen, wordt dit binaire classificatie genoemd. Selecteren tussen meer dan twee klassen wordt classificatie met meerdere klassen genoemd.
Voorbeeld : bepalen of iemand al dan niet een wanbetaler zal zijn.
Sterke punten : Classificatieboom presteert in de praktijk erg goed
Zwakke punten : Ongedwongen, individuele bomen zijn vatbaar voor overfitting.
Hier zijn een paar soorten classificatie-algoritmen
Naïeve Bayes-classificaties
Het naïeve Bayesiaanse model (NBN) is eenvoudig te bouwen en erg handig voor grote datasets. Deze methode is samengesteld uit directe acyclische grafieken met één ouder en meerdere kinderen. Het veronderstelt onafhankelijkheid tussen onderliggende knooppunten die zijn gescheiden van hun ouder.
Beslissingsbomen
Beslissingsbomen classificeren de instantie door ze te sorteren op basis van de kenmerkwaarde. Bij deze methode is elke modus het kenmerk van een instantie. Het moet worden geclassificeerd en elke tak vertegenwoordigt een waarde die het knooppunt kan aannemen. Het is een veelgebruikte techniek voor classificatie. Bij deze methode is classificatie een boom die bekend staat als een beslissingsboom.
Het helpt u de werkelijke waarden te schatten (aankoopprijs van een auto, aantal oproepen, totale maandelijkse verkopen, enz.).
Ondersteuning van Vector Machine
Support Vector Machine (SVM) is een type leeralgoritme dat in 1990 is ontwikkeld. Deze methode is gebaseerd op resultaten van de statistische leertheorie die is geïntroduceerd door Vap Nik.
SVM-machines zijn ook nauw verbonden met kernelfuncties, wat een centraal concept is voor de meeste leertaken. Het kernelframework en SVM worden op verschillende gebieden gebruikt. Het omvat het ophalen van multimedia-informatie, bio-informatica en patroonherkenning.
Supervised vs. unsupervised Machine learning-technieken
Gebaseerd op | Begeleide machine learning-techniek | Machine learning-techniek zonder toezicht |
Invoergegevens | Algoritmen worden getraind met behulp van gelabelde gegevens. | Algoritmen worden gebruikt voor gegevens die niet zijn gelabeld |
Computationele complexiteit | Begeleid leren is een eenvoudigere methode. | Ongecontroleerd leren is rekenkundig complex |
Nauwkeurigheid | Zeer nauwkeurige en betrouwbare methode. | Minder nauwkeurige en betrouwbare methode. |
Uitdagingen bij machinaal leren onder supervisie
Hier zijn de uitdagingen waarmee u te maken krijgt bij machine learning onder supervisie:
- Irrelevante invoerfunctie bestaande trainingsgegevens kunnen onnauwkeurige resultaten opleveren
- Datavoorbereiding en voorverwerking is altijd een uitdaging.
- Nauwkeurigheid lijdt wanneer onmogelijke, onwaarschijnlijke en onvolledige waarden zijn ingevoerd als trainingsgegevens
- Als de betrokken expert niet beschikbaar is, dan is de andere benadering "brute-force". Het betekent dat je moet nadenken over de juiste functies (invoervariabelen) om de machine op te trainen. Het kan onjuist zijn.
Voordelen van begeleid leren:
- Begeleid leren stelt u in staat om gegevens te verzamelen of een gegevensoutput te produceren op basis van de eerdere ervaring
- Helpt u prestatiecriteria te optimaliseren met behulp van ervaring
- Supervised machine learning helpt u bij het oplossen van verschillende soorten real-world rekenproblemen.
Nadelen van begeleid leren
- De beslissingsgrens kan overtraind zijn als je trainingsset geen voorbeelden bevat die je in een klas wilt hebben
- Je moet veel goede voorbeelden uit elke klas selecteren terwijl je de classificator traint.
- Het classificeren van big data kan een echte uitdaging zijn.
- Trainen voor begeleid leren vergt veel rekentijd.
Best practices voor begeleid leren
- Voordat u iets anders gaat doen, moet u beslissen wat voor soort gegevens u als trainingsset wilt gebruiken
- U moet de structuur van de aangeleerde functie en het leeralgoritme bepalen.
- Hier vindt u overeenkomstige resultaten van menselijke experts of metingen
Overzicht
- Bij Supervised learning train je de machine met behulp van data die goed 'gelabeld' zijn.
- U wilt een machine trainen die u helpt te voorspellen hoe lang het duurt om van uw werkplek naar huis te rijden, is een voorbeeld van leren onder begeleiding
- Regressie en classificatie zijn twee soorten technieken voor machinaal leren onder supervisie.
- Begeleid leren is een eenvoudigere methode, terwijl onbegeleid leren een complexe methode is.
- De grootste uitdaging bij begeleid leren is dat irrelevante invoerfunctie bestaande trainingsgegevens onnauwkeurige resultaten kunnen opleveren.
- Het belangrijkste voordeel van begeleid leren is dat u hiermee gegevens kunt verzamelen of een gegevensoutput kunt produceren op basis van eerdere ervaringen.
- Het nadeel van dit model is dat de beslissingsgrens kan worden overschreden als je trainingsset geen voorbeelden bevat die je in een klas wilt hebben.
- Als beste praktijk om toezicht te houden op leren, moet u eerst beslissen welk soort gegevens als trainingsset moet worden gebruikt.