Wat is supervised machine learning?
Bij Supervised learning train je de machine met behulp van data die goed 'gelabeld' zijn . Het betekent dat sommige gegevens al zijn getagd met het juiste antwoord. Het is te vergelijken met leren dat plaatsvindt in aanwezigheid van een begeleider of een docent.
Een algoritme voor leren onder supervisie leert van gelabelde trainingsgegevens en helpt u om uitkomsten voor onvoorziene gegevens te voorspellen. Het succesvol bouwen, schalen en implementeren van nauwkeurig supervised machine learning Data science-model kost tijd en technische expertise van een team van zeer bekwame datawetenschappers. Bovendien moet de datawetenschapper modellen opnieuw opbouwen om ervoor te zorgen dat de gegeven inzichten waar blijven totdat de gegevens veranderen.
In deze tutorial leer je
- Wat is supervised machine learning?
- Wat is onbewaakt leren?
- Waarom begeleid leren?
- Waarom leren zonder toezicht?
- Hoe werkt begeleid leren?
- Hoe werkt onbewaakt leren?
- Soorten begeleide machine learning-technieken
- Soorten niet-gecontroleerde machine learning-technieken
- Begeleid versus onbewaakt leren
Wat is onbewaakt leren?
Ongecontroleerd leren is een machine learning-techniek, waarbij u geen toezicht hoeft te houden op het model. In plaats daarvan moet u het model zelfstandig laten werken om informatie te ontdekken. Het behandelt voornamelijk de niet-gelabelde gegevens.
Met algoritmen voor leren zonder toezicht kunt u complexere verwerkingstaken uitvoeren in vergelijking met leren onder supervisie. Hoewel leren zonder toezicht onvoorspelbaarder kan zijn in vergelijking met andere natuurlijke leermethoden voor diep leren en versterkende leermethoden.
Waarom begeleid leren?
- Begeleid leren stelt u in staat om gegevens te verzamelen of een gegevensoutput te produceren op basis van de eerdere ervaring.
- Helpt u prestatiecriteria te optimaliseren met behulp van ervaring
- Supervised machine learning helpt u bij het oplossen van verschillende soorten real-world rekenproblemen.
Waarom leren zonder toezicht?
Hier zijn de belangrijkste redenen om Unsupervised Learning te gebruiken:
- Ongecontroleerd machine learning vindt allerlei onbekende patronen in gegevens.
- Methoden zonder toezicht helpen u functies te vinden die handig kunnen zijn voor categorisering.
- Het vindt plaats in realtime, dus alle invoergegevens moeten worden geanalyseerd en gelabeld in aanwezigheid van leerlingen.
- Het is gemakkelijker om niet-gelabelde gegevens van een computer te krijgen dan gelabelde gegevens, waarvoor handmatige tussenkomst vereist is.
Hoe werkt begeleid leren?
U wilt bijvoorbeeld een machine trainen om u te helpen voorspellen hoe lang het duurt om van uw werkplek naar huis te rijden. Hier begint u met het maken van een set gelabelde gegevens. Deze gegevens omvatten
- Weersomstandigheden
- Tijd van de dag
- Vakantie
Al deze details zijn uw input. De output is de hoeveelheid tijd die nodig was om op die specifieke dag terug naar huis te rijden.
Je weet instinctief dat als het buiten regent, het langer duurt om naar huis te rijden. Maar de machine heeft gegevens en statistieken nodig.
Laten we nu eens kijken hoe u een begeleid leermodel van dit voorbeeld kunt ontwikkelen dat de gebruiker helpt bij het bepalen van de reistijd. Het eerste dat u moet maken, is een trainingsgegevensset. Deze trainingsset bevat de totale reistijd en bijbehorende factoren zoals het weer, de tijd, enz. Op basis van deze trainingsset kan uw machine zien dat er een directe relatie is tussen de hoeveelheid regen en de tijd die u nodig heeft om naar huis te gaan.
Het stelt dus vast dat hoe meer het regent, hoe langer u zult rijden om terug naar uw huis te gaan. Het kan ook het verband zien tussen de tijd dat u van uw werk vertrekt en de tijd dat u onderweg bent.
Hoe dichter je bij 18.00 uur bent, hoe langer het duurt voordat je thuiskomt. Mogelijk vindt uw machine een aantal relaties met uw gelabelde gegevens.
Dit is het begin van uw datamodel. Het begint te beïnvloeden hoe regen invloed heeft op de manier waarop mensen rijden. Het begint ook te zien dat meer mensen op een bepaald moment van de dag reizen.
Hoe werkt onbewaakt leren?
Laten we het geval van een baby en haar gezinshond nemen.
Ze kent en identificeert deze hond. Een paar weken later brengt een familievriend een hond mee en probeert met de baby te spelen.
Baby heeft deze hond niet eerder gezien. Maar het herkent veel kenmerken (2 oren, ogen, lopen op 4 poten) zoals haar hond. Ze identificeert een nieuw dier als een hond. Dit is leren zonder toezicht, waarbij u niet wordt onderwezen maar u leert van de gegevens (in dit geval gegevens over een hond). Als dit onder toezicht was geweest, zou de familievriend de baby hebben verteld dat het een hond is.
Soorten begeleide machine learning-technieken
Regressie:
De regressietechniek voorspelt een enkele outputwaarde met behulp van trainingsgegevens.
Voorbeeld: u kunt regressie gebruiken om de huizenprijs te voorspellen op basis van trainingsgegevens. De invoervariabelen zijn de plaats, de grootte van een huis, enz.
Classificatie:
Classificatie betekent dat de uitvoer binnen een klasse wordt gegroepeerd. Als het algoritme de invoer in twee verschillende klassen probeert te labelen, wordt dit binaire classificatie genoemd. Selecteren tussen meer dan twee klassen wordt classificatie met meerdere klassen genoemd.
Voorbeeld : bepalen of iemand al dan niet een wanbetaler zal zijn.
Sterke punten: Outputs hebben altijd een probabilistische interpretatie en het algoritme kan worden geregulariseerd om overfitting te voorkomen.
Zwakke punten : Logistische regressie kan ondermaats presteren als er meerdere of niet-lineaire beslissingsgrenzen zijn. Deze methode is niet flexibel, dus het legt geen complexere relaties vast.
Soorten niet-gecontroleerde machine learning-technieken
Leerproblemen zonder toezicht worden verder gegroepeerd in clustering- en associatieproblemen.
Clustering
Clustering is een belangrijk concept als het gaat om leren zonder toezicht. Het gaat voornamelijk over het vinden van een structuur of patroon in een verzameling niet-gecategoriseerde gegevens. Clusteringalgoritmen zullen uw gegevens verwerken en natuurlijke clusters (groepen) vinden als deze in de gegevens voorkomen. U kunt ook wijzigen hoeveel clusters uw algoritmen moeten identificeren. Hiermee kunt u de granulariteit van deze groepen aanpassen.
Vereniging
Met associatieregels kunt u associaties tot stand brengen tussen gegevensobjecten in grote databases. Deze techniek zonder toezicht gaat over het ontdekken van spannende relaties tussen variabelen in grote databases. Mensen die bijvoorbeeld een nieuw huis kopen, zullen waarschijnlijk nieuwe meubels kopen.
Andere voorbeelden:
- Een subgroep van kankerpatiënten gegroepeerd op basis van hun genexpressiemetingen
- Groepen kopers op basis van hun browse- en aankoopgeschiedenis
- Filmgroep op basis van de beoordeling die is gegeven door filmkijkers
Begeleid versus onbewaakt leren
Parameters | Begeleide machine learning-techniek | Machine learning-techniek zonder toezicht |
Werkwijze | In een begeleid leermodel worden input- en outputvariabelen gegeven. | In een leermodel zonder toezicht worden alleen invoergegevens gegeven |
Invoergegevens | Algoritmen worden getraind met behulp van gelabelde gegevens. | Algoritmen worden gebruikt voor gegevens die niet zijn gelabeld |
Algoritmen gebruikt | Ondersteuning van vectormachine, neuraal netwerk, lineaire en logistieke regressie, willekeurig bos en classificatiebomen. | Ongecontroleerde algoritmen kunnen worden onderverdeeld in verschillende categorieën: zoals clusteralgoritmen, K-middelen, hiërarchische clustering, enz. |
Computationele complexiteit | Begeleid leren is een eenvoudigere methode. | Ongecontroleerd leren is rekenkundig complex |
Gebruik van gegevens | Het supervised learning-model maakt gebruik van trainingsdata om een verband te leren tussen de input en de outputs. | Ongecontroleerd leren maakt geen gebruik van uitvoergegevens. |
Nauwkeurigheid van resultaten | Zeer nauwkeurige en betrouwbare methode. | Minder nauwkeurige en betrouwbare methode. |
Real-time leren | De leermethode vindt offline plaats. | De leermethode vindt in realtime plaats. |
Aantal lessen | Het aantal klassen is bekend. | Het aantal klassen is niet bekend. |
Belangrijkste nadeel | Het classificeren van big data kan een echte uitdaging zijn bij begeleid leren. | U kunt geen nauwkeurige informatie krijgen over het sorteren van gegevens, en de output als gegevens die worden gebruikt bij onbewaakt leren, is gelabeld en niet bekend. |
Overzicht
- Bij Supervised learning train je de machine met behulp van data die goed 'gelabeld' zijn.
- Ongecontroleerd leren is een machine learning-techniek, waarbij u geen toezicht hoeft te houden op het model.
- Begeleid leren stelt u in staat om gegevens te verzamelen of een gegevensoutput te produceren op basis van de eerdere ervaring.
- Ongecontroleerd machine learning helpt je om allerlei onbekende patronen in data te vinden.
- U kunt bijvoorbeeld de tijd bepalen die nodig is om terug te komen op basis van weersomstandigheden, tijden van de dag en vakantie.
- Baby kan bijvoorbeeld andere honden identificeren op basis van leren onder toezicht uit het verleden.
- Regressie en classificatie zijn twee soorten technieken voor machinaal leren onder supervisie.
- Clustering en associatie zijn twee soorten onbewaakt leren.
- In een begeleid leermodel worden input- en outputvariabelen gegeven, terwijl bij een niet-gecontroleerd leermodel alleen inputgegevens worden gegeven