Ongecontroleerd leren
Unsupervised Learning is een machine learning-techniek waarbij de gebruikers geen toezicht op het model hoeven te houden. In plaats daarvan kan het model zelfstandig werken om patronen en informatie te ontdekken die voorheen niet werden ontdekt. Het behandelt voornamelijk de niet-gelabelde gegevens.
Ongecontroleerde leeralgoritmen
Ongecontroleerde leeralgoritmen stellen gebruikers in staat om complexere verwerkingstaken uit te voeren in vergelijking met leren onder toezicht. Hoewel leren zonder toezicht onvoorspelbaarder kan zijn in vergelijking met andere natuurlijke leermethoden. Ongecontroleerde leeralgoritmen omvatten clustering, detectie van afwijkingen, neurale netwerken, enz.
In deze tutorial leer je:
- Voorbeeld van machine learning zonder toezicht
- Waarom leren zonder toezicht?
- Soorten onbewaakt leren
- Clustering
- Clusteringstypen
- Vereniging
- Machinaal leren met of zonder toezicht
- Toepassingen van onbewaakt machine learning
- Nadelen van onbewaakt leren
Voorbeeld van machine learning zonder toezicht
Laten we het geval van een baby en haar gezinshond nemen.
Ze kent en identificeert deze hond. Enkele weken later brengt een familievriend een hond mee en probeert met de baby te spelen.
Baby heeft deze hond niet eerder gezien. Maar het herkent veel kenmerken (2 oren, ogen, lopen op 4 poten) zoals haar hond. Ze identificeert het nieuwe dier als een hond. Dit is leren zonder toezicht, waarbij u niet wordt onderwezen maar u leert van de gegevens (in dit geval gegevens over een hond). Als dit onder toezicht was geweest, zou de familievriend de baby hebben verteld dat het een hond is.
Waarom leren zonder toezicht?
Hier zijn de belangrijkste redenen om Unsupervised Learning te gebruiken:
- Ongecontroleerd machine learning vindt allerlei onbekende patronen in gegevens.
- Methoden zonder toezicht helpen u functies te vinden die handig kunnen zijn voor categorisering.
- Het vindt plaats in realtime, dus alle invoergegevens moeten worden geanalyseerd en gelabeld in aanwezigheid van leerlingen.
- Het is gemakkelijker om niet-gelabelde gegevens van een computer te krijgen dan gelabelde gegevens, waarvoor handmatige tussenkomst vereist is.
Soorten onbewaakt leren
Leerproblemen zonder toezicht worden verder gegroepeerd in clustering- en associatieproblemen.
Clustering
Clustering is een belangrijk concept als het gaat om leren zonder toezicht. Het gaat voornamelijk over het vinden van een structuur of patroon in een verzameling niet-gecategoriseerde gegevens. Clusteringalgoritmen zullen uw gegevens verwerken en natuurlijke clusters (groepen) vinden als deze in de gegevens voorkomen. U kunt ook wijzigen hoeveel clusters uw algoritmen moeten identificeren. Hiermee kunt u de granulariteit van deze groepen aanpassen.
Er zijn verschillende soorten clustering die u kunt gebruiken:
Exclusief (partitionering)
Bij deze clustermethode worden gegevens zo gegroepeerd dat één gegevens slechts tot één cluster kan behoren.
Voorbeeld: K-betekent
Agglomeratief
Bij deze clusteringstechniek is elke data een cluster. De iteratieve vakbonden tussen de twee dichtstbijzijnde clusters verminderen het aantal clusters.
Voorbeeld: hiërarchische clustering
Overlappend
Bij deze techniek worden fuzzy-sets gebruikt om gegevens te clusteren. Elk punt kan tot twee of meer clusters behoren met verschillende lidmaatschapsgraden.
Hier worden gegevens gekoppeld aan een geschikte lidmaatschapswaarde. Voorbeeld: Fuzzy C-Means
Probabilistisch
Deze techniek maakt gebruik van kansverdeling om de clusters te creëren
Voorbeeld: volgende trefwoorden
- "mannen schoen."
- "damesschoen."
- "vrouwenhandschoen."
- "man's handschoen."
kan worden geclusterd in twee categorieën "schoen" en "handschoen" of "man" en "vrouwen".
Clusteringstypen
- Hiërarchische clustering
- K-betekent clustering
- K-NN (k naaste buren)
- Analyse van hoofdcomponenten
- Singuliere waarden ontbinding
- Onafhankelijke componentanalyse
Hiërarchische clustering:
Hiërarchische clustering is een algoritme dat een hiërarchie van clusters opbouwt. Het begint met alle gegevens die aan een eigen cluster zijn toegewezen. Hier zullen twee nabije clusters zich in hetzelfde cluster bevinden. Dit algoritme eindigt wanneer er nog maar één cluster over is.
K-betekent clustering
K betekent dat het een iteratief clusteralgoritme is dat u helpt bij het vinden van de hoogste waarde voor elke iteratie. In eerste instantie wordt het gewenste aantal clusters geselecteerd. Bij deze clustermethode moet u de datapunten clusteren in k groepen. Een grotere k betekent op dezelfde manier kleinere groepen met meer granulariteit. Een lagere k betekent grotere groepen met minder granulariteit.
De output van het algoritme is een groep "labels". Het wijst een gegevenspunt toe aan een van de k-groepen. Bij k-means clustering wordt elke groep gedefinieerd door voor elke groep een zwaartepunt te creëren. De centroïden zijn als het hart van het cluster, dat de punten die zich het dichtst bij hen bevinden, vastlegt en aan het cluster toevoegt.
K-gemiddelde clustering definieert verder twee subgroepen:
- Agglomeratieve clustering
- Dendrogram
Agglomeratieve clustering:
Dit type K-mean-clustering begint met een vast aantal clusters. Het wijst alle gegevens toe aan het exacte aantal clusters. Deze clustermethode vereist niet het aantal clusters K als invoer. Agglomeratieproces begint met het vormen van elke gegevens als een enkele cluster.
Deze methode maakt gebruik van enige afstandsmeting, vermindert het aantal clusters (één in elke iteratie) door het proces samen te voegen. Ten slotte hebben we één groot cluster dat alle objecten bevat.
Dendrogram:
In de Dendrogram-clustermethode vertegenwoordigt elk niveau een mogelijk cluster. De hoogte van het dendrogram toont het niveau van gelijkenis tussen twee join-clusters. Hoe dichter bij de bodem van het proces, ze lijken meer op een cluster, wat het vinden van de groep uit het dendrogram is, wat niet natuurlijk en meestal subjectief is.
K- Naaste buren
K- naaste buur is de eenvoudigste van alle classificaties voor machine learning. Het verschilt van andere machine learning-technieken doordat het geen model oplevert. Het is een eenvoudig algoritme dat alle beschikbare gevallen opslaat en nieuwe gevallen classificeert op basis van een maatstaf voor gelijkenis.
Het werkt erg goed als er een afstand is tussen voorbeelden. De leersnelheid is laag als de trainingsset groot is, en de afstandsberekening is niet triviaal.
Analyse van hoofdcomponenten:
Voor het geval je een hoger dimensionale ruimte wilt. U moet een basis voor die ruimte selecteren en alleen de 200 belangrijkste scores van die basis. Deze basis staat bekend als een hoofdcomponent. De subset die u selecteert, is een nieuwe ruimte die klein is in vergelijking met de oorspronkelijke ruimte. Het behoudt zoveel mogelijk van de complexiteit van gegevens.
Vereniging
Met associatieregels kunt u associaties tot stand brengen tussen gegevensobjecten in grote databases. Deze techniek zonder toezicht gaat over het ontdekken van interessante verbanden tussen variabelen in grote databases. Mensen die bijvoorbeeld een nieuw huis kopen, zullen waarschijnlijk nieuwe meubels kopen.
Andere voorbeelden:
- Een subgroep van kankerpatiënten gegroepeerd op basis van hun genexpressiemetingen
- Groepen kopers op basis van hun browse- en aankoopgeschiedenis
- Filmgroep op basis van de beoordeling die is gegeven door filmkijkers
Machinaal leren met of zonder toezicht
Parameters | Begeleide machine learning-techniek | Machine learning-techniek zonder toezicht |
Invoergegevens | Algoritmen worden getraind met behulp van gelabelde gegevens. | Algoritmen worden gebruikt voor gegevens die niet zijn gelabeld |
Computationele complexiteit | Begeleid leren is een eenvoudigere methode. | Ongecontroleerd leren is rekenkundig complex |
Nauwkeurigheid | Zeer nauwkeurige en betrouwbare methode. | Minder nauwkeurige en betrouwbare methode. |
Toepassingen van onbewaakt machine learning
Enkele toepassingen van niet-gecontroleerde machine learning-technieken zijn:
- Clustering splitst de dataset automatisch op in groepen op basis van hun overeenkomsten
- Afwijkingsdetectie kan ongebruikelijke gegevenspunten in uw gegevensset ontdekken. Het is handig om frauduleuze transacties te vinden
- Association mining identificeert sets items die vaak samen in uw dataset voorkomen
- Latente variabelemodellen worden veel gebruikt voor het voorbewerken van gegevens. Zoals het verminderen van het aantal features in een dataset of het opsplitsen van de dataset in meerdere componenten
Nadelen van onbewaakt leren
- U kunt geen nauwkeurige informatie krijgen over het sorteren van gegevens, en de output als gegevens die worden gebruikt bij onbewaakt leren, is gelabeld en niet bekend
- Minder nauwkeurigheid van de resultaten komt doordat de invoergegevens niet bekend zijn en niet vooraf door mensen zijn gelabeld. Dit betekent dat de machine dit zelf moet doen.
- De spectraalklassen komen niet altijd overeen met informatieklassen.
- De gebruiker moet tijd besteden aan het interpreteren en benoemen van de klassen die op die classificatie volgen.
- Spectrale eigenschappen van klassen kunnen ook in de loop van de tijd veranderen, zodat u niet over dezelfde klasseninformatie kunt beschikken wanneer u van de ene afbeelding naar de andere gaat.
Overzicht
- Ongecontroleerd leren is een machine learning-techniek, waarbij u geen toezicht hoeft te houden op het model.
- Ongecontroleerd machine learning helpt je om allerlei onbekende patronen in data te vinden.
- Clustering en associatie zijn twee soorten onbewaakt leren.
- Vier soorten clustermethoden zijn 1) Exclusief 2) Agglomeratief 3) Overlappend 4) Probabilistisch.
- Belangrijke typen clustering zijn: 1) Hiërarchische clustering 2) K-gemiddelden clustering 3) K-NN 4) Principal Component Analysis 5) Singular Value Decompositie 6) Onafhankelijke Component Analyse.
- Met associatieregels kunt u associaties tot stand brengen tussen gegevensobjecten in grote databases.
- In Supervised learning worden algoritmen getraind met behulp van gelabelde gegevens, terwijl in Unsupervised learning algoritmen worden gebruikt tegen gegevens die niet zijn gelabeld.
- Met anomaliedetectie kunnen belangrijke gegevenspunten in uw gegevensset worden ontdekt, wat handig is voor het opsporen van frauduleuze transacties.
- Het grootste nadeel van onbewaakt leren is dat u geen nauwkeurige informatie kunt krijgen over het sorteren van gegevens.