Wat is verwarringmatrix?
Een verwarringmatrix is een prestatiemetingstechniek voor classificatie van machine learning. Het is een soort tabel die u helpt de prestaties van het classificatiemodel te kennen op een set testgegevens waarvan de werkelijke waarden bekend zijn. De term verwarringmatrix zelf is heel eenvoudig, maar de verwante terminologie kan een beetje verwarrend zijn. Hier wordt een eenvoudige uitleg gegeven voor deze techniek.
In deze tutorial leer je,
- Wat is verwarringmatrix?
- Vier uitkomsten van de verwarringmatrix
- Voorbeeld van verwarringmatrix:
- Hoe een verwarringmatrix te berekenen
- Andere belangrijke termen die een verwarringmatrix gebruiken
- Waarom heb je verwarringmatrix nodig?
Vier uitkomsten van de verwarringmatrix
De verwarringmatrix visualiseert de nauwkeurigheid van een classificator door de werkelijke en voorspelde klassen te vergelijken. De binaire verwarringmatrix is samengesteld uit vierkanten:
- TP: True Positive: Voorspelde waarden correct voorspeld als werkelijk positief
- FP: Voorspelde waarden voorspelden onjuist een feitelijk positief. dwz negatieve waarden voorspeld als positief
- FN: False Negative: Positieve waarden voorspeld als negatief
- TN: True Negative: voorspelde waarden correct voorspeld als een werkelijk negatief
U kunt de nauwkeurigheidstest uit de verwarringmatrix berekenen :
Voorbeeld van verwarringmatrix:
Confusion Matrix is een handige machine learning-methode waarmee u de Recall-, Precision, Accuracy- en AUC-ROC-curve kunt meten. Hieronder wordt een voorbeeld gegeven van de termen True Positive, True Negative, False Negative en True Negative.
Echt positief:
Je projecteerde positief en het blijkt waar te zijn. U had bijvoorbeeld voorspeld dat Frankrijk het WK zou winnen, en het won.
Echt negatief:
Als je negatief voorspelde, en het is waar. U had voorspeld dat Engeland niet zou winnen en verloor.
Vals positief:
Uw voorspelling is positief en niet waar.
U had voorspeld dat Engeland zou winnen, maar het verloor.
Fout negatief:
Uw voorspelling is negatief en het resultaat is ook onjuist.
Je had voorspeld dat Frankrijk niet zou winnen, maar het won.
Houd er rekening mee dat we voorspelde waarden beschrijven als Waar of niet waar of Positief en negatief.
Hoe een verwarringmatrix te berekenen
Hier is een stapsgewijs proces voor het berekenen van een verwarringmatrix in datamining
- Stap 1) Eerst moet u de dataset testen met de verwachte uitkomstwaarden.
- Stap 2) Voorspel alle rijen in de testgegevensset.
- Stap 3) Bereken de verwachte voorspellingen en resultaten:
- Het totaal van correcte voorspellingen van elke klas.
- Het totaal van onjuiste voorspellingen van elke klasse.
Daarna worden deze nummers georganiseerd in de onderstaande methoden:
- Elke rij van de matrix linkt naar een voorspelde klasse.
- Elke kolom van de matrix komt overeen met een werkelijke klasse.
- Het totaal aantal correcte en incorrecte classificatie wordt in de tabel ingevoerd.
- De som van de juiste voorspellingen voor een klasse gaat naar de voorspelde kolom en de verwachte rij voor die klassewaarde.
- De som van onjuiste voorspellingen voor een klasse gaat naar de verwachte rij voor die klassenwaarde en de voorspelde kolom voor die specifieke klassenwaarde.
Andere belangrijke termen die een verwarringmatrix gebruiken
- Positieve voorspellende waarde (PVV): dit is bijna nauwkeurig. Een significant verschil tussen de twee termijnen is dat de PVV rekening houdt met prevalentie. In de situatie waarin de klassen perfect in balans zijn, is de positief voorspellende waarde hetzelfde als precisie.
- Null-foutpercentage: deze term wordt gebruikt om te definiëren hoe vaak uw voorspelling fout zou zijn als u de meerderheidsklasse kunt voorspellen. U kunt het beschouwen als een basisstatistiek om uw classificatie te vergelijken.
- F-score: F1-score is een gewogen gemiddelde score van het echte positieve (herinnering) en de precisie.
- Roc Curve: Roc-curve toont de werkelijke positieve waarden ten opzichte van de valse positieve waarden op verschillende afsnijpunten. Het toont ook een afweging aan tussen gevoeligheid (herinnering en specificiteit of het echte negatieve percentage).
- Precisie: de precisiemetriek toont de nauwkeurigheid van de positieve klasse. Het meet hoe waarschijnlijk het is dat de voorspelling van de positieve klasse correct is.
De maximale score is 1 wanneer de classificator alle positieve waarden perfect classificeert. Precisie alleen is niet erg nuttig omdat het de negatieve klasse negeert. De metriek wordt meestal gecombineerd met de metriek terugroepen. Terugroepen wordt ook wel gevoeligheid of echt positief tarief genoemd.
- Gevoeligheid : Gevoeligheid berekent de verhouding van correct gedetecteerde positieve klassen. Deze statistiek geeft aan hoe goed het model is om een positieve klasse te herkennen.
Waarom heb je verwarringmatrix nodig?
Hier zijn de voor- / voordelen van het gebruik van een verwarringmatrix.
- Het laat zien hoe elk classificatiemodel in de war raakt wanneer het voorspellingen doet.
- Verwarmeringsmatrix geeft u niet alleen inzicht in de fouten die door uw classificator worden gemaakt, maar ook in soorten fouten die worden gemaakt.
- Deze uitsplitsing helpt u de beperking van het gebruik van alleen classificatienauwkeurigheid te overwinnen.
- Elke kolom van de verwarringmatrix vertegenwoordigt de instanties van die voorspelde klasse.
- Elke rij van de verwarringmatrix vertegenwoordigt de instanties van de werkelijke klasse.
- Het geeft niet alleen inzicht in de fouten die worden gemaakt door een classificator, maar ook in de fouten die worden gemaakt.