Τι είναι το Confusion Matrix;
Ένας πίνακας σύγχυσης είναι μια τεχνική μέτρησης απόδοσης για την ταξινόμηση μηχανικής μάθησης. Πρόκειται για ένα είδος πίνακα που σας βοηθά να γνωρίζετε την απόδοση του μοντέλου ταξινόμησης σε ένα σύνολο δεδομένων δοκιμής για το ότι είναι γνωστές οι πραγματικές τιμές. Ο ίδιος ο όρος σύγχυση μήτρας είναι πολύ απλός, αλλά η σχετική ορολογία του μπορεί να είναι λίγο σύγχυση. Εδώ, δίνεται μια απλή εξήγηση για αυτήν την τεχνική.
Σε αυτό το σεμινάριο, θα μάθετε,
- Τι είναι ο πίνακας Confusion;
- Τέσσερα αποτελέσματα του πίνακα σύγχυσης
- Παράδειγμα πίνακα σύγχυσης:
- Πώς να υπολογίσετε μια μήτρα σύγχυσης
- Άλλοι σημαντικοί όροι χρησιμοποιώντας ένα πίνακα Confusion
- Γιατί χρειάζεστε το Confusion matrix;
Τέσσερα αποτελέσματα του πίνακα σύγχυσης
Ο πίνακας σύγχυσης απεικονίζει την ακρίβεια ενός ταξινομητή συγκρίνοντας τις πραγματικές και τις προβλεπόμενες τάξεις. Η μήτρα δυαδικής σύγχυσης αποτελείται από τετράγωνα:
- TP: True Positive: Οι προβλεπόμενες τιμές προβλέπονται σωστά ως πραγματικές θετικές
- FP: Οι προβλεπόμενες τιμές προέβλεπαν λανθασμένα ένα πραγματικό θετικό. Δηλαδή, οι αρνητικές τιμές προβλέπονται ως θετικές
- FN: False Negative: Θετικές τιμές προβλεπόμενες ως αρνητικές
- TN: True Negative: Προβλεπόμενες τιμές που προβλέπονται σωστά ως πραγματικές αρνητικές
Μπορείτε να υπολογίσετε τη δοκιμή ακρίβειας από τον πίνακα σύγχυσης:
Παράδειγμα Confusion Matrix:
Το Confusion Matrix είναι μια χρήσιμη μέθοδος μηχανικής μάθησης που σας επιτρέπει να μετράτε την καμπύλη Recall, Precision, Accuracy και AUC-ROC. Παρακάτω δίνεται ένα παράδειγμα για να γνωρίζετε τους όρους True Positive, True Negative, Fals Negative και True Negative.
Αληθινό θετικό:
Προβλέψατε θετικό και αποδείχτηκε αληθινό. Για παράδειγμα, είχατε προβλέψει ότι η Γαλλία θα κέρδιζε το Παγκόσμιο Κύπελλο και κέρδισε.
Αληθινό αρνητικό:
Όταν προέβλεπε αρνητικό, και είναι αλήθεια. Είχατε προβλέψει ότι η Αγγλία δεν θα κέρδιζε και έχασε.
Ψευδώς θετικό:
Η πρόβλεψή σας είναι θετική και είναι ψευδής.
Είχατε προβλέψει ότι η Αγγλία θα κερδίσει, αλλά έχασε.
Λάθος αρνητικό:
Η πρόβλεψή σας είναι αρνητική και το αποτέλεσμα είναι επίσης εσφαλμένη.
Είχατε προβλέψει ότι η Γαλλία δεν θα κέρδιζε, αλλά κέρδισε.
Θα πρέπει να θυμάστε ότι περιγράφουμε τις προβλεπόμενες τιμές ως Αληθινές ή Λάθος ή Θετικές και αρνητικές.
Πώς να υπολογίσετε μια μήτρα σύγχυσης
Εδώ, είναι διαδικασία βήμα προς βήμα για τον υπολογισμό ενός Matrix σύγχυσης στην εξόρυξη δεδομένων
- Βήμα 1) Πρώτον, πρέπει να δοκιμάσετε το σύνολο δεδομένων με τις αναμενόμενες τιμές αποτελέσματος.
- Βήμα 2) Προβλέψτε όλες τις σειρές στο σύνολο δεδομένων δοκιμής.
- Βήμα 3) Υπολογίστε τις αναμενόμενες προβλέψεις και αποτελέσματα:
- Το σύνολο των σωστών προβλέψεων κάθε τάξης.
- Το σύνολο των λανθασμένων προβλέψεων κάθε τάξης.
Μετά από αυτό, αυτοί οι αριθμοί οργανώνονται με τις παρακάτω μεθόδους:
- Κάθε σειρά του πίνακα συνδέεται με μια προβλεπόμενη τάξη.
- Κάθε στήλη του πίνακα αντιστοιχεί σε μια πραγματική τάξη.
- Οι συνολικοί αριθμοί σωστής και λανθασμένης ταξινόμησης καταχωρούνται στον πίνακα.
- Το άθροισμα των σωστών προβλέψεων για μια κλάση πηγαίνει στην προβλεπόμενη στήλη και στην αναμενόμενη σειρά για αυτήν την τιμή κλάσης.
- Το άθροισμα των λανθασμένων προβλέψεων για μια κλάση πηγαίνει στην αναμενόμενη σειρά για αυτήν την τιμή κλάσης και στην προβλεπόμενη στήλη για τη συγκεκριμένη τιμή κλάσης.
Άλλοι σημαντικοί όροι χρησιμοποιώντας ένα πίνακα Confusion
- Θετική τιμή πρόβλεψης (PVV): Αυτό είναι πολύ κοντά στην ακρίβεια. Μία σημαντική διαφορά μεταξύ των δύο θητειών είναι ότι το PVV θεωρεί τον επιπολασμό. Στην περίπτωση όπου οι τάξεις είναι απόλυτα ισορροπημένες, η θετική προγνωστική τιμή είναι ίδια με την ακρίβεια.
- Ποσοστό μηδενικού σφάλματος: Αυτός ο όρος χρησιμοποιείται για να καθορίσει πόσες φορές η πρόβλεψή σας θα ήταν λανθασμένη αν μπορείτε να προβλέψετε την τάξη πλειοψηφίας. Μπορείτε να το θεωρήσετε ως βασική μέτρηση για να συγκρίνετε τον ταξινομητή σας.
- F Score: Η βαθμολογία F1 είναι ένας σταθμισμένος μέσος όρος του πραγματικού θετικού (ανάκληση) και της ακρίβειας.
- Roc Curve: Η καμπύλη Roc δείχνει τους πραγματικούς θετικούς ρυθμούς έναντι του ψευδώς θετικού ρυθμού σε διάφορα σημεία αποκοπής. Δείχνει επίσης μια αντιστάθμιση μεταξύ ευαισθησίας (ανάκληση και ειδικότητα ή το πραγματικό αρνητικό ποσοστό).
- Ακρίβεια: Η μέτρηση ακριβείας δείχνει την ακρίβεια της θετικής κατηγορίας. Μετρά πόσο πιθανή είναι σωστή η πρόβλεψη της θετικής τάξης.
Η μέγιστη βαθμολογία είναι 1 όταν ο ταξινομητής ταξινομεί τέλεια όλες τις θετικές τιμές. Η ακρίβεια από μόνη της δεν είναι πολύ χρήσιμη επειδή αγνοεί την αρνητική τάξη. Η μέτρηση συνήθως συνδυάζεται με τη μέτρηση Ανάκληση. Η ανάκληση ονομάζεται επίσης ευαισθησία ή πραγματικός θετικός ρυθμός.
- Ευαισθησία : Η ευαισθησία υπολογίζει την αναλογία των θετικών τάξεων που εντοπίστηκαν σωστά. Αυτή η μέτρηση δίνει πόσο καλό είναι το μοντέλο να αναγνωρίζει μια θετική τάξη.
Γιατί χρειάζεστε το Confusion matrix;
Εδώ είναι τα πλεονεκτήματα / οφέλη από τη χρήση ενός πίνακα σύγχυσης.
- Δείχνει πώς μπερδεύεται κάθε μοντέλο ταξινόμησης όταν κάνει προβλέψεις.
- Ο πίνακας σύγχυσης όχι μόνο σας δίνει πληροφορίες για τα σφάλματα που κάνει ο ταξινομητής σας, αλλά και για τύπους σφαλμάτων που γίνονται.
- Αυτή η ανάλυση σάς βοηθά να ξεπεράσετε τον περιορισμό της χρήσης μόνο της ακρίβειας ταξινόμησης.
- Κάθε στήλη του πίνακα σύγχυσης αντιπροσωπεύει τις εμφανίσεις αυτής της προβλεπόμενης κλάσης.
- Κάθε σειρά του πίνακα σύγχυσης αντιπροσωπεύει τις εμφανίσεις της πραγματικής κλάσης.
- Παρέχει γνώση όχι μόνο των σφαλμάτων που γίνονται από έναν ταξινομητή αλλά και των σφαλμάτων που γίνονται.