Προβλήματα ετικετών και κρυφό μοντέλο Markov

Πίνακας περιεχομένων:

Anonim

Προσθήκη ετικετών

Η επισήμανση της φράσης με ευρύτερη έννοια αναφέρεται στην προσθήκη ετικετών του ρήματος, του ουσιαστικού κ.λπ. από το πλαίσιο της πρότασης Η αναγνώριση των POS tags είναι μια περίπλοκη διαδικασία. Επομένως, η γενική επισήμανση του POS δεν είναι χειροκίνητη, καθώς ορισμένες λέξεις μπορεί να έχουν διαφορετικές (διφορούμενες) σημασίες ανάλογα με τη δομή της πρότασης. Η μετατροπή κειμένου με τη μορφή λίστας είναι ένα σημαντικό βήμα πριν από την προσθήκη ετικετών καθώς κάθε λέξη στη λίστα περιτυλίσσεται και μετράται για μια συγκεκριμένη ετικέτα. Ανατρέξτε στον παρακάτω κώδικα για να τον κατανοήσετε καλύτερα

import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))

ΠΑΡΑΓΩΓΗ

[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]

Επεξήγηση κώδικα

  1. Κωδικός για εισαγωγή nltk (Σετ εργαλείων φυσικής γλώσσας που περιέχει υπομονάδες, όπως tokenize πρότασης και tokenize λέξεων.)
  2. Κείμενο του οποίου οι ετικέτες πρόκειται να εκτυπωθούν.
  3. Διαδικασία καταδίκης
  4. Για βρόχο εφαρμόζεται όπου οι λέξεις διαγράφονται από πρόταση και η ετικέτα κάθε λέξης εκτυπώνεται ως έξοδος.

Στο Corpus υπάρχουν δύο τύποι POS taggers:

  • Βάσει κανόνων
  • Στοχαστικές ετικέτες POS

1. Ετικέτα POS βάσει κανόνα : Για τις λέξεις που έχουν διφορούμενη σημασία, εφαρμόζεται προσέγγιση που βασίζεται σε κανόνες βάσει πληροφοριών με βάση τα συμφραζόμενα. Αυτό γίνεται με έλεγχο ή ανάλυση της σημασίας της προηγούμενης ή της ακόλουθης λέξης. Οι πληροφορίες αναλύονται από το περιβάλλον της λέξης ή από την ίδια. Επομένως, οι λέξεις επισημαίνονται από τους γραμματικούς κανόνες μιας συγκεκριμένης γλώσσας, όπως κεφαλαία και στίξη. π.χ., το tagger του Brill.

2.Ttochastic POS Tagger: Με αυτήν τη μέθοδο εφαρμόζονται διαφορετικές προσεγγίσεις όπως συχνότητα ή πιθανότητα. Εάν μια λέξη έχει ως επί το πλείστον ετικέτα με μια συγκεκριμένη ετικέτα στο σύνολο προπόνησης, τότε στη δοκιμαστική πρόταση δίνεται η συγκεκριμένη ετικέτα. Η λέξη tag εξαρτάται όχι μόνο από τη δική της ετικέτα αλλά και από την προηγούμενη ετικέτα. Αυτή η μέθοδος δεν είναι πάντα ακριβής. Ένας άλλος τρόπος είναι να υπολογίσετε την πιθανότητα εμφάνισης μιας συγκεκριμένης ετικέτας σε μια πρόταση. Έτσι, η τελική ετικέτα υπολογίζεται ελέγχοντας την υψηλότερη πιθανότητα μιας λέξης με μια συγκεκριμένη ετικέτα.

Κρυφό μοντέλο Markov:

Τα προβλήματα προσθήκης ετικετών μπορούν επίσης να μοντελοποιηθούν χρησιμοποιώντας HMM Αντιμετωπίζει τα διακριτικά εισόδου ως παρατηρήσιμη ακολουθία, ενώ οι ετικέτες θεωρούνται κρυφές καταστάσεις και στόχος είναι να προσδιοριστεί η κρυφή ακολουθία κατάστασης. Για παράδειγμα x = x 1 , x 2 ,…, x n όπου x είναι μια ακολουθία διακριτικών ενώ y = y 1 , y 2 , y 3 , y 4 … y n είναι η κρυφή ακολουθία.

Πώς λειτουργεί το μοντέλο HMM;

Το HMM χρησιμοποιεί την κατανομή σύνδεσης που είναι P (x, y) όπου x είναι η ακολουθία εισαγωγής / ακολουθία διακριτικών και το y είναι ακολουθία ετικετών.

Η ακολουθία ετικέτας για το x θα είναι argmax y1… .yn p (x1, x2,… .xn, y1, y2, y3,…). Έχουμε κατηγοριοποιήσει ετικέτες από το κείμενο, αλλά τα στατιστικά στοιχεία αυτών των ετικετών είναι ζωτικής σημασίας. Έτσι, το επόμενο μέρος μετρά αυτές τις ετικέτες για στατιστική μελέτη.