Σε αυτό το σεμινάριο, θα μάθετε -
- Εγκατάσταση NLTK στα Windows
- Εγκατάσταση του Python στα Windows
- Εγκατάσταση NLTK σε Mac / Linux
- Εγκατάσταση NLTK μέσω Anaconda
- Σύνολο δεδομένων NLTK
- Πώς να κατεβάσετε όλα τα πακέτα του NLTK
- Εκτέλεση του σεναρίου NLP
- Πώς να εκτελέσετε το σενάριο NLTK
Εγκατάσταση NLTK στα Windows
Σε αυτό το μέρος, θα μάθουμε ότι πώς να κάνουμε τη ρύθμιση NLTK μέσω τερματικού (γραμμή εντολών στα παράθυρα).
Οι οδηγίες που δίνονται παρακάτω βασίζονται στην υπόθεση ότι δεν έχετε εγκαταστήσει το python. Έτσι, το πρώτο βήμα είναι να εγκαταστήσετε το python.
Εγκατάσταση του Python στα Windows:
Βήμα 1) Πηγαίνετε στο σύνδεσμο https://www.python.org/downloads/ , και επιλέξτε την πιο πρόσφατη έκδοση για τα Windows.
Σημείωση : Εάν δεν θέλετε να κάνετε λήψη της πιο πρόσφατης έκδοσης, μπορείτε να επισκεφθείτε την καρτέλα λήψης και να δείτε όλες τις κυκλοφορίες.
Βήμα 2) Κάντε κλικ στο αρχείο λήψης
Βήμα 3) Επιλέξτε Προσαρμογή εγκατάστασης
Βήμα 4) Κάντε κλικ ΕΠΟΜΕΝΟ
Βήμα 5) Στην επόμενη οθόνη
- Ορίστε τις σύνθετες επιλογές
- Δώστε μια προσαρμοσμένη τοποθεσία εγκατάστασης. Στην περίπτωσή μου, επιλέγεται ένας φάκελος στη μονάδα δίσκου C για ευκολία στη λειτουργία
- Κάντε κλικ στην Εγκατάσταση
Βήμα 6) Κάντε κλικ στο κουμπί Κλείσιμο μόλις ολοκληρωθεί η εγκατάσταση.
Βήμα 7) Αντιγράψτε τη διαδρομή του φακέλου Scripts.
Βήμα 8) Στη γραμμή εντολών των Windows
- Μεταβείτε στη θέση του φακέλου pip
- Εισαγάγετε την εντολή για εγκατάσταση NLTK
pip3 install nltk
- Η εγκατάσταση πρέπει να γίνει με επιτυχία
ΣΗΜΕΙΩΣΗ : Για το Python2 χρησιμοποιήστε το commandpip2 install nltk
Βήμα 9) Στο μενού Έναρξη των Windows, αναζητήστε και ανοίξτε το PythonShell
Βήμα 10) Μπορείτε να επαληθεύσετε εάν η εγκατάσταση παρέχει με ακρίβεια την παρακάτω εντολή
import nltk
Εάν δεν βλέπετε κανένα σφάλμα, η εγκατάσταση ολοκληρώθηκε.
Εγκατάσταση NLTK σε Mac / Linux
Για την εγκατάσταση του NLTK σε Mac / Unix απαιτείται η εγκατάσταση του python pack manager pip για την εγκατάσταση του nltk. Εάν το pip δεν είναι εγκατεστημένο, ακολουθήστε τις παρακάτω οδηγίες για να ολοκληρώσετε τη διαδικασία
Βήμα 1) Ενημερώστε το ευρετήριο πακέτων πληκτρολογώντας την παρακάτω εντολή
sudo apt update
Βήμα 2) Εγκατάσταση pip για Python 3:
sudo apt install python3-pip
Μπορείτε επίσης να εγκαταστήσετε pip χρησιμοποιώντας το easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Τώρα έχει εγκατασταθεί το easy_install. Εκτελέστε την παρακάτω εντολή για εγκατάσταση pip
sudo easy_install pip
Βήμα 3) Χρησιμοποιήστε την ακόλουθη εντολή για να εγκαταστήσετε το NLTK
sudo pip install -U nltksudo pip3 install -U nltk
Εγκατάσταση NLTK μέσω Anaconda
Βήμα 1) Εγκαταστήστε το anaconda (το οποίο μπορεί επίσης να χρησιμοποιηθεί για την εγκατάσταση διαφορετικών πακέτων) μεταβαίνοντας στη διεύθυνση https://www.anaconda.com/products/individual και επιλέξτε ποια έκδοση του python πρέπει να εγκαταστήσετε για το anaconda.
Σημείωση: Ανατρέξτε σε αυτό το σεμινάριο για λεπτομερή βήματα για την εγκατάσταση του anaconda
Βήμα 2) Στην ερώτηση Anaconda,
- Εισαγάγετε την εντολή
conda install -c anaconda nltk
- Ελέγξτε την αναβάθμιση του πακέτου, υποβαθμίστε, εγκαταστήστε πληροφορίες και εισαγάγετε ναι
- Λήψη και εγκατάσταση του NLTK
Σύνολο δεδομένων NLTK
Η μονάδα NLTK διαθέτει πολλά διαθέσιμα σύνολα δεδομένων που πρέπει να κατεβάσετε για να χρησιμοποιήσετε. Πιο τεχνικά ονομάζεται corpus . Μερικά από τα παραδείγματα είναι εξαιρούμενων λέξεων , Gutenberg , framenet_v15 , large_grammars και ούτω καθεξής.
Πώς να κατεβάσετε όλα τα πακέτα του NLTK
Βήμα 1) Εκτελέστε τον διερμηνέα Python σε Windows ή Linux
Βήμα 2)
- Εισαγάγετε τις εντολές
import nltknltk.download ()
- Ανοίγει το παράθυρο λήψης NLTK. Κάντε κλικ στο κουμπί Λήψη για λήψη του συνόλου δεδομένων. Αυτή η διαδικασία θα πάρει χρόνο, με βάση τη σύνδεσή σας στο Διαδίκτυο
ΣΗΜΕΙΩΣΗ: Μπορείτε να αλλάξετε τη θέση λήψης κάνοντας κλικ στο Αρχείο> Αλλαγή καταλόγου λήψης
Βήμα 3) Για να δοκιμάσετε τα εγκατεστημένα δεδομένα χρησιμοποιήστε τον ακόλουθο κώδικα
>>> from nltk.corpus import brown>>>brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
Εκτέλεση του σεναρίου NLP
Θα συζητήσουμε πώς θα εκτελεστεί το σενάριο NLP στον τοπικό μας υπολογιστή. Υπάρχουν πολλές βιβλιοθήκες για την επεξεργασία φυσικής γλώσσας στην αγορά. Έτσι, η επιλογή βιβλιοθήκης εξαρτάται από την ικανοποίηση των απαιτήσεών σας. Εδώ είναι η λίστα των βιβλιοθηκών NLP.
Πώς να εκτελέσετε το σενάριο NLTK
Βήμα 1) Στο αγαπημένο πρόγραμμα επεξεργασίας κώδικα, αντιγράψτε τον κώδικα και αποθηκεύστε το αρχείο ως " NLTKsample.py "
from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)
Επεξήγηση κώδικα:
- Σε αυτό το πρόγραμμα, ο στόχος ήταν να αφαιρεθούν όλοι οι τύποι στίξης από το δεδομένο κείμενο. Εισαγάγαμε το "RegexpTokenizer" το οποίο είναι μια ενότητα του NLTK. Αφαιρεί όλη την έκφραση, σύμβολο, χαρακτήρα, αριθμητικό ή οτιδήποτε άλλο ό, τι θέλετε.
- Μόλις περάσατε την κανονική έκφραση στην ενότητα "RegexpTokenizer".
- Επιπλέον, διαγράψαμε τη λέξη χρησιμοποιώντας τη μονάδα "tokenize". Η έξοδος αποθηκεύεται στη μεταβλητή "filterdText".
- Και τα εκτυπώσατε χρησιμοποιώντας το "print ()."
Βήμα 2) Στη γραμμή εντολών
- Μεταβείτε στην τοποθεσία όπου έχετε αποθηκεύσει το αρχείο
- Εκτελέστε την εντολή Python NLTKsample.py
Αυτό θα δείξει την έξοδο ως:
["Γεια", "Guru99", "Εσείς", "έχω", "χτίστε", "ένα", "πολύ", "καλό", "ιστότοπο", "και", "Εγώ", "αγάπη", " επίσκεψη "," σας "," ιστότοπος "]