Σε αυτό το σεμινάριο, θα σας καθοδηγήσουμε βήμα προς βήμα διαδικασία για να εγκαταστήσετε το Apache Hadoop σε ένα Linux box (Ubuntu). Αυτή είναι διαδικασία 2 μερών
- Μέρος 1) Λήψη και εγκατάσταση του Hadoop
- Μέρος 2) Διαμόρφωση Hadoop
Υπάρχουν 2 προϋποθέσεις
- Πρέπει να έχετε εγκαταστήσει και να εκτελεί το Ubuntu
- Πρέπει να έχετε εγκατεστημένο το Java.
Μέρος 1) Λήψη και εγκατάσταση του Hadoop
Βήμα 1) Προσθέστε έναν χρήστη συστήματος Hadoop χρησιμοποιώντας την παρακάτω εντολή
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Εισαγάγετε τον κωδικό πρόσβασης, το όνομα και άλλες λεπτομέρειες.
ΣΗΜΕΙΩΣΗ: Υπάρχει πιθανότητα σφάλματος που αναφέρεται παρακάτω σε αυτήν τη διαδικασία εγκατάστασης και εγκατάστασης.
"Το hduser δεν υπάρχει στο αρχείο sudoers. Αυτό το συμβάν θα αναφερθεί."
Αυτό το σφάλμα μπορεί να επιλυθεί με τη σύνδεση ως χρήστης root
Εκτελέστε την εντολή
sudo adduser hduser_ sudo
Re-login as hduser_
Βήμα 2) Διαμόρφωση SSH
Για τη διαχείριση κόμβων σε ένα σύμπλεγμα, το Hadoop απαιτεί πρόσβαση SSH
Αρχικά, εναλλαγή χρήστη, εισαγάγετε την ακόλουθη εντολή
su - hduser_
Αυτή η εντολή θα δημιουργήσει ένα νέο κλειδί.
ssh-keygen -t rsa -P ""
Ενεργοποιήστε την πρόσβαση SSH σε τοπικό μηχάνημα χρησιμοποιώντας αυτό το κλειδί.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Τώρα δοκιμάστε τη ρύθμιση SSH συνδέοντας το localhost ως χρήστη «hduser».
ssh localhost
Σημείωση: Σημειώστε, εάν δείτε παρακάτω το σφάλμα ως απάντηση στο «ssh localhost», τότε υπάρχει πιθανότητα ότι το SSH δεν είναι διαθέσιμο σε αυτό το σύστημα-
Για να επιλύσετε αυτό -
Εκκαθάριση SSH χρησιμοποιώντας,
sudo apt-get purge openssh-server
Είναι καλή πρακτική ο καθαρισμός πριν από την έναρξη της εγκατάστασης
Εγκαταστήστε SSH χρησιμοποιώντας την εντολή-
sudo apt-get install openssh-server
Βήμα 3) Το επόμενο βήμα είναι να κατεβάσετε το Hadoop
Επιλέξτε Σταθερό
Επιλέξτε το αρχείο tar.gz (όχι το αρχείο με src)
Μόλις ολοκληρωθεί η λήψη, μεταβείτε στον κατάλογο που περιέχει το αρχείο tar
Εισαγω,
sudo tar xzf hadoop-2.2.0.tar.gz
Τώρα, μετονομάστε hadoop-2.2.0 ως hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Μέρος 2) Διαμόρφωση Hadoop
Βήμα 1) Τροποποιήστε το αρχείο ~ / .bashrc
Προσθέστε τις ακόλουθες γραμμές στο τέλος του αρχείου ~ / .bashrc
#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME= # Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin
Τώρα, δημιουργήστε αυτήν τη διαμόρφωση περιβάλλοντος χρησιμοποιώντας την παρακάτω εντολή
. ~/.bashrc
Βήμα 2) Διαμορφώσεις που σχετίζονται με HDFS
Ορίστε το JAVA_HOME μέσα στο αρχείο $ HADOOP_HOME / etc / hadoop / hadoop-env.sh
Με
Υπάρχουν δύο παράμετροι στο $ HADOOP_HOME / etc / hadoop / core-site.xml που πρέπει να οριστούν-
1. «hadoop.tmp.dir» - Χρησιμοποιείται για τον καθορισμό ενός καταλόγου που θα χρησιμοποιηθεί από το Hadoop για την αποθήκευση των αρχείων δεδομένων του.
2. 'fs.default.name' - Καθορίζει το προεπιλεγμένο σύστημα αρχείων.
Για να ορίσετε αυτές τις παραμέτρους, ανοίξτε το core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Αντιγράψτε την παρακάτω γραμμή ανάμεσα στις ετικέτες
hadoop.tmp.dir /app/hadoop/tmp Parent directory for other temporary directories. fs.defaultFS hdfs://localhost:54310 The name of the default file system.
Μεταβείτε στον κατάλογο $ HADOOP_HOME / etc / Hadoop
Τώρα, δημιουργήστε τον κατάλογο που αναφέρεται στο core-site.xml
sudo mkdir -p
Εκχώρηση δικαιωμάτων στον κατάλογο
sudo chown -R hduser_:Hadoop_
sudo chmod 750
Βήμα 3) Χάρτης μείωσης διαμόρφωσης
Πριν ξεκινήσετε με αυτές τις διαμορφώσεις, ας ορίσουμε τη διαδρομή HADOOP_HOME
sudo gedit /etc/profile.d/hadoop.sh
Και εισάγετε
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Στη συνέχεια εισάγετε
sudo chmod +x /etc/profile.d/hadoop.sh
Βγείτε από το τερματικό και επανεκκινήστε ξανά
Πληκτρολογήστε echo $ HADOOP_HOME. Για να επαληθεύσετε τη διαδρομή
Τώρα αντιγράψτε αρχεία
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Ανοίξτε το αρχείο mapred-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Προσθέστε τις παρακάτω γραμμές ρύθμισης ανάμεσα στις ετικέτες
mapreduce.jobtracker.address localhost:54311 MapReduce job tracker runs at this host and port.
Ανοίξτε το $ HADOOP_HOME / etc / hadoop / hdfs-site.xml όπως παρακάτω,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Προσθέστε τις παρακάτω γραμμές ρύθμισης μεταξύ των ετικετών
dfs.replication 1 Default block replication. dfs.datanode.data.dir /home/hduser_/hdfs
Δημιουργήστε έναν κατάλογο που καθορίζεται στην παραπάνω ρύθμιση-
sudo mkdir -p
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750
sudo chmod 750 /home/hduser_/hdfs
Βήμα 4) Πριν ξεκινήσουμε το Hadoop για πρώτη φορά, μορφοποιήστε το HDFS χρησιμοποιώντας την παρακάτω εντολή
$HADOOP_HOME/bin/hdfs namenode -format
Βήμα 5) Ξεκινήστε το σύμπλεγμα Hadoop single node χρησιμοποιώντας την παρακάτω εντολή
$HADOOP_HOME/sbin/start-dfs.sh
Μια έξοδος της παραπάνω εντολής
$HADOOP_HOME/sbin/start-yarn.sh
Χρησιμοποιώντας το εργαλείο / εντολή «jps» , επαληθεύστε εάν εκτελούνται όλες οι διαδικασίες που σχετίζονται με το Hadoop ή όχι.
Εάν το Hadoop έχει ξεκινήσει με επιτυχία, τότε μια έξοδος jps θα πρέπει να εμφανίζει NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Βήμα 6) Διακοπή του Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh