Πώς να εγκαταστήσετε το Hadoop με διαμόρφωση βήμα προς βήμα στο Ubuntu

Πίνακας περιεχομένων:

Anonim

Σε αυτό το σεμινάριο, θα σας καθοδηγήσουμε βήμα προς βήμα διαδικασία για να εγκαταστήσετε το Apache Hadoop σε ένα Linux box (Ubuntu). Αυτή είναι διαδικασία 2 μερών

  • Μέρος 1) Λήψη και εγκατάσταση του Hadoop
  • Μέρος 2) Διαμόρφωση Hadoop

Υπάρχουν 2 προϋποθέσεις

  • Πρέπει να έχετε εγκαταστήσει και να εκτελεί το Ubuntu
  • Πρέπει να έχετε εγκατεστημένο το Java.

Μέρος 1) Λήψη και εγκατάσταση του Hadoop

Βήμα 1) Προσθέστε έναν χρήστη συστήματος Hadoop χρησιμοποιώντας την παρακάτω εντολή

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Εισαγάγετε τον κωδικό πρόσβασης, το όνομα και άλλες λεπτομέρειες.

ΣΗΜΕΙΩΣΗ: Υπάρχει πιθανότητα σφάλματος που αναφέρεται παρακάτω σε αυτήν τη διαδικασία εγκατάστασης και εγκατάστασης.

"Το hduser δεν υπάρχει στο αρχείο sudoers. Αυτό το συμβάν θα αναφερθεί."

Αυτό το σφάλμα μπορεί να επιλυθεί με τη σύνδεση ως χρήστης root

Εκτελέστε την εντολή

sudo adduser hduser_ sudo

Re-login as hduser_

Βήμα 2) Διαμόρφωση SSH

Για τη διαχείριση κόμβων σε ένα σύμπλεγμα, το Hadoop απαιτεί πρόσβαση SSH

Αρχικά, εναλλαγή χρήστη, εισαγάγετε την ακόλουθη εντολή

su - hduser_

Αυτή η εντολή θα δημιουργήσει ένα νέο κλειδί.

ssh-keygen -t rsa -P ""

Ενεργοποιήστε την πρόσβαση SSH σε τοπικό μηχάνημα χρησιμοποιώντας αυτό το κλειδί.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Τώρα δοκιμάστε τη ρύθμιση SSH συνδέοντας το localhost ως χρήστη «hduser».

ssh localhost

Σημείωση: Σημειώστε, εάν δείτε παρακάτω το σφάλμα ως απάντηση στο «ssh localhost», τότε υπάρχει πιθανότητα ότι το SSH δεν είναι διαθέσιμο σε αυτό το σύστημα-

Για να επιλύσετε αυτό -

Εκκαθάριση SSH χρησιμοποιώντας,

sudo apt-get purge openssh-server

Είναι καλή πρακτική ο καθαρισμός πριν από την έναρξη της εγκατάστασης

Εγκαταστήστε SSH χρησιμοποιώντας την εντολή-

sudo apt-get install openssh-server

Βήμα 3) Το επόμενο βήμα είναι να κατεβάσετε το Hadoop

Επιλέξτε Σταθερό

Επιλέξτε το αρχείο tar.gz (όχι το αρχείο με src)

Μόλις ολοκληρωθεί η λήψη, μεταβείτε στον κατάλογο που περιέχει το αρχείο tar

Εισαγω,

sudo tar xzf hadoop-2.2.0.tar.gz

Τώρα, μετονομάστε hadoop-2.2.0 ως hadoop

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

Μέρος 2) Διαμόρφωση Hadoop

Βήμα 1) Τροποποιήστε το αρχείο ~ / .bashrc

Προσθέστε τις ακόλουθες γραμμές στο τέλος του αρχείου ~ / .bashrc

#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME=# Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin

Τώρα, δημιουργήστε αυτήν τη διαμόρφωση περιβάλλοντος χρησιμοποιώντας την παρακάτω εντολή

. ~/.bashrc

Βήμα 2) Διαμορφώσεις που σχετίζονται με HDFS

Ορίστε το JAVA_HOME μέσα στο αρχείο $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

Με

Υπάρχουν δύο παράμετροι στο $ HADOOP_HOME / etc / hadoop / core-site.xml που πρέπει να οριστούν-

1. «hadoop.tmp.dir» - Χρησιμοποιείται για τον καθορισμό ενός καταλόγου που θα χρησιμοποιηθεί από το Hadoop για την αποθήκευση των αρχείων δεδομένων του.

2. 'fs.default.name' - Καθορίζει το προεπιλεγμένο σύστημα αρχείων.

Για να ορίσετε αυτές τις παραμέτρους, ανοίξτε το core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Αντιγράψτε την παρακάτω γραμμή ανάμεσα στις ετικέτες

hadoop.tmp.dir/app/hadoop/tmpParent directory for other temporary directories.
fs.defaultFS hdfs://localhost:54310The name of the default file system. 

Μεταβείτε στον κατάλογο $ HADOOP_HOME / etc / Hadoop

Τώρα, δημιουργήστε τον κατάλογο που αναφέρεται στο core-site.xml

sudo mkdir -p 

Εκχώρηση δικαιωμάτων στον κατάλογο

sudo chown -R hduser_:Hadoop_ 

sudo chmod 750 

Βήμα 3) Χάρτης μείωσης διαμόρφωσης

Πριν ξεκινήσετε με αυτές τις διαμορφώσεις, ας ορίσουμε τη διαδρομή HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

Και εισάγετε

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Στη συνέχεια εισάγετε

sudo chmod +x /etc/profile.d/hadoop.sh

Βγείτε από το τερματικό και επανεκκινήστε ξανά

Πληκτρολογήστε echo $ HADOOP_HOME. Για να επαληθεύσετε τη διαδρομή

Τώρα αντιγράψτε αρχεία

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Ανοίξτε το αρχείο mapred-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Προσθέστε τις παρακάτω γραμμές ρύθμισης ανάμεσα στις ετικέτες και

mapreduce.jobtracker.addresslocalhost:54311MapReduce job tracker runs at this host and port.

Ανοίξτε το $ HADOOP_HOME / etc / hadoop / hdfs-site.xml όπως παρακάτω,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Προσθέστε τις παρακάτω γραμμές ρύθμισης μεταξύ των ετικετών και

dfs.replication1Default block replication.
dfs.datanode.data.dir/home/hduser_/hdfs

Δημιουργήστε έναν κατάλογο που καθορίζεται στην παραπάνω ρύθμιση-

sudo mkdir -p 
sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ 
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 
sudo chmod 750 /home/hduser_/hdfs

Βήμα 4) Πριν ξεκινήσουμε το Hadoop για πρώτη φορά, μορφοποιήστε το HDFS χρησιμοποιώντας την παρακάτω εντολή

$HADOOP_HOME/bin/hdfs namenode -format

Βήμα 5) Ξεκινήστε το σύμπλεγμα Hadoop single node χρησιμοποιώντας την παρακάτω εντολή

$HADOOP_HOME/sbin/start-dfs.sh

Μια έξοδος της παραπάνω εντολής

$HADOOP_HOME/sbin/start-yarn.sh

Χρησιμοποιώντας το εργαλείο / εντολή «jps» , επαληθεύστε εάν εκτελούνται όλες οι διαδικασίες που σχετίζονται με το Hadoop ή όχι.

Εάν το Hadoop έχει ξεκινήσει με επιτυχία, τότε μια έξοδος jps θα πρέπει να εμφανίζει NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Βήμα 6) Διακοπή του Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh