Τι είναι το Hadoop; Εισαγωγή, Αρχιτεκτονική, Οικοσύστημα, Συστατικά

Πίνακας περιεχομένων:

Anonim

Τι είναι το Hadoop;

Το Apache Hadoop είναι ένα πλαίσιο λογισμικού ανοιχτού κώδικα που χρησιμοποιείται για την ανάπτυξη εφαρμογών επεξεργασίας δεδομένων που εκτελούνται σε κατανεμημένο περιβάλλον υπολογιστών.

Οι εφαρμογές που δημιουργούνται χρησιμοποιώντας το HADOOP εκτελούνται σε μεγάλα σύνολα δεδομένων που διανέμονται σε ομάδες υπολογιστών βασικών προϊόντων. Οι υπολογιστές προϊόντων είναι φθηνοί και ευρέως διαθέσιμοι. Αυτά είναι κυρίως χρήσιμα για την επίτευξη μεγαλύτερης υπολογιστικής ισχύος με χαμηλό κόστος.

Παρόμοια με τα δεδομένα που βρίσκονται σε ένα τοπικό σύστημα αρχείων ενός συστήματος προσωπικών υπολογιστών, στο Hadoop, τα δεδομένα βρίσκονται σε ένα κατανεμημένο σύστημα αρχείων που ονομάζεται σύστημα διανομής αρχείων Hadoop . Το μοντέλο επεξεργασίας βασίζεται στην έννοια «Τοποθεσία δεδομένων» όπου η υπολογιστική λογική αποστέλλεται σε κόμβους συμπλέγματος (διακομιστής) που περιέχουν δεδομένα. Αυτή η υπολογιστική λογική δεν είναι τίποτα, αλλά μια μεταγλωττισμένη έκδοση ενός προγράμματος γραμμένο σε γλώσσα υψηλού επιπέδου όπως η Java. Ένα τέτοιο πρόγραμμα, επεξεργάζεται δεδομένα που είναι αποθηκευμένα στο Hadoop HDFS.

Γνωρίζεις? Το σύμπλεγμα υπολογιστών αποτελείται από ένα σύνολο πολλαπλών μονάδων επεξεργασίας (δίσκος αποθήκευσης + επεξεργαστής) που συνδέονται μεταξύ τους και λειτουργούν ως ένα ενιαίο σύστημα.

Σε αυτό το σεμινάριο, θα μάθετε,

  • Hadoop EcoSystem και συστατικά
  • Αρχιτεκτονική Hadoop
  • Χαρακτηριστικά του «Hadoop»
  • Τοπολογία δικτύου στο Hadoop

Hadoop EcoSystem και συστατικά

Το παρακάτω διάγραμμα δείχνει διάφορα στοιχεία στο οικοσύστημα Hadoop-

Το Apache Hadoop αποτελείται από δύο επιμέρους έργα -

  1. Hadoop MapReduce: Το MapReduce είναι ένα υπολογιστικό μοντέλο και πλαίσιο λογισμικού για τη σύνταξη εφαρμογών που εκτελούνται στο Hadoop. Αυτά τα προγράμματα MapReduce είναι σε θέση να επεξεργάζονται τεράστια δεδομένα παράλληλα σε μεγάλες ομάδες κόμβων υπολογισμού.
  2. HDFS ( Hadoop Distributed File System ): Το HDFS φροντίζει για το μέρος αποθήκευσης των εφαρμογών Hadoop. Οι εφαρμογές MapReduce καταναλώνουν δεδομένα από HDFS. Το HDFS δημιουργεί πολλαπλές αντιγραφές μπλοκ δεδομένων και τις διανέμει σε υπολογιστικούς κόμβους σε ένα σύμπλεγμα. Αυτή η διανομή επιτρέπει αξιόπιστους και εξαιρετικά γρήγορους υπολογισμούς.

Αν και το Hadoop είναι πιο γνωστό για το MapReduce και το κατανεμημένο σύστημα αρχείων του - HDFS, ο όρος χρησιμοποιείται επίσης για μια οικογένεια σχετικών έργων που εμπίπτουν στην ομπρέλα κατανεμημένων υπολογιστών και μεγάλης κλίμακας επεξεργασίας δεδομένων. Άλλα έργα που σχετίζονται με το Hadoop στο Apache περιλαμβάνουν τα Hive, HBase, Mahout, Sqoop, Flume και ZooKeeper.

Αρχιτεκτονική Hadoop

Αρχιτεκτονική υψηλού επιπέδου Hadoop

Η Hadoop διαθέτει Master-Slave Architecture για αποθήκευση δεδομένων και κατανεμημένη επεξεργασία δεδομένων χρησιμοποιώντας μεθόδους MapReduce και HDFS.

ΌνομαΚωδικός:

Το NameNode αντιπροσώπευε κάθε αρχείο και κατάλογο που χρησιμοποιείται στο χώρο ονομάτων

DataNode:

Το DataNode σάς βοηθά να διαχειριστείτε την κατάσταση ενός κόμβου HDFS και σας επιτρέπει να αλληλεπιδράτε με τα μπλοκ

MasterNode:

Ο κύριος κόμβος σάς επιτρέπει να κάνετε παράλληλη επεξεργασία δεδομένων χρησιμοποιώντας το Hadoop MapReduce.

Σκλάβος κόμβος:

Οι δευτερεύοντες κόμβοι είναι τα πρόσθετα μηχανήματα στο σύμπλεγμα Hadoop που σας επιτρέπουν να αποθηκεύετε δεδομένα για τη διεξαγωγή πολύπλοκων υπολογισμών. Επιπλέον, όλοι οι κόμβοι σκλάβων συνοδεύονται από Task Tracker και DataNode. Αυτό σας επιτρέπει να συγχρονίσετε τις διαδικασίες με το NameNode και το Job Tracker αντίστοιχα.

Στο Hadoop, το σύστημα master ή slave μπορεί να ρυθμιστεί στο cloud ή στις εγκαταστάσεις

Χαρακτηριστικά του «Hadoop»

• Κατάλληλο για ανάλυση μεγάλων δεδομένων

Καθώς τα Big Data τείνουν να διανέμονται και να μην είναι δομημένα στη φύση τους, οι συστάδες HADOOP ταιριάζουν καλύτερα στην ανάλυση των Big Data. Δεδομένου ότι επεξεργάζεται λογική (όχι τα πραγματικά δεδομένα) που ρέει στους κόμβους υπολογιστών, καταναλώνεται λιγότερο εύρος ζώνης δικτύου. Αυτή η ιδέα ονομάζεται έννοια δεδομένων τοποθεσίας που βοηθά στην αύξηση της αποτελεσματικότητας των εφαρμογών που βασίζονται στο Hadoop.

• Επεκτασιμότητα

Τα συμπλέγματα HADOOP μπορούν εύκολα να κλιμακωθούν σε οποιοδήποτε βαθμό με την προσθήκη επιπλέον κόμβων συμπλέγματος και έτσι επιτρέπει την ανάπτυξη Big Data. Επίσης, η κλιμάκωση δεν απαιτεί τροποποιήσεις στη λογική της εφαρμογής.

• Ανοχή σε σφάλματα

Το οικοσύστημα HADOOP διαθέτει μια διάταξη για την αναπαραγωγή των δεδομένων εισόδου σε άλλους κόμβους συμπλέγματος. Με αυτόν τον τρόπο, σε περίπτωση αποτυχίας κόμβου συμπλέγματος, η επεξεργασία δεδομένων μπορεί να συνεχίσει χρησιμοποιώντας δεδομένα που είναι αποθηκευμένα σε άλλο κόμβο συμπλέγματος.

Τοπολογία δικτύου στο Hadoop

Η τοπολογία (ρύθμιση) του δικτύου, επηρεάζει την απόδοση του συμπλέγματος Hadoop όταν αυξάνεται το μέγεθος του συμπλέγματος Hadoop. Εκτός από την απόδοση, κάποιος πρέπει επίσης να ενδιαφέρεται για την υψηλή διαθεσιμότητα και τον χειρισμό των βλαβών. Για να επιτευχθεί αυτό το Hadoop, ο σχηματισμός συμπλέγματος χρησιμοποιεί την τοπολογία του δικτύου.

Συνήθως, το εύρος ζώνης δικτύου είναι ένας σημαντικός παράγοντας που πρέπει να ληφθεί υπόψη κατά τη δημιουργία οποιουδήποτε δικτύου. Ωστόσο, καθώς η μέτρηση του εύρους ζώνης θα μπορούσε να είναι δύσκολη, στο Hadoop, ένα δίκτυο αντιπροσωπεύεται ως δέντρο και η απόσταση μεταξύ των κόμβων αυτού του δέντρου (αριθμός λυκίσκου) θεωρείται ως ένας σημαντικός παράγοντας για το σχηματισμό του συμπλέγματος Hadoop. Εδώ, η απόσταση μεταξύ δύο κόμβων είναι ίση με το άθροισμα της απόστασής τους από τον πλησιέστερο κοινό πρόγονο.

Το σύμπλεγμα Hadoop αποτελείται από ένα κέντρο δεδομένων, το ράφι και τον κόμβο που πραγματικά εκτελεί εργασίες. Εδώ, το κέντρο δεδομένων αποτελείται από ράφια και το ράφι αποτελείται από κόμβους. Το εύρος ζώνης δικτύου που διατίθεται στις διαδικασίες ποικίλλει ανάλογα με τη θέση των διεργασιών. Δηλαδή, το διαθέσιμο εύρος ζώνης γίνεται μικρότερο καθώς φεύγουμε από-

  • Διαδικασίες στον ίδιο κόμβο
  • Διαφορετικοί κόμβοι στο ίδιο ράφι
  • Κόμβοι σε διαφορετικά ράφια του ίδιου κέντρου δεδομένων
  • Κόμβοι σε διαφορετικά κέντρα δεδομένων