Top 60 Hadoop & Ερωτήσεις συνέντευξης MapReduce & Απαντήσεις

Anonim

Λήψη PDF

Ακολουθούν συχνές ερωτήσεις σε συνεντεύξεις για νέους και έμπειρους προγραμματιστές.

1) Τι είναι το Hadoop Map Reduce;

Για την επεξεργασία μεγάλων συνόλων δεδομένων παράλληλα σε ένα σύμπλεγμα Hadoop, χρησιμοποιείται το πλαίσιο Hadoop MapReduce. Η ανάλυση δεδομένων χρησιμοποιεί έναν χάρτη δύο βημάτων και μειώνει τη διαδικασία.

2) Πώς λειτουργεί το Hadoop MapReduce;

Στο MapReduce, κατά τη φάση του χάρτη, μετρά τις λέξεις σε κάθε έγγραφο, ενώ στη φάση μείωσης συγκεντρώνει τα δεδομένα σύμφωνα με το έγγραφο που καλύπτει ολόκληρη τη συλλογή. Κατά τη φάση του χάρτη, τα δεδομένα εισαγωγής χωρίζονται σε διαχωρισμούς για ανάλυση με εργασίες χαρτών που εκτελούνται παράλληλα σε πλαίσιο Hadoop.

3) Εξηγήστε τι ανακατεύεται στο MapReduce;

Η διαδικασία με την οποία το σύστημα εκτελεί το είδος και μεταφέρει τις εξόδους του χάρτη στον μειωτή καθώς οι είσοδοι είναι γνωστές ως τυχαία σειρά

4) Εξηγήστε τι διανέμεται η προσωρινή μνήμη στο MapReduce Framework;

Η κατανεμημένη προσωρινή μνήμη είναι ένα σημαντικό χαρακτηριστικό που παρέχεται από το πλαίσιο MapReduce. Όταν θέλετε να κάνετε κοινή χρήση ορισμένων αρχείων σε όλους τους κόμβους στο Hadoop Cluster, χρησιμοποιείται το Distributed Cache. Τα αρχεία θα μπορούσαν να είναι εκτελέσιμα αρχεία βάζων ή απλά αρχεία ιδιοτήτων.

5) Εξηγήστε τι είναι το NameNode στο Hadoop;

NameNode στο Hadoop είναι ο κόμβος, όπου το Hadoop αποθηκεύει όλες τις πληροφορίες θέσης του αρχείου σε HDFS (Hadoop Distributed File System) Με άλλα λόγια, το NameNode είναι το επίκεντρο ενός συστήματος αρχείων HDFS. Διατηρεί την καταγραφή όλων των αρχείων στο σύστημα αρχείων και παρακολουθεί τα δεδομένα αρχείων σε όλο το σύμπλεγμα ή πολλαπλούς υπολογιστές

6) Εξηγήστε τι είναι το JobTracker στο Hadoop; Ποιες είναι οι ενέργειες που ακολουθεί ο Hadoop;

Στο Hadoop για υποβολή και παρακολούθηση εργασιών MapReduce, χρησιμοποιείται το JobTracker. Η παρακολούθηση εργασιών εκτελείται με τη δική της διαδικασία JVM

Το Job Tracker εκτελεί τις ακόλουθες ενέργειες στο Hadoop

  • Η αίτηση πελάτη υποβάλλει εργασίες στον ιχνηλάτη εργασίας
  • Το JobTracker επικοινωνεί με τη λειτουργία Όνομα για να προσδιορίσει τη θέση δεδομένων
  • Κοντά στα δεδομένα ή με διαθέσιμους κουλοχέρηδες, το JobTracker εντοπίζει κόμβους TaskTracker
  • Σε επιλεγμένους κόμβους TaskTracker, υποβάλλει το έργο
  • Όταν μια εργασία αποτύχει, το Job tracker ειδοποιεί και αποφασίζει τι να κάνει τότε.
  • Οι κόμβοι TaskTracker παρακολουθούνται από το JobTracker

7) Εξηγήστε τι είναι ο καρδιακός παλμός στο HDFS;

Ο καρδιακός παλμός αναφέρεται σε ένα σήμα που χρησιμοποιείται μεταξύ ενός κόμβου δεδομένων και ενός κόμβου ονόματος και μεταξύ του εντοπισμού εργασιών και του εντοπισμού εργασίας, εάν ο κόμβος ονόματος ή ο ανιχνευτής εργασίας δεν ανταποκρίνεται στο σήμα, τότε θεωρείται ότι υπάρχουν ορισμένα προβλήματα με τον κόμβο δεδομένων ή την εργασία ιχνηλάτης

8) Εξηγήστε τι είναι οι συνδυαστές και πότε πρέπει να χρησιμοποιήσετε έναν συνδυασμό σε μια εργασία MapReduce;

Για να αυξηθεί η αποτελεσματικότητα του προγράμματος MapReduce, χρησιμοποιούνται Combiners. Η ποσότητα των δεδομένων μπορεί να μειωθεί με τη βοήθεια του συνδυασμού που πρέπει να μεταφερθεί στους μειωτές. Εάν η λειτουργία που εκτελείται είναι εναλλακτική και συσχετιστική, μπορείτε να χρησιμοποιήσετε τον κωδικό μειωτήρα ως συνδυασμό. Η εκτέλεση του συνδυασμού δεν είναι εγγυημένη στο Hadoop

9) Τι συμβαίνει όταν ένας κόμβος δεδομένων αποτύχει;

Όταν ένας κόμβος δεδομένων αποτυγχάνει

  • Το Jobtracker και ο κωδικός ονομάτων εντοπίζουν την αποτυχία
  • Στον αποτυχημένο κόμβο όλες οι εργασίες επαναπρογραμματίζονται
  • Το Namenode αναπαράγει τα δεδομένα του χρήστη σε έναν άλλο κόμβο

10) Εξηγήστε τι είναι η κερδοσκοπική εκτέλεση;

Στο Hadoop κατά τη διάρκεια της κερδοσκοπικής εκτέλεσης, ξεκινά ένας συγκεκριμένος αριθμός διπλών εργασιών. Σε διαφορετικό δευτερεύοντα κόμβο, πολλαπλά αντίγραφα του ίδιου χάρτη ή εργασία μείωσης μπορούν να εκτελεστούν χρησιμοποιώντας την κερδοσκοπική εκτέλεση. Με απλά λόγια, εάν μια συγκεκριμένη μονάδα δίσκου απαιτεί πολύ χρόνο για να ολοκληρώσει μια εργασία, το Hadoop θα δημιουργήσει μια διπλή εργασία σε έναν άλλο δίσκο. Ένας δίσκος που ολοκληρώνει την εργασία πρώτα διατηρείται και οι δίσκοι που δεν ολοκληρώνουν πρώτα σκοτώνονται.

11) Εξηγήστε ποιες είναι οι βασικές παράμετροι του Mapper;

Οι βασικές παράμετροι του Mapper είναι

  • LongWritable και Text
  • Κείμενο και εγγράψιμο

12) Εξηγήστε ποια είναι η λειτουργία του MapReduce partitioner;

Η λειτουργία του διαμεριστή MapReduce είναι να βεβαιωθείτε ότι όλη η τιμή ενός μεμονωμένου κλειδιού πηγαίνει στον ίδιο μειωτή, κάτι που τελικά βοηθά στην ομοιόμορφη κατανομή της εξόδου χάρτη πάνω από τους μειωτές

13) Εξηγήστε ποια είναι η διαφορά μεταξύ ενός διαχωρισμού εισόδου και ενός μπλοκ HDFS;

Η λογική διαίρεση δεδομένων είναι γνωστή ως Split, ενώ η φυσική διαίρεση δεδομένων είναι γνωστή ως HDFS Block

14) Εξηγήστε τι συμβαίνει σε μορφή κειμένου;

Σε μορφή εισαγωγής κειμένου, κάθε γραμμή στο αρχείο κειμένου είναι μια εγγραφή. Η τιμή είναι το περιεχόμενο της γραμμής, ενώ το κλειδί είναι η μετατόπιση byte της γραμμής. Για παράδειγμα, Κλειδί: longWritable, Value: text

15) Αναφέρετε ποιες είναι οι κύριες παράμετροι διαμόρφωσης που πρέπει να καθορίσει ο χρήστης για να εκτελέσει το MapReduce Job;

Ο χρήστης του πλαισίου MapReduce πρέπει να καθορίσει

  • Θέσεις εισαγωγής εργασίας στο κατανεμημένο σύστημα αρχείων
  • Θέση εξόδου εργασίας στο κατανεμημένο σύστημα αρχείων
  • Μορφή εισαγωγής
  • Μορφή εξόδου
  • Κατηγορία που περιέχει τη λειτουργία χάρτη
  • Κατηγορία που περιέχει τη λειτουργία μείωσης
  • Αρχείο JAR που περιέχει τις τάξεις χαρτογράφησης, μειωτήρα και προγράμματος οδήγησης

16) Εξηγήστε τι είναι το WebDAV στο Hadoop;

Για να υποστηρίξετε την επεξεργασία και την ενημέρωση αρχείων, το WebDAV είναι ένα σύνολο επεκτάσεων σε HTTP. Στα περισσότερα λειτουργικά συστήματα, οι κοινές χρήσεις WebDAV μπορούν να τοποθετηθούν ως συστήματα αρχείων, επομένως είναι δυνατή η πρόσβαση σε HDFS ως τυπικό σύστημα αρχείων εκθέτοντας HDFS μέσω του WebDAV.

17) Εξηγήστε τι είναι το Sqoop στο Hadoop;

Για τη μεταφορά δεδομένων μεταξύ της σχεσιακής διαχείρισης βάσεων δεδομένων (RDBMS) και του Hadoop HDFS χρησιμοποιείται ένα εργαλείο γνωστό ως Sqoop. Η χρήση δεδομένων Sqoop μπορεί να μεταφερθεί από RDMS όπως η MySQL ή η Oracle σε HDFS, καθώς και η εξαγωγή δεδομένων από αρχείο HDFS σε RDBMS

18) Εξηγήστε πώς το JobTracker προγραμματίζει μια εργασία;

Ο εντοπιστής εργασιών στέλνει μηνύματα καρδιακού παλμού στο Jobtracker συνήθως κάθε λίγα λεπτά για να βεβαιωθεί ότι το JobTracker είναι ενεργό και λειτουργικό. Το μήνυμα ενημερώνει επίσης το JobTracker σχετικά με τον αριθμό των διαθέσιμων κουλοχέρηδων, έτσι ώστε το JobTracker να μπορεί να παραμείνει ενημερωμένο με το οποίο μπορεί να ανατεθεί η εργασία συμπλέγματος

19) Εξηγήστε τι είναι το Sequencefileinputformat;

Το Sequencefileinputformat χρησιμοποιείται για την ανάγνωση αρχείων στη σειρά. Πρόκειται για μια συγκεκριμένη μορφή συμπιεσμένου δυαδικού αρχείου που είναι βελτιστοποιημένη για τη μετάδοση δεδομένων μεταξύ της εξόδου μιας εργασίας MapReduce στην είσοδο κάποιας άλλης εργασίας MapReduce.

20) Εξηγήστε τι κάνει το Conf.setMapper Class;

Το Conf.setMapperclass ορίζει την τάξη χαρτογράφησης και όλα τα πράγματα που σχετίζονται με την εργασία χαρτών, όπως ανάγνωση δεδομένων και δημιουργία ζεύγους κλειδιού-τιμής από τον χαρτογράφο

21) Εξηγήστε τι είναι το Hadoop;

Είναι ένα πλαίσιο λογισμικού ανοιχτού κώδικα για την αποθήκευση δεδομένων και την εκτέλεση εφαρμογών σε ομάδες υλικού υλικού. Παρέχει τεράστια ισχύ επεξεργασίας και μαζική αποθήκευση για κάθε τύπο δεδομένων.

22) Αναφέρετε ποια είναι η διαφορά μεταξύ RDBMS και Hadoop;

RDBMS Χάδοπ
Το RDBMS είναι ένα σχεσιακό σύστημα διαχείρισης βάσεων δεδομένων Το Hadoop είναι μια επίπεδη δομή βασισμένη σε κόμβους
Χρησιμοποίησε για επεξεργασία OLTP ενώ το Hadoop Αυτή τη στιγμή χρησιμοποιείται για αναλυτική και για ΜΕΓΑΛΗ επεξεργασία δεδομένων
Στο RDBMS, το σύμπλεγμα βάσεων δεδομένων χρησιμοποιεί τα ίδια αρχεία δεδομένων που είναι αποθηκευμένα σε κοινόχρηστο χώρο αποθήκευσης Στο Hadoop, τα δεδομένα αποθήκευσης μπορούν να αποθηκευτούν ανεξάρτητα σε κάθε κόμβο επεξεργασίας.
Πρέπει να προεπεξεργαστείτε τα δεδομένα πριν τα αποθηκεύσετε δεν χρειάζεται να επεξεργαστείτε δεδομένα πριν τα αποθηκεύσετε

23) Αναφέρετε τα βασικά συστατικά του Hadoop;

Τα βασικά συστατικά Hadoop περιλαμβάνουν,

  • HDFS
  • ΜΕΙΩΣΗ ΧΑΡΤΗ

24) Τι είναι το NameNode στο Hadoop;

Το NameNode στο Hadoop είναι όπου το Hadoop αποθηκεύει όλες τις πληροφορίες τοποθεσίας αρχείου σε HDFS. Είναι ο κύριος κόμβος στον οποίο εκτελείται το tracker εργασίας και αποτελείται από μεταδεδομένα.

25) Αναφέρετε ποια είναι τα στοιχεία δεδομένων που χρησιμοποιεί το Hadoop;

Τα στοιχεία δεδομένων που χρησιμοποιούνται από το Hadoop είναι

  • Χοίρος
  • Κυψέλη

26) Αναφέρετε ποιο είναι το στοιχείο αποθήκευσης δεδομένων που χρησιμοποιεί το Hadoop;

Το στοιχείο αποθήκευσης δεδομένων που χρησιμοποιείται από το Hadoop είναι το HBase.

27) Αναφέρετε ποιες είναι οι πιο κοινές μορφές εισαγωγής που ορίζονται στο Hadoop;

Οι πιο κοινές μορφές εισαγωγής που ορίζονται στο Hadoop είναι:

  • TextInputFormat
  • KeyValueInputFormat
  • SequenceFileInputFormat

28) Στο Hadoop τι είναι το InputSplit;

Διαχωρίζει τα αρχεία εισόδου σε κομμάτια και εκχωρεί κάθε διαχωρισμό σε έναν χαρτογράφο για επεξεργασία.

29) Για μια εργασία Hadoop, πώς θα γράψετε ένα προσαρμοσμένο διαμέρισμα;

Γράφετε ένα προσαρμοσμένο διαμέρισμα για μια εργασία Hadoop, ακολουθείτε την ακόλουθη διαδρομή

  • Δημιουργήστε μια νέα τάξη που επεκτείνει την Κατηγορία διαμερισμάτων
  • Παράκαμψη μεθόδου getPartition
  • Στο περιτύλιγμα που τρέχει το MapReduce
  • Προσθέστε τον προσαρμοσμένο διαμεριστή στην εργασία χρησιμοποιώντας το σύνολο μεθόδου Partitioner Class ή - προσθέστε τον προσαρμοσμένο διαμεριστή στην εργασία ως αρχείο διαμόρφωσης

30) Για μια εργασία στο Hadoop, είναι δυνατόν να αλλάξετε τον αριθμό των χαρτογράφων που θα δημιουργηθούν;

Όχι, δεν είναι δυνατόν να αλλάξετε τον αριθμό των χαρτογράφων που θα δημιουργηθούν. Ο αριθμός των χαρτογράφων καθορίζεται από τον αριθμό των διαχωρισμών εισόδου.

31) Εξηγήστε τι είναι ένα αρχείο ακολουθίας στο Hadoop;

Για να αποθηκεύσετε δυαδικά κλειδιά / ζεύγη τιμών, χρησιμοποιείται το αρχείο ακολουθίας. Σε αντίθεση με το κανονικό συμπιεσμένο αρχείο, το αρχείο ακολουθίας υποστηρίζει διαχωρισμό ακόμη και όταν τα δεδομένα μέσα στο αρχείο είναι συμπιεσμένα.

32) Όταν το Namenode είναι εκτός λειτουργίας, τι συμβαίνει στο tracker εργασίας;

Το Namenode είναι το μοναδικό σημείο αποτυχίας στο HDFS, οπότε όταν το Namenode είναι κάτω, το σύμπλεγμα θα ξεκινήσει.

33) Εξηγήστε πώς γίνεται η ευρετηρίαση σε HDFS;

Το Hadoop έχει έναν μοναδικό τρόπο ευρετηρίου. Μόλις τα δεδομένα αποθηκευτούν σύμφωνα με το μέγεθος του μπλοκ, το HDFS θα συνεχίσει να αποθηκεύει το τελευταίο μέρος των δεδομένων που αναφέρει πού θα είναι το επόμενο μέρος των δεδομένων.

34) Εξηγήστε ότι είναι δυνατή η αναζήτηση αρχείων χρησιμοποιώντας χαρακτήρες μπαλαντέρ;

Ναι, είναι δυνατή η αναζήτηση αρχείων χρησιμοποιώντας χαρακτήρες μπαλαντέρ.

35) Παραθέστε τα τρία αρχεία διαμόρφωσης του Hadoop;

Τα τρία αρχεία διαμόρφωσης είναι

  • core-site.xml
  • mapred-site.xml
  • hdfs-site.xml

36) Εξηγήστε πώς μπορείτε να ελέγξετε εάν το Namenode λειτουργεί παράλληλα με τη χρήση της εντολής jps;

Εκτός από τη χρήση της εντολής jps, για να ελέγξετε αν το Namenode λειτουργεί, μπορείτε επίσης να χρησιμοποιήσετε

Κατάσταση /etc/init.d/hadoop-0.20-namenode.

37) Εξηγήστε τι είναι ο "χάρτης" και τι είναι "μειωτής" στο Hadoop;

Στο Hadoop, ένας χάρτης είναι μια φάση στην επίλυση ερωτημάτων HDFS. Ένας χάρτης διαβάζει δεδομένα από μια θέση εισόδου και εξάγει ένα ζεύγος τιμών κλειδιών σύμφωνα με τον τύπο εισαγωγής.

Στο Hadoop, ένας μειωτής συλλέγει την έξοδο που παράγεται από τον χαρτογράφο, το επεξεργάζεται και δημιουργεί μια τελική δική του έξοδο.

38) Στο Hadoop, ποιο αρχείο ελέγχου ελέγχει την αναφορά στο Hadoop;

Στο Hadoop, το αρχείο hadoop-metrics.properties ελέγχει την αναφορά.

39) Για τη χρήση της λίστας Hadoop οι απαιτήσεις δικτύου;

Για τη χρήση του Hadoop, η λίστα των απαιτήσεων δικτύου είναι:

  • Σύνδεση SSH χωρίς κωδικό πρόσβασης
  • Secure Shell (SSH) για την εκκίνηση διαδικασιών διακομιστή

40) Αναφέρετε τι είναι η συνειδητοποίηση ραφιών;

Η συνάρτηση Rack είναι ο τρόπος με τον οποίο το όνομα ορίζει τον τρόπο τοποθέτησης μπλοκ με βάση τους ορισμούς του rack.

41) Εξηγήστε τι είναι το Task Tracker στο Hadoop;

Το Task Tracker στο Hadoop είναι ένας δαίμονας κόμβου σκλάβων στο σύμπλεγμα που δέχεται εργασίες από ένα JobTracker. Στέλνει επίσης τα μηνύματα καρδιακού παλμού στο JobTracker, κάθε λίγα λεπτά, για να επιβεβαιώσει ότι το JobTracker είναι ακόμα ζωντανό.

42) Αναφέρετε ποιοι δαίμονες εκτελούνται σε έναν κύριο κόμβο και σε δευτερεύοντες κόμβους;

  • Οι δαίμονες που εκτελούνται στον κύριο κόμβο είναι "NameNode"
  • Οι δαίμονες που εκτελούνται σε κάθε κόμβο Slave είναι "Task Tracker" και "Data"

43) Εξηγήστε πώς μπορείτε να εντοπίσετε σφάλματα κώδικα Hadoop;

Οι δημοφιλείς μέθοδοι για τον εντοπισμό σφαλμάτων κώδικα Hadoop είναι:

  • Χρησιμοποιώντας τη διεπαφή ιστού που παρέχεται από το Hadoop framework
  • Με τη χρήση μετρητών

44) Εξηγήστε τι είναι κόμβοι αποθήκευσης και υπολογισμού;

  • Ο κόμβος αποθήκευσης είναι το μηχάνημα ή ο υπολογιστής όπου βρίσκεται το σύστημα αρχείων σας για την αποθήκευση των δεδομένων επεξεργασίας
  • Ο υπολογιστικός κόμβος είναι ο υπολογιστής ή το μηχάνημα όπου θα εκτελεστεί η πραγματική επιχειρηματική σας λογική.

45) Αναφέρετε ποια είναι η χρήση του αντικειμένου περιβάλλοντος;

Το Αντικείμενο περιβάλλοντος επιτρέπει στον χαρτογράφο να αλληλεπιδρά με το υπόλοιπο του Hadoop

Σύστημα. Περιλαμβάνει δεδομένα διαμόρφωσης για την εργασία, καθώς και διεπαφές που της επιτρέπουν να εκπέμπει έξοδο.

46) Αναφέρετε ποιο είναι το επόμενο βήμα μετά το Mapper ή το MapTask;

Το επόμενο βήμα μετά το Mapper ή το MapTask είναι ότι η έξοδος του Mapper ταξινομείται και θα δημιουργηθούν διαμερίσματα για την έξοδο.

47) Αναφέρετε ποιος είναι ο αριθμός των προεπιλεγμένων διαμερισμάτων στο Hadoop;

Στο Hadoop, το προεπιλεγμένο διαμέρισμα είναι το "Hash" Partitioner.

48) Εξηγήστε ποιος είναι ο σκοπός του RecordReader στο Hadoop;

Στο Hadoop, το RecordReader φορτώνει τα δεδομένα από την πηγή του και τα μετατρέπει σε ζεύγη (κλειδί, τιμή) κατάλληλα για ανάγνωση από το Mapper.

49) Εξηγήστε πώς διαχωρίζονται τα δεδομένα πριν αποσταλούν στον μειωτήρα εάν δεν έχει οριστεί προσαρμοσμένο διαμέρισμα στο Hadoop;

Εάν δεν έχει οριστεί προσαρμοσμένο διαμέρισμα στο Hadoop, τότε ένας προεπιλεγμένος διαμεριστής υπολογίζει μια τιμή κατακερματισμού για το κλειδί και εκχωρεί το διαμέρισμα με βάση το αποτέλεσμα.

50) Εξηγήστε τι συμβαίνει όταν ο Hadoop απέδωσε 50 εργασίες για μια εργασία και μία από τις εργασίες απέτυχε;

Θα επανεκκινήσει ξανά την εργασία σε κάποιο άλλο TaskTracker εάν η εργασία αποτύχει περισσότερο από το καθορισμένο όριο.

51) Αναφέρετε ποιος είναι ο καλύτερος τρόπος για να αντιγράψετε αρχεία μεταξύ συστάδων HDFS;

Ο καλύτερος τρόπος για να αντιγράψετε αρχεία μεταξύ συστάδων HDFS είναι με τη χρήση πολλαπλών κόμβων και της εντολής distcp, οπότε ο φόρτος εργασίας είναι κοινόχρηστος.

52) Αναφέρετε ποια είναι η διαφορά μεταξύ HDFS και NAS;

Τα μπλοκ δεδομένων HDFS διανέμονται σε τοπικές μονάδες δίσκου όλων των μηχανών σε ένα σύμπλεγμα ενώ τα δεδομένα NAS αποθηκεύονται σε ειδικό υλικό.

53) Αναφέρετε πώς το Hadoop διαφέρει από άλλα εργαλεία επεξεργασίας δεδομένων;

Στο Hadoop, μπορείτε να αυξήσετε ή να μειώσετε τον αριθμό των χαρτογράφων χωρίς να ανησυχείτε για τον όγκο των δεδομένων που πρόκειται να υποβληθούν σε επεξεργασία.

54) Αναφέρετε τι δουλειά κάνει η τάξη conf;

Η εργασία conf conf χωρίζει διαφορετικές εργασίες που εκτελούνται στο ίδιο σύμπλεγμα. Κάνει τις ρυθμίσεις επιπέδου εργασίας, όπως η δήλωση εργασίας σε πραγματικό περιβάλλον.

55) Αναφέρετε τι είναι το συμβόλαιο Hadoop MapReduce APIs για μια κλάση κλειδιού και αξίας;

Για μια κατηγορία κλειδιών και τιμών, υπάρχουν δύο συμβόλαια Hadoop MapReduce APIs

  • Η τιμή πρέπει να καθορίζει τη διεπαφή org.apache.hadoop.io
  • Το κλειδί πρέπει να είναι ο ορισμός του org.apache.hadoop.io.WritableComparable interface

56) Αναφέρετε ποιοι είναι οι τρεις τρόποι λειτουργίας του Hadoop;

Οι τρεις τρόποι λειτουργίας του Hadoop είναι

  • Ψευδο κατανεμημένη λειτουργία
  • Αυτόνομη (τοπική) λειτουργία
  • Πλήρως κατανεμημένη λειτουργία

57) Αναφέρετε τι κάνει η μορφή εισαγωγής κειμένου;

Η μορφή εισαγωγής κειμένου θα δημιουργήσει ένα αντικείμενο γραμμής που είναι δεκαεξαδικός αριθμός. Η τιμή θεωρείται ως ολόκληρο κείμενο γραμμής, ενώ το κλειδί θεωρείται ως αντικείμενο γραμμής. Ο χαρτογράφος θα λάβει την τιμή ως παράμετρο «κείμενο» ενώ το κλειδί ως παράμετρος «μακροχρόνια εγγραφή».

58) Αναφέρετε πόσα InputSplits γίνεται από ένα Hadoop Framework;

Ο Hadoop θα κάνει 5 split

  • 1 διαίρεση για 64K αρχεία
  • 2 διαχωρισμός για 65mb αρχεία
  • 2 διασπάσεις για αρχεία 127mb

59) Αναφέρετε τι είναι η κατανεμημένη προσωρινή μνήμη στο Hadoop;

Η κατανεμημένη προσωρινή μνήμη στο Hadoop είναι μια εγκατάσταση που παρέχεται από το πλαίσιο MapReduce. Κατά τη στιγμή της εκτέλεσης της εργασίας, χρησιμοποιείται για την προσωρινή αποθήκευση του αρχείου. Το Framework αντιγράφει τα απαραίτητα αρχεία στον δευτερεύοντα κόμβο πριν από την εκτέλεση οποιασδήποτε εργασίας σε αυτόν τον κόμβο.

60) Εξηγήστε πώς το Hadoop Classpath παίζει ζωτικό ρόλο στο να σταματήσει ή να ξεκινήσει στους δαίμονες Hadoop;

Το Classpath θα αποτελείται από μια λίστα καταλόγων που περιέχουν αρχεία βάζων για να σταματήσει ή να ξεκινήσει δαίμονες.