Κορυφαίες 62 ερωτήσεις συνέντευξης μηχανικού δεδομένων & Απαντήσεις

Anonim

Ακολουθούν συχνές ερωτήσεις συνέντευξης μηχανικού δεδομένων για νέους καθώς και έμπειρους υποψηφίους για να πάρουν τη σωστή δουλειά.

1) Εξηγήστε τη Μηχανική Δεδομένων.

Η μηχανική δεδομένων είναι ένας όρος που χρησιμοποιείται σε μεγάλα δεδομένα. Επικεντρώνεται στην εφαρμογή της συλλογής δεδομένων και της έρευνας. Τα δεδομένα που παράγονται από διάφορες πηγές είναι απλά ακατέργαστα δεδομένα. Η μηχανική δεδομένων βοηθά στη μετατροπή αυτών των ανεπεξέργαστων δεδομένων σε χρήσιμες πληροφορίες.

2) Τι είναι η μοντελοποίηση δεδομένων;

Η μοντελοποίηση δεδομένων είναι η μέθοδος τεκμηρίωσης του σύνθετου σχεδιασμού λογισμικού ως διάγραμμα, ώστε ο καθένας να μπορεί εύκολα να κατανοήσει. Είναι μια εννοιολογική αναπαράσταση αντικειμένων δεδομένων που συνδέονται μεταξύ διαφόρων αντικειμένων δεδομένων και των κανόνων.

3) Καταγράψτε διάφορους τύπους σχεδίων σχεδίασης στη Μοντελοποίηση δεδομένων

Υπάρχουν κυρίως δύο τύποι σχημάτων στη μοντελοποίηση δεδομένων: 1) Σχήμα αστεριών και 2) Σχήμα νιφάδας χιονιού.

4) Διάκριση μεταξύ δομημένων και μη δομημένων δεδομένων

Ακολουθεί μια διαφορά μεταξύ δομημένων και μη δομημένων δεδομένων:

Παράμετρος Δομημένα δεδομένα Μη δομημένα δεδομένα
Αποθήκευση DBMS Μη διαχειριζόμενες δομές αρχείων
Πρότυπο ADO.net, ODBC και SQL STMP, XML, CSV και SMS
Εργαλείο ενοποίησης ELT (Εκχύλισμα, Μετασχηματισμός, Φόρτωση) Μη αυτόματη εισαγωγή δεδομένων ή επεξεργασία παρτίδας που περιλαμβάνει κωδικούς
απολέπιση Η κλιμάκωση του σχήματος είναι δύσκολη Η κλιμάκωση είναι πολύ εύκολη.

5) Εξηγήστε όλα τα στοιχεία μιας εφαρμογής Hadoop

Ακολουθούν τα στοιχεία της εφαρμογής Hadoop:

  • Hadoop Common: Είναι ένα κοινό σύνολο βοηθητικών προγραμμάτων και βιβλιοθηκών που χρησιμοποιούνται από το Hadoop.
  • HDFS: Αυτή η εφαρμογή Hadoop σχετίζεται με το σύστημα αρχείων στο οποίο αποθηκεύονται τα δεδομένα Hadoop. Είναι ένα κατανεμημένο σύστημα αρχείων με υψηλό εύρος ζώνης.
  • Hadoop MapReduce: Βασίζεται σύμφωνα με τον αλγόριθμο για την παροχή μεγάλης κλίμακας επεξεργασίας δεδομένων.
  • Hadoop YARN: Χρησιμοποιείται για διαχείριση πόρων εντός του συμπλέγματος Hadoop. Μπορεί επίσης να χρησιμοποιηθεί για προγραμματισμό εργασιών για χρήστες.

6) Τι είναι το NameNode;

Είναι το επίκεντρο του HDFS. Αποθηκεύει δεδομένα HDFS και παρακολουθεί διάφορα αρχεία σε όλες τις ομάδες. Εδώ, τα πραγματικά δεδομένα δεν αποθηκεύονται. Τα δεδομένα αποθηκεύονται σε DataNodes.

7) Ορίστε τη ροή Hadoop

Είναι ένα βοηθητικό πρόγραμμα που επιτρέπει τη δημιουργία του χάρτη και μειώνει τις εργασίες και τις υποβάλλει σε ένα συγκεκριμένο σύμπλεγμα.

8) Ποια είναι η πλήρης μορφή του HDFS;

Το HDFS σημαίνει Hadoop Distributed File System.

9) Ορίστε το Block and Block Scanner σε HDFS

Τα μπλοκ είναι η μικρότερη μονάδα ενός αρχείου δεδομένων. Το Hadoop χωρίζει αυτόματα τεράστια αρχεία σε μικρά κομμάτια.

Το Block Scanner επαληθεύει τη λίστα των μπλοκ που παρουσιάζονται σε ένα DataNode.

10) Ποια είναι τα βήματα που συμβαίνουν όταν το Block Scanner εντοπίζει ένα κατεστραμμένο μπλοκ δεδομένων;

Ακολουθούν τα βήματα που προκύπτουν όταν το Block Scanner εντοπίσει ένα κατεστραμμένο μπλοκ δεδομένων:

1) Πρώτα απ 'όλα, όταν το Block Scanner εντοπίσει ένα κατεστραμμένο μπλοκ δεδομένων, το DataNode αναφέρει στο NameNode

2) NameNode ξεκινήστε τη διαδικασία δημιουργίας νέου αντιγράφου χρησιμοποιώντας ένα αντίγραφο του κατεστραμμένου μπλοκ.

3) Ο αριθμός αναπαραγωγής των σωστών αντιγράφων προσπαθεί να ταιριάξει με τον παράγοντα αναπαραγωγής. Εάν ο αγώνας βρεθεί κατεστραμμένο μπλοκ δεδομένων δεν θα διαγραφεί.

11) Ονομάστε δύο μηνύματα που λαμβάνει το NameNode από το DataNode;

Υπάρχουν δύο μηνύματα που λαμβάνει το NameNode από το DataNode. Είναι 1) Αναφορά μπλοκ και 2) Καρδιακός παλμός.

12) Παραθέστε διάφορα αρχεία διαμόρφωσης XML στο Hadoop;

Υπάρχουν πέντε αρχεία διαμόρφωσης XML στο Hadoop:

  • Map-site
  • Βασικός ιστότοπος
  • Ιστότοπος HDFS
  • Νήματα-τοποθεσία

13) Ποια είναι τα τέσσερα μεγάλα δεδομένα;

Τέσσερα V μεγάλων δεδομένων είναι:

  • Ταχύτητα
  • Ποικιλία
  • Ενταση ΗΧΟΥ
  • Φιλαλήθεια

14) Εξηγήστε τα χαρακτηριστικά του Hadoop

Σημαντικά χαρακτηριστικά του Hadoop είναι:

  • Είναι ένα πλαίσιο ανοιχτού κώδικα που είναι διαθέσιμο δωρεάν λογισμικό.
  • Το Hadoop είναι συμβατό με πολλούς τύπους υλικού και εύκολη πρόσβαση σε νέο υλικό εντός ενός συγκεκριμένου κόμβου.
  • Το Hadoop υποστηρίζει την ταχύτερη κατανεμημένη επεξεργασία δεδομένων.
  • Αποθηκεύει τα δεδομένα στο σύμπλεγμα, το οποίο είναι ανεξάρτητο από τις υπόλοιπες λειτουργίες.
  • Το Hadoop επιτρέπει τη δημιουργία 3 αντιγράφων για κάθε μπλοκ με διαφορετικούς κόμβους.

15) Εξηγήστε τις κύριες μεθόδους του Reducer

  • setup (): Χρησιμοποιείται για τη διαμόρφωση παραμέτρων όπως το μέγεθος των δεδομένων εισαγωγής και της κατανεμημένης προσωρινής μνήμης.
  • cleanup (): Αυτή η μέθοδος χρησιμοποιείται για τον καθαρισμό προσωρινών αρχείων.
  • μείωση (): Είναι μια καρδιά του μειωτήρα που καλείται μία φορά ανά κλειδί με τη σχετική μειωμένη εργασία

16) Ποια είναι η συντομογραφία του COSHH;

Η συντομογραφία του COSHH είναι χρονοδιάγραμμα βάσει ταξινόμησης και βελτιστοποίησης για ετερογενή συστήματα Hadoop.

17) Εξηγήστε το αστρικό σχήμα

Star Schema ή Star Join Schema είναι ο απλούστερος τύπος σχήματος Data Warehouse. Είναι γνωστό ως σχήμα αστεριού επειδή η δομή του είναι σαν ένα αστέρι. Στο σχήμα αστεριού, το κέντρο του αστεριού μπορεί να έχει έναν πίνακα γεγονότων και έναν πίνακα συσχετισμένων διαστάσεων. Αυτό το σχήμα χρησιμοποιείται για την αναζήτηση μεγάλων συνόλων δεδομένων.

18) Πώς να αναπτύξετε μια μεγάλη λύση δεδομένων;

Ακολουθήστε τα παρακάτω βήματα για να αναπτύξετε μια μεγάλη λύση δεδομένων.

1) Ενσωματώστε δεδομένα χρησιμοποιώντας πηγές δεδομένων όπως RDBMS, SAP, MySQL, Salesforce

2) Αποθηκεύστε δεδομένα που εξήχθησαν δεδομένα είτε στη βάση δεδομένων NoSQL είτε στο HDFS.

3) Αναπτύξτε μεγάλη λύση δεδομένων χρησιμοποιώντας πλαίσια επεξεργασίας όπως Pig, Spark και MapReduce.

19) Εξηγήστε το FSCK

Ο έλεγχος συστήματος αρχείων ή το FSCK είναι εντολή που χρησιμοποιείται από το HDFS. Η εντολή FSCK χρησιμοποιείται για τον έλεγχο ασυνεπειών και προβλημάτων στο αρχείο.

20) Εξηγήστε το σχήμα νιφάδας χιονιού

Το Snowflake Schema είναι μια επέκταση ενός αστεριού σχήματος και προσθέτει επιπλέον διαστάσεις. Ονομάζεται νιφάδα χιονιού επειδή το διάγραμμα του μοιάζει με νιφάδα χιονιού. Οι πίνακες διαστάσεων είναι κανονικοποιημένοι, που χωρίζει τα δεδομένα σε επιπλέον πίνακες.

21) Διάκριση μεταξύ αστεριού και νιφάδας χιονιού

Αστέρι Σχήμα SnowFlake
Οι ιεραρχίες διαστάσεων αποθηκεύονται σε πίνακα διαστάσεων. Κάθε ιεραρχία αποθηκεύεται σε ξεχωριστούς πίνακες.
Οι πιθανότητες απόλυσης δεδομένων είναι υψηλές Οι πιθανότητες πλεονασμού δεδομένων είναι χαμηλές.
Έχει πολύ απλό σχεδιασμό DB Έχει πολύπλοκο σχεδιασμό DB
Παρέχετε έναν γρηγορότερο τρόπο επεξεργασίας κύβου Η επεξεργασία του κύβου είναι αργή λόγω της σύνθετης σύνδεσης.

22) Εξηγήστε το κατανεμημένο σύστημα αρχείων Hadoop

Το Hadoop λειτουργεί με επεκτάσιμα κατανεμημένα συστήματα αρχείων όπως S3, HFTP FS, FS και HDFS. Το Hadoop Distributed File System δημιουργείται στο Google File System. Αυτό το σύστημα αρχείων έχει σχεδιαστεί με τέτοιο τρόπο ώστε να μπορεί εύκολα να εκτελεστεί σε ένα μεγάλο σύμπλεγμα του συστήματος υπολογιστή.

23) Εξηγήστε τις κύριες ευθύνες ενός μηχανικού δεδομένων

Οι μηχανικοί δεδομένων έχουν πολλές ευθύνες. Διαχειρίζονται το σύστημα προέλευσης δεδομένων. Οι μηχανικοί δεδομένων απλοποιούν τη σύνθετη δομή δεδομένων και αποτρέπουν την επανάληψη των δεδομένων. Πολλές φορές παρέχουν επίσης ELT και μετασχηματισμό δεδομένων.

24) Ποια είναι η πλήρης μορφή του YARN;

Η πλήρης μορφή του YARN είναι ακόμη ένας διαπραγματευτής πόρων.

25) Λίστα διάφορων τρόπων λειτουργίας στο Hadoop

Οι λειτουργίες στο Hadoop είναι 1) Αυτόνομη λειτουργία 2) Ψευδο κατανεμημένη λειτουργία 3) Πλήρως κατανεμημένη λειτουργία.

26) Πώς να επιτύχετε ασφάλεια στο Hadoop;

Εκτελέστε τα παρακάτω βήματα για την επίτευξη ασφάλειας στο Hadoop:

1) Το πρώτο βήμα είναι να ασφαλίσετε το κανάλι ελέγχου ταυτότητας του πελάτη στο διακομιστή. Παρέχετε χρονική σήμανση στον πελάτη.

2) Στο δεύτερο βήμα, ο πελάτης χρησιμοποιεί τη σφραγισμένη ώρα για να ζητήσει την TGS για εισιτήριο υπηρεσίας.

3) Στο τελευταίο βήμα, ο πελάτης χρησιμοποιεί εισιτήριο υπηρεσίας για αυτο-έλεγχο ταυτότητας σε έναν συγκεκριμένο διακομιστή.

27) Τι είναι ο καρδιακός παλμός στο Hadoop;

Στο Hadoop, το NameNode και το DataNode επικοινωνούν μεταξύ τους. Heartbeat είναι το σήμα που αποστέλλεται από το DataNode στο NameNode σε τακτική βάση για να δείξει την παρουσία του.

28) Διάκριση μεταξύ NAS και DAS στο Hadoop

NAS DAS
Η χωρητικότητα αποθήκευσης είναι 10 9 έως 10 12 σε byte. Η χωρητικότητα αποθήκευσης είναι 10 9 σε byte.
Το κόστος διαχείρισης ανά GB είναι μέτριο. Το κόστος διαχείρισης ανά GB είναι υψηλό.
Μεταδώστε δεδομένα χρησιμοποιώντας Ethernet ή TCP / IP. Διαβίβαση δεδομένων χρησιμοποιώντας IDE / SCSI

29) Λίστα σημαντικών πεδίων ή γλωσσών που χρησιμοποιούνται από τον μηχανικό δεδομένων

Εδώ είναι μερικά πεδία ή γλώσσες που χρησιμοποιούνται από τον μηχανικό δεδομένων:

  • Πιθανότητα καθώς και γραμμική άλγεβρα
  • Μηχανική εκμάθηση
  • Ανάλυση τάσεων και παλινδρόμηση
  • Hive QL και SQL βάσεις δεδομένων

30) Τι είναι τα Big Data;

Είναι μια μεγάλη ποσότητα δομημένων και μη δομημένων δεδομένων, η οποία δεν μπορεί εύκολα να υποβληθεί σε επεξεργασία με παραδοσιακές μεθόδους αποθήκευσης δεδομένων. Οι μηχανικοί δεδομένων χρησιμοποιούν το Hadoop για τη διαχείριση μεγάλων δεδομένων.

31) Τι είναι ο προγραμματισμός της FIFO;

Είναι ένας αλγόριθμος προγραμματισμού εργασίας Hadoop. Σε αυτόν τον προγραμματισμό FIFO, ένας ρεπόρτερ επιλέγει θέσεις εργασίας από μια ουρά εργασίας, πρώτα από την παλαιότερη εργασία.

32) Αναφέρετε τους προεπιλεγμένους αριθμούς θύρας στους οποίους εκτελείται το tracker εργασιών, το NameNode και το tracker εργασίας στο Hadoop

Οι προεπιλεγμένοι αριθμοί θύρας στους οποίους εκτελείται το tracker εργασιών, το NameNode και το tracker εργασίας στο Hadoop είναι οι εξής:

  • Η παρακολούθηση εργασιών εκτελείται σε θύρα 50060
  • Το NameNode εκτελείται σε θύρα 50070
  • Το Job Tracker εκτελείται σε θύρα 50030

33) Πώς να απενεργοποιήσετε το Block Scanner σε κόμβο δεδομένων HDFS

Για να απενεργοποιήσετε το Block Scanner σε κόμβο δεδομένων HDFS, ορίστε το dfs.datanode.scan.period.hours σε 0.

34) Πώς να ορίσετε την απόσταση μεταξύ δύο κόμβων στο Hadoop;

Η απόσταση είναι ίση με το άθροισμα της απόστασης στους πλησιέστερους κόμβους. Η μέθοδος getDistance () χρησιμοποιείται για τον υπολογισμό της απόστασης μεταξύ δύο κόμβων.

35) Γιατί να χρησιμοποιήσετε το υλικό εμπορευμάτων στο Hadoop;

Το υλικό εμπορευμάτων είναι εύκολο να ληφθεί και προσιτό. Είναι ένα σύστημα που είναι συμβατό με Windows, MS-DOS ή Linux.

36) Ορίστε τον παράγοντα αναπαραγωγής σε HDFS

Ο συντελεστής αναπαραγωγής είναι ένας συνολικός αριθμός αντιγράφων ενός αρχείου στο σύστημα.

37) Ποια δεδομένα αποθηκεύονται στο NameNode;

Το όνομα χώρου αποθηκεύει τα μεταδεδομένα για το HDFS όπως πληροφορίες μπλοκ και πληροφορίες χώρου ονομάτων

38) Τι εννοείς με το Rack Awareness;

Στο σύμπλεγμα Haddop, το Namenode χρησιμοποιεί το Datanode για να βελτιώσει την κυκλοφορία του δικτύου ενώ διαβάζει ή γράφει οποιοδήποτε αρχείο βρίσκεται πιο κοντά στο κοντινό ράφι για να ζητήσει ανάγνωση ή εγγραφή. Το Namenode διατηρεί το αναγνωριστικό rack κάθε DataNode για να επιτύχει πληροφορίες ραφιών. Αυτή η ιδέα ονομάζεται Rack Awareness στο Hadoop.

39) Ποιες είναι οι λειτουργίες του Secondary NameNode;

Ακολουθούν οι συναρτήσεις του Secondary NameNode:

  • FsImage που αποθηκεύει ένα αντίγραφο του αρχείου EditLog και FsImage.
  • Σφάλμα NameNode: Εάν το NameNode διακόπτεται, τότε το FsImage του Secondary NameNode μπορεί να χρησιμοποιηθεί για να δημιουργήσει ξανά το NameNode.
  • Σημείο ελέγχου: Χρησιμοποιείται από το Secondary NameNode για να επιβεβαιώσει ότι τα δεδομένα δεν είναι κατεστραμμένα στο HDFS.
  • Ενημέρωση: Ενημερώνει αυτόματα το αρχείο EditLog και FsImage. Βοηθά στην ενημέρωση του αρχείου FsImage στο Secondary NameNode.

40) Τι συμβαίνει όταν το NameNode είναι εκτός λειτουργίας και ο χρήστης υποβάλλει μια νέα εργασία;

Το NameNode είναι το μοναδικό σημείο αποτυχίας στο Hadoop, οπότε ο χρήστης δεν μπορεί να υποβάλει νέα εργασία που δεν μπορεί να εκτελέσει. Εάν το NameNode είναι εκτός λειτουργίας, τότε η εργασία ενδέχεται να αποτύχει, λόγω αυτού του χρήστη πρέπει να περιμένει να γίνει επανεκκίνηση του NameNode προτού εκτελέσει οποιαδήποτε εργασία.

41) Ποιες είναι οι βασικές φάσεις του μειωτή στο Hadoop;

Υπάρχουν τρεις βασικές φάσεις ενός μειωτή στο Hadoop:

1. Shuffle: Εδώ, το Reducer αντιγράφει την έξοδο από το Mapper.

2. Ταξινόμηση: Σε είδος, το Hadoop ταξινομεί την είσοδο στο Reducer χρησιμοποιώντας το ίδιο πλήκτρο.

3. Μείωση: Σε αυτήν τη φάση, οι τιμές εξόδου που σχετίζονται με ένα κλειδί μειώνονται για την ενοποίηση των δεδομένων στην τελική έξοδο.

42) Γιατί το Hadoop χρησιμοποιεί αντικείμενο Context;

Το πλαίσιο Hadoop χρησιμοποιεί αντικείμενο Context με την κατηγορία Mapper για να αλληλεπιδράσει με το υπόλοιπο σύστημα. Το αντικείμενο περιβάλλοντος λαμβάνει τις λεπτομέρειες διαμόρφωσης του συστήματος και την εργασία στον κατασκευαστή του.

Χρησιμοποιούμε αντικείμενο Context για να μεταφέρουμε τις πληροφορίες στις μεθόδους setup (), cleanup () και map (). Αυτό το αντικείμενο καθιστά διαθέσιμες ζωτικές πληροφορίες κατά τη διάρκεια των λειτουργιών του χάρτη

43) Ορίστε το Combiner στο Hadoop

Είναι ένα προαιρετικό βήμα μεταξύ του χάρτη και της μείωσης. Το Combiner λαμβάνει την έξοδο από τη λειτουργία Map, δημιουργεί ζεύγη τιμών κλειδιών και υποβάλλει στο Hadoop Reducer. Η εργασία του Συνδυαστή είναι να συνοψίσει το τελικό αποτέλεσμα από το Χάρτη σε συνοπτικές εγγραφές με ένα ίδιο κλειδί.

44) Ποιος είναι ο προεπιλεγμένος παράγοντας αναπαραγωγής στο HDFS Τι υποδεικνύει;

Ο προεπιλεγμένος παράγοντας αναπαραγωγής που διατίθεται σε HDFS είναι τρεις. Ο προεπιλεγμένος παράγοντας αναπαραγωγής δηλώνει ότι θα υπάρχουν τρία αντίγραφα κάθε δεδομένων.

45) Τι εννοείτε Τοποθεσία δεδομένων στο Hadoop;

Σε ένα σύστημα Big Data, το μέγεθος των δεδομένων είναι τεράστιο και γι 'αυτό δεν έχει νόημα η μεταφορά δεδομένων σε ολόκληρο το δίκτυο. Τώρα, ο Hadoop προσπαθεί να μετακινήσει τον υπολογισμό πιο κοντά στα δεδομένα. Με αυτόν τον τρόπο, τα δεδομένα παραμένουν τοπικά στην αποθηκευμένη τοποθεσία.

46) Ορίστε το Balancer σε HDFS

Στο HDFS, ο εξισορροπητής είναι ένας διαχειριστής που χρησιμοποιείται από το προσωπικό του διαχειριστή για την εξισορρόπηση δεδομένων μεταξύ των DataNodes και μετακινεί μπλοκ από υπερχρησιμοποιημένους σε μη χρησιμοποιούμενους κόμβους.

47) Εξηγήστε την ασφαλή λειτουργία σε HDFS

Είναι μια λειτουργία μόνο για ανάγνωση του NameNode σε ένα σύμπλεγμα. Αρχικά, το NameNode βρίσκεται στο Safemode. Αποτρέπει την εγγραφή σε σύστημα αρχείων στο Safemode. Προς το παρόν, συλλέγει δεδομένα και στατιστικά στοιχεία από όλους τους DataNodes.

48) Ποια είναι η σημασία της Κατανεμημένης προσωρινής μνήμης στο Apache Hadoop;

Το Hadoop έχει μια χρήσιμη λειτουργία χρησιμότητας, το λεγόμενο Distributed Cache, το οποίο βελτιώνει την απόδοση των εργασιών αποθηκεύοντας προσωρινά τα αρχεία που χρησιμοποιούνται από εφαρμογές. Μια εφαρμογή μπορεί να καθορίσει ένα αρχείο για την προσωρινή μνήμη χρησιμοποιώντας τη διαμόρφωση JobConf.

Το πλαίσιο Hadoop δημιουργεί αντίγραφο αυτών των αρχείων στους κόμβους, στους οποίους πρέπει να εκτελεστεί μια εργασία. Αυτό γίνεται πριν ξεκινήσει η εκτέλεση της εργασίας. Η κατανεμημένη προσωρινή μνήμη υποστηρίζει τη διανομή αρχείων μόνο για ανάγνωση, καθώς και αρχεία zip και βάζων.

49) Τι είναι το Metastore in Hive;

Αποθηκεύει το σχήμα καθώς και την τοποθεσία του πίνακα Hive.

Ο πίνακας ομάδων ορίζει, αντιστοιχίσεις και μεταδεδομένα που αποθηκεύονται στο Metastore. Αυτό μπορεί να αποθηκευτεί σε RDBMS που υποστηρίζεται από JPOX.

50) Τι σημαίνει το SerDe στο Hive;

Το SerDe είναι ένα σύντομο όνομα για Serializer ή Deserializer. Στο Hive, το SerDe επιτρέπει την ανάγνωση δεδομένων από τον πίνακα έως και την εγγραφή σε ένα συγκεκριμένο πεδίο σε οποιαδήποτε μορφή θέλετε.

51) Λίστα στοιχείων που διατίθενται στο μοντέλο δεδομένων Hive

Υπάρχουν τα ακόλουθα στοιχεία στο μοντέλο δεδομένων Hive:

  • Πίνακες
  • Χωρίσματα
  • Κουβάδες

52) Εξηγήστε τη χρήση του Hive στο οικολογικό σύστημα Hadoop.

Η Hive παρέχει μια διεπαφή για τη διαχείριση δεδομένων που είναι αποθηκευμένα στο οικολογικό σύστημα Hadoop. Η κυψέλη χρησιμοποιείται για χαρτογράφηση και εργασία με πίνακες HBase. Τα ερωτήματα κυψέλης μετατρέπονται σε εργασίες MapReduce προκειμένου να αποκρύψει την πολυπλοκότητα που σχετίζεται με τη δημιουργία και την εκτέλεση εργασιών MapReduce.

53) Η λίστα διαφόρων σύνθετων τύπων δεδομένων / συλλογή υποστηρίζονται από την Hive

Η κυψέλη υποστηρίζει τους ακόλουθους σύνθετους τύπους δεδομένων:

  • Χάρτης
  • Δομή
  • Πίνακας
  • Ενωση

54) Εξηγήστε πώς χρησιμοποιείται το αρχείο .hiverc στο Hive;

Στο Hive, το .hiverc είναι το αρχείο αρχικοποίησης. Αυτό το αρχείο φορτώνεται αρχικά όταν ξεκινάμε Command Line Interface (CLI) για Hive. Μπορούμε να ορίσουμε τις αρχικές τιμές των παραμέτρων στο αρχείο .hiverc.

55) Είναι δυνατόν να δημιουργήσετε περισσότερους από έναν πίνακες στην ομάδα για ένα μεμονωμένο αρχείο δεδομένων;

Ναι, μπορούμε να δημιουργήσουμε περισσότερα από ένα σχήματα πινάκων για ένα αρχείο δεδομένων. Η κυψέλη αποθηκεύει το σχήμα στο Hive Metastore. Με βάση αυτό το σχήμα, μπορούμε να ανακτήσουμε διαφορετικά αποτελέσματα από τα ίδια δεδομένα.

56) Εξηγήστε διάφορες εφαρμογές SerDe διαθέσιμες στο Hive

Υπάρχουν πολλές εφαρμογές SerDe διαθέσιμες στο Hive. Μπορείτε επίσης να γράψετε τη δική σας προσαρμοσμένη εφαρμογή SerDe. Ακολουθούν μερικές διάσημες υλοποιήσεις SerDe:

  • OpenCSVSerde
  • RegexSerDe
  • Οριοθετημένο JSONSerDe
  • ByteStreamTypedSerDe

57) Λίστα λειτουργιών δημιουργίας πινάκων που διατίθενται στο Hive

Ακολουθεί μια λίστα λειτουργιών δημιουργίας πινάκων:

  • Έκρηξη (πίνακας)
  • JSON_tuple ()
  • Σωρός()
  • Έκρηξη (χάρτης)

58) Τι είναι ένας πίνακας Skewed στην Κυψέλη;

Ένας πίνακας με κλίση είναι ένας πίνακας που περιέχει τιμές στηλών πιο συχνά. Στο Hive, όταν καθορίζουμε έναν πίνακα ως SKEWED κατά τη δημιουργία, οι τιμές με κλίση γράφονται σε ξεχωριστά αρχεία και οι υπόλοιπες τιμές πηγαίνουν σε άλλο αρχείο.

59) Αναφέρετε αντικείμενα που δημιουργήθηκαν από δημιουργία δήλωσης στη MySQL.

Τα αντικείμενα που δημιουργούνται από τη δήλωση δημιουργίας στη MySQL είναι τα εξής:

  • Βάση δεδομένων
  • Δείκτης
  • Τραπέζι
  • Χρήστης
  • Διαδικασία
  • Δώσει το έναυσμα για
  • Εκδήλωση
  • Θέα
  • Λειτουργία

60) Πώς να δείτε τη δομή της βάσης δεδομένων στη MySQL;

Για να δείτε τη δομή της βάσης δεδομένων στη MySQL, μπορείτε να χρησιμοποιήσετε

Εντολή DESCRIBE. Η σύνταξη αυτής της εντολής είναι DESCRIBE Table name ;.

61) Πώς να αναζητήσετε μια συγκεκριμένη συμβολοσειρά στη στήλη πίνακα MySQL;

Χρησιμοποιήστε τον τελεστή regex για να αναζητήσετε μια συμβολοσειρά στη στήλη MySQL. Εδώ, μπορούμε επίσης να ορίσουμε διάφορους τύπους κανονικής έκφρασης και αναζήτηση για χρήση του regex.

62) Εξηγήστε πώς η ανάλυση δεδομένων και τα μεγάλα δεδομένα μπορούν να αυξήσουν τα έσοδα της εταιρείας;

Ακολουθούν οι τρόποι με τους οποίους η ανάλυση δεδομένων και τα μεγάλα δεδομένα μπορούν να αυξήσουν τα έσοδα της εταιρείας:

  • Χρησιμοποιήστε τα δεδομένα αποτελεσματικά για να βεβαιωθείτε ότι η ανάπτυξη των επιχειρήσεων.
  • Αυξήστε την αξία των πελατών.
  • Γίνεται αναλυτική για τη βελτίωση των προβλέψεων σε επίπεδο προσωπικού.
  • Μείωση του κόστους παραγωγής των οργανισμών.