Τι είναι το Data Lake;
Το Data Lake είναι ένα αποθετήριο αποθήκευσης που μπορεί να αποθηκεύσει μεγάλο αριθμό δομημένων, ημι-δομημένων και μη δομημένων δεδομένων. Είναι ένα μέρος για την αποθήκευση κάθε τύπου δεδομένων στη μητρική του μορφή χωρίς σταθερά όρια στο μέγεθος ή το αρχείο του λογαριασμού. Προσφέρει υψηλή ποσότητα δεδομένων για να αυξήσει την αναλυτική απόδοση και την εγγενή ενοποίηση.
Το Data Lake είναι σαν ένα μεγάλο δοχείο που μοιάζει πολύ με την πραγματική λίμνη και τα ποτάμια. Ακριβώς όπως σε μια λίμνη έχετε πολλούς παραπόταμους, μια λίμνη δεδομένων έχει δομημένα δεδομένα, μη δομημένα δεδομένα, μηχανή σε μηχανή, αρχεία καταγραφής που ρέουν σε πραγματικό χρόνο.
Το Data Lake εκδημοκρατίζει τα δεδομένα και είναι ένας οικονομικά αποδοτικός τρόπος αποθήκευσης όλων των δεδομένων ενός οργανισμού για μεταγενέστερη επεξεργασία. Ο ερευνητής αναλυτής μπορεί να επικεντρωθεί στην εύρεση νόημα μοτίβα στα δεδομένα και όχι στα ίδια τα δεδομένα.
Σε αντίθεση με έναν ιεραρχικό οίκο Dataware όπου τα δεδομένα αποθηκεύονται στο Files and Folder, το Data lake έχει μια επίπεδη αρχιτεκτονική. Κάθε στοιχείο δεδομένων σε μια λίμνη δεδομένων έχει ένα μοναδικό αναγνωριστικό και επισημαίνεται με ένα σύνολο πληροφοριών μεταδεδομένων.
Σε αυτό το σεμινάριο, θα μάθετε-
- Τι είναι το Data Lake;
- Γιατί Data Lake;
- Αρχιτεκτονική Data Lake
- Βασικές έννοιες της λίμνης δεδομένων
- Στάδια ωριμότητας του Data Lake
- Βέλτιστες πρακτικές για την εφαρμογή Data Lake:
- Διαφορά μεταξύ των λιμνών δεδομένων και της αποθήκης δεδομένων
- Οφέλη και κίνδυνοι από τη χρήση Data Lake:
Γιατί Data Lake;
Ο κύριος στόχος της οικοδόμησης μιας λίμνης δεδομένων είναι να προσφέρει μια ανεπεξέργαστη προβολή δεδομένων στους επιστήμονες δεδομένων.
Οι λόγοι για τη χρήση του Data Lake είναι:
- Με την έναρξη των μηχανών αποθήκευσης όπως το Hadoop, η αποθήκευση διαφορετικών πληροφοριών έχει γίνει εύκολη. Δεν υπάρχει ανάγκη μοντελοποίησης δεδομένων σε σχήμα εταιρικού σχήματος με Data Lake.
- Με την αύξηση του όγκου δεδομένων, της ποιότητας των δεδομένων και των μεταδεδομένων, αυξάνεται επίσης η ποιότητα των αναλύσεων.
- Η Data Lake προσφέρει επιχειρηματική ευελιξία
- Η μηχανική εκμάθηση και η τεχνητή νοημοσύνη μπορούν να χρησιμοποιηθούν για την πραγματοποίηση κερδοφόρων προβλέψεων.
- Προσφέρει ανταγωνιστικό πλεονέκτημα στον οργανισμό υλοποίησης.
- Δεν υπάρχει δομή σιλό δεδομένων. Το Data Lake προσφέρει 360 μοίρες στους πελάτες και κάνει την ανάλυση πιο ισχυρή.
Αρχιτεκτονική Data Lake
Το σχήμα δείχνει την αρχιτεκτονική μιας επιχειρηματικής λίμνης δεδομένων. Τα χαμηλότερα επίπεδα αντιπροσωπεύουν δεδομένα που είναι κυρίως σε ηρεμία, ενώ τα ανώτερα επίπεδα δείχνουν δεδομένα συναλλαγών σε πραγματικό χρόνο. Αυτά τα δεδομένα ρέουν μέσω του συστήματος χωρίς καθόλου καθυστέρηση. Ακολουθούν σημαντικές βαθμίδες στην Data Lake Architecture:
- Επίπεδο απορρόφησης : Τα επίπεδα στην αριστερή πλευρά απεικονίζουν τις πηγές δεδομένων. Τα δεδομένα θα μπορούσαν να φορτωθούν στη λίμνη δεδομένων σε παρτίδες ή σε πραγματικό χρόνο
- Επίπεδο Insights: Τα επίπεδα στα δεξιά αντιπροσωπεύουν την ερευνητική πλευρά όπου χρησιμοποιούνται πληροφορίες από το σύστημα. SQL, NoSQL ερωτήματα, ή ακόμη και excel θα μπορούσαν να χρησιμοποιηθούν για την ανάλυση δεδομένων.
- Το HDFS είναι μια οικονομική λύση τόσο για δομημένα όσο και για μη δομημένα δεδομένα. Είναι μια ζώνη προσγείωσης για όλα τα δεδομένα που βρίσκονται σε ηρεμία στο σύστημα.
- Το επίπεδο απόσταξης λαμβάνει δεδομένα από το ελαστικό αποθήκευσης και το μετατρέπει σε δομημένα δεδομένα για ευκολότερη ανάλυση.
- Επεξεργασία αναλυτικών αλγορίθμων επιπέδου εκτέλεσης και ερωτημάτων χρηστών με διαφορετικό πραγματικό χρόνο, διαδραστικό, παρτίδα για τη δημιουργία δομημένων δεδομένων για ευκολότερη ανάλυση.
- Το επίπεδο ενοποιημένων λειτουργιών διέπει τη διαχείριση και την παρακολούθηση του συστήματος. Περιλαμβάνει έλεγχο και διαχείριση ικανοτήτων, διαχείριση δεδομένων, διαχείριση ροής εργασίας.
Βασικές έννοιες της λίμνης δεδομένων
Ακολουθούν οι έννοιες Key Data Lake που πρέπει να καταλάβει κανείς για να κατανοήσει πλήρως την Αρχιτεκτονική Data Lake
Κατάποση δεδομένων
Η απορρόφηση δεδομένων επιτρέπει στους συνδέσμους να λαμβάνουν δεδομένα από διαφορετικές πηγές δεδομένων και να φορτώνουν στη λίμνη δεδομένων.
Υποστήριξη απορρόφησης δεδομένων:
- Όλοι οι τύποι δεδομένων δομημένων, ημι-δομημένων και μη δομημένων.
- Πολλαπλές απορροφήσεις όπως παρτίδα, πραγματικός χρόνος, φορτίο μίας χρήσης.
- Πολλοί τύποι πηγών δεδομένων όπως βάσεις δεδομένων, διακομιστές Web, email, IoT και FTP.
Αποθήκευση δεδομένων
Η αποθήκευση δεδομένων πρέπει να είναι επεκτάσιμη, προσφέρει οικονομικά αποδοτική αποθήκευση και επιτρέπει γρήγορη πρόσβαση στην εξερεύνηση δεδομένων. Θα πρέπει να υποστηρίζει διάφορες μορφές δεδομένων.
Διακυβέρνηση δεδομένων
Η διακυβέρνηση δεδομένων είναι μια διαδικασία διαχείρισης της διαθεσιμότητας, της χρηστικότητας, της ασφάλειας και της ακεραιότητας των δεδομένων που χρησιμοποιούνται σε έναν οργανισμό.
Ασφάλεια
Η ασφάλεια πρέπει να εφαρμοστεί σε κάθε επίπεδο της λίμνης δεδομένων. Ξεκινά με το Storage, Unearthing και Consumption. Η βασική ανάγκη είναι να σταματήσει η πρόσβαση για μη εξουσιοδοτημένους χρήστες. Θα πρέπει να υποστηρίζει διαφορετικά εργαλεία για πρόσβαση σε δεδομένα με εύκολη πλοήγηση στο GUI και τους Πίνακες ελέγχου.
Ο έλεγχος ταυτότητας, η λογιστική, η εξουσιοδότηση και η προστασία δεδομένων είναι μερικά σημαντικά χαρακτηριστικά της ασφάλειας στη λίμνη δεδομένων.
Ποιότητα δεδομένων:
Η ποιότητα των δεδομένων αποτελεί βασικό στοιχείο της αρχιτεκτονικής του Data Lake Τα δεδομένα χρησιμοποιούνται για την ακριβή επιχειρηματική αξία. Η εξαγωγή πληροφοριών από δεδομένα κακής ποιότητας θα οδηγήσει σε πληροφορίες κακής ποιότητας.
Ανακάλυψη δεδομένων
Το Data Discovery είναι ένα άλλο σημαντικό στάδιο προτού αρχίσετε να προετοιμάζετε δεδομένα ή ανάλυση. Σε αυτό το στάδιο, η τεχνική προσθήκης ετικετών χρησιμοποιείται για να εκφράσει την κατανόηση των δεδομένων, οργανώνοντας και ερμηνεύοντας τα δεδομένα που λαμβάνονται στη λίμνη δεδομένων.
Έλεγχος δεδομένων
Δύο σημαντικές εργασίες ελέγχου δεδομένων είναι η παρακολούθηση αλλαγών στο βασικό σύνολο δεδομένων.
- Παρακολούθηση αλλαγών σε σημαντικά στοιχεία συνόλου δεδομένων
- Καταγράφει πώς / πότε / και ποιος αλλάζει σε αυτά τα στοιχεία.
Ο έλεγχος δεδομένων βοηθά στην αξιολόγηση του κινδύνου και της συμμόρφωσης.
Καταγωγή δεδομένων
Αυτό το στοιχείο ασχολείται με την προέλευση των δεδομένων. Ασχολείται κυρίως με το πού κινείται με την πάροδο του χρόνου και τι συμβαίνει σε αυτό. Διευκολύνει τις διορθώσεις σφαλμάτων σε μια διαδικασία ανάλυσης δεδομένων από την αρχή στον προορισμό.
Εξερεύνηση δεδομένων
Είναι το αρχικό στάδιο της ανάλυσης δεδομένων. Βοηθά στον εντοπισμό του σωστού συνόλου δεδομένων είναι ζωτικής σημασίας πριν ξεκινήσετε την Εξερεύνηση δεδομένων.
Όλα τα δεδομένα στοιχεία πρέπει να συνεργαστούν για να παίξουν σημαντικό ρόλο στο κτίριο της λίμνης δεδομένων εύκολα να εξελιχθεί και να εξερευνήσει το περιβάλλον.
Στάδια ωριμότητας του Data Lake
Τα στάδια Ορισμός του Data Lake Maturity διαφέρουν από το βιβλίο σε άλλο. Αν και η ουσία παραμένει η ίδια. Μετά την ωριμότητα, ο ορισμός του σταδίου είναι από απλή άποψη.
Στάδιο 1: Χειρισμός και λήψη δεδομένων σε κλίμακα
Αυτό το πρώτο στάδιο της ωριμότητας δεδομένων περιλαμβάνει τη βελτίωση της ικανότητας μετατροπής και ανάλυσης δεδομένων. Εδώ, οι ιδιοκτήτες επιχειρήσεων πρέπει να βρουν τα εργαλεία σύμφωνα με τις δεξιότητές τους για τη λήψη περισσότερων δεδομένων και τη δημιουργία αναλυτικών εφαρμογών.
Στάδιο 2: Οικοδόμηση του αναλυτικού μυός
Αυτό είναι ένα δεύτερο στάδιο που περιλαμβάνει τη βελτίωση της ικανότητας μετασχηματισμού και ανάλυσης δεδομένων. Σε αυτό το στάδιο, οι εταιρείες χρησιμοποιούν το εργαλείο που είναι καταλληλότερο για τις δεξιότητές τους. Αρχίζουν να αποκτούν περισσότερα δεδομένα και να δημιουργούν εφαρμογές. Εδώ, οι δυνατότητες της αποθήκης δεδομένων επιχειρήσεων και της λίμνης δεδομένων χρησιμοποιούνται από κοινού.
Στάδιο 3: Οι EDW και Data Lake δουλεύουν ταυτόχρονα
Αυτό το βήμα περιλαμβάνει τη λήψη δεδομένων και αναλυτικών στοιχείων στα χέρια όσο το δυνατόν περισσότερων ατόμων. Σε αυτό το στάδιο, η λίμνη δεδομένων και η αποθήκη δεδομένων επιχειρήσεων αρχίζουν να λειτουργούν σε μια ένωση. Και οι δύο διαδραματίζουν τον ρόλο τους στην ανάλυση
Στάδιο 4: Επιχειρηματική ικανότητα στη λίμνη
Σε αυτό το στάδιο ωριμότητας της λίμνης δεδομένων, οι επιχειρηματικές δυνατότητες προστίθενται στη Λίμνη δεδομένων. Υιοθέτηση της διακυβέρνησης πληροφοριών, των δυνατοτήτων διαχείρισης του κύκλου ζωής των πληροφοριών και της διαχείρισης μεταδεδομένων. Ωστόσο, πολύ λίγοι οργανισμοί μπορούν να φτάσουν σε αυτό το επίπεδο ωριμότητας, αλλά αυτός ο αριθμός θα αυξηθεί στο μέλλον.
Βέλτιστες πρακτικές για την εφαρμογή Data Lake:
- Τα αρχιτεκτονικά στοιχεία, η αλληλεπίδραση τους και τα αναγνωρισμένα προϊόντα πρέπει να υποστηρίζουν εγγενείς τύπους δεδομένων
- Ο σχεδιασμός της Data Lake πρέπει να βασίζεται σε ό, τι είναι διαθέσιμο αντί για αυτό που απαιτείται. Το σχήμα και η απαίτηση δεδομένων δεν ορίζεται έως ότου τεθεί σε ερώτηση
- Ο σχεδιασμός πρέπει να καθοδηγείται από εξαρτήματα μιας χρήσης που είναι ενσωματωμένα στο API υπηρεσίας.
- Η ανακάλυψη δεδομένων, η κατάποση, η αποθήκευση, η διαχείριση, η ποιότητα, ο μετασχηματισμός και η οπτικοποίηση πρέπει να διαχειρίζονται ανεξάρτητα.
- Η αρχιτεκτονική Data Lake πρέπει να είναι προσαρμοσμένη σε μια συγκεκριμένη βιομηχανία. Πρέπει να διασφαλίσει ότι οι απαραίτητες δυνατότητες για αυτόν τον τομέα αποτελούν εγγενές μέρος του σχεδιασμού
- Η ταχύτερη επιβίβαση των πρόσφατα ανακαλυφθέντων πηγών δεδομένων είναι σημαντική
- Το Data Lake βοηθά την προσαρμοσμένη διαχείριση να εξαγάγει τη μέγιστη τιμή
- Το Data Lake πρέπει να υποστηρίζει τις υπάρχουσες τεχνικές και μεθόδους διαχείρισης δεδομένων επιχειρήσεων
Προκλήσεις δημιουργίας λίμνης δεδομένων:
- Στο Data Lake, ο όγκος δεδομένων είναι υψηλότερος, επομένως η διαδικασία πρέπει να εξαρτάται περισσότερο από τη διαχείριση μέσω προγραμματισμού
- Είναι δύσκολο να αντιμετωπιστούν αραιά, ελλιπή, ασταθή δεδομένα
- Το ευρύτερο φάσμα του συνόλου δεδομένων και της πηγής χρειάζεται μεγαλύτερη διακυβέρνηση και υποστήριξη δεδομένων
Διαφορά μεταξύ των λιμνών δεδομένων και της αποθήκης δεδομένων
Παράμετροι | Λίμνες δεδομένων | Αποθήκη δεδομένων |
---|---|---|
Δεδομένα | Οι λίμνες δεδομένων αποθηκεύουν τα πάντα. | Η Data Warehouse εστιάζει μόνο στις επιχειρηματικές διαδικασίες. |
Επεξεργασία | Τα δεδομένα είναι κυρίως μη επεξεργασμένα | Πολύ επεξεργασμένα δεδομένα. |
Τύπος δεδομένων | Μπορεί να είναι μη δομημένο, ημι-δομημένο και δομημένο. | Είναι κυρίως σε μορφή πίνακα και δομή. |
Εργο | Μοιραστείτε τη διαχείριση δεδομένων | Βελτιστοποιημένο για ανάκτηση δεδομένων |
Ευκινησία | Ιδιαίτερα ευέλικτη, διαμόρφωση και αναδιάρθρωση ανάλογα με τις ανάγκες. | Συγκρίνετε με το Data data είναι λιγότερο ευέλικτο και έχει σταθερή διαμόρφωση. |
Χρήστες | Το Data Lake χρησιμοποιείται κυρίως από τον Data Scientist | Οι επαγγελματίες χρησιμοποιούν ευρέως δεδομένα Warehouse |
Αποθήκευση | Σχεδιασμός λιμνών δεδομένων για αποθήκευση χαμηλού κόστους. | Χρησιμοποιείται ακριβός χώρος αποθήκευσης που δίνει γρήγορους χρόνους απόκρισης |
Ασφάλεια | Προσφέρει μικρότερο έλεγχο. | Επιτρέπει καλύτερο έλεγχο των δεδομένων. |
Αντικατάσταση EDW | Η λίμνη δεδομένων μπορεί να είναι πηγή EDW | Συμπληρωματικό του EDW (όχι αντικατάστασης) |
Σχέδιο | Σχέδιο ανάγνωσης (χωρίς προκαθορισμένα σχήματα) | Σχέδιο εγγραφής (προκαθορισμένα σχήματα) |
Επεξεργασία δεδομένων | Βοηθά στην ταχεία απορρόφηση νέων δεδομένων. | Είναι χρονοβόρα για την εισαγωγή νέου περιεχομένου. |
Λεπτομέρειες δεδομένων | Δεδομένα σε χαμηλό επίπεδο λεπτομέρειας ή λεπτομέρεια. | Δεδομένα στο συνοπτικό ή συγκεντρωτικό επίπεδο λεπτομέρειας. |
Εργαλεία | Μπορεί να χρησιμοποιήσει ανοιχτό κώδικα / εργαλεία όπως το Hadoop / Map Reduce | Κυρίως εμπορικά εργαλεία. |
Οφέλη και κίνδυνοι από τη χρήση Data Lake:
Ακολουθούν ορισμένα σημαντικά οφέλη από τη χρήση μιας λίμνης δεδομένων:
- Βοηθά πλήρως με προϊόντα ιονισμού και προηγμένα αναλυτικά στοιχεία
- Προσφέρει οικονομικά κλιμάκωση και ευελιξία
- Προσφέρει αξία από απεριόριστους τύπους δεδομένων
- Μειώνει το μακροπρόθεσμο κόστος ιδιοκτησίας
- Επιτρέπει την οικονομική αποθήκευση αρχείων
- Γρήγορα προσαρμόσιμο στις αλλαγές
- Το κύριο πλεονέκτημα της λίμνης δεδομένων είναι ο συγκεντρωτισμός διαφορετικών πηγών περιεχομένου
- Οι χρήστες, από διάφορα τμήματα, μπορεί να είναι διασκορπισμένοι σε όλο τον κόσμο μπορούν να έχουν ευέλικτη πρόσβαση στα δεδομένα
Κίνδυνος χρήσης της λίμνης δεδομένων:
- Μετά από λίγο καιρό, το Data Lake μπορεί να χάσει τη σημασία και την ορμή του
- Υπάρχει μεγαλύτερος κίνδυνος ποσού κατά το σχεδιασμό της Data Lake
- Τα μη δομημένα δεδομένα μπορεί να οδηγήσουν σε Ungoverned Chao, Unusable Data, Disparate & Complex Tools, Enterprise-Wide Collaboration, Unified, Consistent και Common
- Αυξάνει επίσης την αποθήκευση και υπολογίζει το κόστος
- Δεν υπάρχει τρόπος λήψης πληροφοριών από άλλους που έχουν συνεργαστεί με τα δεδομένα, επειδή δεν υπάρχει καμία αναφορά στη γενεαλογία των ευρημάτων από προηγούμενους αναλυτές
- Ο μεγαλύτερος κίνδυνος λιμνών δεδομένων είναι η ασφάλεια και ο έλεγχος πρόσβασης. Μερικές φορές τα δεδομένα μπορούν να τοποθετηθούν σε μια λίμνη χωρίς καμία επίβλεψη, καθώς ορισμένα από τα δεδομένα ενδέχεται να έχουν απορρήτου και κανονιστική ανάγκη
Περίληψη:
- Το Data Lake είναι ένα αποθετήριο αποθήκευσης που μπορεί να αποθηκεύσει μεγάλο αριθμό δομημένων, ημι-δομημένων και μη δομημένων δεδομένων.
- Ο κύριος στόχος της οικοδόμησης μιας λίμνης δεδομένων είναι να προσφέρει μια ανεπεξέργαστη προβολή δεδομένων στους επιστήμονες δεδομένων.
- Το ενοποιημένο επίπεδο λειτουργιών, το επίπεδο επεξεργασίας, το επίπεδο απόσταξης και το HDFS είναι σημαντικά επίπεδα της αρχιτεκτονικής δεδομένων της λίμνης
- Η απορρόφηση δεδομένων, η αποθήκευση δεδομένων, η ποιότητα δεδομένων, ο έλεγχος δεδομένων, η εξερεύνηση δεδομένων, η ανακάλυψη δεδομένων είναι μερικά σημαντικά στοιχεία της αρχιτεκτονικής δεδομένων της λίμνης
- Ο σχεδιασμός της Data Lake πρέπει να βασίζεται σε ό, τι είναι διαθέσιμο αντί για αυτό που απαιτείται.
- Η Data Lake μειώνει το μακροπρόθεσμο κόστος ιδιοκτησίας και επιτρέπει την οικονομική αποθήκευση αρχείων
- Ο μεγαλύτερος κίνδυνος λιμνών δεδομένων είναι η ασφάλεια και ο έλεγχος πρόσβασης. Μερικές φορές τα δεδομένα μπορούν να τοποθετηθούν σε μια λίμνη χωρίς καμία επίβλεψη, καθώς ορισμένα από τα δεδομένα ενδέχεται να έχουν απόρρητο και κανονιστική ανάγκη.