Τι είναι η Συμφιλίωση Δεδομένων;
Η συμφιλίωση δεδομένων (DR) ορίζεται ως μια διαδικασία επαλήθευσης δεδομένων κατά τη μετεγκατάσταση δεδομένων. Σε αυτήν τη διαδικασία τα δεδομένα στόχου συγκρίνονται με τα δεδομένα προέλευσης για να διασφαλιστεί ότι η αρχιτεκτονική μετεγκατάστασης μεταφέρει δεδομένα. Επικύρωση δεδομένων και συμφωνία (DVR) σημαίνει μια τεχνολογία που χρησιμοποιεί μαθηματικά μοντέλα για την επεξεργασία πληροφοριών.
Σε αυτό το σεμινάριο, θα μάθετε,
- Τι είναι η Συμφιλίωση Δεδομένων;
- Γιατί είναι σημαντική η Συμφιλίωση Δεδομένων;
- Ορολογία που σχετίζεται με τη Συμφιλίωση δεδομένων
- Ιστορικό Συμφιλίωσης Δεδομένων
- Διαδικασία Συμφιλίωσης Δεδομένων
- Βέλτιστες πρακτικές της χρήσης συμφιλίωσης δεδομένων
- Εργαλεία Συμφιλίωσης Δεδομένων
Γιατί είναι σημαντική η Συμφιλίωση Δεδομένων;
Στη διαδικασία μετεγκατάστασης δεδομένων, είναι πιθανό να γίνουν λάθη στη λογική χαρτογράφησης και μετασχηματισμού. Ζητήματα όπως αποτυχίες χρόνου εκτέλεσης όπως διακοπή δικτύου ή κατεστραμμένες συναλλαγές μπορεί να καταστρέψουν δεδομένα.
Αυτό το είδος σφαλμάτων μπορεί να οδηγήσει σε μη έγκυρη κατάσταση δεδομένων. Αυτά μπορεί να δημιουργήσουν μια σειρά προβλημάτων όπως:
- Λείπουν εγγραφές
- Λείπουν τιμές
- Λανθασμένες τιμές
- Διπλότυπες εγγραφές
- Κακώς μορφοποιημένες τιμές
- Σπασμένες σχέσεις μεταξύ πινάκων ή συστημάτων
Εδώ είναι σημαντικοί λόγοι για τη χρήση της Διαδικασίας Συμφιλίωσης Δεδομένων:
- Η χρήση της Συμφιλίωσης Δεδομένων σας βοηθά να εξαγάγετε ακριβείς και αξιόπιστες πληροφορίες σχετικά με την κατάσταση της βιομηχανικής διαδικασίας από ακατέργαστα δεδομένα μέτρησης.
- Σας βοηθά επίσης να δημιουργήσετε ένα ενιαίο σύνολο δεδομένων που αντιπροσωπεύουν την πιο πιθανή λειτουργία της διαδικασίας.
- Επίσης οδηγεί σε ανακριβείς πληροφορίες και προβλήματα με την εξυπηρέτηση πελατών.
- Η συμφιλίωση των δεδομένων είναι επίσης σημαντική για την ολοκλήρωση του ελέγχου επιχειρήσεων.
Εκτός από τα παραπάνω, υπάρχουν πολλά πλεονεκτήματα / οφέλη του συνδυασμού δεδομένων.
Ορολογία που σχετίζεται με τη Συμφιλίωση δεδομένων
Μεικτό σφάλμα | Μεικτά σφάλματα στις μετρήσεις. Αντικατοπτρίζει μόνο σφάλματα μεροληψίας, αστοχίες οργάνων ή μη φυσιολογικές αυξήσεις θορύβου εάν χρησιμοποιείτε μόνο βραχύ χρονικό διάστημα. |
Παρατηρησιμότητα | Η ανάλυση παρατηρησιμότητας μπορεί να σας δώσει λεπτομέρειες σχετικά με το ποιες μεταβλητές μπορούν να προσδιοριστούν για ένα δεδομένο σύνολο περιορισμών και ένα σύνολο μετρήσεων. |
Διαφορά | Η διακύμανση είναι ένα μέτρο της μεταβλητότητας ενός αισθητήρα. |
Πλεονασμός | Σας βοηθά να προσδιορίσετε ποιες μετρήσεις πρέπει να εκτιμηθούν από άλλες μεταβλητές χρησιμοποιώντας τις εξισώσεις περιορισμού. |
Ιστορικό Συμφιλίωσης Δεδομένων
Εδώ, είναι απαραίτητα ορόσημα από την ιστορία της Συμφιλίωσης Δεδομένων.
- Το DVR (επικύρωση δεδομένων και συμφιλίωση) ξεκίνησε στις αρχές της δεκαετίας του 1960. Αποσκοπούσε στο κλείσιμο των ισοζυγίων υλικών στην παραγωγή, όπου ήταν διαθέσιμες πρώτες μετρήσεις για όλες τις μεταβλητές.
- Στα τέλη της δεκαετίας του 1960, όλες οι μη μετρημένες μεταβλητές εξετάστηκαν στη διαδικασία συνδυασμού δεδομένων.
- Η δυναμική σχεδόν σταθερής κατάστασης για φιλτράρισμα και παράλληλη εκτίμηση παραμέτρων με την πάροδο του χρόνου εισήχθη το 1977 από τους Stanley και Mah.
- Το Dynamic DVR αναπτύχθηκε ως μη γραμμικό μοντέλο βελτιστοποίησης που εκδόθηκε από τον Liebman το έτος 1992
Διαδικασία Συμφιλίωσης Δεδομένων
Οι τύποι μεθόδων συμφιλίωσης δεδομένων είναι:
Συμφιλίωση κύριων δεδομένων
Ο συνδυασμός βασικών δεδομένων είναι μια τεχνική συνδυασμού μόνο των κύριων δεδομένων μεταξύ πηγής και στόχου. Τα κύρια δεδομένα είναι ως επί το πλείστον αμετάβλητα ή αργά αλλάζουν στη φύση τους και δεν γίνεται καμία λειτουργία συνάθροισης στο σύνολο δεδομένων.
Λίγα κοινά παραδείγματα συνδυασμού κύριων δεδομένων είναι:
- Συνολικός αριθμός σειρών
- Συνολικός πελάτης στην πηγή και στο στόχο
- Συνολικός αριθμός στοιχείων στην πηγή και στο στόχο
- Συνολικός αριθμός σειρών βάσει δεδομένης συνθήκης
- Αριθμός ενεργών χρηστών
- Αριθμός ανενεργών χρηστών κ.λπ.
Ακρίβεια δραστηριότητας
- Πρέπει να βεβαιωθείτε ότι οι συναλλαγές είναι έγκυρες και σωστές.
- Πρέπει να ελέγξετε εάν οι συναλλαγές έχουν εγκριθεί σωστά.
Συμφιλίωση δεδομένων συναλλαγών
Τα δεδομένα συναλλαγών αποτελούν τη βάση των αναφορών BI. Επομένως, οποιαδήποτε αναντιστοιχία στα δεδομένα συναλλαγών μπορεί να επηρεάσει άμεσα την αξιοπιστία της αναφοράς και γενικά ολόκληρου του συστήματος BI.
Η μέθοδος συνδυασμού δεδομένων συναλλαγών χρησιμοποιείται ως προς το συνολικό άθροισμα που αποτρέπει τυχόν αναντιστοιχία που προκαλείται από την αλλαγή της λεπτομέρειας των διαστάσεων που πληρούν τα κριτήρια.
Παραδείγματα μέτρων που χρησιμοποιούνται για τη συμφωνία συναλλαγών δεδομένων πρέπει να είναι:
- Άθροισμα του συνολικού εισοδήματος που υπολογίζεται από την πηγή και τον στόχο
- Άθροισμα ολόκληρου του αντικειμένου που πωλήθηκε, υπολογισμένο από την πηγή και τον στόχο, κ.λπ.
Αυτοματοποιημένη Συμφιλίωση Δεδομένων:
Σε μεγάλο σύστημα διαχείρισης αποθήκης δεδομένων, είναι βολικό να αυτοματοποιείται η διαδικασία συμφιλίωσης δεδομένων καθιστώντας την ως αναπόσπαστο μέρος της φόρτωσης δεδομένων. Σας επιτρέπει να διατηρείτε ξεχωριστούς πίνακες μεταδεδομένων φόρτωσης. Επιπλέον, η αυτοματοποιημένη συμφιλίωση θα ενημερώνει όλους τους ενδιαφερόμενους για την εγκυρότητα των αναφορών.
Βέλτιστες πρακτικές της χρήσης συμφιλίωσης δεδομένων
- Η διαδικασία συμφιλίωσης δεδομένων πρέπει να στοχεύει σε σωστά σφάλματα μέτρησης.
- Τα ακαθάριστα σφάλματα πρέπει να είναι μηδενικά για να καταστεί αποτελεσματική η διαδικασία συνδυασμού δεδομένων.
- Η τυπική προσέγγιση της Συμφιλίωσης Δεδομένων βασίστηκε σε απλούς αριθμούς εγγραφών για να παρακολουθεί εάν ο στοχευμένος αριθμός εγγραφών έχει μεταναστεύσει ή όχι.
- Η λύση μετεγκατάστασης δεδομένων παρέχει παρόμοιες δυνατότητες συμφιλίωσης και λειτουργικότητα πρωτότυπων δεδομένων που προσφέρει δοκιμές συνδυασμού δεδομένων πλήρους όγκου
Εργαλεία Συμφιλίωσης Δεδομένων
1) OpenRefine
Το OpenRefine, το οποίο ήταν παλαιότερα γνωστό, το Google Refine είναι ένα χρήσιμο πλαίσιο Συμφιλίωσης βάσεων δεδομένων. Σας επιτρέπει να καθαρίζετε και να μεταφέρετε ακατάστατα δεδομένα.
Λήψη συνδέσμου: https://openrefine.org/
2) Σαφήνεια TIBCO
Αυτό το εργαλείο συμφιλίωσης δεδομένων προσφέρει κατ 'απαίτηση υπηρεσίες λογισμικού από τον Ιστό με τη μορφή Λογισμικού ως υπηρεσία. Επιτρέπει στους χρήστες να επικυρώνουν τα δεδομένα και να καθαρίζουν τα δεδομένα. Παρέχει πλήρη χαρακτηριστικά δοκιμών συμφιλίωσης. Χρησιμοποιείται ευρέως στη διαδικασία ETL.
Σύνδεσμος λήψης: https://clarity.cloud.tibco.com/landing/index.html
3) Winpure
Το Winpure είναι ένα προσιτό και ακριβές λογισμικό καθαρισμού δεδομένων. Σας επιτρέπει να καθαρίσετε μεγάλο όγκο δεδομένων, να αφαιρέσετε διπλότυπα, να διορθώσετε και να τυποποιήσετε το σχεδιασμό του τελικού συνόλου δεδομένων.
Σύνδεσμος λήψης: https://winpure.com/
Περίληψη
- Η επικύρωση και ο συνδυασμός δεδομένων (DVR) είναι μια τεχνολογία που χρησιμοποιεί μαθηματικά μοντέλα για την επεξεργασία πληροφοριών.
- Η χρήση της Συμφιλίωσης δεδομένων σάς βοηθά να εξαγάγετε ακριβείς και αξιόπιστες πληροφορίες σχετικά με την κατάσταση της βιομηχανικής διαδικασίας από ακατέργαστα δεδομένα μέτρησης.
- Μεικτό σφάλμα, παρατηρησιμότητα, διακύμανση, πλεονασμός είναι σημαντικοί όροι που χρησιμοποιούνται στη διαδικασία συμφιλίωσης δεδομένων
- Η επικύρωση δεδομένων και η συμφιλίωση ξεκίνησαν στις αρχές της δεκαετίας του 1960.
- Τρεις τύποι μεθόδων συνδυασμού δεδομένων είναι 1) Συμφιλίωση κύριων δεδομένων 2) Συμφιλίωση δεδομένων συναλλαγών 3) Αυτοματοποιημένη συμφιλίωση δεδομένων
- Τα ακαθάριστα σφάλματα πρέπει να είναι μηδενικά για να καταστεί αποτελεσματική η διαδικασία συνδυασμού δεδομένων.
- Μερικά σημαντικά εργαλεία Συμφιλίωσης Δεδομένων είναι: 1) OpenRefine 2) TIBCO 3) Winpure
- Αυτή η μέθοδος χρησιμοποιείται ευρέως στην παρακολούθηση των επιδόσεων και των διαδικασιών στη διύλιση πετρελαίου / πυρηνική / χημική βιομηχανία