Ακολουθούν συχνές ερωτήσεις σε συνεντεύξεις για νεότερους αλλά και έμπειρους δοκιμαστές και προγραμματιστές ETL.
1) Τι είναι το ETL;
Στην αρχιτεκτονική αποθήκευσης δεδομένων, το ETL είναι ένα σημαντικό στοιχείο, το οποίο διαχειρίζεται τα δεδομένα για οποιαδήποτε επιχειρηματική διαδικασία. Το ETL σημαίνει Extract, Transform και Load . Η εξαγωγή κάνει τη διαδικασία ανάγνωσης δεδομένων από μια βάση δεδομένων. Το Transform κάνει τη μετατροπή δεδομένων σε μορφή που θα μπορούσε να είναι κατάλληλη για αναφορά και ανάλυση. Ενώ, η φόρτωση κάνει τη διαδικασία εγγραφής των δεδομένων στη βάση δεδομένων προορισμού.
2) Εξηγήστε τι περιλαμβάνουν οι δοκιμές ETL;
Η δοκιμή ETL περιλαμβάνει
- Επαληθεύστε εάν τα δεδομένα μετασχηματίζονται σωστά σύμφωνα με τις επιχειρηματικές απαιτήσεις
- Βεβαιωθείτε ότι τα προβαλλόμενα δεδομένα φορτώνονται στην αποθήκη δεδομένων χωρίς περικοπή και απώλεια δεδομένων
- Βεβαιωθείτε ότι η εφαρμογή ETL αναφέρει μη έγκυρα δεδομένα και αντικαθιστά με προεπιλεγμένες τιμές
- Βεβαιωθείτε ότι τα δεδομένα φορτώνονται στο αναμενόμενο χρονικό διάστημα για να βελτιώσετε την επεκτασιμότητα και την απόδοση
3) Αναφέρετε ποιοι είναι οι τύποι εφαρμογών αποθήκης δεδομένων και ποια είναι η διαφορά μεταξύ εξόρυξης δεδομένων και αποθήκευσης δεδομένων;
Οι τύποι εφαρμογών αποθήκης δεδομένων είναι
- Επεξεργασία πληροφοριών
- Αναλυτική επεξεργασία
- Εξόρυξη δεδομένων
Η εξόρυξη δεδομένων μπορεί να οριστεί ως η διαδικασία εξαγωγής κρυφών πληροφοριών πρόβλεψης από μεγάλες βάσεις δεδομένων και ερμηνείας των δεδομένων, ενώ η αποθήκευση δεδομένων μπορεί να κάνει χρήση ενός ορυχείου δεδομένων για την αναλυτική επεξεργασία των δεδομένων με ταχύτερο τρόπο. Η αποθήκευση δεδομένων είναι η διαδικασία συγκέντρωσης δεδομένων από πολλές πηγές σε ένα κοινό αποθετήριο
4) Ποια είναι τα διάφορα εργαλεία που χρησιμοποιούνται στο ETL;
- Ροή απόφασης Cognos
- Οικοδόμος αποθήκης Oracle
- Επιχειρηματικά αντικείμενα XI
- Επιχειρηματική αποθήκη SAS
- Διακομιστής SAS Enterprise ETL
5) Τι είναι το γεγονός; Ποια είναι τα είδη των γεγονότων;
Είναι ένα κεντρικό συστατικό ενός πολυδιάστατου μοντέλου που περιέχει τα μέτρα που πρέπει να αναλυθούν. Τα γεγονότα σχετίζονται με τις διαστάσεις.
Οι τύποι των γεγονότων είναι
- Πρόσθετα γεγονότα
- Ημι-πρόσθετα γεγονότα
- Μη πρόσθετα γεγονότα
6) Εξηγήστε τι είναι Κύβοι και Κύβοι OLAP;
Οι κύβοι είναι μονάδες επεξεργασίας δεδομένων που αποτελούνται από πίνακες δεδομένων και διαστάσεις από την αποθήκη δεδομένων. Παρέχει πολυδιάστατη ανάλυση.
Το OLAP σημαίνει Online Analytics Processing, και το OLAP cube αποθηκεύει μεγάλα δεδομένα σε μορφή πολλαπλών διαστάσεων για σκοπούς αναφοράς. Αποτελείται από γεγονότα που ονομάζονται μέτρα που κατηγοριοποιούνται βάσει διαστάσεων.
7) Εξηγήστε τι είναι το επίπεδο ανίχνευσης και ποιοι είναι οι τύποι;
Το επίπεδο ανίχνευσης είναι ο όγκος των δεδομένων που αποθηκεύονται στα αρχεία καταγραφής. Το επίπεδο εντοπισμού μπορεί να ταξινομηθεί σε δύο Normal και Verbose. Το κανονικό επίπεδο εξηγεί το επίπεδο ανίχνευσης με λεπτομερή τρόπο, ενώ το verbose εξηγεί τα επίπεδα παρακολούθησης σε κάθε σειρά.
8) Εξηγήστε τι είναι το Grain of Fact;
Το γεγονός των κόκκων μπορεί να οριστεί ως το επίπεδο στο οποίο αποθηκεύονται οι πληροφορίες για τα γεγονότα. Είναι επίσης γνωστό ως Fact Granularity
9) Εξηγήστε τι είναι το σχήμα αληθών γεγονότων και τι είναι τα Μέτρα;
Ένας πίνακας γεγονότων χωρίς μέτρα είναι γνωστός ως πίνακας γεγονότων χωρίς στοιχεία. Μπορεί να δει τον αριθμό των συμβάντων που συμβαίνουν. Για παράδειγμα, χρησιμοποιείται για την καταγραφή ενός συμβάντος, όπως ο αριθμός των εργαζομένων σε μια εταιρεία.
Τα αριθμητικά δεδομένα που βασίζονται σε στήλες σε έναν πίνακα πληροφοριών είναι γνωστά ως Μέτρα
10) Εξηγήστε τι είναι ο μετασχηματισμός;
Ο μετασχηματισμός είναι ένα αντικείμενο αποθετηρίου που δημιουργεί, τροποποιεί ή διαβιβάζει δεδομένα. Ο μετασχηματισμός είναι δύο τύπων Active και Passive
11) Εξηγήστε τη χρήση του Lookup Transformation;
Το Lookup Transformation είναι χρήσιμο για
- Λήψη σχετικής τιμής από έναν πίνακα χρησιμοποιώντας μια τιμή στήλης
- Ενημέρωση αργά αλλάζοντας πίνακα διαστάσεων
- Επαληθεύστε εάν υπάρχουν ήδη εγγραφές στον πίνακα
12) Εξηγήστε τι είναι η κατάτμηση, η κατάτμηση κατακερματισμού και η κατάτμηση στρογγυλού robin;
Για τη βελτίωση της απόδοσης, οι συναλλαγές υποδιαιρούνται, αυτό ονομάζεται Διαχωρισμός. Το Partioning επιτρέπει στο Informatica Server για τη δημιουργία πολλαπλών συνδέσεων σε διάφορες πηγές
Οι τύποι κατατμήσεων είναι
Διαμέριση Round-Robin:
- Με την πληροφορία τα δεδομένα κατανέμονται ομοιόμορφα σε όλα τα διαμερίσματα
- Σε κάθε διαμέρισμα όπου ο αριθμός των γραμμών προς επεξεργασία είναι περίπου ίδιος, ισχύει αυτό το διαμέρισμα
Διαχωρισμός κατακερματισμού:
- Για σκοπούς διαμέρισης κλειδιών για την ομαδοποίηση δεδομένων μεταξύ διαμερισμάτων, ο διακομιστής Informatica εφαρμόζει μια λειτουργία κατακερματισμού
- Χρησιμοποιείται όταν διασφαλίζεται ότι πρέπει να διασφαλιστεί η επεξεργασία ομάδων γραμμών με το ίδιο κλειδί διαμέρισης στο ίδιο διαμέρισμα
13) Αναφέρετε ποιο είναι το πλεονέκτημα της χρήσης του Προσαρμογέα Προορισμού DataReader;
Το πλεονέκτημα της χρήσης του Προσαρμογέα Προορισμού DataReader είναι ότι συμπληρώνει ένα σύνολο εγγραφών ADO (που αποτελείται από εγγραφές και στήλες) στη μνήμη και εκθέτει τα δεδομένα από την εργασία DataFlow εφαρμόζοντας τη διεπαφή DataReader, έτσι ώστε άλλη εφαρμογή να μπορεί να καταναλώνει τα δεδομένα.
14) Χρησιμοποιώντας το SSIS (SQL Server Integration Service) ποιοι είναι οι πιθανοί τρόποι ενημέρωσης του πίνακα;
Για να ενημερώσετε τον πίνακα χρησιμοποιώντας SSIS οι πιθανοί τρόποι είναι:
- Χρησιμοποιήστε μια εντολή SQL
- Χρησιμοποιήστε έναν πίνακα στάσης
- Χρησιμοποιήστε την προσωρινή μνήμη
- Χρησιμοποιήστε την εργασία δέσμης ενεργειών
- Χρησιμοποιήστε το πλήρες όνομα της βάσης δεδομένων για ενημέρωση εάν χρησιμοποιείται MSSQL
15) Σε περίπτωση που δεν έχετε πηγή OLEDB (Object Linking and Embedding Database) για την αναζήτηση τι θα κάνατε;
Σε περίπτωση που εάν έχετε πηγή εκτός OLEBD για την αναζήτηση, τότε πρέπει να χρησιμοποιήσετε την προσωρινή μνήμη για να φορτώσετε δεδομένα και να τα χρησιμοποιήσετε ως πηγή
16) Σε ποια περίπτωση χρησιμοποιείτε δυναμική προσωρινή μνήμη και στατική προσωρινή μνήμη σε συνδεδεμένους και μη συνδεδεμένους μετασχηματισμούς;
- Η δυναμική προσωρινή μνήμη χρησιμοποιείται όταν πρέπει να ενημερώσετε τον κύριο πίνακα και να αλλάξετε αργά τις διαστάσεις (SCD) τύπου 1
- Για επίπεδα αρχεία χρησιμοποιείται Στατική προσωρινή μνήμη
17) Εξηγήστε ποιες είναι οι διαφορές μεταξύ αναζήτησης χωρίς σύνδεση και σύνδεσης;
Συνδεδεμένη αναζήτηση |
Μη συνδεδεμένη αναζήτηση |
|
- Χρησιμοποιείται όταν χρησιμοποιείται η λειτουργία αναζήτησης αντί για μετασχηματισμό έκφρασης κατά τη χαρτογράφηση |
|
- Επιστρέφει μόνο μία θύρα εξόδου |
|
|
|
|
|
|
|
|
18) Εξηγήστε τι είναι η προβολή πηγής δεδομένων;
Μια προβολή προέλευσης δεδομένων επιτρέπει τον καθορισμό του σχεσιακού σχήματος που θα χρησιμοποιηθεί στις βάσεις δεδομένων των υπηρεσιών ανάλυσης. Αντί απευθείας από αντικείμενα προέλευσης δεδομένων, οι διαστάσεις και οι κύβοι δημιουργούνται από προβολές πηγών δεδομένων.
19) Εξηγήστε ποια είναι η διαφορά μεταξύ των εργαλείων OLAP και των εργαλείων ETL;
Η διαφορά μεταξύ του εργαλείου ETL και OLAP είναι αυτή
Το εργαλείο ETL προορίζεται για την εξαγωγή δεδομένων από τα παλαιά συστήματα και τη φόρτωση σε συγκεκριμένη βάση δεδομένων με κάποια διαδικασία καθαρισμού δεδομένων.
Παράδειγμα: Στάδιο δεδομένων, Πληροφορική κ.λπ.
Ενώ το OLAP προορίζεται για σκοπούς αναφοράς σε δεδομένα OLAP διαθέσιμα σε πολυκατευθυντικό μοντέλο.
Παράδειγμα: Επαγγελματικά αντικείμενα, κονιάματα κ.λπ.
20) Πώς μπορείτε να εξαγάγετε δεδομένα SAP χρησιμοποιώντας το Informatica;
- Με την επιλογή power connect εξάγετε δεδομένα SAP χρησιμοποιώντας informatica
- Εγκαταστήστε και διαμορφώστε το εργαλείο PowerConnect
- Εισαγάγετε την πηγή στον Αναλυτή πηγής. Μεταξύ της Informatica και του SAP Powerconnect ενεργούν ως πύλες. Το επόμενο βήμα είναι να δημιουργήσετε τον κωδικό ABAP για τη χαρτογράφηση και μόνο η πληροφορική μπορεί να τραβήξει δεδομένα από το SAP
- Για σύνδεση και εισαγωγή πηγών από εξωτερικά συστήματα χρησιμοποιείται το Power Connect
21) Αναφέρετε ποια είναι η διαφορά μεταξύ του Power Mart και του Power Center;
Κέντρο δύναμης |
Power Mart |
|
|
|
|
|
|
|
|
22) Εξηγήστε τι είναι η περιοχή σταδιοποίησης και ποιος είναι ο σκοπός μιας περιοχής σταδιοποίησης;
Η σταδιοποίηση δεδομένων είναι μια περιοχή όπου διατηρείτε προσωρινά τα δεδομένα στον διακομιστή αποθήκης δεδομένων. Η σταδιοποίηση δεδομένων περιλαμβάνει τα ακόλουθα βήματα
- Εξαγωγή δεδομένων πηγής και μετατροπή δεδομένων (αναδιάρθρωση)
- Μετασχηματισμός δεδομένων (καθαρισμός δεδομένων, μετασχηματισμός αξίας)
- Αναπληρωματικές αναθέσεις κλειδιών
23) Τι είναι το σχήμα λεωφορείου;
Για να προσδιοριστούν οι διάφορες επιχειρηματικές διαδικασίες οι κοινές διαστάσεις, χρησιμοποιείται το σχήμα BUS. Έρχεται με διαμορφωμένες διαστάσεις μαζί με έναν τυποποιημένο ορισμό των πληροφοριών
24) Εξηγήστε τι είναι η εκκαθάριση δεδομένων;
Η εκκαθάριση δεδομένων είναι μια διαδικασία διαγραφής δεδομένων από την αποθήκη δεδομένων. Διαγράφει ανεπιθύμητες γραμμές όπως γραμμές με μηδενικές τιμές ή επιπλέον κενά.
25) Εξηγήστε τι είναι τα αντικείμενα σχήματος;
Τα αντικείμενα σχήματος είναι η λογική δομή που αναφέρεται απευθείας στα δεδομένα των βάσεων δεδομένων. Τα αντικείμενα σχήματος περιλαμβάνουν πίνακες, προβολές, συνώνυμα ακολουθιών, ευρετήρια, ομάδες, πακέτα συναρτήσεων και συνδέσμους βάσης δεδομένων
26) Εξηγήστε αυτούς τους όρους Συνεδρία, Worklet, Mapplet και Workflow;
- Mapplet: Τακτοποιεί ή δημιουργεί σύνολα μετασχηματισμού
- Worklet: Αντιπροσωπεύει ένα συγκεκριμένο σύνολο εργασιών που έχουν δοθεί
- Ροή εργασίας: Είναι ένα σύνολο οδηγιών που λένε στον διακομιστή πώς να εκτελεί εργασίες
- Συνεδρία: Είναι ένα σύνολο παραμέτρων που λέει στον διακομιστή πώς να μεταφέρει δεδομένα από πηγές σε στόχο
Δωρεάν λήψη PDF: Ερωτήσεις και απαντήσεις για συνέντευξη δοκιμής ETL