Ακολουθούν συχνές ερωτήσεις σε συνεντεύξεις εργασίας για νέους, καθώς και έμπειρους επιστήμονες δεδομένων.
1. Τι είναι η Επιστήμη των Δεδομένων;
Η Επιστήμη δεδομένων είναι ένας συνδυασμός αλγορίθμων, εργαλείων και τεχνικής μηχανικής εκμάθησης που σας βοηθά να βρείτε κοινά κρυμμένα μοτίβα από τα δεδομένα ανεπεξέργαστα δεδομένα.
2. Τι είναι η λογιστική παλινδρόμηση στην Επιστήμη Δεδομένων;
Το Logistic Regression ονομάζεται επίσης ως μοντέλο logit. Είναι μια μέθοδος για την πρόβλεψη του δυαδικού αποτελέσματος από έναν γραμμικό συνδυασμό μεταβλητών πρόβλεψης.
3. Ονομάστε τρεις τύπους προκαταλήψεων που μπορεί να προκύψουν κατά τη δειγματοληψία
Στη διαδικασία δειγματοληψίας, υπάρχουν τρεις τύποι προκαταλήψεων, οι οποίες είναι:
- Μεροληψία επιλογής
- Υπό μεροληψία κάλυψης
- Μεροληψία επιβίωσης
4. Συζητήστε τον αλγόριθμο του Tree Tree
Ένα δέντρο αποφάσεων είναι ένας δημοφιλής αλγόριθμος εποπτείας μηχανικής μάθησης. Χρησιμοποιείται κυρίως για παλινδρόμηση και ταξινόμηση. Επιτρέπει την κατανομή ενός συνόλου δεδομένων σε μικρότερα υποσύνολα. Το δέντρο αποφάσεων μπορεί να χειριστεί τόσο κατηγορικά όσο και αριθμητικά δεδομένα.
5. Τι είναι η προηγούμενη πιθανότητα και πιθανότητα;
Προηγούμενη πιθανότητα είναι η αναλογία της εξαρτημένης μεταβλητής στο σύνολο δεδομένων, ενώ η πιθανότητα είναι η πιθανότητα ταξινόμησης ενός δεδομένου παρατηρητή παρουσία κάποιας άλλης μεταβλητής.
6. Εξηγήστε τα Συστήματα Προτεινόμενων;
Είναι μια υποκατηγορία τεχνικών φιλτραρίσματος πληροφοριών. Σας βοηθά να προβλέψετε τις προτιμήσεις ή τις αξιολογήσεις που οι χρήστες είναι πιθανό να δώσουν σε ένα προϊόν.
7. Ονομάστε τρία μειονεκτήματα από τη χρήση γραμμικού μοντέλου
Τρία μειονεκτήματα του γραμμικού μοντέλου είναι:
- Η υπόθεση γραμμικότητας των σφαλμάτων.
- Δεν μπορείτε να χρησιμοποιήσετε αυτό το μοντέλο για δυαδικά αποτελέσματα ή να μετρήσετε τα αποτελέσματα
- Υπάρχουν πολλά προβλήματα που δεν μπορούν να λύσουν
8. Γιατί πρέπει να κάνετε δειγματοληψία;
Η δειγματοληψία γίνεται σε περιπτώσεις που δίδονται παρακάτω:
- Εκτίμηση της ακρίβειας των στατιστικών δειγμάτων αντλώντας τυχαία με αντικατάσταση από ένα σύνολο σημείου δεδομένων ή χρησιμοποιώντας ως υποσύνολα προσβάσιμων δεδομένων
- Αντικατάσταση ετικετών σε σημεία δεδομένων κατά την εκτέλεση των απαραίτητων δοκιμών
- Επικύρωση μοντέλων χρησιμοποιώντας τυχαία υποσύνολα
9. Παραθέστε τις βιβλιοθήκες στο Python που χρησιμοποιούνται για την Ανάλυση Δεδομένων και τους Επιστημονικούς Υπολογισμούς.
- SciPy
- Πάντες
- Matplotlib
- NumPy
- SciKit
- Θαλασσοπόρος
10. Τι είναι η Ανάλυση Ισχύος;
Η ανάλυση ισχύος είναι αναπόσπαστο μέρος του πειραματικού σχεδιασμού. Σας βοηθά να προσδιορίσετε το μέγεθος του δείγματος που απαιτείται για να μάθετε την επίδραση ενός δεδομένου μεγέθους από μια αιτία με ένα συγκεκριμένο επίπεδο διασφάλισης. Σας επιτρέπει επίσης να αναπτύξετε μια συγκεκριμένη πιθανότητα σε περιορισμό μεγέθους δείγματος.
11. Εξηγήστε το Συνεργατικό φιλτράρισμα
Συνεργατικό φιλτράρισμα που χρησιμοποιείται για την αναζήτηση σωστών μοτίβων συνεργαζόμενων απόψεων, πολλαπλών πηγών δεδομένων και διαφόρων παραγόντων.
12. Τι είναι η προκατάληψη;
Η προκατάληψη είναι ένα σφάλμα που παρουσιάστηκε στο μοντέλο σας λόγω της υπερβολικής απλοποίησης ενός αλγορίθμου μηχανικής εκμάθησης. "Μπορεί να οδηγήσει σε υποσιτισμό.
13. Συζητήστε το "Naive" σε έναν αλγόριθμο Naive Bayes;
Το μοντέλο Naive Bayes Algorithm βασίζεται στο θεώρημα Bayes. Περιγράφει την πιθανότητα ενός συμβάντος. Βασίζεται σε προηγούμενη γνώση των συνθηκών που μπορεί να σχετίζονται με το συγκεκριμένο γεγονός.
14. Τι είναι η γραμμική παλινδρόμηση;
Η γραμμική παλινδρόμηση είναι μια μέθοδος στατιστικού προγραμματισμού όπου η βαθμολογία μιας μεταβλητής «Α» προβλέπεται από τη βαθμολογία μιας δεύτερης μεταβλητής «Β». Το Β αναφέρεται ως μεταβλητή πρόβλεψης και το Α ως μεταβλητή κριτηρίου.
15. Δηλώστε τη διαφορά μεταξύ της αναμενόμενης και της μέσης τιμής
Δεν είναι πολλές διαφορές, αλλά και οι δύο αυτοί όροι χρησιμοποιούνται σε διαφορετικά περιβάλλοντα. Η μέση τιμή αναφέρεται γενικά όταν συζητάτε μια κατανομή πιθανότητας ενώ η αναμενόμενη τιμή αναφέρεται στο πλαίσιο μιας τυχαίας μεταβλητής.
16. Ποιος είναι ο στόχος της διεξαγωγής δοκιμών A / B;
Η δοκιμή AB χρησιμοποιείται για τη διεξαγωγή τυχαίων πειραμάτων με δύο μεταβλητές, Α και Β. Ο στόχος αυτής της μεθόδου δοκιμών είναι να ανακαλύψει αλλαγές σε μια ιστοσελίδα για να μεγιστοποιήσει ή να αυξήσει το αποτέλεσμα μιας στρατηγικής.
17. Τι είναι το Ensemble Learning;
Το σύνολο είναι μια μέθοδος συνδυασμού ενός διαφορετικού συνόλου μαθητών για τον αυτοσχεδιασμό της σταθερότητας και της προγνωστικής ισχύος του μοντέλου. Δύο τύποι μεθόδων μάθησης Ensemble είναι:
Σακκόπανο
Η μέθοδος Bagging σας βοηθά να εφαρμόσετε παρόμοιους μαθητές σε μικρούς πληθυσμούς δειγμάτων. Σας βοηθά να κάνετε πιο κοντά προβλέψεις.
Ενίσχυση
Η ενίσχυση είναι μια επαναληπτική μέθοδος που σας επιτρέπει να προσαρμόσετε το βάρος μιας παρατήρησης εξαρτάται από την τελευταία ταξινόμηση. Η ενίσχυση μειώνει το σφάλμα προκατάληψης και σας βοηθά να δημιουργήσετε ισχυρά μοντέλα πρόβλεψης.
18. Εξηγήστε το Eigenvalue και το Eigenvector
Οι ιδιογενείς φορείς είναι για την κατανόηση των γραμμικών μετασχηματισμών Ο επιστήμονας δεδομένων πρέπει να υπολογίσει τους ιδιοδιανύσματα για έναν πίνακα συνδιακύμανσης ή συσχέτιση. Οι ιδιοτιμές είναι οι κατευθύνσεις που χρησιμοποιούν συγκεκριμένες πράξεις γραμμικού μετασχηματισμού με συμπίεση, αναστροφή ή τέντωμα.
19. Ορίστε τον όρο διασταυρούμενη επικύρωση
Η διασταυρούμενη επικύρωση είναι μια τεχνική επικύρωσης για την αξιολόγηση του πώς τα αποτελέσματα της στατιστικής ανάλυσης θα γενικευτούν για ένα ανεξάρτητο σύνολο δεδομένων Αυτή η μέθοδος χρησιμοποιείται σε υπόβαθρα όπου προβλέπεται ο στόχος και πρέπει να εκτιμήσουμε πόσο ακριβή θα επιτύχει ένα μοντέλο.
20. Εξηγήστε τα βήματα για ένα έργο ανάλυσης δεδομένων
Τα παρακάτω είναι σημαντικά βήματα που εμπλέκονται σε ένα έργο ανάλυσης:
- Κατανοήστε το επιχειρηματικό πρόβλημα
- Εξερευνήστε τα δεδομένα και μελετήστε τα προσεκτικά.
- Προετοιμάστε τα δεδομένα για μοντελοποίηση βρίσκοντας τις τιμές που λείπουν και μετατρέποντας μεταβλητές.
- Ξεκινήστε να εκτελείτε το μοντέλο και αναλύστε το αποτέλεσμα Big data.
- Επικυρώστε το μοντέλο με νέο σύνολο δεδομένων.
- Εφαρμόστε το μοντέλο και παρακολουθήστε το αποτέλεσμα για να αναλύσετε την απόδοση του μοντέλου για μια συγκεκριμένη περίοδο.
21. Συζητήστε τεχνητά νευρικά δίκτυα
Τα τεχνητά νευρωνικά δίκτυα (ANN) είναι ένα ειδικό σύνολο αλγορίθμων που έχουν φέρει επανάσταση στη μηχανική μάθηση. Σας βοηθά να προσαρμοστείτε ανάλογα με την αλλαγή εισόδου. Έτσι, το δίκτυο δημιουργεί το καλύτερο δυνατό αποτέλεσμα χωρίς να επανασχεδιάσουμε τα κριτήρια εξόδου.
22. Τι είναι ο πολλαπλασιασμός της πλάτης;
Ο οπίσθιος πολλαπλασιασμός είναι η ουσία της εκπαίδευσης νευρικών δικτύων. Είναι η μέθοδος συντονισμού των βαρών ενός νευρικού διχτυού εξαρτάται από το ποσοστό σφάλματος που αποκτήθηκε στην προηγούμενη εποχή. Ο σωστός συντονισμός των βοηθημάτων σας βοηθά να μειώσετε τα ποσοστά σφάλματος και να κάνετε το μοντέλο αξιόπιστο αυξάνοντας τη γενίκευσή του.
23. Τι είναι ένα τυχαίο δάσος;
Το τυχαίο δάσος είναι μια μέθοδος μηχανικής εκμάθησης που σας βοηθά να εκτελέσετε όλους τους τύπους εργασιών παλινδρόμησης και ταξινόμησης. Χρησιμοποιείται επίσης για την αντιμετώπιση των τιμών που λείπουν και των ακραίων τιμών.
24. Ποια είναι η σημασία της μεροληψίας επιλογής;
Επιλογή μεροληψίας συμβαίνει όταν δεν επιτυγχάνεται συγκεκριμένη τυχαιοποίηση κατά την επιλογή ατόμων ή ομάδων ή δεδομένων προς ανάλυση. Υποδηλώνει ότι το δεδομένο δείγμα δεν αντιπροσωπεύει ακριβώς τον πληθυσμό που επρόκειτο να αναλυθεί.
25. Ποια είναι η μέθοδος ομαδοποίησης Κ-μέσων;
Το K-σημαίνει clustering είναι μια σημαντική μέθοδος μάθησης χωρίς επίβλεψη. Είναι η τεχνική της ταξινόμησης δεδομένων χρησιμοποιώντας ένα συγκεκριμένο σύνολο συστάδων που ονομάζεται K clusters. Αναπτύσσεται για ομαδοποίηση για να ανακαλύψει την ομοιότητα στα δεδομένα.
26. Εξηγήστε τη διαφορά μεταξύ της Επιστήμης Δεδομένων και της Ανάλυσης Δεδομένων
Οι επιστήμονες δεδομένων πρέπει να κόψουν δεδομένα για να εξαγάγουν πολύτιμες πληροφορίες που μπορεί να εφαρμόσει ένας αναλυτής δεδομένων σε πραγματικά σενάρια επιχειρήσεων. Η κύρια διαφορά μεταξύ των δύο είναι ότι οι επιστήμονες δεδομένων έχουν περισσότερες τεχνικές γνώσεις από τον επιχειρηματικό αναλυτή. Επιπλέον, δεν χρειάζονται κατανόηση της επιχείρησης που απαιτείται για την οπτικοποίηση δεδομένων.
27. Εξηγήστε την τιμή p;
Όταν πραγματοποιείτε μια δοκιμασία υπόθεσης στα στατιστικά στοιχεία, μια τιμή p σάς επιτρέπει να προσδιορίσετε την ισχύ των αποτελεσμάτων σας. Είναι ένας αριθμητικός αριθμός μεταξύ 0 και 1. Με βάση την τιμή, θα σας βοηθήσει να δηλώσετε την ισχύ του συγκεκριμένου αποτελέσματος.
28. Ορίστε τον όρο βαθιά μάθηση
Η βαθιά μάθηση είναι ένας υποτύπος της μηχανικής μάθησης. Αφορά αλγόριθμους εμπνευσμένους από τη δομή που ονομάζεται τεχνητά νευρικά δίκτυα (ANN).
29. Εξηγήστε τη μέθοδο συλλογής και ανάλυσης δεδομένων για χρήση κοινωνικών μέσων για την πρόβλεψη της καιρικής κατάστασης.
Μπορείτε να συλλέξετε δεδομένα κοινωνικών μέσων χρησιμοποιώντας Facebook, twitter, API του Instagram. Για παράδειγμα, για το tweeter, μπορούμε να δημιουργήσουμε ένα χαρακτηριστικό από κάθε tweet, όπως ημερομηνία tweet, retweets, λίστα με ακόλουθους κ.λπ.
30. Πότε πρέπει να ενημερώσετε τον αλγόριθμο στην επιστήμη δεδομένων;
Πρέπει να ενημερώσετε έναν αλγόριθμο στην ακόλουθη κατάσταση:
- Θέλετε το μοντέλο δεδομένων σας να εξελιχθεί ως ροές δεδομένων χρησιμοποιώντας υποδομή
- Η υποκείμενη πηγή δεδομένων αλλάζει
Εάν είναι μη στασιμότητα
31. Τι είναι η Κανονική Κατανομή
Μια κανονική κατανομή είναι ένα σύνολο συνεχούς μεταβλητής που απλώνεται σε μια κανονική καμπύλη ή σε σχήμα καμπύλης καμπάνας. Μπορείτε να το θεωρήσετε ως συνεχή κατανομή πιθανότητας που είναι χρήσιμη στα στατιστικά στοιχεία. Είναι χρήσιμο να αναλύουμε τις μεταβλητές και τις σχέσεις τους όταν χρησιμοποιούμε την κανονική καμπύλη κατανομής.
32. Ποια γλώσσα είναι καλύτερη για την ανάλυση κειμένου; R ή Python;
Η Python θα είναι πιο κατάλληλη για αναλυτικά κείμενα καθώς αποτελείται από μια πλούσια βιβλιοθήκη γνωστή ως pandas. Σας επιτρέπει να χρησιμοποιείτε εργαλεία ανάλυσης δεδομένων υψηλού επιπέδου και δομές δεδομένων, ενώ το R δεν προσφέρει αυτήν τη δυνατότητα.
33. Εξηγήστε τα οφέλη από τη χρήση στατιστικών από τους επιστήμονες δεδομένων
Οι στατιστικές βοηθούν τον επιστήμονα δεδομένων να πάρει μια καλύτερη ιδέα για τις προσδοκίες του πελάτη. Χρησιμοποιώντας τη στατιστική μέθοδο Οι επιστήμονες δεδομένων μπορούν να αποκτήσουν γνώσεις σχετικά με το ενδιαφέρον των καταναλωτών, τη συμπεριφορά, τη δέσμευση, τη διατήρηση κ.λπ. Σας βοηθά επίσης να δημιουργήσετε ισχυρά μοντέλα δεδομένων για την επικύρωση ορισμένων συμπερασμάτων και προβλέψεων.
34. Ονομάστε διάφορους τύπους πλαισίων βαθιάς μάθησης
- Pytorch
- Microsoft Cognitive Toolkit
- TensorFlow
- Καφέ
- Αλυσίδα
- Κεράς
35. Εξηγήστε τον αυτόματο κωδικοποιητή
Οι αυτόματοι κωδικοποιητές είναι δίκτυα εκμάθησης. Σας βοηθά να μετατρέψετε τις εισόδους σε εξόδους με λιγότερους αριθμούς σφαλμάτων. Αυτό σημαίνει ότι η έξοδος θα είναι όσο το δυνατόν πιο κοντά στην είσοδο.
36. Ορίστε τη μηχανή Boltzmann
Οι μηχανές Boltzmann είναι ένας απλός αλγόριθμος μάθησης. Σας βοηθά να ανακαλύψετε εκείνες τις δυνατότητες που αντιπροσωπεύουν πολύπλοκες κανονικότητες στα δεδομένα εκπαίδευσης. Αυτός ο αλγόριθμος σας επιτρέπει να βελτιστοποιήσετε τα βάρη και την ποσότητα για το συγκεκριμένο πρόβλημα.
37. Εξηγήστε γιατί ο καθαρισμός δεδομένων είναι απαραίτητος και ποια μέθοδος χρησιμοποιείτε για τη διατήρηση καθαρών δεδομένων
Τα βρώμικα δεδομένα συχνά οδηγούν σε λανθασμένο εσωτερικό, το οποίο μπορεί να βλάψει την προοπτική οποιουδήποτε οργανισμού. Για παράδειγμα, εάν θέλετε να εκτελέσετε μια στοχευμένη καμπάνια μάρκετινγκ. Ωστόσο, τα δεδομένα μας σας λένε εσφαλμένα ότι ένα συγκεκριμένο προϊόν θα είναι σε ζήτηση με το κοινό-στόχο σας. η καμπάνια θα αποτύχει.
38. Τι είναι η λοξή διανομή και ομοιόμορφη διανομή;
Η διαστρεβλωμένη κατανομή συμβαίνει όταν τα δεδομένα διανέμονται σε οποιαδήποτε πλευρά της γραφικής παράστασης ενώ η ομοιόμορφη κατανομή αναγνωρίζεται όταν τα δεδομένα κατανέμονται είναι ίδια στο εύρος.
39. Όταν συμβαίνει υποσυσκευασία σε στατικό μοντέλο;
Το Underfitting συμβαίνει όταν ένα στατιστικό μοντέλο ή αλγόριθμος μηχανικής μάθησης δεν είναι σε θέση να καταγράψει την υποκείμενη τάση των δεδομένων.
40. Τι είναι η εκμάθηση ενίσχυσης;
Το Reinforcement Learning είναι ένας μηχανισμός μάθησης σχετικά με τον τρόπο αντιστοίχισης καταστάσεων σε ενέργειες. Το τελικό αποτέλεσμα θα σας βοηθήσει να αυξήσετε το σήμα δυαδικής ανταμοιβής. Σε αυτήν τη μέθοδο, ο εκπαιδευόμενος δεν ενημερώνεται ποια ενέργεια πρέπει να κάνει, αλλά πρέπει να ανακαλύψει ποια ενέργεια προσφέρει μέγιστη ανταμοιβή. Όπως αυτή η μέθοδος βασίζεται στον μηχανισμό ανταμοιβής / ποινής.
41. Όνομα αλγορίθμων που χρησιμοποιούνται συνήθως.
Τέσσερις αλγόριθμοι που χρησιμοποιούνται πιο συχνά από τον επιστήμονα δεδομένων είναι:
- Γραμμικής παλινδρόμησης
- Λογιστική παλινδρόμηση
- Τυχαίο δάσος
- ΚΝΝ
42. Τι είναι η ακρίβεια;
Η ακρίβεια είναι η πιο συχνά χρησιμοποιούμενη μέτρηση σφάλματος είναι ο μηχανισμός ταξινόμησης. Το εύρος είναι από 0 έως 1, όπου το 1 αντιπροσωπεύει 100%
43. Τι είναι μια μονομερή ανάλυση;
Μια ανάλυση που δεν εφαρμόζεται σε κανένα χαρακτηριστικό κάθε φορά είναι γνωστή ως univariate ανάλυση. Το Boxplot χρησιμοποιείται ευρέως, μονόχρωμο μοντέλο.
44. Πώς ξεπερνάτε τις προκλήσεις στα ευρήματά σας;
Για να ξεπεράσω τις προκλήσεις της ανακάλυψής μου, πρέπει να ενθαρρύνω τη συζήτηση, να επιδείξω ηγεσία και να σεβόμαστε διαφορετικές επιλογές
45. Εξηγήστε την τεχνική δειγματοληψίας συμπλεγμάτων στην επιστήμη δεδομένων
Μια μέθοδος δειγματοληψίας συμπλέγματος χρησιμοποιείται όταν είναι δύσκολο να μελετηθεί ο πληθυσμός στόχος που είναι διασκορπισμένος και δεν μπορεί να εφαρμοστεί απλή τυχαία δειγματοληψία.
46. Δηλώστε τη διαφορά μεταξύ ενός συνόλου επικύρωσης και ενός συνόλου δοκιμών
Ένα σετ επικύρωσης θεωρείται ως μέρος του σετ εκπαίδευσης καθώς χρησιμοποιείται για την επιλογή παραμέτρων που σας βοηθά να αποφύγετε την υπερβολική τοποθέτηση του μοντέλου που κατασκευάζεται.
Ενώ ένα σύνολο δοκιμών χρησιμοποιείται για τη δοκιμή ή την αξιολόγηση της απόδοσης ενός εκπαιδευμένου μοντέλου μηχανικής μάθησης.
47. Εξηγήστε τον όρο Binomial Probability Formula;
"Η διωνυμική κατανομή περιέχει τις πιθανότητες κάθε πιθανής επιτυχίας σε δοκιμές Ν για ανεξάρτητα συμβάντα που έχουν πιθανότητα π να συμβούν."
48. Τι είναι η ανάκληση;
Η ανάκληση είναι ένας λόγος του πραγματικού θετικού ρυθμού έναντι του πραγματικού θετικού ρυθμού. Κυμαίνεται από 0 έως 1.
49. Συζητήστε την κανονική κατανομή
Η κανονική κατανομή κατανέμεται εξίσου ως τέτοια, ο μέσος όρος, ο διάμεσος και ο τρόπος είναι ίσοι.
50. Ενώ εργάζεστε σε ένα σύνολο δεδομένων, πώς μπορείτε να επιλέξετε σημαντικές μεταβλητές; Εξηγώ
Μπορείτε να χρησιμοποιήσετε τις ακόλουθες μεθόδους επιλογής μεταβλητών:
- Καταργήστε τις συσχετισμένες μεταβλητές πριν επιλέξετε σημαντικές μεταβλητές
- Χρησιμοποιήστε γραμμική παλινδρόμηση και επιλέξτε μεταβλητές που εξαρτώνται από αυτές τις τιμές p.
- Χρησιμοποιήστε την επιλογή προς τα πίσω, την προώθηση προς τα εμπρός και τη σταδιακή επιλογή
- Χρησιμοποιήστε το γράφημα Xgboost, Random Forest και σχεδιάστε μεταβλητή σημασία.
- Μετρήστε το κέρδος πληροφοριών για το δεδομένο σύνολο δυνατοτήτων και επιλέξτε ανάλογα κορυφαία χαρακτηριστικά.
51. Είναι δυνατόν να συσχετιστεί η συσχέτιση μεταξύ συνεχούς και κατηγορηματικής μεταβλητής;
Ναι, μπορούμε να χρησιμοποιήσουμε την ανάλυση της τεχνικής συνδιακύμανσης για να συλλάβουμε τη σχέση μεταξύ συνεχών και κατηγορηματικών μεταβλητών.
52. Αντιμετωπίζοντας μια κατηγορηματική μεταβλητή ως συνεχή μεταβλητή θα οδηγούσε σε ένα καλύτερο μοντέλο πρόβλεψης;
Ναι, η κατηγορική τιμή θα πρέπει να θεωρείται ως συνεχής μεταβλητή μόνο όταν η μεταβλητή είναι κανονικής φύσης. Άρα είναι ένα καλύτερο μοντέλο πρόβλεψης.