Σφάλματα πρώτου και δευτέρου βαθμού

Παραδείγματα

Παράδειγμα 1

Υπόθεση: "η προσθήκη νερού στην οδοντόκρεμα ενισχύει την προστασία κατά της τερηδόνας."

Μηδενική υπόθεση: "η προσθήκη νερού στην οδοντόκρεμα δεν έχει καμία επίδραση επί της τερηδόνας."

Αυτή η μηδενική υπόθεση εξετάζεται έναντι των πειραματικών δεδομένων, με σκοπό να τα ακυρώσει, με αποδείξεις για το αντίθετο.

Τύπου Ι σφάλμα, συμβαίνει όταν ανιχνευτεί μια επίδραση (προσθήκη νερού στην οδοντόκρεμα ενισχύει την προστασία κατά της τερηδόνας), που δεν είναι παρούσα. Η μηδενική υπόθεση είναι αληθής (δηλαδή, είναι αλήθεια ότι η προσθήκη νερού στην οδοντόκρεμα δεν έχει καμία επίδραση επι της τερηδόνας), αλλά αυτή η μηδενική υπόθεση απορρίπτεται εξαιτίας κακών πειραματικών δεδομένων.

Παράδειγμα 2

Υπόθεση: "η προσθήκη φθορίου στην οδοντόκρεμα ενισχύει την προστασία κατά της τερηδόνας."

Μηδενική υπόθεση: "η προσθήκη φθορίου στην οδοντόκρεμα δεν έχει καμία επίδραση επί της τερηδόνας."

Αυτή η μηδενική υπόθεση εξετάζεται έναντι των πειραματικών δεδομένων, με σκοπό να τα ακυρώσει, με αποδείξεις για το αντίθετο.

Ένα τύπου ΙΙ σφάλμα παρουσιάζεται όταν αποτυγχάνεται να ανιχνευτεί μια παρούσα επίδραση (η προσθήκη φθορίου στην οδοντόκρεμα ενισχύει την προστασία κατά της τερηδόνας). Η μηδενική υπόθεση είναι ψευδής (δηλαδή, η προσθήκη φθορίου είναι πραγματικά αποτελεσματική ενάντια της τερηδόνας), αλλά τα πειραματικά δεδομένα είναι τέτοια που η μηδενική υπόθεση δεν μπορεί να απορριφθεί.

Παράδειγμα 3

Υπόθεση: "Τα αποδεικτικά στοιχεία που παρουσιάστηκαν ενώπιον του δικαστηρίου αποδεικνύουν ότι αυτός ο άνθρωπος είναι ένοχος."

Μηδενική υπόθεση (H₀): "Αυτός ο άνθρωπος είναι αθώος."

Ένα σφάλμα τύπου Ι παρουσιάζεται εάν καταδικαστεί ένας αθώος (αδυναμία επικράτησης δικαιοσύνης). Ένα σφάλμα τύπου ΙΙ παρουσιάζεται εάν αφεθεί ένας ένοχος ελεύθερος (ατιμωρησία).

Ένα θετικό ορθό αποτέλεσμα προκύπτει στην περίπτωση που ένας ένοχος τιμωρηθεί. Ένα αρνητικό ορθό αποτέλεσμα προκύπτει στην περίπτωση που ένας αθώος αφεθεί ελύθερος.

Η μηδενική υπόθεση (H₀) είναι έγκυρη: Αθώος	Η μηδενική υπόθεση (H₀) δεν είναι έγκυρη: Ένοχος
Απορρίπτουμε την H_0. Νομίζω ότι είναι ένοχος!	Τύπου Ι σφάλμα Ψευδώς θετικό "Καταδικάστηκε!"	Σωστό αποτέλεσμα Αλήθές θετικό "Καταδικάστηκε!"
Δεν απορρίπτω την H₀ Νομίζω ότι είναι αθώος!	Σωστό αποτέλεσμα Αλήθές αρνητικό "Ελευθερώθηκε!"	Τύπου ΙΙ σφάλμα Ψευδώς αρνητικό "Ελευθερώθηκε!"

Παράδειγμα 4

Υπόθεση: "τα συμπτώματα του ασθενούς βλετιώνονται ταχύτερα με την θεραπεία Α απ'ότι με ψευδοφάρμακα."

Μηδενική υπόθεση (H₀): "τα συμπτώματα του ασθενούς μετά τη θεραπεία Α δεν διαφέρουν από αυτά του ψευδοφάρμακου."

Αυτού του είδους η λανθασμένη υπόθεση μπορεί να προκύψει επειδή το προσωπικό δεν κατάφερε να κρατήσει κρυφό απο του ασθενείς ποια θεραπεία λαμβάνουν, λόγω αδύνατων ως προς τον έλεγχο μεταβλητών, λόγω δυσκολίας να ερμηνεύσουν σωστά συμπτώματα των ασθενών όπως ο πόνος και για πολλούς ακόμα λόγους.

Ένα σφάλμα τύποι Ι θα έδειχνε, λανθασμένα, πως η θεραπεία Α είναι αρκετά πιο αποτελεσματική από το ψευδοφάρμακο, ενώ ένα τύποι ΙΙ θα πίστευε λανθασμένα ότι η θεραπεία Α είναι αναποτελεσματική.

Θεωρία

Από την Bayesian άποψη, ένα σφάλμα τύπου Ι είναι αυτό που ασχολείται με τις πληροφορίες που δεν θα πρέπει να αλλάξουν σημαντικά τις πιθανολογικές εκτιμήσεις κάποιου, αλλά το κάνουν. Ένα σφάλμα τύπου ΙΙ είναι αυτό που ασχολείται με τις πληροφορίες που πρέπει να αλλάξουν τις πιθανολογικές εκτιμήσεις κάποιου, αλλά δεν το κάνουν. (Παρότι η μηδενική υπόθεση δεν είναι ακριβώς το ίδιο πράγμα με την πρώτη εκτίμηση, είναι, μάλλον, η pro forma μορφής της.)

Ο έλεγχος υποθέσεων είναι η τέχνη της δοκιμής,εάν μια παραλλαγή μεταξύ των δύο δειγμάτικών διανομών μπορεί να εξηγηθεί από την τύχη ή όχι. Σε πολλές πρακτικές εφαρμογές τύπου Ι σφάλματα είναι πιο "λεπτεπίλεπτα" από ότι τα τύπου ΙΙ . Σε αυτές τις περιπτώσεις, η φροντίδα επικεντρώνεται στην ελαχιστοποίηση της εμφάνισης αυτού του στατιστικού λάθους. Ας υποθέσουμε ότι η αποδεκτή πιθανότητα για ένα τύπου Ι σφάλμα είναι 1%. Αυτό ονομάζεται επίπεδο σημαντικότητας, που συμβολίζεται με το ελληνικό γράμμα α (άλφα). Ενώ το 1% μπορεί να είναι ένα αποδεκτό επίπεδο σημαντικότητας για μια εφαρμογή, μια άλλη εφαρμογή μπορεί να απαιτεί ένα πολύ διαφορετικό επίπεδο. Για παράδειγμα, ο πρότυπος στόχος της six sigma είναι να επιτύχει ακρίβεια 4.5 τυπικών αποκλίσεων πάνω ή κάτω από τη μέση. Αυτό σημαίνει ότι μόνο 3,4 μέρη ανά εκατομμύριο επιτρέπονται να είναι ανεπαρκή σε μία διαδικασία κανονικής κατανομής.

Ετυμολογία

Το 1928, ο Jerzy Neyman (1894-1981) και ο Egon Pearson (1895-1980), και οι δύο επιφανείς στατιστικολόγοι, συζήτησαν τα προβλήματα που συνδέονται με το " πότε μπορεί, και πότε όχι, ένα συγκεκριμένο δείγμα να κριθεί ώς "τυχαία επιλεγμένο" από ένα συγκεκριμένο πληθυσμό"^[1]^{σελ. 1}: και, όπως ο Florence Nightingale David παρατήρησε, "είναι απαραίτητο να θυμόμαστε ότι το επίθετο "τυχαία" [ο όρος "τυχαίο δείγμα"] θα πρέπει να αναφέρεται στη μέθοδο για την κατάρτιση του δείγματος και όχι το ίδιο το δείγμα".^[2]

Όρισαν "δύο πηγές σφάλματος", και συγκεκριμένα:

(α) το σφάλμα να απορρίφθεί μια υπόθεση που θα έπρεπε να γίνει αποδεκτή, και

(β) το σφάλμα της αποδοχής μια υπόθεση που θα έπρεπε να έχει απορριφθεί.^[1]^σ.31

Το 1930, που επεξήγησαν αυτές τις δύο πηγές σφάλματος, τονίζοντας ότι:

...όταν δοκιμάζουμε υποθέσεις, θα πρέπει να προσπαθούμε να επιτύχουμε δυο στόχους,(1) πρέπει να ήμαστε σε θέση να μειώσουμε την πιθανότητα απόρριψης μιας αληθής υποθέσεως, όσο γίνεται περισσότερο και (2) η διαδικασία ελέγχου πρέπει να είναι στημένη με τέτοιο τρόπο ώστε να απορρίψει μια υπόθεση όταν αυτή είναι πιθανότατα ψευδή.^[3]

Το 1933, παρατήρησαν ότι αυτά τα "προβλήματα παροσιάζονται σπάνια σε τέτοια μορφή ώστε να μπορούμε να διακρίνουμε με βεβαιότητα την αληθή και την ψευδή υπόθεση " (σελ. 187). Υποσημείωσαν, επίσης, ότι, προσπαθώντας να αποφασίσει καποιος εάν ή όχι θα πρέπει να δεχτεί ή να απορρίψει μια υπόθεση από ένα "σύνολο εναλλακτικών υποθέσεων" (σελ. 201), H₁, H₂, . . ., ήταν εύκολο να κάνει ένα από δύο συγκεκριμένα σφάλματα:

...[και] τα σφάλματα αυτά θα είναι δύο ειδών:

(I) απορρίπτουμε την H₀ [δηλ., η υπόθεση έχει εξεταστεί], όταν είναι αληθινή,

(II) αποδεχόμαστε την H₀ όταν κάποια εναλλακτική υπόθεση H_A ή H₁ είναι αλήθης.^[4]^σ.187

Σε όλα τα χαρτιά ομογραμμένα από τους Neyman και Pearson η έκφραση H₀ σημαίνει "η εξεταζόμενη υπόθεση ( υπόθεση προς εξέταση)".

Στο ίδιο έγγραφο^[4]^{σ. 190} αποκάλεσαν αυτές τις δύο πηγές σφάλματος, ως σφάλματα τύπου ΙΙ και σφάλματα τύπου ΙΙ , αντίστοιχα.

Σχετικοί όροι

Μηδενική υπόθεση

Είναι συνήθης πρακτική για τους στατιστικολόγους να διεξάγουν δοκιμές για να καθοριστεί εάν ή όχι μια "κερδοσκοπική υπόθεση" σχετικά με τα παρατηρούμενα φαινόμενα του κόσμου (και τους κατοίκους του) μπορεί να υποστηριχθεί. Τα αποτελέσματα των εν λόγω δοκιμών καθορίσει κατά πόσον ένα συγκεκριμένο σύνολο των αποτελεσμάτων συμφωνεί εύλογα (ή δεν συμφωνεί) με το σκεφτεί υπόθεση.

Ιατρική

Ιατρικές εξετάσεις

Στην ιατρική, υπάρχει μια σημαντική διαφορά μεταξύ προσυμπτωματικού ελέγχου και εξέτασης.

Το screening περιλαμβάνει σχετικά φθηνές εξετάσεις που δίνονται σε μεγάλο μέρος του πληθυσμού, άτομα τα οποία δεν εχουν επιδείξει καμία κλινική ένδειξη της νόσου (π. χ. Τεστ παπ).
Η εξέταση (testing) περιλαμβάνει πολύ πιο ακριβά, συχνά επεμβατικές διαδικασίες που δίνονται μόνο σε όσους έχουν εκδηλωσεί κάποια κλινική ένδειξη της νόσου, και πιο συχνά εφαρμόζεται για να επιβεβαιώσει την υποποτευόμενη διάγνωση.

Για παράδειγμα, οι περισσότερες πολιτείες των ΗΠΑ απαιτούν τα νεογνά να ελέγχονται με screening για τη φαινυλκετονουρία και τον υποθυρεοειδισμό, μεταξύ άλλων συγγενών διαταραχών. Αν και επιδεικνύουν ένα υψηλό ποσοστό ψευδών θετικών αποτελεσμάτων, το screen θεωρείται πολύτιμο, διότι αυξάνει σημαντικά την πιθανότητα ανίχνευσης των διαταραχών αυτών σε ένα πολύ πρώιμο στάδιο.^{[Note 1]}

Οι απλές εξετάσεις αίματος χρησιμοποιούνται για να screenάρουν πιθανούς αιμοδοτες για τον ιό HIV και την ηπατίτιδα έχουν σημαντικό ποσοστό των ψευδών θετικών * ωστόσο, οι γιατροί χρησιμοποιούν πολύ πιο ακριβές και πολύ πιο ακριβείς εξετάσεις για να καθοριστεί αν ένα άτομο έχει πραγματικά μολυνθεί με κανέναν από αυτούς τους ιούς.

Ίσως τα πιο ευρέως συζητίσιμα ψευδή θετικά αποτελέσματα σε ιατρικές εξετάσεις δίνονται από την διαδικασία εξέτασης του καρκίνου του μαστού,τη μαστογραφία. Το ποσοστό των ψευδών θετικών μαστογραφιών στις ΗΠΑ είναι έως και 15%, το υψηλότερο στον κόσμο. Ως συνέπεια αυτού του υψηλού ποσοστού ψευδών θετικών στις ΗΠΑ είναι ότι, σε περίοδο 10 ετών, το ήμισυ των Αμερικανίδων που συμμετείχαν σε εξετάσεις μαστογραφίας θα λάβουν ψευδώς θετική μαστογραφία. Ψευδώς θετικά μαστογραφίες αποδεικνύονται δαπανηρές, καθώς πάνω από $100 εκατ. ευρώ δαπανώνται ετησίως στις ΗΠΑ για την, εν συνέχεια, παρακολούθηση εξετάσεων και σε θεραπεία. Προκαλούν επίσης στις γυναίκες αχρείαστο άγχος. Ως αποτέλεσμα του υψηλού ποσοστού ψευδών θετικών στις ΗΠΑ, σχεδόν το 90-95% των γυναικών που παίρνουν μια θετική μαστογραφία δεν έχουν την πάθηση. Το χαμηλότερο ποσοστό στον κόσμο είναι στην Ολλανδία, το 1%. Τα χαμηλότερα ποσοστά είναι γενικά στη Βόρεια Ευρώπη, όπου τα αποτελέσματα της μαστογραφίας διαβάζονται δύο φορές και υπάρχει υψηλό όριο για εξτρά έλεγχο (το υψηλό όριο μειώνεται η δύναμη της δοκιμής, δλδ την πιθανότητα να απορριφθεί η μηδενική υπόθεση ενώ είναι σωστή).

Το ειδανικό screening θα ήταν φθηνό, εύκολο να διαχειριστεί, και θα παρήγαγε μηδέν ψευδή αρνητικά, αν φυσικά κατι τέτοι είναι δυνατόν. Οι δοκιμές αυτές συνήθως παράγουν περισσότερα ψευδή θετικά αποτελέσματα, τα οποία μπορούν στη συνέχεια να ταξινομηθούν από πιο εξελιγμένες (και ακριβά) δοκιμές.

Ιατρική δοκιμή

Ψευδώς αρνητικά και ψευδώς θετικά αποτελέσματα είναι σημαντικά ζητήματα στις ιατρικές δοκιμές. Ψευδώς αρνητικά αποτελέσματα μπορεί να δώσουν ένα ψευδώς καθησυχαστικό μήνυμα προς τους ασθενείς και τους γιατρούς ότι η ασθένεια είναι απούσα, όταν στην πραγματικότητα είναι παρούσα. Αυτό μερικές φορές οδηγεί σε ακατάλληλη ή ανεπαρκή θεραπεία του ασθενή και της νόσου . Ένα κοινό παράδειγμα είναι η χρήση του cardiac stress tests για την ανίχνευση της στεφανιαίας αθηροσκλήρωσης, αν και to cardiac stress tests είναι ικανό να ανιχνεύσει μόνο περιορισμούς της στεφανιαίας ροής του αίματος λόγω της προηγμένης στένωση.

Ψευδώς αρνητικά αποτελέσματα παράγουν σοβαρό και αντι-διαισθητικά προβλήματα, ειδικά όταν η κατάσταση που αναζητείται, είναι κοινή. Αν μια δοκιμή με ένα ψευδώς αρνητικό ποσοστό μόνο 10%, χρησιμοποιείται για τον έλεγχο ενός πληθυσμού με ένα αληθές περιστατικό, ποσοστό του 70%, πολλά από τα αρνητικά που ανιχνεύονται από το τεστ θα είναι ψευδής.

Ψευδώς θετικά αποτελέσματα μπορούν να παράγουν, επίσης, σοβαρά και αντι-διαισθητικά προβλήματα όταν η κατάσταση που αναζητείται, είναι σπάνια, όπως στο screening. Αν το τεστ έχει ένα ψευδώς θετικό ποσοστό της κλασης του ένας στους δέκα χιλιάδες, αλλά μόνο ένα στο εκατομμύριο δείγματα είναι μια αληθής θετική, τα περισσότερα από τα θετικά που ανιχνεύεται από αυτό το τεστ θα είναι ψευδής. Η πιθανότητα ότι ένα θετικό αποτέλεσμα που παρατηρήθηκε είναι ψευδές θετικό μπορεί να υπολογιστεί χρησιμοποιώντας το Bayes θεώρημα.

Παραφυσική έρευνα

Η έννοια του ψεύδώς θετικό είναι κοινή σε περιπτώσεις παραφυσικών φαινόμενων ή φαινόμενα οερλι φαντασμάτων ορατά σε εικόνες και τέτοια, όταν δεν υπάρχει άλλη λογική εξήγηση. Παρατηρώντας μια φωτογραφία, ηχογράφηση, ή κάποια άλλα στοιχεία που φαίνεται να έχουν μια μεταφυσική προέλευση – σε αυτή τη χρήση, ένα ψευδώς θετικό είναι μη ακριβη αποδεικτικά στοιχεία, παρμένο από αναξιόπιστα μέσα (εικόνα, video, εγγραφή ήχου, κ. λπ.) που στην πραγματικότητα έχουν μια φυσική εξήγηση.^{[Note 2]}

Notes

↑ In relation to this newborn screening, recent studies have shown that there are more than 12 times more false positives than correct screens (Gambrill, 2006. [1]) ^{[dead link]}
↑ Several sites provide examples of false positives, including The Atlantic Paranormal Society (TAPS) Αρχειοθετήθηκε 2005-03-28 στο Wayback Machine. and Moorestown Ghost Research Αρχειοθετήθηκε 2006-06-14 στο Wayback Machine..

References

↑ ^1,0 ^1,1 Neyman, J.· Pearson, E.S. (1967) [1928]. «On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference, Part I». Joint Statistical Papers. Cambridge University Press. σελίδες 1–66.
↑ David, F.N. (1949). Probability Theory for Statistical Methods. Cambridge University Press. σελ. 28.
↑ Pearson, E.S.· Neyman, J. (1967) [1930]. «On the Problem of Two Samples». Joint Statistical Papers. Cambridge University Press. σελ. 100.
↑ ^4,0 ^4,1 Neyman, J.· Pearson, E.S. (1967) [1933]. «The testing of statistical hypotheses in relation to probabilities a priori». Joint Statistical Papers. Cambridge University Press. σελίδες 186–202.

[5] In relation to this newborn screening, recent studies have shown that there are more than 12 times more false positives than correct screens (Gambrill, 2006. [1]) ^{[dead link]}

[6] Several sites provide examples of false positives, including The Atlantic Paranormal Society (TAPS) Αρχειοθετήθηκε 2005-03-28 στο Wayback Machine. and Moorestown Ghost Research Αρχειοθετήθηκε 2006-06-14 στο Wayback Machine..

[neyman1928-1] 1,0 ^1,1 Neyman, J.· Pearson, E.S. (1967) [1928]. «On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference, Part I». Joint Statistical Papers. Cambridge University Press. σελίδες 1–66.

[2] David, F.N. (1949). Probability Theory for Statistical Methods. Cambridge University Press. σελ. 28.

[3] Pearson, E.S.· Neyman, J. (1967) [1930]. «On the Problem of Two Samples». Joint Statistical Papers. Cambridge University Press. σελ. 100.

[neyman1933-4] 4,0 ^4,1 Neyman, J.· Pearson, E.S. (1967) [1933]. «The testing of statistical hypotheses in relation to probabilities a priori». Joint Statistical Papers. Cambridge University Press. σελίδες 186–202.

[1]

[2]

[3]

[4]

[Note 1]

[Note 2]