Distanza di Cook
La distanza di Cook, introdotta nel 1977 dallo statistico statunitense Ralph Dennis Cook,[1][2] è una funzione comunemente usata per stimare l'influenza di un singolo punto in un'analisi di regressione ai minimi quadrati.[3]
Punti con elevato residuo (outlier) o elevato leverage possono distorcere il risultato e l'accuratezza di un'analisi di regressione. La distanza di Cook misura l'effetto causato sull'analisi dalla rimozione di un certo dato, e nell'analisi con il metodo dei minimi quadrati ordinario può essere usata per indicare punti ad alta influenza, di cui sarebbe importante controllare la validità, o per individuare regioni dello spazio nelle quali sarebbe necessario acquisire più dati.
Definizione
[modifica | modifica wikitesto]Un modello di regressione può essere definito come
dove è il termine di errore, è la matrice dei coefficienti, il numero di variabili indipendenti, e è la matrice del modello. Lo stimatore dei minimi quadrati è , e di conseguenza la risposta predetta per la media di è
dove è la matrice di proiezione. L'-esimo elemento della diagonale di , dato da ,[4] è noto come leverage dell' -esima osservazione. Analogamente, l' -esimo elemento del vettore dei residui è indicato con .
La distanza di Cook dell'osservazione è definita come la somma dei cambiamenti nel modello di regressione quando l'osservazione è rimossa dall'analisi[5]
dove è la risposta ottenuta escludendo l'-esima osservazione, e è l'errore quadratico medio del modello di regressione.[6] Equivalentemente, la distanza di Cook può essere espressa come funzione del leverage[5]
Determinazione di osservazioni ad alta influenza
[modifica | modifica wikitesto]Vi sono diverse opinioni riguardo al valore di soglia da usare per stabilire quali osservazioni hanno influenza elevata sull'analisi. Una regola del pollice che richiede è usata da alcuni autori,[7] mentre altri autori suggeriscono , dove è il numero di osservazioni.[8]
Note
[modifica | modifica wikitesto]- ^ R. Dennis Cook, Detection of Influential Observations in Linear Regression, in Technometrics, vol. 19, n. 1, American Statistical Association, February 1977, pp. 15–18, DOI:10.2307/1268249, JSTOR 1268249, MR 0436478.
- ^ R. Dennis Cook, Influential Observations in Linear Regression, in Journal of the American Statistical Association, vol. 74, n. 365, American Statistical Association, March 1979, pp. 169–174, DOI:10.2307/2286747, JSTOR 2286747, MR 0529533.
- ^ William Mendenhall e Terry Sincich, A Second Course in Statistics: Regression Analysis, 5th, Upper Saddle River, NJ, Prentice-Hall, 1996, p. 422, ISBN 0-13-396821-9.«A measure of overall influence an outlying observation has on the estimated coefficients was proposed by R. D. Cook (1979). Cook's distance, Di, is calculated...»
- ^ Fumio Hayashi, Econometrics, Princeton University Press, 2000, pp. 21–23.
- ^ a b Cook's Distance, su se.mathworks.com.
- ^ Statistics 512: Applied Linear Models (PDF), in Purdue University. URL consultato il 4 giugno 2018 (archiviato dall'url originale il 30 novembre 2016).
- ^ R. Dennis Cook e Sanford Weisberg, Residuals and Influence in Regression, New York, NY, Chapman & Hall, 1982, ISBN 0-412-24280-X.
- ^ Kenneth A. Bollen e Robert W. Jackman, Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases, in John Fox e J. Scott Long (a cura di), Modern Methods of Data Analysis, Newbury Park, CA, Sage, 1990, pp. 257–91, ISBN 0-8039-3366-5.
Bibliografia
[modifica | modifica wikitesto]- Anthony Atkinson e Marco Riani, Deletion Diagnostics, in Robust Diagnostics and Regression Analysis, New York, Springer, 2000, pp. 22–25, ISBN 0-387-95017-6.
- Richard M. Heiberger e Burt Holland, Case Statistics, in Statistical Analysis and Data Display, Springer Science & Business Media, 2013, pp. 312–27, ISBN 978-1-4757-4284-8.
- William S. Krasker, Edwin Kuh e Roy E. Welsch, Estimation for dirty data and flawed models, in Handbook of Econometrics, vol. 1, Elsevier, 1983, pp. 651–698, DOI:10.1016/S1573-4412(83)01015-6.
- Herman Aguinis, Ryan K. Gottfredson e Harry Joo, Best-Practice Recommendations for Defining Identifying and Handling Outliers (PDF), in Organizational Research Methods, vol. 16, n. 2, Sage, 2013, pp. 270–301, DOI:10.1177/1094428112470848. URL consultato il 4 dicembre 2015.