Uso sbagliato della statistica

Un uso sbagliato della statistica si verifica quando un risultato statistico viene utilizzato a supporto di una falsità. In qualche caso, l'uso sbagliato può essere accidentale. In altri casi, l'uso sbagliato è intenzionale e l'autore ne approfitta per guadagnare. Quando l'indagine statistica coinvolta è falsa o è applicata male si verifica una fallacia statistica.

La trappola della statistica falsa può essere creare ingenti danni alla ricerca della conoscenza. Per esempio, nella scienza medica, una falsità può causare anche delle morti e possono essere necessari anni per correggerla.

Può essere semplice credere a degli usi sbagliati. Perfino scienziati e statistici esperti e matematici, possono essere imbrogliati anche da metodi semplici, anche se sono attenti nell'esaminare tutto. Degli scienziati hanno ingannato loro stessi con la statistica a causa della mancanza di conoscenza della teoria della probabilità e della mancanza di standardizzazione dei loro test.

Scartamento dei dati sfavorevoli

Tutto quello che una compagnia deve fare per promuovere un prodotto inutile è condurre, per esempio, 40 studi con un livello di accuratezza del 95%. Se il prodotto è davvero inutile, questo dovrebbe produrre in media uno studio che mostra che il prodotto è benefico, uno studio che mostra che è dannoso e 38 studi che mostrano che è inutile (38 è il 95% di 40). Più studi sono disponibili, più questa tattica diventa efficace. È probabile che le organizzazioni che non pubblicano tutti gli studi che conducono facciano uso di questo espediente. Ecco alcuni esempi:

le compagnie di tabacco che negano un legame tra il fumo e il cancro;
i gruppi e media contro il fumo che tentano di dimostrare un legame tra il fumo e varie malattie;
i venditori di pillole miracolose.

Domande poste in modo non oggettivo

Le risposte alle indagini possono spesso essere manipolate formulando la domanda in modo tale da indurre una prevalenza verso una certa risposta da chi risponde. Ad esempio, in un'indagine a favore della guerra, le domande:

Sei favorevole al tentativo da parte degli Stati Uniti d'America di portare la libertà e la democrazia in altri luoghi del mondo?
Sei favorevole all'azione militare non provocata degli Stati Uniti d'America?

Probabilmente porteranno a dati inclinati in direzioni diverse, nonostante entrambi siano indagini per il sostegno alla guerra. Un modo migliore di formulare la domanda potrebbe essere

Sei favorevole all'attuale azione militare degli Stati Uniti d'America all'estero?

Un altro modo per porre domande non oggettive è quello di dire prima della domanda informazioni che supportano la risposta desiderata. Ad esempio, date queste due domande

"Dato il crescente peso delle imposte sulle famiglie della classe media, sostenete tagli alle imposte sul reddito?"
" Considerando il crescente deficit del bilancio federale e il disperato bisogno di maggiori entrate, sostenete tagli alle imposte sul reddito?"

Alla prima, la risposta più frequente sarà "Sì, supporto i tagli"; mentre, alla seconda, la risposta più frequente sarà "No, non supporto i tagli".

Sovrageneralizzazione

La sovrageneralizzazione è un errore che si verifica quando si afferma che una statistica effettuata su una particolare popolazione ha validità anche fra i membri di un gruppo che non c'entra con la particolare popolazione.

Ad esempio, supponiamo che sia stato osservato che il 100% delle mele è rosso in estate. L'affermazione "Tutte le mele sono rosse" sarebbe un caso di generalizzazione, perché la statistica originale era vera solo per uno specifico sottoinsieme di mele (quelli in estate), che non è rappresentativo della popolazione di mele nel suo complesso.

Un esempio reale dell'errore causato dalla sovrageneralizzazione può essere osservato come un artefatto delle moderne tecniche elettorali, che vietano di chiamare dai telefoni cellulari per sondaggi politici al telefono. Poiché è più probabile che i giovani non abbiano un telefono fisso rispetto ad altri, un sondaggio telefonico che esamina esclusivamente attraverso i telefoni fissi, può causare il sottodimensionamento delle opinioni dei giovani, se non vengono prese altre misure per tenere conto di questa inclinazione del campionamento.

Di conseguenza, un sondaggio che esamina le preferenze di voto dei giovani utilizzando questa tecnica non può essere una rappresentazione perfettamente accurata delle preferenze di voto vere dei giovani in generale, senza generalizzare, perché il campione utilizzato esclude i giovani che hanno solo un telefono cellulare, che potrebbero o no avere preferenze di voto che differiscono dal resto della popolazione.

La sovrageneralizzazione spesso si verifica quando l'informazione è resa pubblica attraverso fonti non tecniche, in particolare attraverso i mass media.

Il riportare male o il capire male un errore stimato

Se un gruppo di ricerca vuole sapere che sensazioni 300 milioni di persone hanno su un determinato argomento, chiederlo a tutti non sarebbe pratico. Tuttavia, se la squadra prende un campione casuale di circa 1000 persone, i componenti della squadra possono essere abbastanza certi che i risultati forniti da questo gruppo sono rappresentativi di quello che il gruppo più numeroso avrebbe detto se fossero stati interrogati tutti i suoi componenti.

Questa fiducia può effettivamente essere quantificato in base al teorema del limite centrale e di altri risultati matematici. La confidenza è espressa come la probabilità che il vero risultato (per il gruppo più grande) sia all'interno di un certo intervallo di stima rispetto alla cifra ottenuta ponendo le domande al gruppo più piccolo. Questa confidenza è rappresentata nel "più o meno (±)" spesso citato nelle indagini statistiche. La probabilità del livello di confidenza di solito non è menzionata, in tal caso, si presume che essa sia un numero standard come il 95%.

I due numeri sono correlati. Se un sondaggio ha un errore stimato del ±5% a un livello di confidenza del 95%, ha anche un errore stimato del ±6,6% al livello di confidenza del 99%. ±1% di confidenza del 95% è sempre pari a 1,32% della confidenza al 99% per una popolazione distribuita normalmente.

Più piccolo è l'errore stimato, più grande è il campione necessario, a un dato livello di confidenza.

Ad esempio, al 95,4% di confidenza:

±1% richiederebbe 10.000 persone.
±2% richiederebbe 2.500 persone.
±3% richiederebbe 1.111 persone.
±4% richiederebbe 625 persone.
±5% richiederebbe 400 persone.
±10% richiederebbe 100 persone.
±20% richiederebbe 25 persone.
±25% richiederebbe 16 persone.
±50% richiederebbe 4 persone.

Le persone potrebbero dare per scontato, poiché il numero che rappresenta la confidenza è omesso, che vi sia una certezza del 100% che il vero risultato sia entro l'errore stimato. Questo non è matematicamente corretto.

Molte persone possono non rendersi conto che la casualità del campione è molto importante. In pratica, molti sondaggi sono condotti per telefono, il che distorce il campione in diversi modi, tra cui l'esclusione delle persone che non hanno un telefono, la maggiore inclusione delle persone che hanno più di un telefono, l'inclusione delle persone che sono disposte a partecipare a un sondaggio telefonico e l'esclusione di coloro che rifiutano, non possono rispondere ecc. Un campionamento non casuale rende l'errore stimato inaffidabile.

D'altra parte, le persone possono considerare che le statistiche siano intrinsecamente inaffidabili perché non è possibile chiamare tutti, o perché essi stessi non sono mai stati interrogati. La gente può pensare che sia impossibile ottenere dei dati sul parere di decine di milioni di persone semplicemente facendo una statistica su poche migliaia. Anche questo è impreciso: un sondaggio con un campione perfettamente casuale e imparziale e risposte veritiere dispone di un margine matematicamente determinato di errore, che dipende solo dal numero di persone intervistate.

Tuttavia, spesso per un sondaggio viene segnalato solo un margine di errore.

Bibliografia

Christensen, R. and T. Reichert, (1976) "Unit Measure Violations in Pattern Recognition, Ambiguity and Irrelevancy," Pattern Recognition, 4, 239–245 DOI: 10.1016/0031-3203(76)90044-3
Hooke, R. (1983) How to tell the liars from the statisticians; Marcel Dekker, Inc., New York, NY.
Jaffe, A.J. and H.F. Spirer (1987) Misused Statistics; Marcel Dekker, Inc., New York, NY.
Campbell, S.K. (1974), Flaws and Fallacies in Statistical Thinking; Prentice Hall, Inc., Englewood Cliffs, NJ.
Oldberg, T. (2005) "An Ethical Problem in the Statistics of Defect Detection Test Reliability," Speech to the Golden Gate Chapter of the American Society for Nondestructive Testing. Published on the Web by ndt.net at https://web.archive.org/web/20070316051833/http://www.ndt.net/article/v10n05/oldberg/oldberg.htm.
Oldberg, T. and R. Christensen (1995) "Erratic Measure" in NDE for the Energy Industry 1995, The American Society of Mechanical Engineers. ISBN 0-7918-1298-7 (pages 1–6) Republished on the Web by ndt.net
Ercan I, Yazici B, Yang Y, Ozkaya G, Cangur S, Ediz B, Kan I (2007) "Misusage of Statistics in Medical Researches", European Journal of General Medicine, 4 (3),127–133
Ercan I, Yazici B, Ocakoglu G, Sigirli D, Kan I Review of Reliability and Factors Affecting the Reliability, InterStat, 2007 April, 8
Stone, M. (2009) Failing to Figure: Whitehall's Costly Neglect of Statistical Reasoning, Civitas, London. ISBN 1-906837-07-4

Voci correlate

Altri progetti

Wikimedia Commons contiene immagini o altri file su Uso sbagliato della statistica

Portale Statistica: accedi alle voci di Wikipedia che trattano di Statistica