Table of Contents Table of Contents
Previous Page  7 / 56 Next Page
Information
Show Menu
Previous Page 7 / 56 Next Page
Page Background

INSIGHTS SCIENCE

7

costituito da un milione di parametri relativi ad un evento

che si vuole studiare.

Nell’universo 1 John agisce nel seguente modo: pren-

de tutto il database e calcola la correlazione dei parame-

tri in funzione all’evento che si vuole studiare. Da questa

analisi trova 50 parametri con una elevata correlazione

con l’evento, la correlazione trovata ha una probabilità di

accadere in modo casuale dello 0,005%. Di questi 50 para-

metri John ne identifica 10 che secondo la sua esperienza

possono effettivamente essere utili per studiare l’evento.

Comunque è importante precisare che le supposizioni fat-

te da John, sui 10 parametri, sono solo ipotesi basate sulla

sua esperienza, non sono delle dimostrazioni scientifiche

che spiegano in modo preciso la correlazione dei 10 para-

metri con l’evento.

Nell’universo 2 John agisce nel seguente modo: prima

di analizzare tutto il database sfrutta al massimo le cono-

scenze che ha sull’evento che vuole studiare, selezionan-

do dal milione di parametri disponibili i 10 parametri che

secondo lui sono maggiormente correlati con l’evento.

Comunque, anche in questo caso, è importante precisare

che le supposizioni fatte da John sui 10 parametri sono

solo ipotesi basate sulla sua esperienza, non sono delle

dimostrazioni scientifiche che spiegano in modo preciso

la correlazione dei 10 parametri con l’evento. Analizzando

solo questi 10 parametri ne trova 5 con una elevata corre-

lazione con l’evento, la correlazione trovata ha una proba-

bilità di accadere in modo casuale dello 0,005% (come nel

caso precedente).

In pratica, la differenza fondamentale di procedimen-

to che John fa nei due universi è che nel primo universo

utilizza la propria esperienza dopo aver effettuato l’analisi

statistica su tutto il database, invece, nel secondo univer-

so, utilizza la sua esperienza prima di eseguire l’analisi sta-

tistica alla scopo di ridurre la grandezza del database.

Adesso vediamo come questa differenza di procedi-

mento influisce nella valutazione dei dati ottenuti. Per fare

questo dobbiamo calcolare la probabilità di ottenere gli

stessi dati in modo casuale nei due casi.

Nel primo caso, universo 1, per calcolare la probabilità

di ottenere gli stessi risultati in modo casuale basta utiliz-

zare la formula della distribuzione binomiale con i seguen-

ti parametri:

probabilità di vittoria (p)

= probabilità di ottenere la

stessa correlazione in modo casuale

numero di successi (k)

= numero di parametri che pre-

sentano la correlazione considerata

numero di prove (L)

= numero totale di parametri pre-

senti nel database

Inseriamo questi dati all’interno della formula della di-

stribuzione binomiale:

F(k,L,p)=

P = 0,005%

K = 50

L = 1 milione

Otteniamo come risultato una probabilità del 5,6%.

Adesso prediamo in considerazione il secondo caso,

l’universo 2, anche in questa situazione, per calcolare la

probabilità di ottenere gli stessi dati in modo casuale, ba-

sta utilizzare la formula della distribuzione binomiale con i

seguenti parametri:

P = 0,005%

K = 5

L = 10

La probabilità che si ottiene in questo caso è 7,9∙10

-18

%.

Analizzando queste percentuali è facile comprendere

che una percentuale del 5,6% rende le correlazioni trovate

poco significative. Per capire ancora meglio quanto questa

percentuale sia alta, si può calcolare anche la probabilità di

ottenere un numero maggiore di 50 di parametri che pre-

sentano la correlazione considerata: tale probabilità risulta

essere del 46%.

Analizziamo adesso la percentuale del secondo caso

(7,9∙10

-18

%), questa percentuale è estremamente bassa, di

Il seguente paradosso si basa sul fatto che

un dato statistico di per sé non rappresenta

un’informazione utile per capire un fenomeno,

ma diventa un’informazione utile solo quando

si dimostra che non è stato ottenuto in modo casuale.