Laboratorio di Statistica e Analisi Dati: Lezione 7

Tommaso C. & Marco G.

14 - 17 Dicembre 2016

Distribuzioni…

Prima di cominciare a elencarle

Ci sono 4 funzioni di base per ogni distribuzione:

N.B. Alle ultime tre funzioni si possono come di consueto passare vettori di input, invece di singoli punti

Distribuzioni che vedremo

Discrete: Uniforme

Idee?

Discrete: Uniforme

Si tronca il risultato

Discrete: Uniforme (caso generale)

N.B. x e p possono essere dei vettori

Esempi Uniforme Discreta

L’esempio d’uso più semplice per questa distribuzione è quello del lancio di un dado a \(n\) facce, nel nostro caso ne useremo 6.

# lancio 4 volte un dado 
runif (4, min = 1, max = 7)
## [1] 3.219514 3.756264 3.313055 4.662408
# ottengo dei valori reali quindi tronco il risultato
trunc (runif (4, min = 1, max = 7))
## [1] 6 4 4 5

Esempi Uniforme Discreta (cont.)

L’esempio d’uso più semplice per questa distribuzione è quello del lancio di un dado a \(n\) facce, nel nostro caso ne useremo 6.

# se lancio un dado quanto vale la probabilità di ottenere 0?
dunif (0, min = 1, max = 7)
## [1] 0
# se lancio un dado quanto vale la probabilità di ottenere 6?
dunif (6, min = 1, max = 7)
## [1] 0.1666667

N.B.

Per tutti i valori \(x\in [1,7]\), dunif (x, min = 1, max = 7) restituisce \(1/6\) (come nel caso continuo).

Esempi Uniforme Discreta (cont.)

L’esempio d’uso più semplice per questa distribuzione è quello del lancio di un dado a \(n\) facce, nel nostro caso ne useremo 6.

# se lancio un dado quanto vale la probabilità di ottenere un valore <5 ?
punif (5, min = 1, max = 7)
## [1] 0.6666667
# se lancio un dado quanto vale la probabilità di ottenere un valore >=5?
1 - punif (5, min = 1, max = 7)
## [1] 0.3333333
# se lancio un dado quanto vale la probabilità di ottenere un valore tra 3 e 5 compresi
# devo prendere la probabilità dell'evento "risultato < 6" e 
#      togliere la probabilità dell'evento "risultato < 3"
punif(6, min = 1, max = 7) - punif(3, min = 1, max = 7)
## [1] 0.5

Esempi Uniforme Discreta (cont.)

L’esempio d’uso più semplice per questa distribuzione è quello del lancio di un dado a \(n\) facce, nel nostro caso ne useremo 6.

# quale valore corrisponde al primo quartile?
qunif (0.25, min = 1, max = 7)
## [1] 2.5
# quale valore corrisponde al terzo quartile?
qunif (0.75, min = 1, max = 7)
## [1] 5.5

Grafici (funzione di massa di probabilità)

Riportiamo qui di seguito alcuni grafici ottenuti in maniera sperimentale (generando i dati con la distribuzione) e quelli relativi alla variabile aleatoria.

# simuliamo 10000 lanci di un dado
v  <- trunc(runif(10000, min = 1, max=7))
# preparo la matrice per due grafici
par(mfrow=c(1,2))
#istogramma delle frequenze relative del lancio del dado
barplot(prop.table(table(v)), main = "Esempio sperimentale")
barplot(dunif (1:6, min = 1, max = 7), main = "Funzione di massa")

Grafici (funzione di ripartizione)

# simuliamo 10000 lanci di un dado
v  <- trunc(runif( 10000, min = 1, max=7))
# preparo la matrice per due grafici
par(mfrow=c(1,2))
#istogramma delle frequenze relative del lancio del dado
plot(ecdf(v), ylim = c(0,1), ylab = "frequenza relativa", main = "Cumulativa empirica")
plot(punif (1:7, min = 1, max = 7), type="s", ylim = c(0,1), ylab ="valore", main = "Funzione di ripartizione")

N.B. I valori di punif() sono scalati di uno

Discrete: Bernulli e Binomiale

La variabile aleatoria di Bernulli è un caso particolare della variabile aleatoria Binomiale

N.B. La varaiable aleatoria di Bernulli si ottiene impostando a size = 1

Discreta: Ipergeometrica

Discrete: Geometrica

La distribuzione geometrica modella un esperimento casuale in cui si ottiene un successo dopo esattamente \(k\) insuccessi in una successione di esperimenti indipendenti aventi la medesima probabilità di successo

Discreta: Poisson

Continue: Gaussiana

Anche chiamata distribuzione normale, assume valori reali tra \(-\infty\) e \(\infty\). I suoi parametri sono la media e deviazione standard. I valori standard per questi due parametri sono 0 e 1

Esempi Gaussiana

Generiamo un campione di 10000 elementi usando una distribuzione normale con media 0 e deviazione standard 1 e ne calcoliamo media e deviazione standard.

v <- rnorm(10000, 0, 1)
mean(v)
## [1] -0.02341751
sd(v)
## [1] 0.9993357
# calcolo i quantili dei dati generati
quantile(v, c(0.25, 0.5, 0.75))
##        25%        50%        75% 
## -0.6922444 -0.0275620  0.6674578
# valori dei quantili della gaussiana 
qnorm(c(0.25, 0.5, 0.75), 0, 1)
## [1] -0.6744898  0.0000000  0.6744898

Esempi Gaussiana

Generiamo un campione di 10000 elementi usando una distribuzione normale con media 4 e deviazione standard 3. Confrontiamo frequenze relative e densità teorica

# creo un vettore x {-4,-3.999,-3.998,...,3.998,3.999,4}
x <- seq(-4,4,by = 0.001)
par(mfrow= c(1,2))
# genero 8000 valori casualmente usando la distribuzione normale
datiCasuali <- rnorm(8000, 0, 1)
hist (datiCasuali, main = "dati generati" ,xlim=c(-4,4))
plot(x,dnorm(x,0,1), type ="l", main = "funzione di massa")

Continue: Esponenziale

Il parametro rate è il paramatro \(\lambda\) della definizione sul libro

qqnorm, qqline, qqplot

qqnorm e qqline

Esempio di qqnorm con funzione normale

par (mfrow = c(1,2))
v = rnorm(10000)
hist (v)
qqnorm(v)
qqline(v)

Con la normale ottengo grosso modo una retta

qqnorm e qqline

Esempio di funzione skewed a destra

hist(v)
qqnorm(v)
qqline(v)

In rosso è visibile la coda più lunga della nostra distribuzione

qqnorm e qqline

Esempio di funzione skewed a sinistra

hist(v)
qqnorm(v)
qqline(v)

In rosso è visibile la coda più lunga della nostra distribuzione

qqnorm e qqline

Vediamo adesso cosa succede nel caso di una distribuzione bimodale

hist(v)
qqnorm(v)
qqline(v)

qqplot

Infine qqplot non genera distribuzioni normali a partire dai dati, semplicemente plotta i valori dei percentili dei vettori \(v_1, v_2\), può essere utile se si vuole confrontare una serie di dati con una distribuzione nota (che non sia necessariamente normale)

Prendiamo due serie di dati generate da due funzioni uniformi.

par(mfrow=c(1,3))
hist(v1)
hist(v2)
qqplot(v1,v2)

qqplot (cont.)

Un altro modo per usare qqplot è fornendo un vettore di quantili generato da qNomedistribuzione. Prendiamo una serie di dati e proviamo a vedere se appartiene ad una distribuzione fissata. Proveremo a controntare i dati dei quantili teorici della distribuzione geometrica.

par(mfrow= c(1,2))
plot(prop.table(table(v)),type="l")
qqplot(qgeom(seq(0,1,0.1),0.1), v, xlab="quantili geometrica", ylim= c(0,21))

Esercizio 1

Un’urna contiene 10 palline di cui 4 Bianche e 6 Nere. Si eseguono 5 estrazioni con reimmissione.

  1. Tracciare grafico della funzione massa di probabilità della variabile casuale X=”numero di palline bianche estratte”
  2. Calcolare P(estrarre 2 bianche).
  3. Calcolare P(estrarre al più 2 bianche).
  4. Calcolare P(estrarre almeno 2 bianche).
  5. Qual è il numero minimo x tale che la P(estrarre al più x bianche) sia almeno uguale (≥) a 0.8?

Esercizio 2

Si eseguono 10 estrazioni senza reimmissione da un’urna.

  1. Tracciare il grafico della funzione massa di probabilità della variabile casuale X=”numero di palline bianche estratte” nei seguenti casi:
    1. l’urna contenente 100 palline di cui 20 Bianche e le restanti Nere.
    2. l’urna contiene 100 palline di cui 2 Bianche e le restanti Nere.
  2. Tracciare il grafico della funzione massa di probabilità della variabile casuale X nel caso dell’urna 1 se si eseguono 25 estrazioni

  3. Consideriamo l’urna 1 e n=10 estrazioni. Si aumenti il numero totale M di palline nell’urna mantenendo uguale a 0.2 la frazione di palline bianche. Per ciascun valore di M confrontare graficamente la distribuzione di probabilità del numero di palline bianche estratte nel caso di estrazioni con e senza reimmissione. Provare con 20, 40 e 200 palline bianche.

Esercizio 3

  1. Calcolare la probabilità di ottenere più teste che croci lanciando 7 volte una moneta truccata con probabilità di avere croce pari a 0.45
  2. Calcolare la probablità di avere almeno 3 sei lanciando 5 dadi a 12 facce
  3. Calcolare la probabiltà di estrarre 20 euro da un sacco contenente 47 monete da 1 centesimo e 53 da 2 euro estraendo (uniformemente) a caso 10 monete senza reinserirle
  4. Un grammo di uranio emette mediamente 2152 particelle \(\alpha\) ogni millisecondo. Qual è con buona approssimazione la probabilità che un grammo di uranio emetta al più 2000 particelle \(\alpha\) in un millisecondo

Esercizio 4

  1. Si generi un campione di 10000 valori estratti da una distribuzione geometrica di parametro p=0.5.
  2. Si confrontino attraverso un qq plot la distribuzione empirica dei dati e quella teorica

Esercizio 5

  1. Un uomo si risveglia nel deserto a mezzogiorno con addosso soltanto un paio di mutande. Dopo ogni minuto ha una probabilità del 3% di perdere conoscenza per via delle condizioni estreme. Calcolare la probabilità che l’uomo sopravviva alle prime due ore e la probabilità che l’uomo muoia dopo esattamente un quarto d’ora
  2. Effettuare una verifica empirica del teorema del limite centrale estraendo \(n_\omega = 5.000\) volte un campione di \(n\) numeri casuali \(x_1 , \ldots, x_n\) distribuiti con distribuzione esponenziale di parametro \(\lambda=1\) e notando che la somma di questi valori divisa per la radice quadrata di \(n\), ovvero \(\frac{x_1 + \ldots + x_n}{\sqrt{n}}\), è distribuita approssimativamente come una normale di media \(\sqrt{n}\) e varianza \(1\). Notare come l’approssimazione migliori al crescere di \(n\) testando i valori \(n=1,2,5,10,100,1.000,100.000\)