Prima di cominciare a elencarle

Ci sono 4 funzioni di base per ogni distribuzione:

una genera dei numeri casuali estratti secondo quella distribuzione (r)
una restituisce il valore della densità valutata nel punto in input (d)
una restituisce il valore della funzione di ripartizione valutata nel punto in input (p)
una restituisce il quantile della probabilità passata come input (q)

N.B. Alle ultime tre funzioni si possono come di consueto passare vettori di input, invece di singoli punti

Distribuzioni che vedremo

Discrete:
- Uniforme
- Bernoulli
- Binomiale
- Ipergeometrica
- Geometrica
- Poisson
Continue:
- Gaussiana
- Esponenziale

Discrete: Uniforme

R non distingue uniforme continua da uniforme discreta

Idee?

Discrete: Uniforme

R non distingue uniforme continua da uniforme discreta

Si tronca il risultato

Discrete: Uniforme (caso generale)

runif(n, min = a, max = b) restituisce \(n\) numeri “reali” generati uniformemente a caso tra \(a\) e \(b\).
dunif(x, min = a, max = b) restituisce il numero \(p=1/(b-a)\) se x è compreso tra a e b, restituisce zero altrimenti
punif(x, min = a, max = b) restituisce il valore della cumulativa teorica della distribuzione uniforme tra a e b per valutata in x, ovvero \(\mathbb{P}(U_{a,b} <x)\)
qunif(p, min = a, max = b) restituisce il quantile \(q_{U_{a,b}}(p)\) di una probabilità p di un’uniforme tra a e b

N.B. x e p possono essere dei vettori

Esempi Uniforme Discreta

L’esempio d’uso più semplice per questa distribuzione è quello del lancio di un dado a \(n\) facce, nel nostro caso ne useremo 6.

# lancio 4 volte un dado 
runif (4, min = 1, max = 7)
## [1] 3.219514 3.756264 3.313055 4.662408
# ottengo dei valori reali quindi tronco il risultato
trunc (runif (4, min = 1, max = 7))
## [1] 6 4 4 5

Esempi Uniforme Discreta (cont.)

L’esempio d’uso più semplice per questa distribuzione è quello del lancio di un dado a \(n\) facce, nel nostro caso ne useremo 6.

# se lancio un dado quanto vale la probabilità di ottenere 0?
dunif (0, min = 1, max = 7)
## [1] 0
# se lancio un dado quanto vale la probabilità di ottenere 6?
dunif (6, min = 1, max = 7)
## [1] 0.1666667

N.B.

Per tutti i valori \(x\in [1,7]\), dunif (x, min = 1, max = 7) restituisce \(1/6\) (come nel caso continuo).

Esempi Uniforme Discreta (cont.)

L’esempio d’uso più semplice per questa distribuzione è quello del lancio di un dado a \(n\) facce, nel nostro caso ne useremo 6.

# se lancio un dado quanto vale la probabilità di ottenere un valore <5 ?
punif (5, min = 1, max = 7)
## [1] 0.6666667
# se lancio un dado quanto vale la probabilità di ottenere un valore >=5?
1 - punif (5, min = 1, max = 7)
## [1] 0.3333333
# se lancio un dado quanto vale la probabilità di ottenere un valore tra 3 e 5 compresi
# devo prendere la probabilità dell'evento "risultato < 6" e 
#      togliere la probabilità dell'evento "risultato < 3"
punif(6, min = 1, max = 7) - punif(3, min = 1, max = 7)
## [1] 0.5

Esempi Uniforme Discreta (cont.)

L’esempio d’uso più semplice per questa distribuzione è quello del lancio di un dado a \(n\) facce, nel nostro caso ne useremo 6.

# quale valore corrisponde al primo quartile?
qunif (0.25, min = 1, max = 7)
## [1] 2.5
# quale valore corrisponde al terzo quartile?
qunif (0.75, min = 1, max = 7)
## [1] 5.5

Grafici (funzione di massa di probabilità)

Riportiamo qui di seguito alcuni grafici ottenuti in maniera sperimentale (generando i dati con la distribuzione) e quelli relativi alla variabile aleatoria.

# simuliamo 10000 lanci di un dado
v  <- trunc(runif(10000, min = 1, max=7))
# preparo la matrice per due grafici
par(mfrow=c(1,2))
#istogramma delle frequenze relative del lancio del dado
barplot(prop.table(table(v)), main = "Esempio sperimentale")
barplot(dunif (1:6, min = 1, max = 7), main = "Funzione di massa")

Grafici (funzione di ripartizione)

# simuliamo 10000 lanci di un dado
v  <- trunc(runif( 10000, min = 1, max=7))
# preparo la matrice per due grafici
par(mfrow=c(1,2))
#istogramma delle frequenze relative del lancio del dado
plot(ecdf(v), ylim = c(0,1), ylab = "frequenza relativa", main = "Cumulativa empirica")
plot(punif (1:7, min = 1, max = 7), type="s", ylim = c(0,1), ylab ="valore", main = "Funzione di ripartizione")

N.B. I valori di punif() sono scalati di uno

Discrete: Bernulli e Binomiale

La variabile aleatoria di Bernulli è un caso particolare della variabile aleatoria Binomiale

rbinom(n, size, prob) genera \(n\) numeri, size corrisponde al numero di ripetizoni, prob alla probabilità di successo.
dbinom(x, size, prob) genera un vettore con i valori della densità di probabilità
pbinom(q, size, prob) genera un vettore con valori della funzione di ripartizione
qbinom(p, size, prob) genera il vettore dei valori dei quantili

N.B. La varaiable aleatoria di Bernulli si ottiene impostando a size = 1

Discreta: Ipergeometrica

rhyper(nn, m, n, k) genera un vettore di \(nn\) numeri usando una distribuzione Ipergeometrica con parametri \(m\), \(n\) e \(k\)
dhyper(x, m, n, k) Permette il calcolo della probabilità di estrarre \(x\) elementi “di tipo n” in un insieme di \(n+m\) elementi usando \(k\) estrazioni senza reinserimento.
phyper(q, m, n, k) genera il vettore coi valori della funzione di ripartizione
qhyper(p, m, n, k) genera il vettore dei valori dei quantili

Discrete: Geometrica

La distribuzione geometrica modella un esperimento casuale in cui si ottiene un successo dopo esattamente \(k\) insuccessi in una successione di esperimenti indipendenti aventi la medesima probabilità di successo

rgeom(n, prob) genera un vettore di \(x\) numeri usando questa distribuzione
dgeom(x, prob) genera il vettore coi valori della densità di probabilità
pgeom(q, prob) genera il vettore coi valori della funzione di ripartizione
qgeom(p, prob) genera il vettore dei valori dei quantili

Discreta: Poisson

rpois(n, lambda) genera un vettore di \(n\) numeri usando un distribuzione di Poisson con parametro \(\lambda\)
dpois(x, lambda) genera il vettore coi valori della densità di probabilità
ppois(q, lambda) genera il vettore coi valori della funzione di ripartizione
qpois(p, lambda) genera il vettore dei valori dei quantili

Continue: Gaussiana

Anche chiamata distribuzione normale, assume valori reali tra \(-\infty\) e \(\infty\). I suoi parametri sono la media e deviazione standard. I valori standard per questi due parametri sono 0 e 1

rnorm(n, mean = 0, sd = 1) genera un vettore di \(n\) numeri estratti usando una distribuzione normale con media 0 e deviazione standard 1
dnorm(x, mean = 0, sd = 1) genera il vettore coi valori della densità di probabilità
pnorm(q, mean = 0, sd = 1) genera il vettore coi valori della funzione di ripartizione
qnorm(p, mean = 0, sd = 1) genera il vettore dei valori dei quantili

Esempi Gaussiana

Generiamo un campione di 10000 elementi usando una distribuzione normale con media 0 e deviazione standard 1 e ne calcoliamo media e deviazione standard.

v <- rnorm(10000, 0, 1)
mean(v)
## [1] -0.02341751
sd(v)
## [1] 0.9993357
# calcolo i quantili dei dati generati
quantile(v, c(0.25, 0.5, 0.75))
##        25%        50%        75% 
## -0.6922444 -0.0275620  0.6674578
# valori dei quantili della gaussiana 
qnorm(c(0.25, 0.5, 0.75), 0, 1)
## [1] -0.6744898  0.0000000  0.6744898

Esempi Gaussiana

Generiamo un campione di 10000 elementi usando una distribuzione normale con media 4 e deviazione standard 3. Confrontiamo frequenze relative e densità teorica

# creo un vettore x {-4,-3.999,-3.998,...,3.998,3.999,4}
x <- seq(-4,4,by = 0.001)
par(mfrow= c(1,2))
# genero 8000 valori casualmente usando la distribuzione normale
datiCasuali <- rnorm(8000, 0, 1)
hist (datiCasuali, main = "dati generati" ,xlim=c(-4,4))
plot(x,dnorm(x,0,1), type ="l", main = "funzione di massa")

Continue: Esponenziale

Il parametro rate è il paramatro \(\lambda\) della definizione sul libro

rexp(n, rate = 1) genera un vettore di \(n\) numeri usando questa distribuzione
dexp(x, rate = 1) genera il vettore coi valori della densità di probabilità
pexp(q, rate = 1) genera il vettore coi valori della funzione di ripartizione
qexp(p, rate = 1) genera il vettore dei valori dei quantili

qqnorm, qqline, qqplot

Dato un vettore, calcolano media e deviazione standard e usano questi dati per generare una gaussiana.
Queste tre funzioni vengono utilizzate per fare una comparazione tra i quantili delle due distribuzioni.
Confrontare i quantili permettte di notare alcune caratteristiche della distribuzione, quali:
- skewness a destra e a sinistra
- ampiezza delle code
La differenza tra qqnorm e qqline è che la seconda traccia la retta passante per \(Q_1\) e \(Q_3\)
qqplot confronta i quantili di due vettori che vengono passati.

qqnorm e qqline

Esempio di qqnorm con funzione normale

par (mfrow = c(1,2))
v = rnorm(10000)
hist (v)
qqnorm(v)
qqline(v)

Con la normale ottengo grosso modo una retta

qqnorm e qqline

Esempio di funzione skewed a destra

hist(v)
qqnorm(v)
qqline(v)

In rosso è visibile la coda più lunga della nostra distribuzione

qqnorm e qqline

Esempio di funzione skewed a sinistra

hist(v)
qqnorm(v)
qqline(v)

In rosso è visibile la coda più lunga della nostra distribuzione

qqnorm e qqline

Vediamo adesso cosa succede nel caso di una distribuzione bimodale

hist(v)
qqnorm(v)
qqline(v)

qqplot

Infine qqplot non genera distribuzioni normali a partire dai dati, semplicemente plotta i valori dei percentili dei vettori \(v_1, v_2\), può essere utile se si vuole confrontare una serie di dati con una distribuzione nota (che non sia necessariamente normale)

Prendiamo due serie di dati generate da due funzioni uniformi.

par(mfrow=c(1,3))
hist(v1)
hist(v2)
qqplot(v1,v2)

qqplot (cont.)

Un altro modo per usare qqplot è fornendo un vettore di quantili generato da qNomedistribuzione. Prendiamo una serie di dati e proviamo a vedere se appartiene ad una distribuzione fissata. Proveremo a controntare i dati dei quantili teorici della distribuzione geometrica.

par(mfrow= c(1,2))
plot(prop.table(table(v)),type="l")
qqplot(qgeom(seq(0,1,0.1),0.1), v, xlab="quantili geometrica", ylim= c(0,21))

Esercizio 1

Un’urna contiene 10 palline di cui 4 Bianche e 6 Nere. Si eseguono 5 estrazioni con reimmissione.

Tracciare grafico della funzione massa di probabilità della variabile casuale X=”numero di palline bianche estratte”
Calcolare P(estrarre 2 bianche).
Calcolare P(estrarre al più 2 bianche).
Calcolare P(estrarre almeno 2 bianche).
Qual è il numero minimo x tale che la P(estrarre al più x bianche) sia almeno uguale (≥) a 0.8?

Esercizio 2

Si eseguono 10 estrazioni senza reimmissione da un’urna.

Tracciare il grafico della funzione massa di probabilità della variabile casuale X=”numero di palline bianche estratte” nei seguenti casi:
1. l’urna contenente 100 palline di cui 20 Bianche e le restanti Nere.
2. l’urna contiene 100 palline di cui 2 Bianche e le restanti Nere.
Tracciare il grafico della funzione massa di probabilità della variabile casuale X nel caso dell’urna 1 se si eseguono 25 estrazioni
Consideriamo l’urna 1 e n=10 estrazioni. Si aumenti il numero totale M di palline nell’urna mantenendo uguale a 0.2 la frazione di palline bianche. Per ciascun valore di M confrontare graficamente la distribuzione di probabilità del numero di palline bianche estratte nel caso di estrazioni con e senza reimmissione. Provare con 20, 40 e 200 palline bianche.

Esercizio 3

Calcolare la probabilità di ottenere più teste che croci lanciando 7 volte una moneta truccata con probabilità di avere croce pari a 0.45
Calcolare la probablità di avere almeno 3 sei lanciando 5 dadi a 12 facce
Calcolare la probabiltà di estrarre 20 euro da un sacco contenente 47 monete da 1 centesimo e 53 da 2 euro estraendo (uniformemente) a caso 10 monete senza reinserirle
Un grammo di uranio emette mediamente 2152 particelle \(\alpha\) ogni millisecondo. Qual è con buona approssimazione la probabilità che un grammo di uranio emetta al più 2000 particelle \(\alpha\) in un millisecondo

Esercizio 4

Si generi un campione di 10000 valori estratti da una distribuzione geometrica di parametro p=0.5.
Si confrontino attraverso un qq plot la distribuzione empirica dei dati e quella teorica

Esercizio 5

Un uomo si risveglia nel deserto a mezzogiorno con addosso soltanto un paio di mutande. Dopo ogni minuto ha una probabilità del 3% di perdere conoscenza per via delle condizioni estreme. Calcolare la probabilità che l’uomo sopravviva alle prime due ore e la probabilità che l’uomo muoia dopo esattamente un quarto d’ora
Effettuare una verifica empirica del teorema del limite centrale estraendo \(n_\omega = 5.000\) volte un campione di \(n\) numeri casuali \(x_1 , \ldots, x_n\) distribuiti con distribuzione esponenziale di parametro \(\lambda=1\) e notando che la somma di questi valori divisa per la radice quadrata di \(n\), ovvero \(\frac{x_1 + \ldots + x_n}{\sqrt{n}}\), è distribuita approssimativamente come una normale di media \(\sqrt{n}\) e varianza \(1\). Notare come l’approssimazione migliori al crescere di \(n\) testando i valori \(n=1,2,5,10,100,1.000,100.000\)

Laboratorio di Statistica e Analisi Dati: Lezione 7

Distribuzioni…

Prima di cominciare a elencarle

Distribuzioni che vedremo

Discrete: Uniforme

Discrete: Uniforme

Discrete: Uniforme (caso generale)

Esempi Uniforme Discreta

Esempi Uniforme Discreta (cont.)

N.B.

Esempi Uniforme Discreta (cont.)

Esempi Uniforme Discreta (cont.)

Grafici (funzione di massa di probabilità)

Grafici (funzione di ripartizione)

Discrete: Bernulli e Binomiale

Discreta: Ipergeometrica

Discrete: Geometrica

Discreta: Poisson

Continue: Gaussiana

Esempi Gaussiana

Esempi Gaussiana

Continue: Esponenziale

qqnorm, qqline, qqplot

qqnorm e qqline

qqnorm e qqline

qqnorm e qqline

qqnorm e qqline

qqplot

qqplot (cont.)

Esercizio 1

Esercizio 2

Esercizio 3

Esercizio 4

Esercizio 5