Distribuzione casuale dei dati


Che cos'è la distribuzione dei dati?

La distribuzione dei dati è un elenco di tutti i valori possibili e la frequenza con cui si verifica ciascun valore.

Tali elenchi sono importanti quando si lavora con la statistica e la scienza dei dati.

Il modulo random offre metodi che restituiscono distribuzioni di dati generate casualmente.


Distribuzione casuale

Una distribuzione casuale è un insieme di numeri casuali che seguono una determinata funzione di densità di probabilità .

Funzione di densità di probabilità: una funzione che descrive una probabilità continua. cioè la probabilità di tutti i valori in un array.

Possiamo generare numeri casuali basati su probabilità definite usando il choice()metodo del randommodulo.

Il choice()metodo consente di specificare la probabilità per ciascun valore.

La probabilità è impostata da un numero compreso tra 0 e 1, dove 0 significa che il valore non si verificherà mai e 1 significa che il valore si verificherà sempre.

Esempio

Genera una matrice 1-D contenente 100 valori, in cui ogni valore deve essere 3, 5, 7 o 9.

La probabilità che il valore sia 3 è impostata su 0,1

La probabilità che il valore sia 5 è impostata su 0,3

La probabilità che il valore sia 7 è impostata su 0,6

La probabilità che il valore sia 9 è impostata su 0

from numpy import random

x = random.choice([3, 5, 7, 9], p=[0.1, 0.3, 0.6, 0.0], size=(100))

print(x)

La somma di tutti i numeri di probabilità dovrebbe essere 1.

Anche se esegui l'esempio più di 100 volte, il valore 9 non verrà mai visualizzato.

È possibile restituire matrici di qualsiasi forma e dimensione specificando la forma nel sizeparametro.

Esempio

Stesso esempio del precedente, ma restituisce una matrice 2D con 3 righe, ciascuna contenente 5 valori.

from numpy import random

x = random.choice([3, 5, 7, 9], p=[0.1, 0.3, 0.6, 0.0], size=(3, 5))

print(x)