Laboratorio virtuale > Rosso e nero > 1 [2] 3 4 5

2. Gioco prudente


Ricordiamo che, nella strategia di gioco prudente, il giocatore fa una piccola puntata costante, ad esempio 1$, per ogni prova, finché non smette. Per ciascuna prova, quindi, la ricchezza del giocatore può aumentare di 1 o diminuire di 1, finché non arriva a 0 o raggiunge l'obiettivo a (un intero positivo). Il processo che la ricchezza segue è quindi un random walk con barriere di assorbimento 0 e a. Ricorda che indichiamo tale processo con

Xi, i = 0, 1, 2, ...

Al solito, siamo interessati alla probabilità di vincita e al numero atteso di prove. L'idea chiave nella nostra anlisi è che, dopo ogni prova, la ricchezza riparta da capo, ma con un diverso valore iniziale. Si tratta di un esempio di proprietà di Markov, e ciò è di fondamentale importanza nella teoria della probabilità. L'analisi basata sulla proprietà di Markov suggerisce di trattare la ricchezza iniziale come variabile.

La probabilità di vittoria

Indicheremo la probabilità che il giocatore raggiunga l'obiettivo a, iniziando da una ricchezza iniziale x, con

f(x) = P(XN = a | X0 = x) per x = 0, 1, ..., a.

Esercizio teorico 1. Condizionando all'esito della prima prova, mostra che f soddisfa

  1. f(x) = qf(x - 1) + pf(x + 1) per x = 1, 2, ..., a - 1 (equazione alle differenze)
  2. f(0) = 0, f(a) = 1 (condizioni di limite)

L'equazione alle differenze dell'esercizio 1 è lineare, omogenea e di secondo ordine.

Esercizio teorico 2. Prova che l'equazione caratteristica dell'equazione alle differenze dell'esercizio 1 è

pr2 - r + q = 0

e che le radici sono r = 1 e r = q / p.

Esercizio teorico 3. Prova che, se p è diverso da 1/2, allora le radici dell'esercizio 2 sono distinte. Mostra che, in questo caso, la probabilità che il giocatore raggiunga l'obiettivo prefissato è

f(x) = [(q / p)x - 1] / [(q / p)a - 1] per x = 0, 1, ..., a.

Esercizio teorico 4. Prova che, se p = 1/2, l'equazione caratteristica ha una singola radice unitaria di molteplicità 2. Mostra che, in questo caso, la probabilità che il giocatore raggiunga l'obiettivo è semplicemente il rapporto tra la ricchezza iniziale e la ricchezza obiettivo:

f(x) = x / a per x = 0, 1, ..., a.

Dagli esercizi 3 e 4 ricaviamo la distribuzione della ricchezza finale XN in tutti i casi:

P(XN = 0 | X0 = x) = 1 - f(x), P(XN = a | X0 = x) = f(x).

Simulazione 5. Nell'esperimento del rosso e nero, scegli gioco prudente e poni a = 32 e p = 0.45. Fai variare x da 0 a 32 con la barra a scorrimento e osserva come varia la distribuzione della ricchezza finale. Con x = 24, simula 1000 replicazioni, aggiornando ogni 100, e osserva la convergenza delle frequenze relative alla densità teorica.

Proprietà

Esercizio teorico 6. Mostra che, in funzione di x e per dati p e a, f(x) cresce da 0 a 1 al crescere di x da 0 ad a.

Simulazione 7. Nell'esperimento del rosso e nero, scegli gioco prudente e poni a = 64 e x = 16. Fai variare p da 0 a 1 con la barra a scorrimento e osserva come varia la distribuzione della ricchezza finale. Con p = 0.55, simula 1000 replicazioni, aggiornando ogni 100, e osserva la convergenza delle frequenze relative alla densità teorica.

Esercizio teorico 8. Prova che f(x) è continua in funzione di p, per dati x e a. In particolare, usa la regola di L'Hopital per mostrare che l'espressione dell'esercizio 3 converge a quella dell'esercizio 4 al tendere di p a 1/2.

Simulazione 9. Nell'esperimento del rosso e nero, scegli gioco prudente e poni a = 64 e x = 32. Fai variare p da 0 a 1 con la barra a scorrimento e osserva come varia la distribuzione della ricchezza finale. Con p = 0.45, simula 1000 replicazioni, aggiornando ogni 100, e osserva la convergenza delle frequenze relative alla densità teorica.

Esercizio teorico 10. Mostra che, per dati x e a, f(x) cresce da 0 a 1 al crescere di p da 0 a 1.

Puntate costanti

Che succede se il giocatore fa puntate costanti ma di importo maggiore di 1? La risposta a questa domanda può dare qualche idea su quello che succede nel caso di gioco aggressivo.

Simulazione 11. Nel gioco del rosso e nero, poni la ricchezza iniziale a 8, quella obiettivo a 16 e la probabilità di vittoria a 0.45. Gioca 10 partite con ciascuna delle seguenti strategie. Quale sembra funzionare meglio?

  1. Puntare 1 a ciascuna prova (gioco prudente).
  2. Puntare 2 a ciascuna prova.
  3. Puntare 4 a ciascuna prova.
  4. Puntare 8 a ciascuna prova (gioco aggressivo).

Dobbiamo appesantire la notazione per indicare la dipendenza dalla ricchezza obiettivo:

f(x; a) = P(XN = a | X0 = x).

Fissiamo ora p e supponiamo che la ricchezza obiettivo sia 2a e quella iniziale 2x. Se il giocatore gioca in maniera prudente, allora ovviamente la sua probabilità di raggiungere l'obiettivo è f(2x; 2a). D'altro canto:

Esercizio teorico 12. Supponi che il giocatore punti 2 ad ogni prova. Dimostra che

Xi / 2, i = 0, 1, 2, ...

corrisponde al gioco prudente con ricchezza iniziale x e ricchezza obiettivo a e che quindi la probabilità che il giocatore raggiunga l'obiettivo è f(x; a)

Dobbiamo quindi confrontare le probabilità f(2x; 2a) e f(x; a).

Esercizio teorico 13. Prova che

  1. f(2x; 2a) = f(x; a)[(q / p)x + 1] / [(q / p)a + 1]
  2. f(2x; 2a) < f(x; a) se p < 1 / 2; f(2x; 2a) > f(x; a) se p > 1 / 2.

Sembra quindi che aumentare le puntate sia una buona idea se le prove sono sfavorevoli e una cattiva idea se sono favorevoli e che non faccia differenza se le prove sono equilibrate.

Esercizio teorico 14. Generalizza gli esercizi 12 e 13 per confrontare la strategia di gioco prudente con quella di puntare k$ a ciascuna prova (sia kx la ricchezza iniziale e ka quella obiettivo).

Numero atteso di prove

Consideriamo ora il numero atteso di prove necessarie col gioco prudente, quando la ricchezza iniziale è x:

g(x) = E(N | X0 = x) per x = 0, 1, ..., a.

Esercizio teorico 15. Condizionando all'esito della prima prova, mostra che g soddisfa l'equazione alle differenze

  1. g(x) = qg(x - 1) + pg(x + 1) + 1 per x = 1, 2, ..., a - 1 (equazione alle differenze)
  2. g(0) = 0, g(a) = 0 (condizioni di limite).

L'equazione alle differenze dell'esercizio precedente è lineare, di secondo ordine ma non omogenea. L'equazione omogenea corrispondente è quella soddisfatta dalla funzione di probabilità di vincita f. Quindi abbiamo bisogno di poco lavoro.

Esercizio teorico 16. Mostra che, se p è diverso da 1/2, allora

g(x) = x / (q - p) - [a / (q - p)][(q / p)x - 1] / [(q / p)a - 1] per x = 0, 1, ..., a.

Esercizio teorico 17. Mostra che, se p = 1/2, allora

g(x) = x (a - x) per x = 0, 1, ..., a.

Per varie scelte di parametri, il numero di prove atteso è sorprendentemente elevato. Per esempio, supponiamo che p = 1/2 e che la ricchezza obiettivo sia 100. se la ricchezza iniziale del giocatore è 1, allora il numero atteso di prove è 99, anche se la metà delle volte il giocatore perderà tutto alla prima prova. Se la ricchezza iniziale è 50, il numero atteso di prove è 2500.

Simulazione 18. Nell'esperimento del rosso e nero, scegli gioco prudente. Modifica la ricchezza iniziale, quella finale e la probabilità di vincita e osserva come varia il numero atteso di prove. Con x = 16, a = 32 e p = 0.5, simula 1000 replicazioni, aggiornando ogni 100. Osserva la convergenza della media campionaria del numero di prove al valore atteso.

Simulazione 19. Nell'esperimento del rosso e nero, scegli gioco prudente. Poni la ricchezza obiettivo a 128, quella iniziale a 64 e la probabilità di vincita a 0.5. Simula 100 replicazioni e osserva il numero e la variabilità elevata del numero di prove.