K sukses dalam uji coba Bernoulli, atau eksperimen film George Lucas

23

Saya membaca "The Drunkard's Walk" sekarang dan tidak dapat memahami satu cerita dari itu.

Ini dia:

Bayangkan bahwa George Lucas membuat film Star Wars baru dan dalam satu uji pasar memutuskan untuk melakukan eksperimen gila. Dia merilis film yang identik dengan dua judul: "Star Wars: Episode A" dan "Star Wars: Episode B". Setiap film memiliki kampanye pemasaran dan jadwal distribusi sendiri, dengan rincian yang sesuai identik kecuali bahwa trailer dan iklan untuk satu film mengatakan "Episode A" dan yang lainnya, "Episode B".

Sekarang kita membuat kontes darinya. Film mana yang akan lebih populer? Katakanlah kita melihat 20.000 penonton bioskop pertama dan merekam film yang mereka pilih (mengabaikan para penggemar berat yang akan pergi ke keduanya dan kemudian bersikeras ada perbedaan yang halus tapi bermakna antara keduanya). Karena film dan kampanye pemasarannya identik, kita dapat memodelkan permainan ini secara matematis dengan cara ini: Bayangkan berbaris semua penonton secara berurutan dan membalik koin untuk setiap penonton secara bergantian. Jika koin mendarat, ia melihat Episode A; jika koin mendarat, itu adalah Episode B. Karena koin memiliki peluang yang sama untuk muncul dengan cara apa pun, Anda mungkin berpikir bahwa dalam perang box office eksperimental ini setiap film harus memimpin sekitar separuh waktu.

Tetapi matematika dari keacakan mengatakan sebaliknya: jumlah yang paling mungkin dari perubahan dalam lead adalah 0, dan itu adalah 88 kali lebih mungkin bahwa salah satu dari dua film akan memimpin melalui semua 20.000 pelanggan daripada itu, katakanlah, lead terus-menerus melihat-lihat "

Saya, mungkin secara tidak tepat, mengaitkan ini dengan masalah persidangan Bernoulli yang sederhana, dan harus mengatakan saya gagal untuk melihat mengapa pemimpin rata-rata tidak melihat-lihat! Adakah yang bisa menjelaskan?

andreister
sumber

Jawaban:

22

Berikut ini beberapa kode R untuk mensimulasikan percobaan George Lucas:

B<-20000
steps<-2*rbinom(B,1,0.5)-1
rw<-cumsum(steps)
ts.plot(rw,xlab="Number of customers",ylab="Difference")

Saat menjalankannya, kami mendapatkan gambar seperti ini:

enter image description here

di mana perbedaan tiket yang dijual antara A dan B adalah pada sumbu y.

Berikutnya, kita jalankan simulasi percobaan George Lucas tersebut. Untuk setiap percobaan, kami menghitung proporsi waktu yang dihabiskan 0 , yaitu proporsi pemirsa yang berbaris di mana jumlah tiket yang dijual ke A lebih besar atau sama dengan jumlah tiket yang dijual ke B. Secara intuitif, Anda akan mengatakan bahwa proporsi ini harus kira-kira 1 / 2 . Berikut ini adalah histogram hasil:10,00001/2

enter image description here

Proporsi adalah rata-rata dalam arti bahwa nilai yang diharapkan adalah 1 / 2 , tapi 1 / 2 adalah nilai tidak mungkin dibandingkan dengan nilai mendekati 0 atau 1 . Untuk sebagian besar eksperimen, perbedaannya positif atau negatif hampir sepanjang waktu!1/21/21/201

Kurva merah adalah fungsi kepadatan distribusi arcsine, juga dikenal sebagai distribusiBeta(1/2,1/2). Apa yang diilustrasikan dalam gambar di atas adalah teorema yang dikenal sebagaiundang-undang arscinepertamauntuk jalan acak, yang mengatakan bahwa ketika jumlah langkah jalan acak simetris mendekati infinity, distribusi proporsi waktu yang dihabiskan di atascenderung ke distribusi arcsine. Referensi standar untuk hasil ini adalah Bagian III.4Pengantar teori probabilitas dan aplikasinya, Vol 1oleh William Feller.0


Kode R untuk studi simulasi adalah

prop<-vector(length=10000)
for(i in 1:10000)
{
    steps<-2*rbinom(B,1,0.5)-1
    rw<-cumsum(steps)
    prop[i]<-sum(rw>=0)/B
}
hist(prop,freq=FALSE,xlab="Proportion of time spent above 0",main="George Lucas experiment")
curve(dbeta(x,1/2,1/2),0,1,col=2,add=TRUE)
MånsT
sumber
Terima kasih! Saya menginstal R dan ingin mengulangi semua langkah Anda - bagaimana saya bisa menjalankan 10.000 simulasi dan menghitung proporsi waktu yang dihabiskan?
andreister
@andreister: Saya mengedit jawaban saya, menambahkan kode untuk simulasi di akhir. Semoga bermanfaat!
MånsT
Terima kasih, itu sangat berguna! Untuk memastikan saya memahami hal-hal tersebut, saya membuat pastebin.com/mtRdsPkP berdasarkan kode Anda - dapatkah Anda menjentikkannya?
andreister
cumsumsumcumsumsayasaya
MånsT
(lanjutan) Ini adalah informasi yang kami minati, karena kami ingin melihat apakah pemimpin melihat-lihat. sumhanya akan menjumlahkan semua 1 dan -1, yang akan memberi Anda hasil akhir setelah semua 20.000 pemirsa telah diperhitungkan (yaitu elemen terakhir dari cumsumvektor).
MånsT
11

1/2tt=13/4t=3t

11

20,000

Jika Anda ingin menghitung beberapa probabilitas, Anda harus menghitung sesuatu yang mirip dengan jalan kisi yang tidak melewati diagonal. Ada metode kombinatorial yang bagus yang berlaku untuk jalan acak (dan untuk gerak Brown) yang tidak melewati garis seperti itu, yang disebut prinsip refleksi atau metode refleksi . Ini adalah salah satu metode untuk menentukan angka Catalan . Berikut adalah dua aplikasi lain:

A10,2009,800(20,0009,800)(10,200,9,800)BBB(9,799,10,201)(10,200,9,800)B(20,0009,800)(20,00010,201)=(20,0009,800)(20,0009,799)=(20,0009,800)40110,201.B(10,200,9,800),96%

A(20,00010,000)220,000/10,000π.A1100π150π1/89.56 .

Douglas Zare
sumber
Terima kasih! Saya perlu memahami notasi sebelum saya mengerti jawaban Anda! Apa artinya "berakhir di depan 10.200−9.800" dll, dari mana Anda mendapatkan nomornya? Bagaimana Anda melihat 20K adalah mode?
andreister
10,2009,80011,0009,00010,0019,999.20,00000p000
0

"Kemungkinannya 88 kali lebih besar bahwa salah satu dari dua film akan memimpin melalui semua 20.000 pelanggan daripada itu, katakanlah, lead terus-menerus melihat-lihat"

Dalam bahasa Inggris yang sederhana: salah satu film mendapat arahan awal. Itu harus, seperti pelanggan pertama harus pergi ke A atau B. Film itu kemudian sama mungkin untuk mempertahankan keunggulannya sebagai kehilangan itu.

88 kali lebih mungkin terdengar, yah, tidak mungkin, sampai Anda ingat bahwa jungkat-jungkit yang sempurna sangat mustahil. Grafik di jawaban MansT , menunjukkan ini secara grafis, sangat menarik bukan.

ASIDE: Secara pribadi, saya pikir ini akan lebih dari 88 kali - karena <buzzword-alert>viral marketing </buzzword-alert>. Setiap orang akan bertanya kepada orang lain apa yang mereka lihat, dan lebih cenderung mengunjungi film yang sama. Mereka bahkan akan melakukan ini secara tidak sadar: orang lebih cenderung untuk bergabung dalam antrian panjang untuk melihat sesuatu. Yaitu segera setelah keacakan di antara beberapa pelanggan pertama telah menciptakan seorang pemimpin, psikologi manusia akan menjaganya sebagai seorang pemimpin :-).

Darren Cook
sumber