Bagaimana saya bisa memperkirakan probabilitas anggota acak dari satu populasi menjadi "lebih baik" daripada anggota acak dari populasi yang berbeda?

15

Misalkan saya memiliki sampel dari dua populasi yang berbeda. Jika saya mengukur berapa lama setiap anggota untuk melakukan tugas, saya dapat dengan mudah memperkirakan rata-rata dan varians dari setiap populasi.

Jika sekarang saya berhipotesiskan pasangan acak dengan satu individu dari setiap populasi, dapatkah saya memperkirakan probabilitas bahwa yang pertama lebih cepat daripada yang kedua?

Saya benar-benar memiliki contoh nyata: pengukuran adalah waktu untuk saya bersepeda dari A ke B dan populasi mewakili rute berbeda yang bisa saya ambil; Saya mencoba mencari tahu apa kemungkinannya memilih rute A untuk siklus saya berikutnya akan lebih cepat daripada memilih rute B. Ketika saya benar-benar melakukan siklus, saya punya titik data lain untuk set sampel saya :).

Saya sadar bahwa ini adalah cara yang sangat sederhana untuk mencoba menyelesaikan masalah ini, paling tidak karena pada hari tertentu angin lebih mungkin mempengaruhi waktu saya daripada yang lainnya, jadi tolong beri tahu saya jika Anda pikir saya bertanya pertanyaan yang salah ...

Andrew Aylett
sumber
Ini dapat dilakukan melalui pengujian binomial sederhana & @ Macro memiliki jawaban yang bagus. Namun, satu masalah adalah pada sampel itu sendiri: apakah ada sesuatu yang dapat mempengaruhi keputusan Anda untuk mengambil rute A atau rute B? Secara khusus, apakah Anda suka mengambil rute A ketika jalan-jalan kering, angin di belakang Anda, dan makan malam menunggu? :) Berhati-hatilah terhadap apa pun yang dapat memengaruhi pencilan di salah satu set atau yang dapat membuat bias sampel dengan beberapa cara. Sebagai contoh, cobalah mengatur rencana pengambilan sampel Anda sebelumnya, dengan pertimbangan untuk setiap kebutuhan yang berbeda-beda (misalnya keselamatan).
Iterator
Satu pertimbangan lain: Misalkan Anda memiliki dua rute dengan cara yang sangat mirip dan tidak ada yang mendominasi yang lain dalam hal probabilitas bahwa itu akan lebih cepat. Misalnya satu selalu 10 atau 20 menit, sedangkan yang lain selalu tepat 15 menit. Anda mungkin merasa lebih baik menghukum ketidakpastian yang lebih besar (mis. Standar deviasi), atau memilih yang lebih mungkin memakan waktu kurang dari batas waktu tertentu. Pertanyaan Anda apa adanya baik-baik saja; Saya hanya menyarankan perbaikan masa depan.
Iterator
Pertanyaan statistiknya baik-baik saja, tetapi jika Anda ingin mencari tahu kemungkinan rute mana yang lebih cepat, saya sarankan mengukur panjang rute. Jika medannya tidak berbukit maka rute yang lebih pendek akan selalu lebih cepat.
mpiktas
Jika angin merupakan faktor penting, dan jika kecepatan angin terkait untuk kedua rute, maka akan terlihat bahwa seseorang akan membutuhkan informasi tentang ketergantungan antara A dan B untuk menjawab pertanyaan secara akurat. Anda akan membutuhkan data bivariat untuk itu, dan sulit untuk naik dua jalur pada saat yang bersamaan. Anda dapat meminta orang lain untuk membantu Anda mengumpulkan data, tetapi kemudian perlu memperhitungkan variabilitas antara pengendara. Dalam kasus A dan B bersifat independen, jawaban di bawahnya bagus.
Dengan kata lain: jika saya mencoba untuk memutuskan jalan mana yang akan diambil, seseorang melalui terowongan, seseorang melalui sebuah ladang, dan angin yang bertiup seperti orang gila, saya mungkin akan memilih ladang itu meskipun rata-rata jauh lebih buruk.

Jawaban:

12

Larutan

Biarkan keduanya berarti dan μ y dan standar deviasi mereka masing-masing adalah σ x dan σ y . Oleh karena itu, perbedaan waktu antara dua wahana ( Y - X ) memiliki μ y - μ x dan standar deviasi μxμyσxσyY-Xμy-μx . Perbedaan standar ("skor z") adalahσx2+σy2

z=μy-μxσx2+σy2.

Kecuali jika waktu perjalanan Anda memiliki distribusi yang aneh, kemungkinan perjalanan lebih lama dari perjalanan X adalah sekitar distribusi kumulatif Normal, Φ , dievaluasi pada z .YXΦz

Komputasi

Anda dapat menghitung probabilitas ini di salah satu wahana Anda karena Anda sudah memiliki perkiraan dll. :-). Untuk tujuan ini sangat mudah untuk menghafal nilai-nilai kunci dari Φ : Φ ( 0 ) = 0,5 = 1 / 2 , Φ ( - 1 ) 0,16 1 / 6 , Φ ( - 2 ) 0,022 1 / 40 , dan Φ ( - 3 ) 0.0013μxΦΦ(0)=.5=1/2Φ(1)0.161/6Φ(2)0.0221/40 . (Perkiraan mungkin buruk untuk | z | jauh lebih besar dari 2 , tetapi mengetahui Φ ( - 3 ) membantu dengan interpolasi.) Sehubungan dengan Φ ( z ) = 1 - Φ ( - z ) dan sedikit interpolasi, Anda dapat dengan cepat memperkirakan probabilitas ke satu angka penting, yang lebih dari cukup tepat mengingat sifat masalah dan data.Φ(3)0.00131/750|z|2Φ(3)Φ(z)=1Φ(z)

Contoh

Misalkan rute memakan waktu 30 menit dengan standar deviasi 6 menit dan rute Y membutuhkan waktu 36 menit dengan standar deviasi 8 menit. Dengan data yang cukup yang mencakup berbagai kondisi, histogram data Anda mungkin akan mendekati ini:XY

Dua histogram

(Ini adalah fungsi kerapatan probabilitas untuk variabel Gamma (25, 30/25) dan Gamma (20, 36/20). Amati bahwa mereka cenderung condong ke kanan, seperti yang diperkirakan untuk waktu perjalanan.)

Kemudian

μx=30,μy=36,σx=6,σy=8.

Dari mana

z=363062+82=0.6.

Kita punya

Φ(0)=0.5;Φ(1)=1Φ(1)10.16=0.84.

Karena itu kami memperkirakan jawabannya adalah 0,6 dari jalan antara 0,5 dan 0,84: 0,5 + 0,6 * (0,84 - 0,5) = sekitar 0,70. (Nilai yang benar tetapi terlalu tepat untuk distribusi Normal adalah 0,73.)

YX

(Probabilitas yang benar untuk histogram yang ditampilkan adalah 72%, meskipun tidak satu pun yang Normal: ini menggambarkan ruang lingkup dan utilitas perkiraan Normal untuk perbedaan dalam waktu perjalanan.)

whuber
sumber
P(X>Y)
@ Macro: jika data dapat direduksi menjadi statistik ringkasan untuk Q of interest, seseorang dapat menyimpan lebih sedikit data ... hanya sebuah pemikiran.
Iterator
P(X>Y)YXYX
FWIW: @whuber menggambarkan uji-t Student untuk perbedaan rata-rata antara dua sampel dengan standar deviasi yang berbeda.
Iterator
1
Terima kasih, @whuber, ini adalah jawaban untuk pertanyaan yang saya coba tanyakan :).
Andrew Aylett
6

Pendekatan instingtif saya mungkin bukan yang paling canggih secara statistik, tetapi Anda mungkin merasa lebih menyenangkan :)

Saya akan mendapatkan selembar kertas grafik berukuran layak, dan membagi kolom menjadi blok waktu. Tergantung pada berapa lama perjalanan Anda - apakah kita berbicara tentang waktu rata-rata 5 menit atau satu jam - Anda mungkin menggunakan blok ukuran yang berbeda. Katakanlah setiap kolom adalah blok dua menit. Pilih warna untuk rute A dan warna berbeda untuk rute B, dan setelah setiap perjalanan, buat titik di kolom yang sesuai. Jika sudah ada titik warna itu, naik satu baris. Dengan kata lain, ini akan menjadi histogram dalam angka absolut.

Kemudian, Anda akan membuat histogram yang menyenangkan dengan setiap perjalanan yang Anda lakukan, dan secara visual dapat melihat perbedaan antara dua rute.

Perasaan saya berdasarkan pengalaman saya sendiri sebagai pengendara sepeda (tidak diverifikasi melalui kuantifikasi) adalah bahwa waktu tidak akan terdistribusi secara normal - mereka akan memiliki kemiringan positif, atau dengan kata lain ekor panjang kali atas-atas. Waktu tipikal saya tidak lebih lama dari waktu saya yang sesingkat mungkin, tetapi setiap sekarang dan kemudian saya sepertinya menghantam semua lampu merah, dan ada ujung atas yang jauh lebih tinggi. Pengalaman Anda mungkin berbeda. Itu sebabnya saya pikir pendekatan histogram mungkin lebih baik, sehingga Anda dapat mengamati sendiri bentuk distribusinya.

PS: Saya tidak punya cukup perwakilan untuk berkomentar di forum ini, tapi saya suka jawaban Whuber! Dia menjawab kekhawatiran saya tentang kemiringan secara efektif dengan analisis sampel. Dan saya suka ide menghitung di kepala Anda untuk menjaga pikiran Anda dari bukit berikutnya :)

Jonathan
sumber
1
+1 Untuk kreativitas. Sebenarnya, ide Anda berada di jalan menuju utilitas praktis. Akan sedikit lebih menarik untuk menggunakan salah satu situs pelacakan bersepeda (saya lupa yang mana sekarang, tetapi jangan menambahkan, jika Anda tahu) untuk melacak waktu segmen. Jika OP kembali ke CV atau StackOverflow dengan pertanyaan tentang merencanakan waktu segmen dan mendapatkan kepadatan yang terkait dengannya, itu akan menjadi latihan statistik yang luar biasa - GIS, visualisasi statistik, dan fungsi kerapatan, oh my! :)
Iterator
1
Saya telah menggunakan Google MyTracks di ponsel saya untuk melacak segmen bersepeda. Saya menemukan bahwa telepon tidak hebat karena cenderung menyedot daya pada perangkat yang tidak dioptimalkan untuk itu. Garmin (dan lainnya) membuat perangkat GPS secara khusus ditargetkan untuk pelari dan pengendara sepeda motor untuk melacak waktu yang dihabiskan pada rute dan menyediakan grafik yang rapi dalam antarmuka online. Saya sendiri tidak menggunakan perangkat GPS khusus, tetapi beberapa teman saya menggunakannya untuk berbagi rute di facebook.
Jonathan
1
Berikut adalah contoh dari apa yang dihasilkan perangkat Garmin. Masalah dengan grafik adalah bahwa mereka sudah sangat pra-diproses, perataan, dll. Juga tidak ada cara yang nyaman untuk mengimpor data ke R misalnya. Tetapi sebagai perangkat khusus, ia melakukan tugasnya dengan sangat baik, saya tidak bisa membayangkan berlari atau bersepeda tanpa itu.
mpiktas
+1 Perhatikan bahwa tidak banyak kemiringan yang berasal dari menabrak lampu merah (kecuali jika waktunya): secara kolektif, mereka biasanya hanya menambahkan beberapa noise Gaussian ke distribusi waktu. (Menghitung variansnya adalah latihan mental lain yang dapat Anda lakukan di bukit berikutnya.) Dalam praktiknya kecenderungan tersebut berasal dari variasi non-Gaussian dalam beberapa faktor penting yang mengendalikan seluruh perjalanan: cuaca, perasaan Anda, dengan siapa Anda ' mengendarai, dan sesekali kecelakaan / jalan memutar / kemacetan dll
whuber
Sekarang saya memikirkannya lagi, faktor lain yang sangat penting adalah waktu. Lampu lalu lintas bertindak sangat berbeda pada waktu lalu lintas puncak - hijau yang jauh lebih lama untuk jalan dengan lalu lintas lebih tinggi. Di masa off-peak, lampu cenderung berputar dengan cepat, defaultnya menjadi hijau untuk jalan dengan lalu lintas tinggi, tetapi dengan cepat berubah ketika saya menekan tombol persimpangan atau mobil mengaktifkan sensor.
Jonathan
5

Misalkan kedua set data tersebut X dan Y. Sampel secara acak satu orang dari setiap populasi, memberi Andax,y. Rekam '1' jikax>ydan 0 sebaliknya. Ulangi ini berkali-kali (katakanlah, 10000) dan rata-rata dari indikator ini akan memberi Anda perkiraanP(Xsaya>Yj) dimana saya,jadalah subyek yang dipilih secara acak dari dua populasi, masing-masing. Di R, kodenya akan seperti:

#X, Y are the two data sets
ii = rep(0,10000)
for(k in 1:10000)
{
   x1 = sample(X,1)
   y1 = sample(Y,1)
   ii[k] = (x1>y1) 
}

# this is an estimate of P(X>Y)
mean(ii)
Makro
sumber
Ini adalah jawaban yang baik, tapi Anda bisa menyederhanakannya dengan menghapus forlingkaran: biarkan x1 = sample(X, 10000, replace = TRUE)dan y1 = sample(Y, 10000, replace = TRUE)kemudian menghitung mean(x1 > y1)bersama dengan mean(x1 == y1)- untuk mendapatkan rasa dari # kali nilai sama.
Iterator
Terima kasih. Saya tahu loop itu tidak perlu tetapi saya ingin logika yang mendasari pendekatan menjadi sangat jelas. Kode Anda tentu akan menghasilkan hasil yang sama.
Makro