Misalkan saya memiliki sampel dari dua populasi yang berbeda. Jika saya mengukur berapa lama setiap anggota untuk melakukan tugas, saya dapat dengan mudah memperkirakan rata-rata dan varians dari setiap populasi.
Jika sekarang saya berhipotesiskan pasangan acak dengan satu individu dari setiap populasi, dapatkah saya memperkirakan probabilitas bahwa yang pertama lebih cepat daripada yang kedua?
Saya benar-benar memiliki contoh nyata: pengukuran adalah waktu untuk saya bersepeda dari A ke B dan populasi mewakili rute berbeda yang bisa saya ambil; Saya mencoba mencari tahu apa kemungkinannya memilih rute A untuk siklus saya berikutnya akan lebih cepat daripada memilih rute B. Ketika saya benar-benar melakukan siklus, saya punya titik data lain untuk set sampel saya :).
Saya sadar bahwa ini adalah cara yang sangat sederhana untuk mencoba menyelesaikan masalah ini, paling tidak karena pada hari tertentu angin lebih mungkin mempengaruhi waktu saya daripada yang lainnya, jadi tolong beri tahu saya jika Anda pikir saya bertanya pertanyaan yang salah ...
sumber
Jawaban:
Larutan
Biarkan keduanya berarti dan μ y dan standar deviasi mereka masing-masing adalah σ x dan σ y . Oleh karena itu, perbedaan waktu antara dua wahana ( Y - X ) memiliki μ y - μ x dan standar deviasi √μx μy σx σy Y- X μy-μx . Perbedaan standar ("skor z") adalahσ2x+ σ2y------√
Kecuali jika waktu perjalanan Anda memiliki distribusi yang aneh, kemungkinan perjalanan lebih lama dari perjalanan X adalah sekitar distribusi kumulatif Normal, Φ , dievaluasi pada z .Y X Φ z
Komputasi
Anda dapat menghitung probabilitas ini di salah satu wahana Anda karena Anda sudah memiliki perkiraan dll. :-). Untuk tujuan ini sangat mudah untuk menghafal nilai-nilai kunci dari Φ : Φ ( 0 ) = 0,5 = 1 / 2 , Φ ( - 1 ) ≈ 0,16 ≈ 1 / 6 , Φ ( - 2 ) ≈ 0,022 ≈ 1 / 40 , dan Φ ( - 3 ) ≈ 0.0013μx Φ Φ(0)=.5=1/2 Φ(−1)≈0.16≈1/6 Φ(−2)≈0.022≈1/40 . (Perkiraan mungkin buruk untuk | z | jauh lebih besar dari 2 , tetapi mengetahui Φ ( - 3 ) membantu dengan interpolasi.) Sehubungan dengan Φ ( z ) = 1 - Φ ( - z ) dan sedikit interpolasi, Anda dapat dengan cepat memperkirakan probabilitas ke satu angka penting, yang lebih dari cukup tepat mengingat sifat masalah dan data.Φ(−3)≈0.0013≈1/750 |z| 2 Φ(−3) Φ(z)=1−Φ(−z)
Contoh
Misalkan rute memakan waktu 30 menit dengan standar deviasi 6 menit dan rute Y membutuhkan waktu 36 menit dengan standar deviasi 8 menit. Dengan data yang cukup yang mencakup berbagai kondisi, histogram data Anda mungkin akan mendekati ini:X Y
(Ini adalah fungsi kerapatan probabilitas untuk variabel Gamma (25, 30/25) dan Gamma (20, 36/20). Amati bahwa mereka cenderung condong ke kanan, seperti yang diperkirakan untuk waktu perjalanan.)
Kemudian
Dari mana
Kita punya
Karena itu kami memperkirakan jawabannya adalah 0,6 dari jalan antara 0,5 dan 0,84: 0,5 + 0,6 * (0,84 - 0,5) = sekitar 0,70. (Nilai yang benar tetapi terlalu tepat untuk distribusi Normal adalah 0,73.)
(Probabilitas yang benar untuk histogram yang ditampilkan adalah 72%, meskipun tidak satu pun yang Normal: ini menggambarkan ruang lingkup dan utilitas perkiraan Normal untuk perbedaan dalam waktu perjalanan.)
sumber
Pendekatan instingtif saya mungkin bukan yang paling canggih secara statistik, tetapi Anda mungkin merasa lebih menyenangkan :)
Saya akan mendapatkan selembar kertas grafik berukuran layak, dan membagi kolom menjadi blok waktu. Tergantung pada berapa lama perjalanan Anda - apakah kita berbicara tentang waktu rata-rata 5 menit atau satu jam - Anda mungkin menggunakan blok ukuran yang berbeda. Katakanlah setiap kolom adalah blok dua menit. Pilih warna untuk rute A dan warna berbeda untuk rute B, dan setelah setiap perjalanan, buat titik di kolom yang sesuai. Jika sudah ada titik warna itu, naik satu baris. Dengan kata lain, ini akan menjadi histogram dalam angka absolut.
Kemudian, Anda akan membuat histogram yang menyenangkan dengan setiap perjalanan yang Anda lakukan, dan secara visual dapat melihat perbedaan antara dua rute.
Perasaan saya berdasarkan pengalaman saya sendiri sebagai pengendara sepeda (tidak diverifikasi melalui kuantifikasi) adalah bahwa waktu tidak akan terdistribusi secara normal - mereka akan memiliki kemiringan positif, atau dengan kata lain ekor panjang kali atas-atas. Waktu tipikal saya tidak lebih lama dari waktu saya yang sesingkat mungkin, tetapi setiap sekarang dan kemudian saya sepertinya menghantam semua lampu merah, dan ada ujung atas yang jauh lebih tinggi. Pengalaman Anda mungkin berbeda. Itu sebabnya saya pikir pendekatan histogram mungkin lebih baik, sehingga Anda dapat mengamati sendiri bentuk distribusinya.
PS: Saya tidak punya cukup perwakilan untuk berkomentar di forum ini, tapi saya suka jawaban Whuber! Dia menjawab kekhawatiran saya tentang kemiringan secara efektif dengan analisis sampel. Dan saya suka ide menghitung di kepala Anda untuk menjaga pikiran Anda dari bukit berikutnya :)
sumber
Misalkan kedua set data tersebutX dan Y . Sampel secara acak satu orang dari setiap populasi, memberi Andax , y . Rekam '1' jikax > y dan 0 sebaliknya. Ulangi ini berkali-kali (katakanlah, 10000) dan rata-rata dari indikator ini akan memberi Anda perkiraanP( Xsaya> Yj) dimana saya , j adalah subyek yang dipilih secara acak dari dua populasi, masing-masing. Di R, kodenya akan seperti:
sumber
for
lingkaran: biarkanx1 = sample(X, 10000, replace = TRUE)
dany1 = sample(Y, 10000, replace = TRUE)
kemudian menghitungmean(x1 > y1)
bersama denganmean(x1 == y1)
- untuk mendapatkan rasa dari # kali nilai sama.