Di satu sisi, saya memiliki regresi ke mean dan di sisi lain saya memiliki kekeliruan penjudi .
Kekeliruan Gambler didefinisikan oleh Miller dan Sanjurjo (2019) sebagai "keyakinan keliru bahwa urutan acak memiliki kecenderungan sistematis terhadap pembalikan, yaitu bahwa garis-garis hasil yang serupa lebih cenderung berakhir daripada berlanjut." Misalnya, koin yang jatuh menimpa beberapa kepala. kali berturut-turut akan dianggap tidak proporsional untuk gagal pada percobaan berikutnya.
Saya telah memiliki kinerja yang baik di pertandingan terakhir dan, menurut regresi ke rata-rata, mungkin saya akan memiliki kinerja yang lebih buruk di pertandingan berikutnya.
Tetapi menurut kesalahan penjudi: Pertimbangkan dua kemungkinan berikut, dengan asumsi koin yang adil
- probabilitas 20 ekor, maka 1 ekor =
- probabilitas 20 kepala, maka 1 kepala =
Kemudian...
Pertimbangkan contoh sederhana: Kelas siswa mengambil 100-item tes benar / salah pada subjek. Misalkan semua siswa memilih secara acak pada semua pertanyaan. Kemudian, skor masing-masing siswa akan menjadi realisasi dari satu set variabel independen dan terdistribusi secara identik, dengan rata-rata yang diharapkan 50.
Secara alami, beberapa siswa akan skor secara substansial di atas 50 dan beberapa secara substansial di bawah 50 hanya secara kebetulan. Jika seseorang hanya mengambil nilai tertinggi 10% dari siswa dan memberi mereka tes kedua di mana mereka kembali memilih secara acak pada semua item, skor rata-rata lagi diperkirakan akan mendekati 50.
Dengan demikian rata-rata siswa ini akan "mundur" sepanjang jalan kembali ke rata-rata semua siswa yang mengikuti tes asli. Tidak peduli berapa skor siswa pada tes asli, prediksi terbaik skor mereka pada tes kedua adalah 50.
Secara khusus Jika seseorang hanya mengambil skor tertinggi 10% dari siswa dan memberi mereka tes kedua di mana mereka kembali memilih secara acak pada semua item, skor rata-rata lagi diperkirakan akan mendekati 50.
Menurut kesalahan penjudi, bukankah seharusnya diharapkan probabilitas yang sama untuk skor dan belum tentu lebih mendekati 50?
Miller, JB, & Sanjurjo, A. (2019). Bagaimana Pengalaman Mengkonfirmasikan Kekeliruan Penjudi Saat Ukuran Sampel Diabaikan.
sumber
Jawaban:
Saya pikir kebingungan dapat diselesaikan dengan mempertimbangkan bahwa konsep "regresi ke rata-rata" benar-benar tidak ada hubungannya dengan masa lalu. Ini hanya pengamatan tautologis bahwa pada setiap iterasi percobaan kami mengharapkan hasil rata-rata. Jadi jika kita sebelumnya memiliki hasil di atas rata-rata maka kita mengharapkan hasil yang lebih buruk, atau jika kita memiliki hasil di bawah rata-rata, kita mengharapkan yang lebih baik. Poin kuncinya adalah bahwa harapan itu sendiri tidak tergantung pada sejarah sebelumnya seperti dalam kekeliruan penjudi.
sumber
the expectation itself does not depend on any previous history
danif we previously had an above average outcome then we expect a worse result
. Anda menggunakan kata harapkan di kedua tempat dan berbicara tentang masa lalu / sejarah sebelumnya di kedua tempat.Jika Anda menemukan diri Anda dalam posisi seperti itu, sebagai orang yang rasional (dan mengasumsikan koin yang adil), taruhan terbaik Anda adalah menebak saja. Jika Anda menemukan diri Anda dalam posisi seperti penjudi takhayul, taruhan terbaik Anda adalah dengan melihat peristiwa sebelumnya dan mencoba untuk membenarkan alasan Anda tentang masa lalu - mis. "Wow, kepala panas , waktu untuk bertaruh!" atau "Tidak mungkin kita akan melihat kepala yang lain - probabilitas semacam itu sangat rendah!".
Kekeliruan penjudi tidak menyadari bahwa setiap untaian tertentu dari 20 koin melemparkan kita dengan sangat tidak mungkin - misalnya, sangat tidak mungkin untuk membalik 10 kepala dan kemudian 10 ekor, sangat tidak mungkin membalik kepala dan ekor yang berganti-ganti, sangat tidak mungkin terbelah dalam 4's, dll Bahkan sangat tidak mungkin untuk membalik HHTHHTTTHT .. karena untuk string apa pun hanya ada satu cara untuk itu terjadi dari banyak hasil yang berbeda . Dengan demikian, menggabungkan semua ini sebagai "kemungkinan" atau "tidak mungkin" adalah kesalahan, karena mereka semua tidak dapat disamakan.
Regresi terhadap rata-rata adalah keyakinan yang didirikan dengan benar bahwa dalam jangka panjang, pengamatan Anda harus menyatu dengan nilai yang diharapkan terbatas. Sebagai contoh - taruhan saya bahwa 10 dari 20 lemparan koin adalah yang baik karena ada banyak cara untuk mencapainya. Taruhan pada 15 dari 20 secara substansial lebih kecil kemungkinannya karena ada string yang jauh lebih sedikit yang mencapai jumlah akhir itu. Perlu dicatat bahwa jika Anda duduk dan membalik koin (cukup) cukup lama, Anda pada akhirnya akan berakhir dengan sesuatu yang kira-kira 50/50 - tetapi Anda tidak akan berakhir dengan sesuatu yang tidak memiliki "goresan" atau hal mustahil lainnya. peristiwa di dalamnya. Itulah inti perbedaan antara kedua konsep ini.
TL; DR : Regresi terhadap mean mengatakan bahwa seiring waktu, Anda akan berakhir dengan distribusi yang mencerminkan apa yang diharapkan dalam percobaan apa pun. Kekeliruan Gambler (secara keliru) mengatakan bahwa masing-masing individu melempar koin memiliki ingatan tentang hasil sebelumnya, yang akan berdampak pada hasil independen berikutnya.
sumber
Regression to the mean is the rightly-founded belief that in the long run, your observations should converge to a finite expected value
- Itu adalah "kesalahan penjudi" - bahwa setelah serangkaian kepala, ekor sekarang lebih mungkin, karena dengan koin yang adil ia akan bertemu ...Saya selalu mencoba untuk mengingat bahwa regresi menuju mean bukanlah mekanisme kompensasi untuk mengamati outlier.
Tidak ada hubungan sebab dan akibat antara menjalankan perjudian yang luar biasa, kemudian menjadi 50-50 setelah itu. Ini hanya cara yang berguna untuk mengingat bahwa, ketika Anda mengambil sampel dari distribusi, Anda kemungkinan besar akan melihat nilai yang mendekati rata-rata (pikirkan apa yang dikatakan ketidaksetaraan Chebyshev di sini).
sumber
Berikut ini contoh sederhana: Anda telah memutuskan untuk melemparkan total 200 koin. Sejauh ini Anda telah melemparkan 100 dari mereka dan Anda menjadi sangat beruntung: 100% muncul (luar biasa, saya tahu, tapi mari kita tetap sederhana).
Bersyarat pada 100 kepala dalam 100 lemparan pertama, Anda berharap memiliki total 150 kepala di akhir pertandingan. Contoh ekstrem dari kesalahan penjudi adalah berpikir bahwa Anda masih hanya mengharapkan total 100 kepala (yaitu nilai yang diharapkan sebelum memulai permainan), bahkan setelah mendapatkan 100 dalam 100 lemparan pertama. Penjudi itu dengan keliru berpikir 100 lemparan berikutnya pasti ekor. Contoh regresi ke mean (dalam konteks ini) adalah bahwa head-rate Anda 100% diperkirakan akan turun menjadi 150/200 = 75% (yaitu menuju rata-rata 50%) saat Anda menyelesaikan permainan.
sumber
Saya bisa saja salah, tetapi saya selalu berpikir perbedaannya ada pada asumsi kemerdekaan.
Dalam kesalahan Gambler, masalahnya adalah kesalahpahaman tentang kemerdekaan. Yakin atas sejumlah besar pelemparan koin N Anda akan menjadi sekitar 50-50 split, tetapi jika kebetulan Anda tidak maka pemikiran bahwa lemparan T berikutnya Anda akan membantu meskipun peluangnya salah karena ada setiap lemparan koin tidak tergantung pada sebelumnya.
Regresi terhadap mean adalah, di mana saya melihatnya digunakan, beberapa ide yang menarik tergantung pada gambar sebelumnya atau rata-rata / nilai yang dihitung sebelumnya. Misalnya, gunakan persentase pemotretan NBA. Jika pemain A telah membuat rata-rata 40% dari tembakannya selama karirnya dan memulai tahun baru dengan menembak 70% dalam 5 pertandingan pertamanya, masuk akal untuk berpikir bahwa ia akan mundur ke rata-rata rata-rata karirnya. Ada faktor-faktor dependen yang dapat dan akan mempengaruhi permainannya: goresan panas / dingin, permainan rekan setim, kepercayaan diri, dan fakta sederhana bahwa jika dia mempertahankan 70% pengambilan gambar untuk tahun ini, dia benar-benar akan memusnahkan banyak catatan yang hanya merupakan pencapaian fisik yang mustahil. (di bawah kemampuan kinerja saat ini dari pemain bola basket profesional). Saat Anda memainkan lebih banyak game, persentase pemotretan Anda kemungkinan akan semakin mendekati rata-rata karier Anda.
sumber
Kuncinya adalah bahwa kami tidak memiliki informasi yang akan membantu kami dengan acara berikutnya (kesalahan penjudi), karena acara berikutnya tidak bergantung pada acara sebelumnya. Kita bisa membuat perkiraan yang masuk akal tentang bagaimana serangkaian uji coba akan berjalan. Tebakan yang masuk akal ini adalah rata-rata alias hasil rata-rata yang kami harapkan. Jadi ketika kita melihat penyimpangan dalam tren rata-rata kembali ke rata-rata, dari waktu ke waktu / uji coba, maka kita menyaksikan regresi terhadap rata-rata.
Seperti yang Anda lihat regresi ke mean adalah serangkaian tindakan yang diamati , itu bukan prediksi. Semakin banyak uji coba yang dilakukan, semakin dekat perkiraan distribusi normal / Gaussian. Ini berarti bahwa saya tidak membuat asumsi atau menebak apa hasil selanjutnya. Dengan menggunakan hukum jumlah besar, saya dapat berteori bahwa meskipun segala sesuatu mungkin menjadi tren saat ini, seiring waktu hal-hal akan menyeimbangkan diri mereka sendiri. Ketika mereka menyeimbangkan diri mereka sendiri, set hasil telah mundur ke rata-rata. Penting untuk dicatat di sini bahwa kami tidak mengatakan bahwa uji coba di masa depan tergantung pada hasil di masa lalu. Saya hanya mengamati perubahan dalam keseimbangan data.
The kesalahan penjudi seperti yang saya mengerti lebih langsung dalam tujuan itu dan berfokus pada prediksi kejadian masa depan. Ini sesuai dengan keinginan penjudi. Biasanya game kesempatan dimiringkan melawan penjudi dalam jangka panjang, sehingga penjudi ingin tahu seperti apa uji coba berikutnya karena mereka ingin memanfaatkan pengetahuan ini. Ini menyebabkan penjudi secara salah berasumsi bahwa persidangan berikutnya tergantung pada persidangan sebelumnya. Ini dapat mengarah pada pilihan netral seperti:
Atau pilihannya bisa melayani diri sendiri:
Jadi seperti yang Anda lihat ada beberapa perbedaan utama:
Regresi terhadap rata-rata tidak mengasumsikan bahwa uji coba independen tergantung seperti kesalahan penjudi.
Regresi terhadap rata-rata diterapkan pada sejumlah besar data / uji coba, di mana kesalahan penjudi berkaitan dengan uji coba berikutnya.
Regresi terhadap mean menggambarkan apa yang telah terjadi. Kekeliruan penjudi mencoba untuk memprediksi masa depan berdasarkan rata-rata yang diharapkan, dan hasil masa lalu.
sumber
Apakah siswa dengan nilai lebih tinggi yang mendapat nilai lebih buruk pada tes ulang curang?
Pertanyaan itu menerima suntingan besar sejak enam jawaban terakhir.
Atau haruskah mereka menjauh dari roda roulette?
Koin beruntung dan keberuntungan beruntung
Jadi, bahkan ketika beberapa koin lebih baik daripada yang lain, keacakan dalam koin membalik berarti bahwa memilih pemain terbaik dari tes masih akan menunjukkan beberapa regresi dengan rata-rata dalam pengujian ulang. Dalam model yang dimodifikasi ini, hot-kidal tidak lagi menjadi kesalahan besar - mencetak skor yang lebih baik di babak pertama berarti kemungkinan yang lebih tinggi untuk memiliki koin yang bagus! Namun, kekeliruan penjudi masih merupakan kekeliruan - mereka yang mengalami nasib baik tidak dapat diharapkan untuk dikompensasi dengan nasib buruk saat pengujian ulang.
sumber
Mereka mengatakan hal yang sama. Anda sebagian besar bingung karena tidak ada satu percobaan dalam contoh flip koin memiliki hasil ekstrem (H / T 50/50). Ubah itu menjadi "membalik sepuluh koin yang adil pada waktu yang sama di setiap percobaan", dan penjudi ingin memperbaikinya. Maka pengukuran ekstrem adalah bahwa Anda kebetulan melihat semuanya adalah kepala.
Kekeliruan penjudi: Perlakukan setiap hasil taruhan (hasil membalik koin) sebagai IID . Jika Anda sudah tahu distribusi saham-saham IID tersebut, maka prediksi berikutnya harus datang langsung dari distribusi yang diketahui dan tidak ada hubungannya dengan hasil historis (atau masa depan) (alias IID lainnya).
Regresi terhadap mean: Perlakukan setiap hasil tes sebagai IID (karena siswa diasumsikan menebak secara acak dan tidak memiliki keterampilan nyata). Jika Anda sudah tahu distribusi saham-saham IID tersebut, maka prediksi berikutnya datang langsung dari distribusi yang diketahui dan tidak ada hubungannya dengan hasil historis (atau masa depan) (alias IID lainnya) ( persis seperti sebelum sampai di sini ). Tetapi, dengan CLT , jika Anda mengamati nilai ekstrim dalam satu pengukuran (mis. Kebetulan Anda hanya mengambil sampel 10% siswa terbaik dari tes pertama), Anda harus tahu hasil dari pengamatan / pengukuran Anda berikutnya masih akan dihasilkan dari yang diketahui. distribusi (dan dengan demikian lebih cenderung lebih dekat dengan rata-rata daripada bertahan di ekstrem).
Jadi pada dasarnya, mereka berdua mengatakan pengukuran selanjutnya akan datang dari distribusi, bukan hasil sebelumnya.
sumber
Misalkan X dan Y menjadi dua variabel acak seragam iid pada [0,1]. Misalkan kita mengamati mereka satu demi satu.
Kekeliruan Penjudi: P (Y | X)! = P (Y) Ini, tentu saja, omong kosong karena X dan Y adalah independen.
Regresi terhadap mean: P (Y <X | X = 1)! = P (Y <X) Ini benar: LHS adalah 1, LHS <1
sumber
Terima kasih atas jawaban Anda, saya pikir saya bisa memahami perbedaan antara Regresi dengan mean dan kekeliruan Gambler. Terlebih lagi, saya membangun basis data untuk membantu saya menggambarkan dalam kasus "nyata".
Saya membangun situasi ini: Saya mengumpulkan 1000 siswa dan saya menempatkan mereka untuk melakukan tes menjawab pertanyaan secara acak.
Skor tes berkisar dari 01 hingga 05. Karena mereka menjawab pertanyaan secara acak, maka setiap skor memiliki peluang 20% untuk dicapai. Jadi untuk tes pertama jumlah siswa dengan skor 05 harus mendekati 200
Saya memiliki 196 siswa dengan skor 05 yang sangat dekat dengan 200 siswa yang diharapkan.
Jadi saya menempatkan 196 siswa itu mengulang tes yang diterima 39 siswa dengan skor 05.
Nah, menurut hasil saya mendapat 42 siswa yang sesuai dengan yang diharapkan.
Bagi mereka yang mendapat skor 05 saya menempatkan mereka untuk mengulangi tes dan sebagainya ...
Karena itu, angka yang diharapkan adalah:
RETEST yang diharapkan 03
(3.3) Hasil (8)
RETEST yang diharapkan 04
(4.3) Hasil (2)
RETEST yang diharapkan 05
(4.3) Hasil (0)
Oleh karena itu probabilitas satu siswa mendapat skor 05 di semua 05 tes tidak ada hubungannya dengan skor terakhirnya, maksud saya, saya tidak boleh menghitung probabilitas pada setiap tes secara tunggal. Saya harus mencari tes-tes 05 seperti satu peristiwa dan menghitung probabilitas untuk peristiwa itu.
sumber