Kapan saya tidak bisa mengganti variabel acak dengan artinya?

10

Penyederhanaan yang sering dilakukan dalam pemodelan dan simulasi adalah mengganti variabel acak dengan nilai rata-rata.

Kapan penyederhanaan ini mengarah pada kesimpulan yang salah?

Ankit Goyal
sumber
2
Apakah "Var" berarti variabel atau varians atau Value At Risk ?
Henry
3
Akan menyenangkan untuk memulai layanan yang membayar langganan Netflix anggotanya. Kami hanya akan menagih , di mana dipilih secara acak dalam domain , jadi, ya tahu, Netflix gratis! Nantinya, kami akan menawarkan beberapa opsi kepada pelanggan untuk membayar . x[-100,100]x2USD|x| USDmHainthx[100,100]x2 USDmonth
Nat
3
Nah dalam kasus yang sangat sederhana jika kita membawanya ke ekstrim kita bisa kehilangan hampir semua informasi yang kita pedulikan. Pertimbangkan regresi Y pada X di mana kami mengganti Y dan X dengan meannya. Setiap informasi tentang lereng sekarang hilang.
Dason
1
Apakah Anda bertanya tentang mengganti nilai yang hilang, atau Anda bertanya tentang mengganti variabel acak dalam konteks tertentu (misalnya membuat prediksi berdasarkan model efek-acak)?
IWS

Jawaban:

20

Jika Anda mengganti nilai yang hilang dengan beberapa titik estimasi, Anda mengabaikan semua variabilitasnya. Dengan demikian, Anda tidak akan menyebarkan semua variabilitas asli ke model Anda. Perkiraan parameter Anda tampaknya memiliki terlalu rendah . Jika Anda melakukan inferensi, nilai p Anda akan menjadi bias rendah. Anda akan terlalu sempit. Jika Anda melakukan prediksi, Anda akan terlalu sempit.

Secara keseluruhan: Anda akan terlalu yakin dengan kesimpulan Anda.

Stephan Kolassa
sumber
2
Jawaban yang bagus! Pikirkan cara ini: Variabel acak memiliki distribusi. Ini dapat diputar ke kiri, ke kanan. Saya bisa bi-modal dll. Dengan mengurangi variabel ke nilai rata-rata itu Anda menghapus semua informasi tambahan (ketidakpastian) dan mengganti distribusi (interval) dengan estimasi titik tunggal.
elevendollar
1
Jika Anda mengganti nilai yang hilang dengan beberapa titik estimasi, Anda juga mengasumsikan data tersebut hilang secara acak. Nilai rata-rata dari variabel acak mungkin tidak sama dengan nilai rata-rata data ketika itu hilang.
Neil G
@NeilG minta maaf untuk nitpick, tetapi mengganti nilai yang hilang dengan rata-rata tidak secara langsung berarti mengasumsikan data hilang secara acak. Terutama karena - agak membingungkan - terminologi seputar data yang hilang menganggap 'missing at random' sebagai data yang hilang pada kondisi acak pada data lain, tetapi diketahui ( en.wikipedia.org/wiki/Missing_data ). IMO, cara data diganti tidak menyiratkan apa pun tentang alasan di baliknya. Alasan itu harus dibuat eksplisit dan mengarah ke cara yang tepat untuk menangani data yang hilang. Karena itu, saya sepenuhnya setuju dengan jawaban Stephan.
IWS
@IWS Tidak apa-apa jika indikator yang hilang sesuai dengan data yang diamati. Kehilangan secara acak berarti bahwa indikator yang hilang tergantung pada data yang tidak diobservasi. Jika Anda mengganti variabel dengan nilai rata-rata yang bergantung padanya, itu mungkin tidak sama dengan nilai rata-rata tanpa syarat - kecuali jika data hilang secara acak.
Neil G
@ NeilG Bukankah maksud Anda 'hilang sepenuhnya secara acak', ketika Anda menulis 'hilang secara acak' di kalimat terakhir dari komentar terakhir Anda? Jika demikian, kami setuju, tetapi saya hanya mengolok-olok tentang terminologi. (lihat halaman wiki yang saya berikan di komentar saya di atas, saya selalu diajar, membaca dan menggunakan istilah itu)
IWS
13

Selain poin Stephan:

  • Di hampir semua aplikasi di mana Anda tertarik pada fungsi-fungsi nonlinear dari variabel acak, mengganti rata-rata umumnya akan menimbulkan bias dan kemungkinan hasil yang bertentangan. Kecepatan rata-rata dan massa rata-rata partikel pada umumnya tidak akan konsisten dengan energi kinetik rata-rata, karena skala energi dengan V ^ 2.
  • Nilai rata-rata bahkan mungkin bukan hasil yang mungkin untuk variabel acak. Jika kemungkinan hasil saya adalah 0 "pasien meninggal" dan 1 "pasien hidup", mungkin tidak membantu untuk memiliki model yang menggambarkan pasien sebagai 0,1 "kebanyakan mati tetapi sedikit hidup".
Geoffrey Brent
sumber
1
@Alexis tapi tentu saja!
Geoffrey Brent
0

Contoh kehidupan nyata (terkait dengan dua jawaban yang Anda dapatkan), di pasar keuangan. Harga opsi didasarkan pada probabilitas bahwa harga suatu aset bergerak di atas (atau di bawah) tingkat tertentu.

Misalnya, harga opsi untuk membeli aset pada harga 100 ketika nilai yang diharapkan dari aset adalah 80. Jika Anda mengganti variabel acak (harga aset) dengan rata-rata, Anda akan mendapatkan harga nol (seperti Anda tidak akan pernah dengan 100 aset yang harganya 80). Ketika Anda memperhitungkan stokastik aset (dan itulah cara yang tepat untuk melakukannya), Anda mendapatkan harga positif, karena ada beberapa kemungkinan bahwa harga aset bergerak di atas 100.

Juan Ignacio Gil
sumber