Saya mengalami masalah besar dengan masalah konseptual yang saya temukan.
Katakanlah sebuah perusahaan memiliki distribusi yang sangat miring. Sesuatu yang mirip dengan eksponensial atau lognormal hanya lebih ekstrem. Sekarang berpura-pura distribusi sangat miring sehingga rata-rata distribusi lebih tinggi dari 99% Persentil dari distribusi. (Aka 1-2 nilai ekstrem yang lebih tinggi menyebabkan rata-rata sangat tinggi dibandingkan dengan distribusi lainnya).
Menurut definisi, jika distribusi ini digunakan untuk memperkirakan nilai masa depan (alias sampel acak dari distribusi) apakah benar bahwa rata-rata tidak akan berada dalam interval Prediksi 95%?
Di otak saya, interval predisi 95% adalah rentang yang 95% dari semua nilai masa depan akan jatuh di antara. Untuk distribusi apa pun, ini harus persis sama dengan 0,025 Persentil pada batas bawah, dan persentil 0,975 pada batas atas ... Jika rerata lebih tinggi dari 0,975 Persentil, maka rerata tidak akan berada dalam '95% interval prediksi '.
Apakah saya salah memikirkan hal ini? Tampaknya aneh melaporkan perkiraan sebagai
- Nilai Perkiraan Rata-rata: 6,000,0000
- Interval Prediksi 95%: [400.5000].
sumber
Jawaban:
Tidak, interval prediksi tidak perlu mengandung rerata. Saya pikir beberapa kebingungan Anda mungkin mencampur interval prediksi dan interval kepercayaan. Sementara tujuan dari interval prediksi adalah untuk mengandung dengan beberapa nilai masa depan yang pasti dari variabel acak, tujuan dari interval kepercayaan adalah untuk mengandung mean sebenarnya dari distribusi.
Seperti yang Anda sebutkan dalam distribusi yang sangat miring ide-ide ini tampaknya bertentangan satu sama lain. Yang penting adalah mengenali nilai di setiap statistik yang disediakan.
Nilai prediktif rata-rata adalah:
1) Kumulatif: Semakin banyak sampel masuk, rata-rata mereka cenderung ke arah rata-rata yang sebenarnya. Jadi, jika nilai kumulatifnya menarik (misalnya, jika Anda berjudi dan berhadapan dengan kemenangan atau kekalahan, Anda tertarik dengan efek kumulatif) maka rerata ini sangat berguna.
2) Meminimalkan Residu Kuadrat: Sementara residu kuadrat adalah jumlah bunga yang agak sewenang-wenang, ada baiknya untuk mengetahui apa yang diminimalkan prediksi Anda.
Namun, jika tujuan Anda adalah untuk meminimalkan kesalahan absolut dalam prediksi Anda, nilai perkiraan rata-rata 6.000.000 bukanlah yang saya inginkan.
sumber
Pertimbangkan distribusi pengembalian yang mungkin dalam paradoks St Petersburg:
Prob (1) = 1/2
Prob (2) = 1/4
Prob (4) = 1/8 ... Prob (2 ^ n) = 1/2 ^ (n + 1)
Berarti menyimpang dan di luar interval prediksi yang masuk akal. (Mediannya adalah 1 dalam hal ini, tapi saya tidak tahu apa yang akan saya gunakan untuk perkiraan poin saya. Mungkin Stephan Kolassa, lihat di atas, punya saran.)
Ada komplikasi lain: Katakanlah Anda ingin interval prediksi 95% untuk beberapa distribusi (selain yang saya sebutkan). Apakah Anda beralih dari ubin 2,5% ke ubin 97,5% atau 0 ke 95 atau ke 5 ke 100 atau ....? Jawabannya mungkin tergantung pada mengapa Anda mengajukan pertanyaan.
sumber