Mengapa distribusi penting?

10

Ini mungkin juga turun sebagai pertanyaan paling konyol yang pernah diajukan di forum ini, tetapi setelah menerima jawaban yang masuk akal dan bermakna untuk pertanyaan sebelumnya, saya pikir saya akan merentangkan keberuntungan saya lagi.

Saya telah sangat bingung selama beberapa waktu tentang pentingnya distribusi statistik terutama karena berkaitan dengan pengembalian aset dan bahkan lebih khusus lagi dalam alokasi aset.

Pertanyaan saya untuk lebih spesifik adalah: Asumsikan saya memiliki 20 tahun data pengembalian bulanan S&P 500, mengapa saya harus mengasumsikan jenis distribusi tertentu (yaitu penerbangan Normal / Johnson / Levy dll) untuk keputusan alokasi aset saya ketika saya bisa dengan mudah hanya membuat keputusan alokasi aset saya berdasarkan data historis yang saya miliki dengan saya?

Garis keturunan
sumber
3
ingat bahwa jika Anda menemukan jawaban untuk pertanyaan sebelumnya bermanfaat, Anda dapat menandainya sebagai 'diterima' dengan mengklik kotak centang di sebelah jawaban. ini membuat orang lain tahu pertanyaan Anda terpecahkan.
Jeff
2
Sebenarnya ada posting terbaru dari JDCook tentang hal itu. Untuk menguraikan relevansinya dengan pertanyaan Anda, saya akan mengutip dari paragraf pertama "Ketika ahli statistik menganalisis data, mereka tidak hanya dengan melihat data yang Anda bawa kepada mereka. Mereka juga mempertimbangkan data hipotetis yang bisa Anda bawa. Dengan kata lain , mereka mempertimbangkan apa yang bisa terjadi dan apa yang sebenarnya terjadi. "
user603
Saya percaya Taleb memiliki sesuatu yang meyakinkan untuk dikatakan tentang masalah dengan membuat keputusan hanya dari data historis :-). (Data historis biasanya tidak secara langsung mengungkap peristiwa "black swan" yang langka tetapi mungkin fatal sampai terlambat.)
whuber
2
... karena sebagian besar kalkun akan menyadari dalam beberapa minggu.
Ryogi
Untuk memperluas pada titik @ user603 - Anda ingin membuat kesimpulan di luar sampel Anda. Secara khusus, titik alokasi aset Anda terkait dengan perilaku di masa mendatang , bukan perilaku di masa lalu. Ini termasuk, misalnya, bagaimana hal-hal berperilaku di ekor, di mana Anda memiliki beberapa pengamatan. Anda dapat membawa pengetahuan / pemahaman / bias tambahan tentang proses melalui asumsi distribusi. Jika asumsi ini berada di dekat Anda, Anda dapat menambahkan banyak informasi.
Glen_b -Reinstate Monica

Jawaban:

5

Menggunakan distribusi yang diasumsikan (mis. Analisis parametrik) akan mengurangi biaya komputasi metode Anda. Saya berasumsi bahwa Anda ingin melakukan tugas regresi atau klasifikasi. Ini berarti bahwa pada titik tertentu Anda akan memperkirakan distribusi beberapa data. Metode nonparametrik berguna ketika data tidak sesuai dengan distribusi yang dipelajari dengan baik, tetapi mereka biasanya membutuhkan lebih banyak waktu untuk menghitung atau lebih banyak memori untuk disimpan.

Juga jika data dihasilkan oleh suatu proses yang sesuai dengan suatu distribusi, seperti mereka adalah rata-rata dari beberapa proses acak yang seragam, maka menggunakan distribusi itu lebih masuk akal. Dalam kasus rata-rata satu set variabel seragam, distribusi yang benar mungkin adalah Distribusi Gaussian.

James
sumber
0

Melengkapi jawaban James : model parametrik juga (biasanya) memerlukan lebih sedikit sampel untuk memiliki kecocokan yang baik: ini dapat meningkatkan kekuatan generalisasi mereka: yaitu, mereka dapat memperkirakan data baru dengan lebih baik, bahkan menjadi salah. Tentu saja, ini tergantung pada situasi, model dan ukuran sampel.

kegilaan
sumber