Ini berbatasan dengan pertanyaan filosofis, tetapi saya tertarik pada bagaimana orang lain dengan pengalaman lebih banyak berpikir tentang pemilihan distribusi. Dalam beberapa kasus tampak jelas bahwa teori mungkin paling berhasil (panjang ekor tikus mungkin terdistribusi normal). Dalam banyak kasus, mungkin tidak ada teori untuk mendeskripsikan sekumpulan data, jadi Anda hanya menggunakan sesuatu yang sesuai dengan apa yang Anda miliki dengan cukup baik terlepas dari apa yang semula dikembangkan untuk menggambarkannya? Saya bisa membayangkan beberapa perangkap untuk pergi dengan yang satu ini atau yang lain, dan tentu saja tampaknya ada masalah yang mungkin Anda harus menggunakan distribusi empiris jika Anda benar-benar tidak tahu.
Jadi saya kira apa yang sebenarnya saya tanyakan: apakah seseorang memiliki cara yang koheren untuk mendekati / memikirkan masalah ini? Dan adakah sumber daya yang bisa Anda sarankan untuk memberikan perawatan yang baik untuk ini?
sumber
Jawaban:
Jelas tergantung pada apa data yang dimaksud dan seberapa banyak yang diketahui atau ingin diambil orang tentang data tersebut. Seperti yang dikatakan @whuber dalam obrolan baru-baru ini , "Di mana hukum fisik terlibat, Anda hampir selalu dapat membuat perkiraan yang masuk akal tentang cara yang tepat untuk memodelkan data." (Saya menduga ini lebih benar darinya daripada saya! Namun, saya harap ini tidak salah diterapkan dari konteks aslinya ...) Dalam kasus yang lebih mirip pembuatan model laten dalam ilmu sosial, sering berguna untuk fokus pada distribusi empiris sebagai cara memahami nuansa fenomena yang kurang dikenal. Agak terlalu mudah untuk menganggap distribusi normal dan menganggap ketidakcocokan dalam bentuk keseluruhan dapat diabaikan, dan cukup spekulatif untuk menganggap pencilan yang keliru sebagai sesuatu yang keliru tanpa lebih banyak pembenaran daripada yang mereka lakukan.
Tentu saja, banyak dari perilaku ini dimotivasi oleh asumsi analisis yang ingin diterapkan. Seringkali pertanyaan yang paling menarik jauh melampaui deskripsi atau klasifikasi distribusi variabel. Ini juga memengaruhi jawaban yang tepat untuk skenario tertentu; mungkin ada alasan (misalnya, kebutuhan daya ) untuk mengasumsikan distribusi normal ketika tidak cocok dengan baik (atau tidak cocok terlalu buruk), karena metode nonparametrik dan kuat tidak sempurna juga. Meskipun demikian, risiko melakukannya biasanya lupa untuk menanyakan pertanyaan menarik yang dapat ditanyakan tentang distribusi variabel tunggal.
Misalnya, pertimbangkan hubungan antara kekayaan dan kebahagiaan: pertanyaan populer yang umumnya ingin ditanyakan orang. Mungkin aman untuk mengasumsikan kekayaan mengikuti distribusi gamma (Salem & Mount, 1974) atau beta umum (Parker, 1999) , tetapi apakah benar-benar aman untuk menganggap bahwa kebahagiaan biasanya terdistribusi? Sungguh, seharusnya tidak perlu mengasumsikan ini sama sekali hanya untuk menjawab pertanyaan awal, tetapi orang kadang-kadang melakukannya, dan kemudian mengabaikan isu-isu penting yang potensial seperti bias respon dan perbedaan budaya. Sebagai contoh, beberapa budaya cenderung memberikan respons yang lebih atau kurang ekstrim (lihat jawaban @ chl tentang analisis faktor kuesioner yang terdiri dari item-item Likert ), dan norma bervariasi berkenaan dengan ekspresi terbuka emosi positif dan negatif (Tucker, Ozer, Lyubomirsky, & Boehm, 2006 ) . Ini dapat meningkatkan pentingnya perbedaan dalam karakteristik distribusi empiris seperti skewness dan kurtosis. Jika saya membandingkan hubungan kekayaan dengan peringkat subjektif kebahagiaan di Rusia, Cina, dan AS, saya mungkin ingin menilai perbedaan kecenderungan kecenderungan peringkat kebahagiaan. Dengan demikian, saya akan ragu untuk menganggap distribusi normal di masing-masing demi ANOVA satu arah (meskipun mungkin cukup kuat untuk pelanggaran) ketika ada alasan untuk mengharapkan distribusi "ekor lebih gemuk" di Cina, distribusi condong positif di Rusia, dan distribusi condong negatif di AS karena berbagai norma yang bergantung pada budaya dan bias respon. Demi uji signifikansi (walaupun saya mungkin lebih suka melaporkan ukuran efek, jujur), saya lebih suka menggunakan metode nonparametrik, dan demi benar-benar memahami kebahagiaan subyektif di setiap populasi secara individual, saya akan lebih baik menggambarkan distribusi secara empiris daripada mencoba untuk mengkategorikannya sebagai beberapa distribusi teoritis sederhana dan mengabaikan atau mengabaikan ketidakcocokan. Itu buang-buang info IMO.
Referensi
- Parker, SC (1999). Beta umum sebagai model untuk distribusi pendapatan. Economics Letters, 62 (2), 197-200.
- Salem, ABZ, & Mount, TD (1974). Model deskriptif distribusi pendapatan yang nyaman: Kepadatan gamma. Econometrica, 42 (6), 1115-1127.
- Tucker, KL, Ozer, DJ, Lyubomirsky, S., & Boehm, JK (2006). Pengujian untuk invariansi pengukuran dalam kepuasan dengan skala hidup: Perbandingan Rusia dan Amerika Utara. Penelitian Indikator Sosial, 78 (2), 341–360. Diperoleh dari http://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdf .
sumber
Saya akan meragukannya. Distribusi normal muncul dari banyak efek aditif independen. Sistem biologis terdiri dari banyak loop umpan balik yang berinteraksi (efek multiplikasi yang saling tergantung). Juga sering ada beberapa negara yang lebih stabil daripada yang lain (yaitu penarik). Jadi beberapa jenis distribusi ekor panjang atau multimoda mungkin akan menggambarkan panjang ekor. Bahkan, distribusi normal mungkin merupakan pilihan standar yang sangat buruk untuk menggambarkan sesuatu yang biologis dan penyalahgunaannya bertanggung jawab atas banyak "pencilan" yang dilaporkan dalam literatur itu. Prevalensi distribusi ini di alam adalah mitos dan tidak hanya dalam pengertian "lingkaran sempurna tidak benar-benar ada". Namun tidak berarti bahwa mean dan sd tidak berguna sebagai ringkasan statistik.
Distribusi empiris yang pas memberikan petunjuk pada proses yang mendasarinya, yang memfasilitasi pengembangan distribusi teoritis. Kemudian distribusi teoritis dibandingkan dengan distribusi empiris untuk menguji bukti teori.
Jika tujuan Anda menilai probabilitas hasil tertentu berdasarkan bukti saat ini yang tersedia dan Anda tidak punya alasan untuk memilih distribusi tertentu, saya kira saya tidak melihat bagaimana membuat asumsi tambahan bisa membantu. Alih-alih tampaknya membingungkan masalah.
Namun, jika Anda mencoba untuk mendeskripsikan atau meringkas data, mungkin masuk akal untuk menyesuaikan distribusi.
sumber
Panjang ekor tentu tidak terdistribusi normal.
Distribusi normal memiliki probabilitas nol untuk mengambil nilai negatif; panjang ekor tidak.
Garis terkenal George Box , " semua model salah, tetapi ada yang berguna " membuat titik agak baik. Kasus-kasus di mana kita mungkin secara wajar menyatakan normalitas (bukan hanya perkiraan normalitas) memang sangat jarang, hampir makhluk legenda, fatamorgana kadang-kadang hampir sekilas keluar dari sudut mata.
Dalam kasus di mana jumlah yang Anda minati tidak terlalu sensitif terhadap pilihan (selama fitur luas dari distribusi konsisten dengan apa yang diketahui), maka ya, Anda bisa menggunakan sesuatu yang cocok dengan cukup baik.
Dalam kasus di mana ada tingkat sensitivitas yang lebih besar, 'hanya menggunakan sesuatu yang sesuai' tidak cukup sendiri. Kami mungkin menggunakan beberapa pendekatan yang tidak membuat asumsi tertentu (mungkin prosedur bebas distribusi, seperti permutasi, bootstrap atau pendekatan resampling lainnya, atau prosedur yang kuat). Atau kita dapat mengukur sensitivitas terhadap asumsi distribusi, seperti melalui simulasi (memang saya pikir ini umumnya ide yang baik).
Saya tidak akan menggambarkan bahwa sebagai masalah - mendasarkan kesimpulan pada distribusi empiris tentu saja pendekatan yang sah cocok untuk berbagai jenis masalah (permutasi / pengacakan dan bootstrap adalah dua contoh).
secara luas, dalam banyak kasus, saya cenderung mempertimbangkan pertanyaan seperti:
1) Apa yang saya mengerti * tentang bagaimana cara (atau jumlah tipe lokasi lainnya) berperilaku untuk data dari formulir ini?
* (apakah dari teori, atau pengalaman dari bentuk data ini, atau saran ahli, atau jika perlu, dari data itu sendiri, meskipun itu membawa masalah yang harus dihadapi)
2) Bagaimana dengan penyebaran (varian, IQR, dll) - bagaimana cara kerjanya?
3) Bagaimana dengan fitur distribusi lainnya (batas, kemiringan, kelonggaran, dll)
4) Bagaimana dengan ketergantungan, heterogenitas populasi, kecenderungan nilai yang kadang sangat berbeda, dll
Pertimbangan semacam ini mungkin memandu pilihan antara model normal, GLM, beberapa model lain atau beberapa pendekatan yang kuat atau bebas distribusi (seperti pendekatan bootstrap atau permutasi / pengacakan, termasuk prosedur berbasis peringkat)
sumber