Katakanlah Anda memiliki seperangkat nilai, dan Anda ingin tahu apakah lebih besar kemungkinannya diambil sampelnya dari distribusi Gaussian (normal) atau sampel dari distribusi lognormal?
Tentu saja, idealnya Anda akan tahu sesuatu tentang populasi atau tentang sumber kesalahan eksperimental, sehingga akan memiliki informasi tambahan yang berguna untuk menjawab pertanyaan. Tapi di sini, anggaplah kita hanya memiliki satu set angka dan tidak ada informasi lain. Mana yang lebih mungkin: pengambilan sampel dari Gaussian atau pengambilan sampel dari distribusi lognormal? Berapa besar kemungkinannya? Apa yang saya harapkan adalah algoritma untuk memilih antara dua model, dan mudah-mudahan menghitung kemungkinan masing-masing model.
normal-distribution
lognormal
Harvey Motulsky
sumber
sumber
Jawaban:
Anda dapat mengambil tebakan terbaik pada tipe distribusi dengan memasang setiap distribusi (normal atau lognormal) ke data dengan kemungkinan maksimum, kemudian membandingkan kemungkinan log di setiap model - model dengan kemungkinan log tertinggi yang paling cocok. Misalnya, dalam R:
Sekarang hasilkan angka dari distribusi normal dan paskan distribusi normal dengan ML:
Menghasilkan:
Bandingkan kemungkinan log untuk ML fit dari distribusi normal dan lognormal:
Coba dengan distribusi lognormal:
Tugas tidak akan sempurna, tergantung pada n, mean dan sd:
sumber
p(X|\theta)
). Kami tidak mengubah data. Kami mencetak distribusi dengan probabilitas mengamati data tertinggi. Pendekatan ini sah tetapi memiliki kelemahan bahwa kita tidak menyimpulkan probabilitas model yang diberikan datap(M|X)
, yaitu probabilitas bahwa data berasal dari distribusi normal vs lognormal (misalnya p (normal) = 0,1, p (lognormal) = 0,9) tidak seperti pendekatan Bayesian.Bagian yang sulit adalah mendapatkan kemungkinan marjinal ,
Contoh:
Menurut Murphy (2007) (Persamaan 203), kemungkinan marginal dari distribusi normal kemudian diberikan oleh
Saya menggunakan hyperparameters yang sama untuk distribusi log-normal,
posterior berperilaku seperti ini:
Ketika menerapkan persamaan, itu akan menjadi ide yang baik untuk bekerja dengan kepadatan log, bukan kepadatan. Tetapi sebaliknya itu harus lurus ke depan. Berikut adalah kode yang saya gunakan untuk membuat plot:
https://gist.github.com/lucastheis/6094631
sumber
Sepertinya Anda mencari sesuatu yang cukup pragmatis untuk membantu analis yang mungkin bukan ahli statistik profesional dan membutuhkan sesuatu untuk mendorong mereka melakukan apa yang seharusnya menjadi teknik eksplorasi standar seperti melihat plot qq, plot kepadatan, dll.
Dalam hal ini mengapa tidak hanya melakukan tes normalitas (Shapiro-Wilk atau apa pun) pada data asli, dan satu pada log mengubah data, dan jika nilai p kedua lebih tinggi menaikkan bendera untuk analis untuk mempertimbangkan menggunakan log transformasi ? Sebagai bonus, keluarkan grafik 2 x 2 dari plot garis kerapatan dan plot qqnorm dari data mentah dan yang diubah.
Ini tidak akan secara teknis menjawab pertanyaan Anda tentang kemungkinan relatif tetapi saya ingin tahu apakah itu yang Anda butuhkan.
sumber