Bisakah saya menguji validitas data yang diberikan sebelumnya?

10

Masalah

Saya menulis fungsi R yang melakukan analisis Bayesian untuk memperkirakan kepadatan posterior yang diberikan informasi sebelumnya dan data. Saya ingin fungsi mengirim peringatan jika pengguna perlu mempertimbangkan kembali sebelumnya.

Dalam pertanyaan ini, saya tertarik mempelajari cara mengevaluasi pendahuluan. Pertanyaan-pertanyaan sebelumnya telah membahas mekanisme menyatakan prior informasi (di sini dan di sini .)

Kasus-kasus berikut mungkin mengharuskan yang sebelumnya dievaluasi kembali:

  • data merupakan kasus ekstrem yang tidak diperhitungkan saat menyatakan sebelumnya
  • kesalahan dalam data (mis. jika data dalam satuan g ketika prior dalam kg)
  • prior yang salah dipilih dari serangkaian prior yang tersedia karena bug dalam kode

Dalam kasus pertama, prior biasanya masih cukup menyebar sehingga data umumnya akan membanjiri mereka kecuali nilai data berada dalam kisaran yang tidak didukung (mis. <0 untuk logN atau Gamma). Kasus lainnya adalah bug atau kesalahan.

Pertanyaan

  1. Apakah ada masalah tentang validitas menggunakan data untuk mengevaluasi prior?
  2. apakah ada tes khusus yang paling cocok untuk masalah ini?

Contohnya

logN(0,1)N(0,5)N(8,0.5)

Data biru bisa menjadi kombinasi + data sebelumnya yang valid sedangkan data merah akan membutuhkan distribusi sebelumnya yang didukung untuk nilai negatif.

masukkan deskripsi gambar di sini

 set.seed(1)
 x<- seq(0.01,15,by=0.1)
 plot(x, dlnorm(x), type = 'l', xlim = c(-15,15),xlab='',ylab='')
 points(rnorm(50,0,5),jitter(rep(0,50),factor =0.2), cex = 0.3, col = 'red')
 points(rnorm(50,8,0.5),jitter(rep(0,50),factor =0.4), cex = 0.3, col = 'blue')
David LeBauer
sumber

Jawaban:

4

Anda harus jelas apa yang Anda maksud dengan "prior". Misalnya, jika Anda tertarik pada keyakinan saya sebelumnya tentang harapan hidup di Inggris, itu tidak mungkin salah. Itu keyakinan saya! Mungkin tidak konsisten dengan data yang diamati, tapi itu masalah lain sepenuhnya.

Konteks juga penting. Misalnya, misalkan kita tertarik pada populasi sesuatu. Sebelumnya saya menyatakan bahwa jumlah ini harus benar-benar non-negatif. Namun data telah diamati dengan kesalahan dan kami memiliki pengukuran negatif. Dalam hal ini, prior tidak valid, itu hanya prior untuk proses laten.

Untuk menjawab pertanyaan Anda,

  1. Apakah ada masalah tentang validitas menggunakan data untuk mengevaluasi prior?

Seorang purist berpendapat bahwa Anda sebaiknya tidak menggunakan data dua kali. Namun, orang pragmatis hanya akan membantah bahwa Anda tidak cukup memikirkan sebelumnya.

2 Apakah ada tes khusus yang paling cocok untuk masalah ini?

Ini sangat tergantung pada model yang dipertimbangkan. Saya kira paling dasar Anda bisa membandingkan rentang sebelumnya dengan rentang data.

csgillespie
sumber
3

Di sini dua sen saya:

  1. Saya pikir Anda harus khawatir tentang parameter over sebelum yang terkait dengan rasio.

  2. Anda berbicara tentang sebelumnya yang informatif, tetapi saya pikir Anda harus memperingatkan pengguna tentang apa yang sebelumnya tidak masuk akal dan masuk akal. Maksudku, kadang-kadang normal dengan nol rata-rata dan 100 varian cukup tidak informatif dan kadang-kadang informatif, tergantung dari skala yang digunakan. Misalnya, jika Anda mengalami kemunduran upah pada ketinggian (sentimeter) dari sebelumnya di atas cukup informatif. Namun, jika Anda melakukan regresi upah log pada ketinggian (meter), maka sebelum di atas tidak informatif.

  3. Jika Anda menggunakan prior yang merupakan hasil dari analisis sebelumnya, yaitu, prior baru sebenarnya adalah posteriori lama dari analisis sebelumnya, maka semuanya berbeda. Saya berasumsi ini adalah catatan kasusnya.

Manoel Galdino
sumber
bisakah Anda menjelaskan poin 1? re: point 2, Seperti disebutkan dalam OP, saya tidak begitu tertarik dengan pertanyaan ini tentang bagaimana mengatur yang sebelumnya; Poin 3: banyak prior yang diinformasikan berasal dari analisis data yang tersedia (menyesuaikan distribusi yang sesuai dengan data) sedangkan yang lain didasarkan pada pengetahuan ahli (ini umumnya kurang dibatasi).
David LeBauer
Asumsikan Anda memasang model seperti: y ~ a + b * x / z. Jika tidak ada batasan pada nilai-nilai Z (jika mereka bisa positif atau negatif), maka sulit untuk mengetahui apa yang diharapkan dari sinyal dari b. Apalagi, jika Z bisa mendekati nol, maka b bisa terlalu rendah atau terlalu besar. Ini bisa membuat alasan Anda sebelumnya tidak masuk akal. Lihat entri ini di blog Gelman: stat.columbia.edu/~cook/movabletype/archives/2011/06/…
Manoel Galdino
# 3: Seperti yang ditunjukkan, berhati-hatilah dalam menggunakan data dua kali. Pada kurus adalah model hierarkis, misalnya, dan yang lain adalah untuk memilih sebelum yang sesuai dengan kemungkinan. Di kemudian hari, saya akan membahas analisis semacam itu. Saya melihat pilihan lebih dulu sebagai alat regularisasi.
Manoel Galdino