Memilih prior berdasarkan kesalahan pengukuran

9

Bagaimana Anda menghitung yang sesuai sebelumnya jika Anda memiliki kesalahan pengukuran instrumen? Paragraf ini dari buku Cressie "Statistics for Spatio-Temporal Data":

Seringkali kasus bahwa beberapa informasi sebelumnya tersedia mengenai varians pengukuran-kesalahan, memungkinkan model parameter yang cukup informatif untuk ditentukan. Sebagai contoh, jika kita mengasumsikan kesalahan pengukuran independen bersyarat yang iid , maka kita harus menentukan sebelum informatif untuk . Mengatakan kami tertarik suhu udara ambien, dan kami melihat bahwa spesifikasi pabrik instrumen menunjukkan “kesalahan” dari . Dengan asumsi bahwa "kesalahan" ini sesuai dengan 2 standar deviasi (asumsi yang harus diperiksa!), Kita kemudian dapat menetapkan untuk memiliki rata-rata sebelumnyaσ 2 ϵGau(0,σϵ2)σϵ2±0.1°Cσϵ2(0.1/2)2=0.0025. Karena spesifikasi produsen instrumen, kami akan menganggap distribusi yang memiliki puncak yang jelas dan cukup sempit pada 0,0025 (misalnya, gamma terbalik). Bahkan, kami bisa memperbaiki di 0,0025; namun, kesalahan model-data mungkin juga memiliki komponen ketidakpastian lainnya (Bagian 7.1). Untuk menghindari kemungkinan masalah pengidentifikasian dengan kesalahan proses-model, sangat penting bahwa pemodel mengurangi ketidakpastian sebanyak yang dimungkinkan oleh Sains, termasuk melakukan studi samping yang dirancang untuk memiliki data yang direplikasi.

Adakah yang tahu apa prosedur umum untuk mendapatkan nilai-nilai prior seperti dijelaskan di atas (meskipun paragraf hanya merujuk pada memperoleh mean sebelumnya)?

Robert Smith
sumber

Jawaban:

6

Dua metode standar adalah

  1. Konsultasikan "spesifikasi pembuat instrumen," seperti yang ditunjukkan dalam kutipan. Ini biasanya merupakan langkah mundur mentah yang akan digunakan ketika tidak ada informasi lain yang tersedia, karena (a) apa yang sesungguhnya dimaksud oleh pembuat instrumen dengan "akurasi" dan "presisi" sering tak tentu dan (b) bagaimana instrumen merespons ketika baru masuk sebuah lab uji kemungkinan jauh lebih baik daripada yang dilakukannya ketika digunakan di lapangan.

  2. Kumpulkan sampel replikat. Dalam pengambilan sampel lingkungan ada sekitar setengah lusin tingkat di mana sampel direplikasi secara rutin (dan banyak lagi di mana mereka dapat direplikasi), dengan masing-masing tingkat digunakan untuk mengendalikan sumber variasi yang ditugaskan. Sumber-sumber tersebut dapat meliputi:

    • Identitas orang yang mengambil sampel.
    • Prosedur awal, seperti sumur bailing, diambil sebelum mendapatkan sampel.
    • Variabilitas dalam proses pengambilan sampel fisik.
    • Heterogenitas dalam volume sampel itu sendiri.
    • Perubahan yang mungkin terjadi saat menyimpan dan mengirim sampel ke laboratorium.
    • Variasi dalam prosedur laboratorium pendahuluan, seperti menyeragamkan sampel fisik atau mencernanya untuk dianalisis.
    • Identifikasi analis laboratorium.
    • Perbedaan antar laboratorium.
    • Perbedaan antara instrumen yang berbeda secara fisik, seperti dua kromatografi gas.
    • Melayang dalam kalibrasi instrumen dari waktu ke waktu.
    • Variasi diurnal. (Ini mungkin alami dan sistematis tetapi dapat tampak acak ketika waktu pengambilan sampel sewenang-wenang.)

Penilaian kuantitatif penuh komponen variabilitas hanya dapat diperoleh dengan memvariasikan secara sistematis masing-masing faktor ini sesuai dengan desain eksperimental yang sesuai.

Biasanya hanya sumber yang diyakini berkontribusi paling variabilitas dipelajari. Sebagai contoh, banyak penelitian akan secara sistematis membagi sebagian sampel setelah mereka diperoleh dan mengirimkannya ke dua laboratorium yang berbeda. Sebuah studi tentang perbedaan antara hasil pemisahan tersebut dapat mengukur kontribusi mereka terhadap variabilitas pengukuran. Jika cukup pemisahan seperti itu diperoleh, distribusi penuh variabilitas pengukuran dapat diperkirakan sebagai sebelumnya dalam model spatio-temporal Bayesian hirarkis. Karena banyak model dengan asumsi distribusi Gaussian (untuk setiap perhitungan), memperoleh Gaussian sebelum akhirnya datang untuk memperkirakan rata-rata dan varians perbedaan antara perbedaan. Dalam penelitian yang lebih rumit, yang bertujuan untuk mengidentifikasi lebih dari satu komponen varian,

Salah satu manfaat dari berpikir tentang masalah-masalah ini adalah bahwa mereka membantu Anda mengidentifikasi cara untuk mengurangi atau bahkan menghilangkan beberapa komponen kesalahan ini (tanpa harus mengukurnya), sehingga semakin mendekati ideal Cressie & Wikle tentang "mengurangi ketidakpastian" sebanyak yang dimungkinkan oleh sains. "

Untuk contoh pekerjaan yang diperluas (dalam pengambilan sampel tanah), lihat

Van Ee, Blume, dan Starks, A Rationale untuk Penilaian Kesalahan dalam Sampling Tanah. US EPA, Mei 1990: EPA / 600 / 4-90 / 013.

whuber
sumber
2
Masalahnya di sini, Robert, adalah bahwa kadang-kadang seseorang akan melaporkan standar deviasi untuk estimasi; lain kali mereka akan melaporkan dua kali lipat (di mana pembagiannya menjadi dua) atau interval kepercayaan dua sisi; dan terkadang bahkan sesuatu yang lain; jadi tidak ada aturan pasti untuk mengubah pernyataan akurasi dan presisi menjadi prior: Anda harus membaca catatan kaki dan detail teknis lainnya untuk mencari tahu dengan tepat apa yang angka-angkanya wakili. Kesalahan standar estimasi, sebagai fungsi dari ukuran sampel yang digunakan, tidak relevan untuk tujuan ini BTW.
whuber
1
Oke. Biarkan saya mengubah fokus ke kasus kedua Anda. Jika saya mengulangi percobaan beberapa kali dan mendapatkan pengukuran dan , bagaimana saya bisa menggunakan informasi ini untuk menginformasikan mean dan varians untuk distribusi sebelumnya? Anda menyarankan sesuatu seperti untuk beberapa pemisahan, bukan? Oleh karena itu, saya memiliki rata-rata kesalahan pengukuran dan contoh standar deviasi . Apakah itu cukup untuk memasukkannya dalam ? m 2 m 1 - m 2 m ϵ σ ϵ N ( m ϵ , σ 2 ϵ )m1m2m1m2mϵσϵN(mϵ,σϵ2)
Robert Smith
1
Anda tidak dapat menilai akurasi dengan pemisahan: untuk itu, Anda perlu mengukur sampel dari nilai yang diketahui. ( Paku laboratorium dan duplikat berduri digunakan untuk ini.) Itu akan menentukan rata-rata. Biasanya ini ditangani ketika mengkalibrasi proses pengukuran, sehingga rerata diambil menjadi nol. Varians diperkirakan dengan rumus ANOVA biasa. Anda dapat menggunakannya untuk menentukan prior pada komponen yang sesuai dari sistem pengukuran.
whuber
2
Tidak demikian: Referensi yang saya berikan adalah panduan EPA AS yang telah ada selama seperempat abad dan banyak panduan lebih baru dibangun berdasarkan ide-idenya. Saya pernah menggunakan pendekatan ini dalam kasus pengadilan federal untuk mengevaluasi efek kesalahan pengukuran pada garis kontur yang ditarik (berdasarkan prediksi geostatistik) untuk menggambarkan bulu-bulu kontaminan: kesalahan pengukuran lebih besar daripada konsentrasi yang digunakan untuk mengikat bulu-bulu! (Dengan kata lain, ketidakpastian dalam penggambaran bulu pada dasarnya tidak terbatas.)
whuber
1
Benar-benar bagus. Ngomong-ngomong, saya bermaksud mengatakan bahwa prior biasanya ditetapkan tanpa banyak peduli. Saya telah melihat ini lebih menonjol dalam pemodelan Bayesian dan pembelajaran mesin mungkin karena tebakan sering cukup untuk menghasilkan hasil yang layak.
Robert Smith