Pertanyaan ini terinspirasi oleh dua interaksi terakhir yang saya miliki, satu di sini di CV , yang lain di economics.se.
Di sana, saya telah mengirimkan jawaban ke terkenal "Envelope Paradox" (pikiran Anda, bukan sebagai yang "jawaban yang benar" tetapi sebagai jawaban mengalir dari asumsi tertentu tentang struktur situasi). Setelah beberapa waktu pengguna memposting komentar kritis, dan saya terlibat dalam percakapan mencoba memahami maksudnya. Jelas bahwa dia memikirkan cara Bayesian, dan terus berbicara tentang prior - dan kemudian saya sadar, dan saya berkata pada diri saya sendiri: "Tunggu sebentar, siapa yang mengatakan sesuatu tentang sebelumnya? Dengan cara saya merumuskan masalah, tidak ada prior di sini, mereka hanya tidak masuk gambar, dan tidak perlu ".
Baru-baru ini, saya melihat jawaban ini di sini, di CV, tentang arti Kemandirian Statistik. Saya berkomentar kepada penulis bahwa hukumannya
"... jika peristiwa secara statistik independen maka (menurut definisi) kita tidak dapat belajar tentang satu dari mengamati yang lain."
itu salah besar. Dalam pertukaran komentar, ia terus kembali ke masalah (kata-katanya)
"Bukankah" belajar "berarti mengubah kepercayaan kita tentang sesuatu berdasarkan pengamatan orang lain? Jika demikian, bukankah kemerdekaan (secara definitif) menghalangi hal ini?
Sekali lagi, jelas bahwa dia memikirkan cara Bayesian, dan dia menganggap jelas bahwa kita mulai dengan beberapa kepercayaan (yaitu yang sebelumnya) , dan kemudian masalahnya adalah bagaimana kita dapat mengubah / memperbaruinya. Tapi bagaimana keyakinan pertama-pertama diciptakan?
Karena sains harus sesuai dengan kenyataan, saya perhatikan bahwa situasi ada ketika manusia yang terlibat tidak memiliki prior (saya, untuk satu hal, berjalan ke situasi tanpa ada sebelumnya sepanjang waktu - dan tolong jangan membantah bahwa saya memiliki prior tetapi saya hanya tidak menyadarinya, mari kita lupakan psikoanalisis palsu di sini).
Karena saya telah mendengar istilah "prior tidak informatif", saya memecahkan pertanyaan saya menjadi dua bagian, dan saya cukup yakin bahwa pengguna di sini yang memahami teori Bayesian, tahu persis apa yang akan saya tanyakan:
T1: Apakah tidak adanya sebelumnya yang setara (dalam pengertian teoritis yang ketat) untuk memiliki sebelumnya yang tidak informatif?
Jika jawaban untuk Q1 adalah "Ya" (dengan beberapa penjelasan tolong), maka itu berarti bahwa pendekatan Bayesian berlaku secara universal dan sejak awal , karena dalam hal apa pun manusia yang terlibat menyatakan "Saya tidak punya prior" kita dapat menambahkan dalam ini menempatkan prior yang tidak informatif untuk kasus yang dihadapi.
Tetapi jika jawaban untuk Q1 adalah "Tidak", maka Q2 datang:
T2: Jika jawaban untuk Q1 adalah "Tidak", apakah ini berarti bahwa, dalam kasus di mana tidak ada prior, pendekatan Bayesian tidak berlaku dari awal, dan kita harus terlebih dahulu membentuk prior dengan cara non-Bayesian, sehingga kita selanjutnya dapat menerapkan pendekatan Bayesian?
sumber
Jawaban:
T1: Apakah tidak adanya sebelumnya yang setara (dalam pengertian teoritis yang ketat) untuk memiliki sebelumnya yang tidak informatif?
Tidak.
Pertama, tidak ada definisi matematis untuk "prior uninformative". Kata ini hanya digunakan secara informal untuk menggambarkan beberapa prior.
Misalnya, prior Jeffrey sering disebut "tidak informatif". Ini sebelum menggeneralisasi seragam sebelum untuk masalah invarian terjemahan. Entah bagaimana Jeffrey sebelumnya beradaptasi dengan geometri Riemannian (teoritik informasi) model dan dengan demikian tidak tergantung pada parametrization, hanya bergantung pada geometri manifold (dalam ruang distribusi) yang merupakan model. Mungkin dianggap sebagai kanonik, tetapi itu hanya pilihan. Itu hanya seragam sebelumnya sesuai dengan struktur Riemannian. Bukanlah tidak masuk akal untuk mendefinisikan "uninformative = uniform" sebagai penyederhanaan pertanyaan. Ini berlaku untuk banyak kasus dan membantu untuk mengajukan pertanyaan yang jelas dan sederhana.
Melakukan inferensi Bayesian tanpa prior adalah seperti "bagaimana saya bisa menebak tanpa asumsi tentang distribusi X hanya mengetahui bahwa X memiliki nilai dalam [ 0 ; 1 ] ?" Pertanyaan ini jelas tidak masuk akal. Jika Anda menjawab 0,5, Anda mungkin memiliki distribusi dalam pikiran.E(X) X X [0;1]
Pendekatan Bayesian dan frequentist hanya menjawab pertanyaan yang berbeda. Misalnya, tentang penaksir yang mungkin paling sederhana:
Frequentist (misalnya): "Bagaimana saya bisa memperkirakan sehingga jawaban saya memiliki kesalahan terkecil (hanya rata-rata lebih dari x ) dalam kasus terburuk (lebih dari θ )?". Ini mengarah ke penaksir minimum.θ x θ
Entah bagaimana, frequentist bertujuan untuk mengontrol kasus terburuk dan tidak perlu sebelumnya. Bayesian bertujuan untuk mengendalikan rata-rata dan memerlukan sebelumnya untuk mengatakan "rata-rata dalam arti apa?".
T2: Jika jawaban untuk Q1 adalah "Tidak", apakah ini berarti bahwa, dalam kasus di mana tidak ada prior, pendekatan Bayesian tidak berlaku dari awal, dan kita harus terlebih dahulu membentuk prior dengan cara non-Bayesian, sehingga kita selanjutnya dapat menerapkan pendekatan Bayesian?
Iya.
Masalah sebenarnya dengan spesifikasi sebelumnya terjadi pada masalah yang lebih rumit menurut saya. Yang penting di sini adalah memahami apa yang dikatakan oleh seorang pendahulu.
sumber
Pertama-tama, pendekatan Bayesian sering digunakan karena Anda ingin memasukkan pengetahuan sebelumnya dalam model Anda untuk memperkaya itu. Jika Anda tidak memiliki pengetahuan sebelumnya, maka Anda tetap berpegang pada apa yang disebut sebagai "informasi kurang informatif" atau informasi mingguan. Perhatikan bahwa prior uniform bukanlah definisi "tidak informatif", karena asumsi tentang keseragaman adalah asumsi. Tidak ada yang namanya sebelumnya benar-benar tidak informatif. Ada kasus di mana "itu bisa menjadi apa saja" adalah asumsi "masuk akal" yang masuk akal, tetapi ada juga kasus di mana menyatakan bahwa "semua nilai sama kemungkinannya" adalah asumsi yang sangat kuat dan tidak masuk akal. Misalnya, jika Anda berasumsi bahwa tinggi badan saya bisa berkisar antara 0 sentimeter dan 3 meter, dengan semua nilai sama-sama kemungkinan apriori, ini tidak akan menjadi asumsi yang masuk akal dan itu akan memberi terlalu banyak bobot pada nilai ekstrem, sehingga mungkin bisa merusak posterior Anda.
Di sisi lain, Bayesian berpendapat bahwa sebenarnya tidak ada situasi di mana Anda tidak memiliki pengetahuan atau kepercayaan sebelumnya. Anda selalu dapat mengasumsikan sesuatu dan sebagai manusia, Anda melakukannya setiap saat (psikolog dan ekonom perilaku membuat banyak penelitian tentang topik ini). Seluruh keributan Bayesian dengan para prior adalah tentang mengukur prakonsepsi tersebut dan menyatakannya secara eksplisit dalam model Anda, karena inferensi Bayesian adalah tentang memperbarui kepercayaan Anda .
Sangat mudah untuk mengajukan argumen "tidak ada asumsi sebelumnya", atau prior uniform, untuk masalah abstrak, tetapi untuk masalah kehidupan nyata Anda akan memiliki pengetahuan sebelumnya. Jika Anda perlu bertaruh tentang jumlah uang dalam amplop, Anda akan tahu bahwa jumlahnya harus non-negatif dan terbatas. Anda juga bisa membuat perkiraan berpendidikan tentang batas atas untuk jumlah uang yang mungkin diberikan pengetahuan Anda tentang aturan kontes, dana yang tersedia untuk musuh Anda, pengetahuan tentang ukuran fisik amplop dan jumlah uang yang secara fisik dapat ditampung di dalamnya, dll. Anda juga bisa membuat tebakan tentang jumlah uang yang bisa ditaruh musuh Anda di dalam amplop dan mungkin longgar. Ada banyak hal yang akan Anda ketahui sebagai dasar untuk pendahulunya.
sumber
pertanyaan 1 Saya pikir jawabannya mungkin tidak. Alasan saya adalah kita tidak benar-benar memiliki definisi untuk "tidak informatif" kecuali entah bagaimana mengukur seberapa jauh jawaban akhir dari beberapa model / kemungkinan informasi yang sewenang-wenang. Banyak prior uninformative divalidasi terhadap contoh "intuitif" di mana kita sudah memiliki "model / kemungkinan" dan "jawabannya" dalam pikiran. Kami kemudian meminta informasi sebelum memberikan kami jawaban yang kami inginkan.
Masalah saya dengan hal ini adalah saya berjuang untuk percaya bahwa seseorang dapat memiliki model atau struktur model yang benar-benar baik untuk populasi mereka, dan secara bersamaan memiliki "tidak ada informasi" tentang nilai parameter yang mungkin dan tidak mungkin untuk model itu. Misalnya menggunakan regresi logistik, lihat "DISTRIBUSI SEBELUM INFORMATIF INFORMATIF. UNTUK MODEL REGRESI LOGISTIK DAN LAINNYA"
Saya pikir seragam diskrit sebelumnya adalah satu-satunya yang bisa kita katakan adalah "pertama-pertama" sebelumnya. Tetapi Anda mengalami masalah dalam menggunakannya, mengira Anda tidak memiliki "informasi", tetapi kemudian tiba-tiba bereaksi terhadap jawaban "tidak intuitif" (petunjuk: jika Anda tidak menyukai jawaban bayesian - Anda mungkin meninggalkan informasi sebelumnya atau kemungkinan!). Masalah lain yang Anda hadapi adalah mendapatkan diskresi yang tepat untuk masalah Anda. Dan bahkan memikirkan hal ini, Anda perlu mengetahui jumlah nilai diskrit untuk menerapkan seragam diskrit sebelumnya.
Properti lain yang perlu dipertimbangkan untuk prioritas Anda adalah "perilaku ekor" relatif terhadap kemungkinan yang Anda gunakan.
ke pertanyaan 2
Secara konseptual, saya tidak melihat ada yang salah dengan menentukan distribusi tanpa menggunakan sebelum atau kemungkinan. Anda dapat memulai masalah dengan mengatakan "pdf saya adalah ... dan saya ingin menghitung ... wrt pdf ini". Kemudian Anda membuat batasan untuk sebelumnya, prediksi sebelumnya, dan kemungkinan. Metode bayesian adalah untuk ketika Anda memiliki sebelum dan kemungkinan, dan Anda ingin menggabungkan mereka ke dalam distribusi posterior.
Mungkin masalah menjadi jelas tentang apa probabilitas Anda. Kemudian argumen beralih ke "apakah pdf / pmf ini mewakili apa yang saya katakan mewakili?" - yang merupakan ruang yang Anda inginkan di saya pikir. Dari contoh Anda, Anda mengatakan distribusi tunggal mencerminkan semua informasi yang tersedia - tidak ada "sebelum" karena sudah terkandung (secara implisit) dalam distribusi yang Anda gunakan.
pada apa yang disebut komentar yang salah terang-terangan
Sejujurnya, saya akan sangat tertarik untuk melihat bagaimana numbet pengamatan dapat digunakan untuk memprediksi pengamatan "independen secara statistik". Sebagai contoh, jika saya katakan saya akan menghasilkan 100 variabel normal standar. Saya memberi Anda 99, dan membuat Anda memberi saya prediksi terbaik Anda untuk yang ke-100. Saya katakan Anda tidak bisa membuat prediksi yang lebih baik untuk yang ke-100 daripada 0. Tapi ini sama dengan yang Anda prediksi untuk yang ke-100 jika saya tidak memberi Anda data. Karenanya Anda tidak belajar apa pun dari 99 poin data.
Namun, jika saya memberi tahu Anda bahwa itu "beberapa distribusi normal", Anda dapat menggunakan 99 titik data untuk memperkirakan parameter. Maka data sekarang tidak lagi "independen secara statistik", karena kita belajar lebih banyak tentang struktur umum saat kita mengamati lebih banyak data. Prediksi terbaik Anda sekarang menggunakan semua 99 poin data
sumber
Ini hanya komentar singkat sebagai tambahan untuk jawaban bagus lainnya. Seringkali, atau setidaknya kadang-kadang, agak sewenang-wenang (atau konvensional) bagian mana dari informasi yang memasukkan analisis statistik disebut data dan bagian mana yang disebut sebelumnya . Atau, secara lebih umum, kita dapat mengatakan bahwa informasi dalam analisis statistik berasal dari tiga sumber: model , data , dan sebelumnya . Dalam beberapa kasus, seperti model linier atau glm, pemisahannya cukup jelas, setidaknya secara konvensional.
Saya akan menggunakan kembali contoh dari Estimasi Kemungkinan Maksimum (MLE) dalam istilah awam untuk menggambarkan poin saya. Katakanlah seorang pasien memasuki kantor dokter, dengan beberapa masalah medis yang ternyata sulit didiagnosis. Dokter ini belum pernah melihat sesuatu yang sangat mirip sebelumnya. Kemudian, berbicara dengan pasien itu muncul beberapa informasi baru: pasien ini mengunjungi Afrika tropis baru-baru ini. Kemudian tampak oleh dokter bahwa ini bisa malaria atau penyakit tropis lainnya. Tetapi perhatikan, bahwa informasi ini jelas bagi kami data, tetapi setidaknya dalam banyak model statistik yang dapat digunakan, itu akan memasukkan analisis dalam bentuk distribusi sebelumnya, distribusi sebelumnya memberikan probabilitas lebih tinggi untuk beberapa penyakit tropis. Tapi kita bisa, mungkin, membuat beberapa model (lebih besar), lebih lengkap, di mana informasi ini dimasukkan sebagai data. Jadi, setidaknya sebagian, data pembedaan / sebelumnya adalah konvensional.
Kami terbiasa, dan menerima, konvensi ini karena penekanan kami pada beberapa kelas model konvensional. Tetapi, dalam skema yang lebih besar, di luar dunia model statistik bergaya, situasinya kurang jelas.
sumber