Suntingan: Saya telah menambahkan contoh sederhana: inferensi rata-rata . Saya juga sedikit mengklarifikasi mengapa interval kredibel tidak cocok dengan interval kepercayaan buruk.
Saya, seorang Bayesian yang cukup taat, berada di tengah krisis kepercayaan.
Masalah saya adalah sebagai berikut. Asumsikan bahwa saya ingin menganalisis beberapa data IID . Apa yang akan saya lakukan adalah:
pertama, usulkan model kondisional:
Kemudian, pilih sebelum pada :
Akhirnya, terapkan aturan Bayes, hitung posterior: (atau beberapa perkiraan untuk itu jika tidak dapat dihitung) dan jawab semua pertanyaan yang saya miliki tentang
Ini adalah pendekatan yang masuk akal: jika model sebenarnya dari data memang "di dalam" dari kondisi saya (itu sesuai dengan beberapa nilai ), maka saya dapat meminta teori keputusan statistik untuk mengatakan bahwa metode saya dapat diterima (lihat Robert's "Pilihan Bayesian" untuk detail; "Semua statistik" juga memberikan akun yang jelas dalam bab yang relevan).
Namun, seperti yang diketahui semua orang, dengan menganggap bahwa model saya benar adalah cukup sombong: mengapa alam harus dimasukkan dengan rapi ke dalam kotak model yang telah saya pertimbangkan? Jauh lebih realistis untuk mengasumsikan bahwa model nyata dari data berbeda dari untuk semua nilai . Ini biasanya disebut model "salah spesifikasi".
Masalah saya adalah, dalam hal kesalahan spesifikasi yang lebih realistis ini, saya tidak memiliki argumen yang bagus untuk menjadi Bayesian (yaitu: menghitung distribusi posterior) dibandingkan dengan hanya menghitung Pengukur Kemungkinan Maksimum (MLE):
Memang, menurut Kleijn, vd Vaart (2012) , dalam kasus yang tidak ditentukan, distribusi posterior:
konvergen sebagai ke distribusi dirac yang berpusat pada
tidak memiliki varians yang benar (kecuali dua nilai kebetulan sama) untuk memastikan bahwa interval kredibilitas kecocokan posterior kecocokan untuk dapat dipercaya . (Perhatikan bahwa, meskipun interval kepercayaan jelas merupakan sesuatu yang orang Bayesia tidak pedulikan secara berlebihan, ini secara kualitatif berarti bahwa distribusi posterior secara intrinsik salah, karena ini menyiratkan bahwa interval kredibelnya tidak memiliki cakupan yang benar)
Dengan demikian, kami membayar premi komputasi (inferensi Bayesian, secara umum, lebih mahal daripada MLE) tanpa properti tambahan
Jadi, akhirnya, pertanyaan saya : apakah ada argumen, apakah teoretis atau empiris, untuk menggunakan inferensi Bayesian atas alternatif MLE yang lebih sederhana ketika model tersebut tidak ditentukan dengan spesifik?
(Karena saya tahu bahwa pertanyaan saya sering tidak jelas, harap beri tahu saya jika Anda tidak memahami sesuatu: Saya akan mencoba untuk mengulanginya)
Sunting: mari kita pertimbangkan contoh sederhana: menyimpulkan rata-rata bawah model Gaussian (dengan varians yang dikenal untuk menyederhanakan lebih jauh). Kami menganggap Gaussian prior: kami menunjukkan mean sebelumnya, varian terbalik dari prior. Biarkan menjadi rata-rata empiris dari . Akhirnya, perhatikan: .
Distribusi posterior adalah:
Dalam kasus yang ditentukan dengan benar (ketika benar-benar memiliki distribusi Gaussian), posterior ini memiliki properti bagus berikut
Jika dihasilkan dari model hierarkis di mana rata-rata bersama mereka diambil dari distribusi sebelumnya, maka interval kredibel posterior memiliki cakupan yang tepat. Bersyarat pada data, probabilitas berada dalam interval apa pun sama dengan probabilitas bahwa posterior menganggap interval ini.
Bahkan jika prior tidak benar, interval kredibel memiliki cakupan yang benar dalam batas di mana pengaruh sebelumnya pada posterior menghilang
posterior selanjutnya memiliki sifat-sifat frequentist yang baik: setiap estimator Bayesian yang dibangun dari posterior dijamin dapat diterima, mean posterior adalah estimator yang efisien (dalam pengertian Cramer-Rao) dari interval mean, kredibel, asimtotik, interval kepercayaan.
Dalam kasus yang tidak ditentukan secara spesifik, sebagian besar properti ini tidak dijamin oleh teori. Untuk memperbaiki ide, mari kita asumsikan bahwa model nyata untuk adalah bahwa mereka bukan distribusi siswa. Satu-satunya properti yang dapat kami jamin (Kleijn et al) adalah bahwa distribusi posterior berkonsentrasi pada rata-rata yang dalam batas . Secara umum, semua properti cakupan akan hilang. Lebih buruk lagi, secara umum, kami dapat menjamin bahwa, dalam batas itu, properti cakupan pada dasarnya salah: distribusi posterior menganggap probabilitas yang salah untuk berbagai wilayah ruang.
sumber
Jawaban:
Saya menganggap pendekatan Bayesian ketika set data saya bukanlah segala sesuatu yang diketahui tentang subjek, dan ingin entah bagaimana memasukkan pengetahuan eksogen itu ke dalam perkiraan saya.
Misalnya, klien saya menginginkan perkiraan default pinjaman dalam portofolio mereka. Mereka memiliki 100 pinjaman dengan beberapa tahun data historis triwulanan. Ada beberapa kemunculan kenakalan (keterlambatan pembayaran) dan hanya beberapa default. Jika saya mencoba memperkirakan model survival pada set data ini, akan sangat sedikit data untuk diestimasi dan terlalu banyak ketidakpastian untuk diperkirakan.
Di sisi lain, manajer portofolio adalah orang-orang yang berpengalaman, beberapa dari mereka mungkin telah menghabiskan waktu puluhan tahun mengelola hubungan dengan peminjam. Mereka memiliki gagasan tentang bagaimana seharusnya tingkat default. Jadi, mereka mampu menghasilkan prior prial. Catatan, bukan prior yang memiliki sifat matematika bagus dan terlihat menarik secara intelektual bagi saya . Saya akan mengobrol dengan mereka dan menggali pengalaman dan pengetahuan mereka dalam bentuk prior.
Sekarang kerangka kerja Bayesian akan memberi saya mekanika untuk mengawinkan pengetahuan eksogen dalam bentuk prior dengan data, dan mendapatkan posterior yang lebih baik dari penilaian kualitatif murni dan ramalan data murni, menurut pendapat saya. Ini bukan filosofi dan saya bukan orang Bayesian. Saya hanya menggunakan alat Bayesian untuk secara konsisten memasukkan pengetahuan ahli ke dalam estimasi berbasis data.
sumber
Sebuah pertanyaan yang sangat menarik ... yang mungkin tidak memiliki jawaban (tapi itu tidak membuatnya kurang menarik!)
Beberapa pemikiran (dan banyak tautan ke entri blog saya!) Tentang meme yang semua model salah :
sumber
Suntingan: Menambahkan referensi ke makalah ini di badan, seperti yang diminta oleh OP.
Saya memberikan jawaban sebagai Bayesian empiris yang naif di sini.
Pertama, distribusi posterior memungkinkan Anda untuk melakukan perhitungan yang tidak dapat Anda lakukan dengan MLE langsung. Kasus paling sederhana adalah posterior hari ini adalah prioritas hari esok . Bayesian inference secara alami memungkinkan untuk pembaruan berurutan, atau lebih umum secara online atau kombinasi yang tertunda dari berbagai sumber informasi (memasukkan sebelumnya adalah hanya satu contoh buku teks dari kombinasi tersebut). Teori Keputusan Bayesian dengan fungsi kerugian nontrivial adalah contoh lain. Saya tidak akan tahu harus berbuat apa.
Kedua, dengan jawaban ini saya akan mencoba dan berpendapat bahwa mantra bahwa kuantifikasi ketidakpastian pada umumnya lebih baik daripada tidak ada ketidakpastian secara efektif merupakan pertanyaan empiris, karena teorema (seperti yang Anda sebutkan, dan sejauh yang saya tahu) tidak memberikan jaminan.
Optimasi sebagai model mainan dari upaya ilmiah
Sebuah domain yang saya rasa sepenuhnya menangkap kompleksitas masalah adalah yang sangat praktis, tanpa basa-basi, optimalisasi fungsi kotak hitam . Kami berasumsi bahwa kami dapat secara berurutan meminta titik dan mendapatkan pengamatan yang berisik , dengan . Tujuan kami adalah untuk sedekat mungkin dengan dengan jumlah minimum evaluasi fungsi.f:X⊂RD→R x∈X y=f(x)+ε ε∼N(0,σ2) x∗=argminxf(x)
Cara yang sangat efektif untuk melanjutkan, seperti yang Anda duga, adalah membangun model prediksi tentang apa yang akan terjadi jika saya meminta , dan menggunakan informasi ini untuk memutuskan apa yang harus dilakukan selanjutnya (baik secara lokal atau global). Lihat Rios dan Sahinidis (2013) untuk ulasan tentang metode optimisasi global bebas turunan. Ketika model cukup kompleks, ini disebut meta-model atau fungsi pengganti atau pendekatan permukaan respons . Yang terpenting, model tersebut dapat berupa estimasi titik (misalnya, kesesuaian fungsi jaringan berbasis radial dengan pengamatan kami), atau kami bisa menjadi Bayesian dan entah bagaimana mendapatkan distribusi posterior penuh melaluix′∈X f f (misalnya, melalui proses Gaussian).
Optimasi Bayesian menggunakan posterior lebih dari (khususnya, rata-rata posterior bersyarat gabungan dan varians pada titik mana pun) untuk memandu pencarian optimum (global) melalui beberapa heuristik berprinsip. Pilihan klasik adalah untuk memaksimalkan peningkatan yang diharapkan dari titik terbaik saat ini, tetapi bahkan ada metode yang lebih menarik, seperti meminimalkan entropi yang diharapkan atas lokasi minimum (lihat juga di sini ).f
Hasil empiris di sini adalah bahwa memiliki akses ke posterior, bahkan jika salah spesifikasi, umumnya menghasilkan hasil yang lebih baik daripada metode lain. (Ada peringatan dan situasi di mana optimasi Bayesian tidak lebih baik daripada pencarian acak, seperti dalam dimensi tinggi.) Dalam tulisan ini , kami melakukan evaluasi empiris dari metode BO baru vs algoritma optimasi lainnya, memeriksa apakah menggunakan BO nyaman dalam praktiknya, dengan hasil yang menjanjikan.
Karena Anda bertanya - ini memiliki biaya komputasi yang jauh lebih tinggi daripada metode non-Bayesian lainnya, dan Anda bertanya-tanya mengapa kita harus menjadi Bayesian. Asumsinya di sini adalah bahwa biaya yang terlibat dalam mengevaluasi benar (misalnya, dalam skenario nyata, eksperimen teknik atau pembelajaran mesin yang kompleks) jauh lebih besar daripada biaya komputasi untuk analisis Bayesian, sehingga Bayesian terbayar .f
Apa yang bisa kita pelajari dari contoh ini?
Pertama, mengapa optimasi Bayes bekerja sama sekali? Saya kira bahwa model yang salah, tapi tidak yang salah, dan seperti biasa wrongness tergantung pada apa model Anda untuk. Misalnya, bentuk pasti dari tidak relevan untuk optimisasi, karena kami dapat mengoptimalkan transformasi monotonnya. Saya kira alam penuh dengan invariansi seperti itu. Jadi, pencarian yang kami lakukan mungkin tidak optimal (yaitu, kami membuang informasi yang baik), tetapi masih lebih baik daripada tanpa informasi yang tidak pasti.f
Kedua, contoh kami menyoroti bahwa adalah mungkin bahwa kegunaan menjadi Bayesian atau tidak tergantung pada konteksnya , misalnya biaya relatif dan jumlah sumber daya (komputasi) yang tersedia. (Tentu saja jika Anda seorang Bayesian hardcore, Anda percaya bahwa setiap perhitungan adalah inferensi Bayesian berdasarkan beberapa sebelum dan / atau perkiraan.)
Akhirnya, pertanyaan besarnya adalah - mengapa model yang kita gunakan tidak terlalu buruk , dalam arti bahwa eksterior masih berguna dan bukan sampah statistik? Jika kita mengambil teorema Tanpa Makan Siang Gratis, tampaknya kita seharusnya tidak dapat banyak bicara, tetapi untungnya kita tidak hidup di dunia yang sepenuhnya acak (atau secara berlawanan memilih ) fungsi.
Lebih umum, karena Anda meletakkan tag "filosofis" ... Saya kira kita memasuki bidang masalah induksi, atau efektivitas matematika yang tidak masuk akal dalam ilmu statistik (khususnya, dari intuisi matematika kami & kemampuan untuk menentukan model yang bekerja dalam praktik) - dalam arti bahwa dari sudut pandang apriori murni tidak ada alasan mengapa dugaan kami harus baik atau memiliki jaminan apa pun (dan pasti Anda dapat membangun contoh tandingan matematika di mana hal-hal serba salah), tetapi mereka berubah bekerja dengan baik dalam praktik.
sumber
Saya hanya melihat ini hari ini, tetapi saya pikir saya harus tetap mengingat bahwa saya agak ahli dan setidaknya dua jawaban (no. 3 dan 20 (terima kasih telah merujuk pada pekerjaan saya, Xi'an!)) Sebutkan pekerjaan saya di SafeBayes - khususnya G. dan van Ommen, "Inkonsistensi Bayesian Inference untuk Model Linier yang salah ditentukan, dan Proposal untuk Memperbaikinya" (2014). Dan saya juga ingin menambahkan sesuatu ke komentar 2:
2 mengatakan: (keuntungan dari Bayes di bawah kesalahan spesifikasi adalah ...) "Yah, pendekatan Bayesian diatur. Itu adalah sesuatu, untuk membantu melawan overfitting - apakah model Anda salah ditentukan atau tidak. Tentu saja, itu hanya mengarah pada pertanyaan terkait tentang argumen untuk inferensi Bayesian terhadap pendekatan klasik yang diatur (laso dll) "
Ini benar, tetapi penting untuk menambahkan bahwa pendekatan Bayesian mungkin tidak cukup teratur jika modelnya salah. Ini adalah poin utama dari pekerjaan dengan Van Ommen - kita melihat di sana bahwa standar Bayes overfits agak sangat dalam beberapa konteks regresi dengan model yang salah tapi sangat berguna. Tidak seburuk MLE, tetapi masih terlalu bermanfaat. Ada satu untaian pekerjaan dalam pembelajaran mesin teoritis (frequentist dan game-theoretic) di mana mereka menggunakan metode yang mirip dengan Bayes, tetapi dengan 'tingkat pembelajaran' yang jauh lebih kecil - menjadikan yang sebelumnya lebih penting dan data menjadi lebih penting, sehingga lebih teratur. Metode ini dirancang untuk bekerja dengan baik dalam situasi terburuk (kesalahan spesifikasi dan bahkan lebih buruk, data permusuhan) - pendekatan SafeBayes dirancang untuk 'mempelajari laju pembelajaran optimal' dari data itu sendiri - dan tingkat pembelajaran optimal ini, yaitu jumlah optimal regularisasi,
Terkait, ada teorema rakyat (disebutkan oleh beberapa di atas) mengatakan bahwa Bayes akan memiliki konsentrasi posterior pada distribusi terdekat di KL berbeda dengan 'kebenaran'. Tetapi ini hanya berlaku di bawah kondisi yang sangat ketat - JAUH lebih ketat dari kondisi yang dibutuhkan untuk konvergensi dalam kasus yang ditentukan dengan baik. Jika Anda berurusan dengan model parametrik dimensi rendah standar dan data sesuai dengan beberapa distribusi (bukan dalam model) maka posterior memang akan berkonsentrasi di sekitar titik dalam model yang paling dekat dengan kebenaran dalam divergensi KL. Sekarang jika Anda berurusan dengan model nonparametrik besar dan modelnya benar, maka (pada dasarnya) posterior Anda akan tetap berkonsentrasi di sekitar distribusi yang benar dengan data yang cukup, selama sebelumnya Anda menempatkan cukup massa dalam bola KL kecil di sekitar distribusi yang sebenarnya. Ini adalahkondisi lemah yang diperlukan untuk konvergensi dalam kasus nonparametrik jika modelnya benar.
Tetapi jika model Anda nonparametric namun salah, maka posterior mungkin tidak berkonsentrasi di sekitar titik KL terdekat, bahkan jika sebelumnya Anda menempatkan massa mendekati 1 (!) Di sana - posterior Anda mungkin tetap bingung untuk selamanya, berkonsentrasi pada distribusi yang selalu berbeda seiring berjalannya waktu tetapi tidak pernah sekitar yang terbaik. Dalam makalah saya, saya memiliki beberapa contoh hal ini terjadi. Makalah-makalah yang menunjukkan konvergensi di bawah spesifikasi yang salah (mis. Kleijn dan van der Vaart) memerlukan banyak kondisi tambahan, misalnya modelnya harus cembung, atau yang sebelumnya harus mematuhi properti (rumit) tertentu. Inilah yang saya maksudkan dengan kondisi 'ketat'.
Dalam praktiknya kita sering berurusan dengan model parametrik namun dimensi yang sangat tinggi (pikirkan regresi ridge Bayesian, dll.). Kemudian jika modelnya salah, akhirnya posterior Anda akan berkonsentrasi pada distribusi KL terbaik dalam model tetapi versi mini dari ketidakkonsistenan nonparametrik masih berlaku: mungkin diperlukan pesanan data yang lebih besar sebelum konvergensi terjadi - lagi, makalah saya dengan Van Ommen memberi contoh.
Pendekatan SafeBayes memodifikasi bay standar dengan cara yang menjamin konvergensi dalam model nonparametrik di bawah (pada dasarnya) kondisi yang sama seperti dalam kasus yang ditentukan dengan baik, yaitu massa sebelumnya yang cukup dekat distribusi optimal KL dalam model (G. dan Mehta, 2014 ).
Lalu ada pertanyaan apakah Bayes bahkan memiliki justifikasi di bawah salah spesifikasi. IMHO (dan seperti juga disebutkan oleh beberapa orang di atas), pembenaran standar Bayes (penerimaan, Savage, De Finetti, Cox dll) tidak berlaku di sini (karena jika Anda menyadari bahwa model Anda salah ditentukan, probabilitas Anda tidak mewakili kepercayaan Anda yang sebenarnya. !). NAMUN banyak metode Bayes juga dapat diartikan sebagai 'metode deskripsi panjang minimum (MDL)' - MDL adalah metode informasi-teoretis yang menyamakan 'belajar dari data' dengan 'mencoba mengompresi data sebanyak mungkin'. Interpretasi kompresi data ini dari (beberapa) metode Bayesian tetap valid di bawah salah spesifikasi. Jadi masih ada beberapainterpretasi yang mendasari yang menahan di bawah spesifikasi yang salah - namun demikian, ada masalah, seperti yang ditunjukkan makalah saya dengan van Ommen (dan interval kepercayaan / masalah set yang kredibel yang disebutkan dalam posting asli).
Dan kemudian komentar terakhir tentang posting asli: Anda menyebutkan pembenaran 'diterimanya' dari Bayes (kembali ke kelas lengkap Wald thm tahun 1940-an / 50-an). Apakah ini benar-benar pembenaran Bayes benar-benar sangat tergantung pada definisi tepat seseorang tentang 'inferensi Bayes' (yang berbeda dari peneliti ke peneliti ...). Alasannya adalah bahwa hasil penerimaan ini memungkinkan kemungkinan seseorang menggunakan prior yang tergantung pada aspek masalah seperti ukuran sampel, dan hilangnya fungsi bunga dll. Kebanyakan bayesian 'nyata' tidak ingin mengubah prioritas mereka jika jumlah data mereka harus memproses perubahan, atau jika fungsi yang hilang tiba-tiba berubah. Misalnya, dengan fungsi kehilangan cembung ketat, penaksir minimum juga diterima - meskipun biasanya tidak dianggap sebagai Bayesian! Alasannya adalah bahwa untuk setiap ukuran sampel tetap, mereka setara dengan Bayes dengan prior tertentu, tetapi prior berbeda untuk setiap ukuran sampel.
Semoga ini bermanfaat!
sumber
Ada pengorbanan bias-varians yang biasa. Bayesian inferensi dengan mengasumsikan M-closed case [1,2], memiliki varian yang lebih kecil [3] tetapi dalam kasus kesalahan spesifikasi model, bias tumbuh lebih cepat [4]. Juga dimungkinkan untuk melakukan inferensi Bayesian dengan asumsi kasus M-open [1,2], yang memiliki varian yang lebih tinggi [3] tetapi dalam kasus kesalahan spesifikasi model, biasnya lebih kecil [4]. Dugaan pertukaran trade-varians antara kasus Bayesian M-closed dan M-open muncul juga dalam beberapa referensi yang termasuk dalam referensi di bawah ini, tetapi jelas ada kebutuhan untuk lebih banyak.
[1] Bernardo dan Smith (1994). Teori Bayesian. John Wiley \ & Sons.
[2] Vehtari dan Ojanen (2012). Sebuah survei metode prediksi Bayes untuk penilaian model, pemilihan dan perbandingan. Survei Statistik, 6: 142-228. http://dx.doi.org/10.1214/12-SS102
[3] Juho Piironen dan Aki Vehtari (2017). Perbandingan metode prediksi Bayesian untuk pemilihan model. Statistik dan Komputasi, 27 (3): 711-735. http://dx.doi.org/10.1007/s11222-016-9649-y .
[4] Yao, Vehtari, Simpson, dan Andrew Gelman (2017). Menggunakan susun untuk distribusi prediksi Bayesian rata-rata. arXiv preprint arXiv: 1704.02030 arxiv.org/abs/1704.02030
sumber
Berikut adalah beberapa cara lain untuk membenarkan inferensi Bayesian dalam model yang salah ditentukan.
Anda dapat membuat interval kepercayaan pada rata-rata posterior, menggunakan rumus sandwich (dengan cara yang sama dengan yang Anda lakukan dengan MLE). Dengan demikian, meskipun set yang kredibel tidak memiliki cakupan, Anda masih dapat menghasilkan interval kepercayaan yang valid pada estimator titik, jika itu yang Anda minati.
Anda dapat mengubah skala distribusi posterior untuk memastikan bahwa set yang kredibel memiliki jangkauan, yang merupakan pendekatan yang diambil dalam:
Müller, Ulrich K. "Risiko inferensi Bayesian dalam model yang tidak ditentukan, dan matriks kovarians roti lapis." Econometrica 81.5 (2013): 1805-1849.
sumber
Interpretasi Bayesian dari asumsi ini adalah bahwa ada variabel acak tambahan dan nilai dalam kisarannya sedemikian rupa sehingga . Pengetahuan Anda sebelumnya mengatakan dan . Kemudian yang tidak tepat distribusi probabilitas.ϕ ϕ0 ϕ0 ∫p(X|θ,ϕ=ϕ0)dθ=0 p(ϕ=ϕ0)∝1 p(ϕ≠ϕ0)=0 p(θ|X,ϕ=ϕ0)=0
Kasus ini sesuai dengan aturan inferensi serupa dalam logika di mana , yaitu Anda tidak dapat menyimpulkan apa pun dari suatu kontradiksi. Hasil adalah cara di mana teori probabilitas bayesian memberi tahu Anda bahwa pengetahuan Anda sebelumnya tidak konsisten dengan data Anda. Jika seseorang gagal mendapatkan hasil ini dalam derivasi posterior mereka, itu berarti bahwa formulasi gagal untuk menyandikan semua pengetahuan sebelumnya yang relevan. Adapun penilaian situasi ini saya serahkan ke Jaynes (2003, hal.41):A,¬A⊢∅ p(θ|X,ϕ=ϕ0)=0
Dengan kata lain, jika rumusan masalah Anda tidak akurat - jika model Anda salah, statistik bayesian dapat membantu Anda mengetahui bahwa ini adalah masalahnya dan dapat membantu Anda menemukan aspek model mana yang menjadi sumber masalah.
Dalam praktiknya, mungkin tidak sepenuhnya jelas pengetahuan apa yang relevan dan apakah harus dimasukkan dalam derivasi. Berbagai teknik pengecekan model (Bab 6 & 7 dalam Gelman et al., 2013, memberikan tinjauan umum) kemudian digunakan untuk mencari tahu dan mengidentifikasi rumusan masalah yang tidak akurat.
Gelman, A., Carlin, JB, Stern, HS, Dunson, DB, Vehtari, A., & Rubin, DB (2013). Analisis data Bayesian, Edisi ketiga. Chapman & Hall / CRC.
Jaynes, ET (2003). Teori probabilitas: Logika sains. Pers universitas Cambridge.
sumber
MLE masih merupakan penaksir untuk parameter dalam model yang Anda tentukan dan dianggap benar. Koefisien regresi dalam OLS yang sering dapat diperkirakan dengan MLE dan semua properti yang ingin Anda lampirkan (tidak bias, varian asimtotik spesifik) masih menganggap model linier Anda yang sangat spesifik benar.
Saya akan mengambil langkah ini lebih jauh dan mengatakan bahwa setiap kali Anda ingin menganggap makna dan properti untuk estimator Anda harus mengasumsikan model. Bahkan ketika Anda mengambil sampel rata-rata sederhana, Anda mengasumsikan data dapat ditukar dan seringkali IID.
Sekarang, estimator Bayesian memiliki banyak properti yang diinginkan yang mungkin tidak dimiliki MLE. Misalnya, penyatuan sebagian, regularisasi, dan interpretabilitas posterior yang membuatnya diinginkan dalam banyak situasi.
sumber
Saya merekomendasikan Filsafat Gelman & Shalizi dan praktik statistik Bayesian . Mereka memiliki tanggapan yang koheren, terperinci dan praktis untuk pertanyaan-pertanyaan ini.
sumber
Saya pikir Anda sedang menggambarkan dampak dari ketidakpastian model - Anda khawatir bahwa kesimpulan Anda tentang parameter yang tidak diketahui berdasarkan data tergantung pada model, , serta data. Bagaimana jika adalah model yang tidak masuk akal? Jika ada model alternatif, dengan parameter tidak diketahui sama , maka Anda dapat memarginalkan ketidakpastian model dengan rata-rata model Bayesian, meskipun ini adalah fungsional dari model yang dipertimbangkan dan prioritasnya.x d m
Jika, di sisi lain, definisi parameter secara intrinsik terkait dengan model , sehingga tidak ada alternatif, tidak mengherankan bahwa kesimpulan tentang bergantung pada .x m x m
sumber
Bagaimana Anda mendefinisikan apa model "tidak ditentukan" itu? Apakah ini berarti model ...
Jika Anda memikirkan cara-cara model yang diberikan dapat salah ditentukan, Anda pada dasarnya akan mengekstraksi informasi tentang cara membuat model yang lebih baik. Sertakan informasi tambahan itu dalam model Anda!
Jika Anda berpikir tentang apa "model" dalam kerangka bayesian, Anda selalu dapat membuat model yang tidak dapat salah ditentukan. Salah satu cara untuk melakukan ini adalah dengan menambahkan lebih banyak parameter ke model Anda saat ini. Dengan menambahkan lebih banyak parameter, Anda membuat model Anda lebih fleksibel dan mudah beradaptasi. Metode Machine Learning memanfaatkan sepenuhnya ide ini. Ini mendasari hal-hal seperti "jaringan nueral" dan "pohon regresi". Anda memang perlu memikirkan prior (mirip dengan regularisasi untuk ML).
Misalnya, Anda telah memberikan "model linier" sebagai contoh, sehingga Anda memiliki ... Di mana . Sekarang anggaplah kita menambahkan parameter baru untuk setiap pengamatan .... Di mana seperti sebelumnya. Bagaimana ini mengubah banyak hal? Anda bisa mengatakan "model 1 salah ditentukan jika model 2 benar". Tetapi model 2 lebih sulit untuk diperkirakan, karena memiliki lebih banyak parameter. Juga, jika informasi tentang adalah apa yang kita pedulikan, apakah penting jika model 1 adalah "salah"?
Jika Anda berasumsi bahwa (seperti "model 2a") maka pada dasarnya kami memiliki "kesalahan cauchy" alih-alih "kesalahan normal" dan model mengharapkan pencilan dalam data. Karenanya, dengan menambahkan parameter ke model Anda, dan memilih prior untuknya, saya telah membuat "model yang lebih kuat". Namun model tersebut tetap mengharapkan simetri dalam istilah kesalahan. Dengan memilih yang berbeda sebelumnya, ini bisa diperhitungkan juga ...wi∼N(0,1)
sumber