Perlakuan klasik dari inferensi statistik bergantung pada asumsi bahwa statistik yang ditentukan secara tepat digunakan. Yaitu, distribusi yang menghasilkan data yang diamati adalah bagian dari model statistik : Namun, dalam kebanyakan situasi kita tidak dapat berasumsi bahwa ini benar. Saya ingin tahu apa yang terjadi dengan prosedur inferensi statistik jika kita menjatuhkan asumsi yang ditentukan dengan benar.
Saya telah menemukan beberapa pekerjaan oleh White 1982 tentang perkiraan ML di bawah salah spesifikasi. Di dalamnya diperdebatkan bahwa penaksir kemungkinan maksimum adalah penaksir yang konsisten untuk distribusi yang meminimalkan divergensi-KL dari semua distribusi dalam model statistik dan distribusi yang benar .
Apa yang terjadi pada penduga yang menetapkan keyakinan? Mari rekapitulasi penduga set kepercayaan diri. Misalkan menjadi estimator yang ditetapkan, di mana adalah ruang sampel dan kekuatan yang ditetapkan di ruang parameter . Apa yang ingin kita ketahui adalah probabilitas dari peristiwa bahwa set yang dihasilkan oleh menyertakan distribusi sebenarnya , yaitu
Namun, kami tentu saja tidak tahu distribusi yang sebenarnya . Asumsi yang ditentukan dengan benar memberitahu kita bahwa . Namun, kami masih belum tahu distribusi model itu. Tapi, adalah batas bawah untuk probabilitas . Persamaan adalah definisi klasik tingkat kepercayaan untuk penaksir keyakinan yang ditetapkan.P ∗ ∈ M inf θ ∈ Θ P θ (θ∈δ(Y)):=BAB
Jika kita menjatuhkan asumsi yang ditentukan dengan benar, tidak selalu merupakan batas bawah untuk , istilah yang sebenarnya menarik bagi kita. Memang, jika kita mengasumsikan bahwa model salah dipilih, yang bisa dibilang kasus untuk situasi yang paling realistis, adalah 0, karena distribusi sebenarnya tidak terkandung dalam model statistik .A A P ∗ M
Dari perspektif lain orang bisa berpikir tentang apa yang terkait ketika model itu tidak ditentukan. Ini pertanyaan yang lebih spesifik. Apakah masih memiliki makna, jika modelnya tidak ditentukan secara spesifik. Jika tidak, mengapa kita repot-repot dengan statistik parametrik?B
Saya kira White 1982 mengandung beberapa hasil pada masalah ini. Sayangnya, kurangnya latar belakang matematika saya menghalangi saya untuk memahami banyak hal yang ditulis di sana.
Jawaban:
Misalkan menjadi data yang diobservasi yang dianggap sebagai realisasi dari serangkaian variabel acak iid dengan fungsi kerapatan probabilitas umum didefinisikan sehubungan dengan ukuran sigma-hingga . Kepadatan disebut kepadatan Data Generating Process (DGP).y1,…,yn Y1,…,Yn pe ν pe
Dalam model probabilitas peneliti adalah kumpulan fungsi kepadatan probabilitas yang diindeks oleh vektor parameter . Asumsikan setiap kerapatan dalam adalah yang didefinisikan sehubungan dengan ukuran sigma-hingga yang umum (misalnya, masing-masing kerapatan bisa menjadi fungsi massa probabilitas dengan ruang sampel ).M≡{p(y;θ):θ∈Θ} θ M ν S
Penting untuk menjaga kepadatan yang sebenarnya menghasilkan data secara konseptual berbeda dari model probabilitas data. Dalam perawatan statistik klasik pemisahan yang cermat dari konsep-konsep ini diabaikan, tidak dibuat, atau diasumsikan sejak awal bahwa model probabilitas ditentukan dengan benar.pe
Model yang ditentukan dengan benar berkenaan dengan didefinisikan sebagai model di mana hampir di mana-mana. Ketika salah ditentukan sehubungan dengan ini sesuai dengan kasus di mana model probabilitas tidak ditentukan dengan benar.M pe pe∈M ν M pe
Jika model probabilitas ditentukan dengan benar, maka ada di ruang parameter sedemikian rupa sehingga hampir di semua tempat. Vektor parameter seperti itu disebut "vektor parameter benar". Jika model probabilitas salah spesifikasi, maka vektor parameter sebenarnya tidak ada.θ∗ Θ pe(y)=p(y;θ∗) ν
Dalam kerangka model kesalahan spesifikasi White tujuannya adalah untuk menemukan estimasi parameter θ n yang meminimalkan ℓ n ( θ ) ≡ ( 1 / n ) Σ n i = 1 log p ( y i ; θ ) atas beberapa kompak ruang parameter Θ . Hal ini diasumsikan bahwa minimizer unik yang ketat global, θ * , dari nilai yang diharapkan dari ℓ n pada Θ terletak di pedalaman Θθ^n ℓ^n(θ)≡(1/n)∑ni=1logp(yi;θ) Θ θ∗ ℓ^n Θ Θ . Dalam kasus keberuntungan di mana model probabilitas ditentukan dengan benar, θ∗ dapat ditafsirkan sebagai "nilai parameter sejati".
Dalam kasus khusus di mana model probabilitas ditentukan dengan benar, maka θ n adalah akrab estimasi maksimum likelihood. Jika kita tidak tahu memiliki pengetahuan mutlak bahwa model probabilitas ditentukan dengan benar, maka θ n disebut perkiraan kuasi-maksimum kemungkinan dan tujuannya adalah untuk memperkirakan θ * . Jika kita beruntung dan model probabilitas ditentukan dengan benar, maka estimasi kemungkinan kuasi-maksimum berkurang sebagai kasus khusus untuk estimasi kemungkinan maksimum yang telah dikenal dan θ ∗ menjadi nilai parameter sebenarnya.θ^n θ^n θ∗ θ∗
Konsistensi dalam White (1982) kerangka kerja berkorespondensi untuk konvergensi keθ∗ tanpa memerlukan bahwa θ∗ adalah tentu vektor parameter yang benar. Dalam kerangka kerja White, kami tidak akan pernah memperkirakan probabilitas dari peristiwa bahwa set yang dihasilkan oleh δ termasuk distribusi TRUE P *. Sebagai gantinya, kami akan selalu memperkirakan distribusi probabilitas P ** yang merupakan probabilitas dari peristiwa yang set yang dihasilkan oleh δ termasuk distribusi yang ditentukan oleh kepadatan
p(y;θ∗) .
Akhirnya, beberapa komentar tentang kesalahan spesifikasi model. Sangat mudah untuk menemukan contoh di mana model yang salah spesifikasi sangat berguna dan sangat prediktif. Sebagai contoh, pertimbangkan model regresi nonlinier (atau bahkan linier) dengan istilah kesalahan residual Gaussian yang variansenya sangat kecil namun kesalahan residual aktual di lingkungan bukanlah Gaussian.
Juga mudah untuk menemukan contoh di mana model yang ditentukan dengan benar tidak berguna dan tidak dapat diprediksi. Sebagai contoh, pertimbangkan model berjalan acak untuk memprediksi harga saham yang memprediksi harga penutupan besok adalah jumlah tertimbang dari harga penutupan hari ini dan beberapa kebisingan Gaussian dengan varian yang sangat besar.
Tujuan dari kerangka kesalahan spesifikasi model bukan untuk memastikan validitas model melainkan untuk memastikan keandalan. Artinya, pastikan bahwa kesalahan pengambilan sampel yang terkait dengan perkiraan parameter Anda, interval kepercayaan, tes hipotesis, dan sebagainya diperkirakan dengan benar terlepas dari adanya kesalahan spesifikasi model dalam jumlah kecil atau besar. Estimasi kemungkinan kuasi maksimum secara asimptotik normal berpusat diθ∗ dengan estimator matriks kovarians yang bergantung pada turunan pertama dan kedua dari fungsi kemungkinan log-negatif. Dalam kasus khusus di mana Anda beruntung dan modelnya benar maka semua rumus dikurangi menjadi kerangka kerja statistik klasik yang sudah dikenal di mana tujuannya adalah untuk memperkirakan nilai parameter "benar".
sumber
Pertama, izinkan saya mengatakan bahwa ini adalah pertanyaan yang sangat menarik; pujian kepada Julian untuk mempostingnya. Seperti yang saya lihat, masalah mendasar yang Anda hadapi dalam analisis semacam ini adalah bahwa setiap inferensi dari setiap subset dari adalah kesimpulan atas kelas terbatas dari ukuran probabilitas dalam model M , jadi ketika Anda mulai bertanya tentang probabilitas untuk menyimpulkan yang sebenarnya. Model, di bawah model, ini merosot ke pertanyaan sepele tentang apakah ada spesifikasi yang salah untuk memulai. Putih mengatasi ini dengan melihat seberapa dekat model sampai ke ukuran probabilitas sebenarnya, menggunakan metrik jarak yang sesuai. Ini membawanya ke ukuran probabilitas P θ 1 , yang merupakan proksi terdekat untuk P ∗ diΘ M Pθ1 P∗ . Metode melihat P θ 1 ini dapat diperluas untuk memberikan jumlah yang menarik terkait dengan pertanyaan Anda tentang kumpulan kepercayaan.M Pθ1
Sebelum membahas hal ini, perlu ditunjukkan bahwa nilai-nilai dan B secara matematis didefinisikan dengan baik dalam analisis Anda (yaitu, mereka ada), dan mereka masih memiliki makna; itu belum tentu makna yang sangat berguna. Nilai A dalam analisis Anda didefinisikan dengan baik; itu adalah probabilitas sebenarnya bahwa set pengukuran probabilitas yang disimpulkan mencakup ukuran probabilitas sebenarnya. Anda benar bahwa P ∗ ∉ M menyiratkan A = 0 , yang berarti bahwa jumlah ini sepele dalam hal kesalahan spesifikasi. Mengikuti petunjuk White, mungkin lebih menarik untuk melihat kuantitasnya:A B A P∗∉M A=0
sumber