Mengapa kita harus menggunakan kesalahan alih-alih kesalahan normal?

30

Dalam posting blog ini oleh Andrew Gelman, ada bagian berikut:

Model Bayesian 50 tahun lalu tampak sederhana tanpa harapan (kecuali, tentu saja, untuk masalah sederhana), dan saya berharap model Bayesian hari ini akan tampak sangat sederhana, 50 tahun karenanya. (Hanya untuk contoh sederhana: kita mungkin harus secara rutin menggunakan t alih-alih kesalahan normal di mana saja, tetapi kita belum melakukannya, karena keakraban, kebiasaan, dan kenyamanan matematis. Ini mungkin merupakan alasan yang bagus - dalam sains sebagai dalam politik, konservatisme memiliki banyak argumen bagus yang mendukungnya - tetapi saya pikir bahwa pada akhirnya ketika kita menjadi nyaman dengan model yang lebih rumit, kita akan bergerak ke arah itu.)

Mengapa kita "secara rutin menggunakan t alih-alih kesalahan normal di mana saja"?

kentang
sumber

Jawaban:

40

Karena, mengasumsikan kesalahan normal secara efektif sama dengan mengasumsikan bahwa kesalahan besar tidak terjadi! Distribusi normal memiliki ekor yang sangat ringan, sehingga kesalahan di luar standar deviasi memiliki probabilitas yang sangat rendah, kesalahan di luar standar deviasi secara efektif tidak mungkin. Dalam praktiknya, anggapan itu jarang benar. Ketika menganalisis kumpulan data kecil dan rapi dari percobaan yang dirancang dengan baik, ini mungkin tidak terlalu menjadi masalah, jika kita melakukan analisis residu yang baik. Dengan data dengan kualitas yang lebih rendah, mungkin lebih penting.± 6±3±6

Ketika menggunakan metode berbasis-likelihood (atau bayesian), efek dari normalitas ini (seperti dikatakan di atas, secara efektif ini adalah "tidak ada kesalahan besar" -asumsi!) Adalah membuat inferensi sangat sedikit kuat. Hasil analisis terlalu banyak dipengaruhi oleh kesalahan besar! Ini harus demikian, karena dengan asumsi "tidak ada kesalahan besar" memaksa metode kami untuk menafsirkan kesalahan besar sebagai kesalahan kecil, dan itu hanya dapat terjadi dengan memindahkan parameter nilai rata-rata untuk membuat semua kesalahan lebih kecil. Salah satu cara untuk menghindarinya adalah dengan menggunakan apa yang disebut "metode kuat", lihat http://web.archive.org/web/20160611192739/http://www.stats.ox.ac.uk/pub/StatMeth/Robust .pdf

Tetapi Andrew Gelman tidak akan mendukung hal ini, karena metode yang kuat biasanya disajikan dengan cara yang sangat non-bayesian. Menggunakan kesalahan t-didistribusikan dalam model kemungkinan / bayesian adalah cara yang berbeda untuk mendapatkan metode yang kuat, karena distribusi memiliki ekor yang lebih berat daripada normal, sehingga memungkinkan untuk proporsi kesalahan besar yang lebih besar. Jumlah parameter derajat kebebasan harus diperbaiki terlebih dahulu, tidak diperkirakan dari data, karena perkiraan seperti itu akan menghancurkan sifat ketahanan metode (*) (ini juga merupakan masalah yang sangat sulit, fungsi kemungkinan untuk , angka derajat kebebasan, dapat tidak terbatas, mengarah pada penduga yang sangat tidak efisien (bahkan tidak konsisten).νtν

Jika, misalnya, Anda berpikir (takut) bahwa sebanyak 1 dari sepuluh pengamatan mungkin merupakan "kesalahan besar" (di atas 3 sd), maka Anda dapat menggunakan distribusi- dengan 2 derajat kebebasan, menambah jumlah itu jika proporsi kesalahan besar diyakini lebih kecil.t

Saya harus mencatat bahwa apa yang telah saya katakan di atas adalah untuk model dengan didistribusikan kesalahan independen . Ada juga proposal distribusi multivariat (yang tidak independen) sebagai distribusi kesalahan. Propsal yang banyak dikritik di koran "baju baru kaisar: kritik terhadap multivariat model regresi" oleh TS Breusch, JC Robertson dan AH Welsh, di Statistika Neerlandica (1997) Vol. 51, no. 3, hal. 269-286, di mana mereka menunjukkan bahwa distribusi kesalahan multivariat secara empiris tidak dapat dibedakan dari normal. Tapi kritik yang tidak mempengaruhi independen Model. t t t tttttt

(*) Salah satu referensi yang menyatakan ini adalah MASS Venables & Ripley --- Statistik Terapan Modern dengan S (pada halaman 110 dalam edisi ke-4).

kjetil b halvorsen
sumber
3
νν2tνν>2
2
Jawaban dan komentar yang bagus. Tetapi: 1. Gelman membela prosedur standar yang akan lebih baik daripada mengasumsikan kesalahan Normal. Jadi, kita harus membandingkan yang sederhana (kesalahan Normal) dengan distribusi T untuk kesalahan. 2. Dalam pertanyaan terkait yang dikaitkan oleh pengguna603, kita harus mencatat bahwa jika kita memiliki informasi sebelumnya, kita harus menggunakannya. Bayes unggul dengan informasi sebelumnya. Dan dalam exmaple, kami memiliki informasi sebelumnya yang tidak digunakan. 3. Dengan pemeriksaan prediktif posterior kita d know that the model proposed isnt cukup baik.
Manoel Galdino
1
t1
1
Tidak, distribusi-t adalah satu - satunya pilihan karena distribusi-t adalah prediksi posterior model Gaussian. Gelman tidak hanya memilih distribusi t secara acak.
Neil G
1
Lihat: Murphy, Kevin P. "Conjugate Bayesian analysis of the Gaussian distribution." def 1.2σ2 (2007): 16. Ia memperoleh distribusi-t sebagai prediksi posterior model Gaussian. Ini bukan hanya kasus pemodel yang memilih distribusi berekor berat yang sewenang-wenang.
Neil G
10

Ini bukan hanya masalah "ekor yang lebih berat" - ada banyak distribusi yang berbentuk lonceng dan memiliki ekor yang berat.

Distribusi T adalah prediksi posterior model Gaussian. Jika Anda membuat asumsi Gaussian, tetapi memiliki bukti terbatas, maka model yang dihasilkan perlu membuat prediksi t-didistribusikan skala non-pusat. Dalam batas, karena jumlah bukti yang Anda miliki hingga tak terbatas, Anda berakhir dengan prediksi Gaussian karena batas distribusi t adalah Gaussian.

Mengapa ini terjadi? Karena dengan jumlah bukti yang terbatas, ada ketidakpastian dalam parameter model Anda. Dalam kasus model Gaussian, ketidakpastian dalam mean hanya akan meningkatkan varians (yaitu, prediksi posterior Gaussian dengan varian yang diketahui masih Gaussian). Tetapi ketidakpastian tentang varians inilah yang menyebabkan ekor yang berat. Jika model dilatih dengan bukti tak terbatas, tidak ada lagi ketidakpastian dalam varians (atau rata-rata) dan Anda dapat menggunakan model Anda untuk membuat prediksi Gaussian.

Argumen ini berlaku untuk model Gaussian. Ini juga berlaku untuk parameter yang disimpulkan yang kemungkinannya adalah Gaussian. Mengingat data yang terbatas, ketidakpastian tentang parameter terdistribusi t. Di mana pun ada asumsi Normal (dengan mean dan varians tidak diketahui), dan data terbatas, ada prediksi posterior t-didistribusikan.

Ada distribusi prediksi posterior yang sama untuk semua model Bayesian. Gelman menyarankan agar kita menggunakan itu. Kekhawatirannya akan dikurangi dengan bukti yang cukup.

Neil G
sumber
Bisakah Anda mencadangkan ini dengan beberapa referensi?
kjetil b halvorsen
2
@kjetilbhalvorsen: Murphy, Kevin P. "Konjugasi Bayesian analysis tentang distribusi Gaussian." def 1.2σ2 (2007): 16.
Neil G
Perspektif yang menarik, saya belum pernah mendengar ini sebelumnya. Jadi apakah kesalahan yang didistribusikan t juga menyebabkan prediksi yang didistribusikan t? Ini bagi saya ini adalah argumen yang mendukung untuk terus menggunakan kesalahan Gaussian. Kecuali Anda mengharapkan pencilan bersyarat , model kesalahan bersyarat tidak perlu memperbolehkannya. Ini sama dengan asumsi bahwa semua outlying-ness berasal dari nilai outlying dari prediktor. Saya tidak berpikir bahwa asumsi sangat buruk dalam banyak kasus. Dan dengan alasan estetika murni, saya tidak melihat mengapa distribusi kondisional dan marjinal harus cocok
shadowtalker
@ssdecontrol "Apakah kesalahan t-didistribusikan juga menyebabkan prediksi t-didistribusikan?" Saya tidak tahu, tapi saya rasa tidak. Bagi saya, perspektif ini sangat berguna untuk pemahaman intuitif tentang mengapa uji-t bekerja.
Neil G