Mengapa kita begitu peduli tentang istilah kesalahan yang terdistribusi normal (dan homoskedastisitas) dalam regresi linier ketika kita tidak perlu?

52

Saya kira saya menjadi frustrasi setiap kali saya mendengar seseorang mengatakan bahwa residual dan / atau heteroskedastisitas yang tidak normal melanggar asumsi OLS. Untuk memperkirakan parameter dalam model OLS, asumsi ini tidak diperlukan oleh teorema Gauss-Markov. Saya melihat bagaimana hal ini penting dalam Pengujian Hipotesis untuk model OLS, karena dengan asumsi hal-hal ini memberi kita rumus rapi untuk uji-t, uji-F, dan statistik Wald yang lebih umum.

Tetapi tidak terlalu sulit untuk melakukan pengujian hipotesis tanpa mereka. Jika kita hilangkan homoskedastisitas saja, kita dapat menghitung kesalahan standar yang kuat dan kesalahan standar yang dikelompokkan dengan mudah. Jika kita menurunkan normalitas sama sekali, kita dapat menggunakan bootstrap dan, mengingat spesifikasi parametrik lain untuk persyaratan kesalahan, rasio kemungkinan, dan tes pengali Lagrange.

Sayang sekali kita mengajarkannya dengan cara ini, karena saya melihat banyak orang berjuang dengan asumsi yang tidak harus mereka temui sejak awal.

Mengapa kita begitu menekankan asumsi ini ketika kita memiliki kemampuan untuk dengan mudah menerapkan teknik yang lebih kuat? Apakah saya melewatkan sesuatu yang penting?

Zachary Blumenfeld
sumber
2
Tampaknya menjadi hal yang disiplin. Dalam pengalaman saya, pada ekstremnya, teks-teks Ekonometrika hampir selalu mencakup kesimpulan apa yang dibeli setiap asumsi dan teks-teks Psikologi sepertinya tidak pernah menyebutkan apa pun tentang topik tersebut.
conjugateprior
12
Homoscedasticity diperlukan agar OLS menjadi BIRU.
Momo
4
Saya pikir Anda benar, asumsi-asumsi itu mendapat perhatian yang tidak semestinya. Kegagalan normalitas atau homoseksualitas kondisional. tidak dekat sebagai merugikan bagi tujuan inferensial kebanyakan praktisi sebagai endogenitas dan bentuk fungsional yang tidak ditentukan.
CloseToC
2
@TutupToC ini poin yang sangat bagus. Seringkali kita menjadi begitu khawatir tentang teknis statistik dari model regresi sehingga kita melupakan gambaran yang lebih besar ... apakah model saya ditentukan dengan benar dan eksogen? Ini harus ditekankan berulang sebagai salah satu pertanyaan utama untuk ditanyakan pada diri sendiri ketika membuat model apa pun.
Zachary Blumenfeld

Jawaban:

25

Dalam Ekonometrika, kita akan mengatakan bahwa non-normalitas melanggar kondisi Model Regresi Linier Normal Klasik, sedangkan heteroskedastisitas melanggar asumsi CNLR dan Model Regresi Linier Klasik.

Tetapi mereka yang mengatakan "... melanggar OLS" juga dibenarkan: nama Ordinary Least-Squares berasal dari Gauss secara langsung dan pada dasarnya mengacu pada kesalahan normal . Dengan kata lain "OLS" bukan akronim untuk estimasi kuadrat-terkecil (yang merupakan prinsip dan pendekatan yang jauh lebih umum), tetapi dari CNLR.

Oke, ini sejarah, terminologi, dan semantik. Saya memahami inti dari pertanyaan OP sebagai berikut: "Mengapa kita harus menekankan yang ideal, jika kita telah menemukan solusi untuk kasus ketika itu tidak ada?" (Karena asumsi CNLR yang ideal, dalam arti bahwa mereka memberikan sifat estimator sangat baik least-square "off-the-rak", dan tanpa perlu resor untuk hasil asymptotic. Ingat juga bahwa OLS adalah kemungkinan maksimum ketika kesalahan adalah normal ).

Sebagai cita-cita, ini adalah tempat yang baik untuk mulai mengajar . Inilah yang selalu kita lakukan dalam mengajarkan segala jenis subjek: situasi "sederhana" adalah situasi "ideal", bebas dari kerumitan yang sebenarnya akan kita temui dalam kehidupan nyata dan penelitian nyata, dan untuk itu tidak ada solusi pasti .

Dan inilah yang saya temukan bermasalah dengan pos OP: ia menulis tentang kesalahan standar yang kuat dan bootstrap seolah-olah itu adalah "alternatif yang unggul", atau solusi yang sangat mudah untuk kurangnya asumsi tersebut dalam diskusi yang juga ditulis oleh OP

"..asumsi bahwa orang tidak harus bertemu"

Mengapa? Karena ada beberapa metode menghadapi situasi, metode yang tentu saja memiliki validitas, tetapi mereka jauh dari ideal? Bootstrap dan heteroskedastisitas-kuat kesalahan standar tidak satu solusi -jika mereka memang berada, mereka akan menjadi paradigma yang dominan, mengirimkan CLR dan CNLR untuk buku-buku sejarah. Tapi ternyata tidak.

Jadi kita mulai dari serangkaian asumsi yang menjamin properti penaksir yang kita anggap penting (ini adalah diskusi lain apakah properti yang ditunjuk sebagai diinginkan memang yang seharusnya), sehingga kita tetap terlihat bahwa setiap pelanggaran terhadap mereka, telah konsekuensi yang tidak dapat sepenuhnya diimbangi melalui metode yang kami temukan untuk mengatasi ketiadaan asumsi ini. Akan sangat berbahaya, secara ilmiah, untuk menyampaikan perasaan bahwa "kita dapat mengambil jalan kita menuju kebenaran masalah" - karena, kita tidak bisa.

Jadi, mereka tetap solusi tidak sempurna untuk masalah , bukan alternatif dan / atau cara yang pasti unggul untuk melakukan sesuatu. Karena itu, pertama-tama kita harus mengajarkan situasi bebas masalah, kemudian menunjukkan kemungkinan masalah, dan kemudian membahas solusi yang mungkin. Kalau tidak, kami akan meningkatkan solusi ini ke status yang tidak benar-benar mereka miliki.

Alecos Papadopoulos
sumber
Hmmm, jika itu yang Anda maksud, Anda dapat mencoba "sepenuhnya terbukti".
gung - Reinstate Monica
@ung Tidak, tidak, metodenya "sepenuhnya terbukti" dalam pengertian matematis, tetapi tidak mudah dalam hal apa yang sebenarnya mereka kirimkan (detail "kecil" tentang asimptotik ini lagi, dan berapa nilainya). Koreksi Anda adalah yang benar.
Alecos Papadopoulos
22

Jika kita punya waktu di kelas di mana kita pertama kali memperkenalkan model regresi untuk membahas bootstrap dan teknik lain yang Anda sebutkan (termasuk semua asumsi, perangkap, dll.), Maka saya akan setuju dengan Anda bahwa tidak perlu berbicara tentang normalitas. dan asumsi homoseksualitas. Tetapi sebenarnya, ketika regresi pertama kali diperkenalkan kita tidak punya waktu untuk membicarakan semua hal lain, jadi kita lebih suka siswa bersikap konservatif dan memeriksa hal-hal yang mungkin tidak diperlukan dan berkonsultasi dengan ahli statistik (atau mengambil statistik lain kelas atau 2 atau 3, ...) ketika asumsi tidak berlaku.

Jika Anda memberi tahu siswa bahwa asumsi-asumsi itu tidak penting kecuali ketika ..., maka sebagian besar hanya akan mengingat bagian tidak penting dan tidak penting ketika bagian.

Jika kita memiliki kasing dengan varian yang tidak sama, maka ya kita masih dapat memuat garis kuadrat terkecil, tetapi apakah ini masih merupakan baris "terbaik"? atau akan lebih baik untuk berkonsultasi dengan seseorang dengan lebih banyak pengalaman / pelatihan tentang cara menyesuaikan garis dalam kasus itu. Bahkan jika kita senang dengan garis kuadrat terkecil, bukankah kita harus mengakui bahwa prediksi akan memiliki sifat yang berbeda untuk nilai yang berbeda dari prediktor? Jadi memeriksa varian yang tidak sama adalah baik untuk interpretasi nanti, bahkan jika kita tidak membutuhkannya untuk tes / interval / dll. yang kami gunakan.

Greg Snow
sumber
Saya mengerti dan menghargai apa yang Anda katakan terutama bahwa ada batasan waktu yang signifikan. Apa yang saya lihat di institusi saya, adalah ketika para siswa berjuang dengan asumsi-asumsi ini mereka sering tidak atau tidak dapat menerima konsultasi yang diperlukan. Jadi mereka akhirnya memilih proyek berdasarkan asumsi model pas atau tidak tepat menggunakan model klasik untuk melanggar asumsi. Saya berpendapat bahwa dengan mengajarkan teknik yang lebih kuat, siswa akan kurang dibatasi dalam pilihan yang ada dan dengan demikian diberdayakan untuk mengejar proyek yang sebenarnya mereka sukai.
Zachary Blumenfeld
13
Anda selalu memulai dengan kasus ideal saat mengajar, kemudian masuk ke semua jenis komplikasi. Pada tingkat ekonomi PhD mereka mengajarkan semua jenis hal aneh, tetapi butuh waktu untuk sampai ke sana. Saya tidak berpikir itu masalah pendidikan yang kebanyakan orang turun dari kereta di suatu tempat di sekitar tingkat MSc. Sebenarnya, saya akan mengklaim bahwa masalah yang lebih besar adalah serangan hama oleh "ilmuwan data" setengah matang, dengan pengetahuan hampir nol tentang dasar-dasar statistik yang menerapkan paket R mewah ke kiri dan kanan, tidak memiliki petunjuk tentang apa yang mereka lakukan dan berjuang untuk memahami output.
Aksakal
@Aksakal di mana tepatnya Anda melihat sejumlah besar analis yang terlalu percaya diri dan tidak memenuhi syarat ini? Karena yang lebih sering saya temui hampir kebalikannya. Orang-orang takut untuk mencoba teknik yang telah mereka pelajari kecuali jika terlebih dahulu diberikan persetujuan dari seorang ahli yang dipersepsikan. Hanya di situs ini, saya yakin Anda telah melihat banyak pertanyaan dengan efek "Apakah saya diizinkan untuk ..." atau "Apakah ini berlaku untuk ...." ketika pertanyaan yang lebih berpengalaman / konstruktif adalah " Apa yang akan terjadi jika .... "
rolando2
18

1) jarang orang hanya ingin memperkirakan. Biasanya inferensi - CI, PI, tes - adalah tujuannya, atau paling tidak sebagian darinya (walaupun kadang-kadang dilakukan relatif secara informal)

2) Hal-hal seperti teorema Gauss Markov tidak selalu banyak membantu - jika distribusinya cukup jauh dari normal, estimator linier tidak banyak digunakan. Tidak ada gunanya mendapatkan BIRU jika tidak ada penduga linier yang sangat baik.

3) hal-hal seperti estimator sandwich melibatkan sejumlah besar parameter implisit. Mungkin masih baik-baik saja jika Anda memiliki banyak data, tetapi banyak kali orang tidak.

4) Interval prediksi bergantung pada bentuk distribusi bersyarat termasuk memiliki pegangan yang baik pada varians pada pengamatan - Anda tidak bisa dengan mudah melambaikan detail dengan PI.

5) hal-hal seperti bootstrap sering berguna untuk sampel yang sangat besar. Kadang-kadang mereka berjuang dalam sampel kecil - dan bahkan dalam sampel berukuran sedang, sering kita menemukan bahwa properti cakupan sebenarnya tidak seperti diiklankan.

Artinya - beberapa hal adalah jenis obat mujarab yang orang inginkan. Semua hal itu ada di tempatnya, dan tentu saja ada banyak kasus di mana (katakanlah) normalitas tidak diperlukan, dan di mana estimasi dan inferensi (tes dan CI) dapat dilakukan secara wajar tanpa perlu memerlukan normalitas, varian konstan, dan sebagainya.

Satu hal yang sering dilupakan adalah asumsi parametrik lain yang bisa dibuat. Seringkali orang cukup tahu tentang suatu situasi untuk membuat asumsi parametrik yang cukup baik (mis. Katakan ... bahwa respon kondisional cenderung condong ke kanan dengan sd yang cukup proporsional terhadap rata-rata mungkin mengarahkan kita untuk mempertimbangkan katakanlah model gamma atau lognormal); sering kali ini berhubungan dengan heteroskedastisitas dan non-normalitas dalam sekali jalan.

Alat yang sangat berguna adalah simulasi - dengan itu kita dapat memeriksa sifat-sifat alat kita dalam situasi yang sangat mirip dengan yang muncul dari data kita, dan karenanya menggunakannya dalam pengetahuan yang menghibur bahwa mereka memiliki sifat yang baik dalam kasus-kasus tersebut ( atau, kadang-kadang, lihat bahwa mereka tidak berfungsi sebaik yang kita harapkan).

Glen_b
sumber
"Jarang orang hanya ingin memperkirakan" - dalam keuangan perusahaan dan ekonomi, orang memperkirakan banyak untuk mengurangi dampak dari variabel tertentu. Saya sudah membaca banyak makalah, di mana penulis bahkan tidak melihat interval kepercayaan, mereka melihat signifikansi, tentu saja, di bawah asumsi normal.
Aksakal
6
@ Aksakal baik, ya, tetapi jika mereka memperhatikan kesalahan standar, atau nilai-t, atau nilai-p, dll ... maka menurut saya mereka tidak hanya ingin memperkirakan. Apakah mereka secara resmi menguji / membangun interval atau tidak, untuk melihat hal-hal lain seperti itu - betapapun informal - menjadi bermakna, mereka harus memiliki makna di tempat pertama.
Glen_b