Saya kira saya menjadi frustrasi setiap kali saya mendengar seseorang mengatakan bahwa residual dan / atau heteroskedastisitas yang tidak normal melanggar asumsi OLS. Untuk memperkirakan parameter dalam model OLS, asumsi ini tidak diperlukan oleh teorema Gauss-Markov. Saya melihat bagaimana hal ini penting dalam Pengujian Hipotesis untuk model OLS, karena dengan asumsi hal-hal ini memberi kita rumus rapi untuk uji-t, uji-F, dan statistik Wald yang lebih umum.
Tetapi tidak terlalu sulit untuk melakukan pengujian hipotesis tanpa mereka. Jika kita hilangkan homoskedastisitas saja, kita dapat menghitung kesalahan standar yang kuat dan kesalahan standar yang dikelompokkan dengan mudah. Jika kita menurunkan normalitas sama sekali, kita dapat menggunakan bootstrap dan, mengingat spesifikasi parametrik lain untuk persyaratan kesalahan, rasio kemungkinan, dan tes pengali Lagrange.
Sayang sekali kita mengajarkannya dengan cara ini, karena saya melihat banyak orang berjuang dengan asumsi yang tidak harus mereka temui sejak awal.
Mengapa kita begitu menekankan asumsi ini ketika kita memiliki kemampuan untuk dengan mudah menerapkan teknik yang lebih kuat? Apakah saya melewatkan sesuatu yang penting?
sumber
Jawaban:
Dalam Ekonometrika, kita akan mengatakan bahwa non-normalitas melanggar kondisi Model Regresi Linier Normal Klasik, sedangkan heteroskedastisitas melanggar asumsi CNLR dan Model Regresi Linier Klasik.
Tetapi mereka yang mengatakan "... melanggar OLS" juga dibenarkan: nama Ordinary Least-Squares berasal dari Gauss secara langsung dan pada dasarnya mengacu pada kesalahan normal . Dengan kata lain "OLS" bukan akronim untuk estimasi kuadrat-terkecil (yang merupakan prinsip dan pendekatan yang jauh lebih umum), tetapi dari CNLR.
Oke, ini sejarah, terminologi, dan semantik. Saya memahami inti dari pertanyaan OP sebagai berikut: "Mengapa kita harus menekankan yang ideal, jika kita telah menemukan solusi untuk kasus ketika itu tidak ada?" (Karena asumsi CNLR yang ideal, dalam arti bahwa mereka memberikan sifat estimator sangat baik least-square "off-the-rak", dan tanpa perlu resor untuk hasil asymptotic. Ingat juga bahwa OLS adalah kemungkinan maksimum ketika kesalahan adalah normal ).
Sebagai cita-cita, ini adalah tempat yang baik untuk mulai mengajar . Inilah yang selalu kita lakukan dalam mengajarkan segala jenis subjek: situasi "sederhana" adalah situasi "ideal", bebas dari kerumitan yang sebenarnya akan kita temui dalam kehidupan nyata dan penelitian nyata, dan untuk itu tidak ada solusi pasti .
Dan inilah yang saya temukan bermasalah dengan pos OP: ia menulis tentang kesalahan standar yang kuat dan bootstrap seolah-olah itu adalah "alternatif yang unggul", atau solusi yang sangat mudah untuk kurangnya asumsi tersebut dalam diskusi yang juga ditulis oleh OP
Mengapa? Karena ada beberapa metode menghadapi situasi, metode yang tentu saja memiliki validitas, tetapi mereka jauh dari ideal? Bootstrap dan heteroskedastisitas-kuat kesalahan standar tidak satu solusi -jika mereka memang berada, mereka akan menjadi paradigma yang dominan, mengirimkan CLR dan CNLR untuk buku-buku sejarah. Tapi ternyata tidak.
Jadi kita mulai dari serangkaian asumsi yang menjamin properti penaksir yang kita anggap penting (ini adalah diskusi lain apakah properti yang ditunjuk sebagai diinginkan memang yang seharusnya), sehingga kita tetap terlihat bahwa setiap pelanggaran terhadap mereka, telah konsekuensi yang tidak dapat sepenuhnya diimbangi melalui metode yang kami temukan untuk mengatasi ketiadaan asumsi ini. Akan sangat berbahaya, secara ilmiah, untuk menyampaikan perasaan bahwa "kita dapat mengambil jalan kita menuju kebenaran masalah" - karena, kita tidak bisa.
Jadi, mereka tetap solusi tidak sempurna untuk masalah , bukan alternatif dan / atau cara yang pasti unggul untuk melakukan sesuatu. Karena itu, pertama-tama kita harus mengajarkan situasi bebas masalah, kemudian menunjukkan kemungkinan masalah, dan kemudian membahas solusi yang mungkin. Kalau tidak, kami akan meningkatkan solusi ini ke status yang tidak benar-benar mereka miliki.
sumber
Jika kita punya waktu di kelas di mana kita pertama kali memperkenalkan model regresi untuk membahas bootstrap dan teknik lain yang Anda sebutkan (termasuk semua asumsi, perangkap, dll.), Maka saya akan setuju dengan Anda bahwa tidak perlu berbicara tentang normalitas. dan asumsi homoseksualitas. Tetapi sebenarnya, ketika regresi pertama kali diperkenalkan kita tidak punya waktu untuk membicarakan semua hal lain, jadi kita lebih suka siswa bersikap konservatif dan memeriksa hal-hal yang mungkin tidak diperlukan dan berkonsultasi dengan ahli statistik (atau mengambil statistik lain kelas atau 2 atau 3, ...) ketika asumsi tidak berlaku.
Jika Anda memberi tahu siswa bahwa asumsi-asumsi itu tidak penting kecuali ketika ..., maka sebagian besar hanya akan mengingat bagian tidak penting dan tidak penting ketika bagian.
Jika kita memiliki kasing dengan varian yang tidak sama, maka ya kita masih dapat memuat garis kuadrat terkecil, tetapi apakah ini masih merupakan baris "terbaik"? atau akan lebih baik untuk berkonsultasi dengan seseorang dengan lebih banyak pengalaman / pelatihan tentang cara menyesuaikan garis dalam kasus itu. Bahkan jika kita senang dengan garis kuadrat terkecil, bukankah kita harus mengakui bahwa prediksi akan memiliki sifat yang berbeda untuk nilai yang berbeda dari prediktor? Jadi memeriksa varian yang tidak sama adalah baik untuk interpretasi nanti, bahkan jika kita tidak membutuhkannya untuk tes / interval / dll. yang kami gunakan.
sumber
1) jarang orang hanya ingin memperkirakan. Biasanya inferensi - CI, PI, tes - adalah tujuannya, atau paling tidak sebagian darinya (walaupun kadang-kadang dilakukan relatif secara informal)
2) Hal-hal seperti teorema Gauss Markov tidak selalu banyak membantu - jika distribusinya cukup jauh dari normal, estimator linier tidak banyak digunakan. Tidak ada gunanya mendapatkan BIRU jika tidak ada penduga linier yang sangat baik.
3) hal-hal seperti estimator sandwich melibatkan sejumlah besar parameter implisit. Mungkin masih baik-baik saja jika Anda memiliki banyak data, tetapi banyak kali orang tidak.
4) Interval prediksi bergantung pada bentuk distribusi bersyarat termasuk memiliki pegangan yang baik pada varians pada pengamatan - Anda tidak bisa dengan mudah melambaikan detail dengan PI.
5) hal-hal seperti bootstrap sering berguna untuk sampel yang sangat besar. Kadang-kadang mereka berjuang dalam sampel kecil - dan bahkan dalam sampel berukuran sedang, sering kita menemukan bahwa properti cakupan sebenarnya tidak seperti diiklankan.
Artinya - beberapa hal adalah jenis obat mujarab yang orang inginkan. Semua hal itu ada di tempatnya, dan tentu saja ada banyak kasus di mana (katakanlah) normalitas tidak diperlukan, dan di mana estimasi dan inferensi (tes dan CI) dapat dilakukan secara wajar tanpa perlu memerlukan normalitas, varian konstan, dan sebagainya.
Satu hal yang sering dilupakan adalah asumsi parametrik lain yang bisa dibuat. Seringkali orang cukup tahu tentang suatu situasi untuk membuat asumsi parametrik yang cukup baik (mis. Katakan ... bahwa respon kondisional cenderung condong ke kanan dengan sd yang cukup proporsional terhadap rata-rata mungkin mengarahkan kita untuk mempertimbangkan katakanlah model gamma atau lognormal); sering kali ini berhubungan dengan heteroskedastisitas dan non-normalitas dalam sekali jalan.
Alat yang sangat berguna adalah simulasi - dengan itu kita dapat memeriksa sifat-sifat alat kita dalam situasi yang sangat mirip dengan yang muncul dari data kita, dan karenanya menggunakannya dalam pengetahuan yang menghibur bahwa mereka memiliki sifat yang baik dalam kasus-kasus tersebut ( atau, kadang-kadang, lihat bahwa mereka tidak berfungsi sebaik yang kita harapkan).
sumber