Apa saja sifat-sifat MLE yang membuatnya lebih diinginkan daripada OLS?

8

Pertanyaan ini tampaknya cukup mendasar sehingga saya yakin telah dijawab di suatu tempat, tetapi saya belum menemukannya.

Saya mengerti bahwa jika variabel dependen dalam regresi terdistribusi normal, kemungkinan maksimum dan kuadrat terkecil biasa menghasilkan estimasi parameter yang sama.

Ketika variabel dependen tidak terdistribusi secara normal, estimasi parameter OLS tidak lagi setara dengan MLE tetapi mereka masih Best (varians minimum) Estimasi tidak linear (BLUE).

Jadi, apa saja sifat-sifat MLE yang membuatnya diinginkan melebihi apa yang ditawarkan OLS (menjadi BIRU)?

Dengan kata lain, apa yang saya kehilangan jika saya tidak bisa mengatakan perkiraan OLS saya adalah perkiraan kemungkinan maksimum?

Untuk sedikit memotivasi pertanyaan ini: Saya ingin tahu mengapa saya ingin memilih model regresi selain OLS di hadapan variabel dependen yang jelas tidak normal.

Hebat38
sumber
Tergantung apa yang Anda inginkan dari model. Para ahli ekonometrika umumnya menginginkan perkiraan efek marginal dalam sampel rata-rata, dan OLS menyediakan ini (selama Anda tidak terganggu oleh asumsi keterpisahan aditif). Tetapi jika Anda menginginkan model yang menggambarkan fitur lain dari fenomena yang mendasarinya, OLS tidak akan berfungsi juga. Misalnya, Anda mungkin tertarik pada prediksi di luar sampel, atau menginginkan perkiraan ketidakpastian yang lebih baik.
generic_user
Perlu disebutkan bahwa OLS lebih sensitif terhadap pencilan, karena fungsi objektif menggunakan kuadrat kesalahan (sehingga masalah semakin buruk semakin ekstrim penyimpangan). Inilah sebabnya mengapa teknik 'regresi kuat' seperti estimasi-M menggunakan MLE dan bukan OLS.
HEITZ
Jika istilah kesalahan tidak normal maka uji t dan uji F koefisien mungkin tidak dapat diandalkan. Kemiringan ekstrem dan pencilan ekstrim adalah masalah khusus. Secara praktis hal ini membuat spesifikasi model yang tepat menjadi lebih sulit, berkontribusi terhadap kemungkinan bias dalam estimasi koefisien (dari spesifikasi yang salah), dan kinerja sampel yang buruk.
david25272

Jawaban:

7

Ketika Anda bergerak cukup jauh dari normalitas, semua estimator linier mungkin sewenang-wenang .

Mengetahui bahwa Anda bisa mendapatkan yang terbaik dari banyak yang buruk (yaitu perkiraan linear tidak memihak terbaik ) tidak banyak penghiburan.

Jika Anda dapat menentukan model distribusi yang cocok (ya , ada intinya ), memaksimalkan kemungkinan memiliki daya tarik intuitif langsung - dalam hal itu "memaksimalkan peluang" untuk melihat sampel yang benar-benar Anda lihat (dengan penyempurnaan yang sesuai dari apa yang kami maksud dengan itu untuk kasus kontinu) dan sejumlah sifat yang sangat rapi yang berguna baik secara teoritis dan praktis (misalnya hubungan dengan batas bawah Cramer-Rao, kesetaraan dalam transformasi, hubungan dengan uji rasio kemungkinan dan sebagainya). Ini memotivasi estimasi-M misalnya.

Bahkan ketika Anda tidak dapat menentukan model, dimungkinkan untuk membangun model yang ML kuat terhadap kontaminasi oleh kesalahan kotor dalam distribusi bersyarat dari respons - di mana ia mempertahankan efisiensi yang cukup baik di Gaussian tetapi menghindari kemungkinan bencana. dampak outlier besar sewenang-wenang.

[Itu bukan satu-satunya pertimbangan dengan regresi, karena ada juga kebutuhan untuk ketahanan terhadap efek pencilan yang berpengaruh misalnya, tapi itu adalah langkah awal yang baik]


Sebagai demonstrasi masalah bahkan dengan penaksir linier terbaik, pertimbangkan perbandingan penaksir kemiringan ini untuk regresi. Dalam hal ini ada 100 pengamatan di setiap sampel, x adalah 0/1, kemiringan sebenarnya adalah12dan kesalahan adalah Cauchy standar. Simulasi mengambil 1000 set data simulasi dan menghitung estimasi kuadrat kemiringan ("LS") serta beberapa penduga nonlinier yang dapat digunakan dalam situasi ini (keduanya tidak sepenuhnya efisien di Cauchy tetapi keduanya masuk akal ) - satu adalah penaksir L1 dari garis ("L1") dan yang kedua menghitung perkiraan-L lokasi yang sederhana pada dua nilai x dan cocok dengan garis yang menyatukannya ("LE").

boxplots membandingkan kinerja estimator kemiringan kuadrat terkecil dengan beberapa estimasi kesalahan-ke-lereng yang cocok untuk situasi ini

Bagian atas diagram adalah petak dari seribu perkiraan kemiringan lereng untuk setiap simulasi. Bagian bawah adalah pusat satu persen (kira-kira, itu ditandai dengan kotak oranye-abu-abu samar di plot atas) dari gambar "meledak" sehingga kita dapat melihat lebih detail. Seperti yang kita lihat, lereng dengan kuadrat terkecil berkisar dari -771 hingga 1224 dan kuartil bawah dan atas adalah -1,24 dan 2,46. Kesalahan dalam kemiringan LS lebih dari 10 lebih dari 10% dari waktu. Dua penduga nonlinier bekerja jauh lebih baik - mereka melakukan cukup mirip satu sama lain, tak satu pun dari 1.000 perkiraan kemiringan dalam kedua kasus lebih dari 0,84 dari kemiringan sebenarnya dan kesalahan absolut median di lereng adalah di stadion baseball 0,14 untuk masing-masing (vs 1,86 untuk estimator kuadrat terkecil). Kemiringan LS memiliki RMSE sebesar 223 dan 232 kali dari estimasi L1 dan LE dalam kasus ini (yaitu '

Ada lusinan penaksir wajar lainnya yang mungkin telah digunakan di sini; ini hanyalah perhitungan cepat untuk menggambarkan bahwa bahkan penaksir linier terbaik / paling efisien mungkin tidak berguna. Pengukur ML lereng akan berkinerja lebih baik (dalam arti MSE) daripada dua penaksir kuat yang digunakan di sini, tetapi dalam praktiknya Anda menginginkan sesuatu dengan kekokohan pada titik yang berpengaruh.

Glen_b -Reinstate Monica
sumber
Kata baik. Itu masuk akal. Saya berasumsi bahwa penduga linier masih bekerja dengan baik (mungkin bahkan lebih baik daripada penduga non-linear) ketika variabel dependen tidak normal tetapi masih simetris. Apakah intuisi saya benar di sini?
Hebat38
1
Tidak, simetri tidak cukup untuk menyelamatkan estimasi linier. Pertimbangkan kesalahan Cauchy, misalnya. Ada sejumlah penaksir yang memadai tetapi semuanya nonlinier dalam arti yang dimaksud.
Glen_b -Reinstate Monica
Saya telah melakukan sedikit simulasi untuk mengilustrasikan masalah ini (kinerja berpotensi buruk sewenang-wenang) berlaku untuk distribusi kesalahan simetris - lihat edit saya. Simulasi itu untuk distribusi kesalahan simetris. Anda dapat melihat bagaimana kuadrat terkecil bencana dalam kasus itu. Bahkan sebagian kecil kontaminasi dengan sesuatu yang mungkin memiliki kesalahan besar adalah masalah untuk itu. Menjadi BIRU kadang-kadang bisa sedikit nilainya sama sekali. Jika Anda mengetahui sesuatu tentang bagaimana kesalahan Anda berperilaku, mungkin ide yang baik untuk menggunakan pengetahuan itu ...
ctd
ctd ... (via ML, katakanlah, bahkan jika Anda menambahnya dengan sedikit ketahanan jika Anda salah; seperti membatasi fungsi pengaruh dari M-estimator yang dihasilkan) dan jika Anda tidak tahu apa-apa - tidak cukup untuk mengasumsikan kemungkinan sama sekali - itu tidak selalu sepadan dengan risiko potensial dalam mengasumsikan bahwa penaksir linier akan menjadi pilihan yang bagus. Saya tidak akan mengatakan "tidak pernah menggunakan kuadrat terkecil" (saya menggunakannya cukup teratur namun sangat menyadari betapa buruknya itu berpotensi melakukan) - tetapi BIRU sendiri tidak selalu menyiratkan bahwa itu adalah pilihan yang baik.
Glen_b -Reinstate Monica
1

Dalam hal data terdistribusi normal, OLS bertemu dengan MLE, solusi yang BIRU (pada titik itu). Sekali di luar normal, OLS tidak lagi BIRU (dalam istilah teorema Gauss-Markov) - ini karena OLS terlihat untuk meminimalkan SSR sedangkan GMT mendefinisikan BIRU dalam hal SE minimum. Lihat lebih lanjut di sini .

Secara umum, mengingat MLE ada (google untuk 'MLE failure' atau untuk kasus-kasus di mana MLE tidak ada), lebih mudah untuk menyesuaikannya, baik untuk meminimalkan varians atau membuatnya tidak bias (dan karena itu sebanding dengan penduga lain) .

Spätzle
sumber
3
Variabel dependen tidak harus normal untuk OLS menjadi BIRU: en.wikipedia.org/wiki/Gauss%E2%80%93Markov_theorem
Great38
1
... selain itu, dengan data yang terdistribusi normal, OLS = MLE, tidak menyatu dengannya. Paragraf kedua Anda juga cukup jelas ... lebih mudah untuk menyesuaikan MLE daripada apa?
jbowman
OLS masih BIRU di luar normalitas; masalahnya adalah bahwa BIRU (dan khususnya, L ) itu sendiri belum tentu berguna.
Glen_b -Reinstate Monica