Pertanyaan ini tampaknya cukup mendasar sehingga saya yakin telah dijawab di suatu tempat, tetapi saya belum menemukannya.
Saya mengerti bahwa jika variabel dependen dalam regresi terdistribusi normal, kemungkinan maksimum dan kuadrat terkecil biasa menghasilkan estimasi parameter yang sama.
Ketika variabel dependen tidak terdistribusi secara normal, estimasi parameter OLS tidak lagi setara dengan MLE tetapi mereka masih Best (varians minimum) Estimasi tidak linear (BLUE).
Jadi, apa saja sifat-sifat MLE yang membuatnya diinginkan melebihi apa yang ditawarkan OLS (menjadi BIRU)?
Dengan kata lain, apa yang saya kehilangan jika saya tidak bisa mengatakan perkiraan OLS saya adalah perkiraan kemungkinan maksimum?
Untuk sedikit memotivasi pertanyaan ini: Saya ingin tahu mengapa saya ingin memilih model regresi selain OLS di hadapan variabel dependen yang jelas tidak normal.
Jawaban:
Ketika Anda bergerak cukup jauh dari normalitas, semua estimator linier mungkin sewenang-wenang .
Mengetahui bahwa Anda bisa mendapatkan yang terbaik dari banyak yang buruk (yaitu perkiraan linear tidak memihak terbaik ) tidak banyak penghiburan.
Jika Anda dapat menentukan model distribusi yang cocok (ya , ada intinya ), memaksimalkan kemungkinan memiliki daya tarik intuitif langsung - dalam hal itu "memaksimalkan peluang" untuk melihat sampel yang benar-benar Anda lihat (dengan penyempurnaan yang sesuai dari apa yang kami maksud dengan itu untuk kasus kontinu) dan sejumlah sifat yang sangat rapi yang berguna baik secara teoritis dan praktis (misalnya hubungan dengan batas bawah Cramer-Rao, kesetaraan dalam transformasi, hubungan dengan uji rasio kemungkinan dan sebagainya). Ini memotivasi estimasi-M misalnya.
Bahkan ketika Anda tidak dapat menentukan model, dimungkinkan untuk membangun model yang ML kuat terhadap kontaminasi oleh kesalahan kotor dalam distribusi bersyarat dari respons - di mana ia mempertahankan efisiensi yang cukup baik di Gaussian tetapi menghindari kemungkinan bencana. dampak outlier besar sewenang-wenang.
[Itu bukan satu-satunya pertimbangan dengan regresi, karena ada juga kebutuhan untuk ketahanan terhadap efek pencilan yang berpengaruh misalnya, tapi itu adalah langkah awal yang baik]
Sebagai demonstrasi masalah bahkan dengan penaksir linier terbaik, pertimbangkan perbandingan penaksir kemiringan ini untuk regresi. Dalam hal ini ada 100 pengamatan di setiap sampel, x adalah 0/1, kemiringan sebenarnya adalah12 dan kesalahan adalah Cauchy standar. Simulasi mengambil 1000 set data simulasi dan menghitung estimasi kuadrat kemiringan ("LS") serta beberapa penduga nonlinier yang dapat digunakan dalam situasi ini (keduanya tidak sepenuhnya efisien di Cauchy tetapi keduanya masuk akal ) - satu adalah penaksir L1 dari garis ("L1") dan yang kedua menghitung perkiraan-L lokasi yang sederhana pada dua nilai x dan cocok dengan garis yang menyatukannya ("LE").
Bagian atas diagram adalah petak dari seribu perkiraan kemiringan lereng untuk setiap simulasi. Bagian bawah adalah pusat satu persen (kira-kira, itu ditandai dengan kotak oranye-abu-abu samar di plot atas) dari gambar "meledak" sehingga kita dapat melihat lebih detail. Seperti yang kita lihat, lereng dengan kuadrat terkecil berkisar dari -771 hingga 1224 dan kuartil bawah dan atas adalah -1,24 dan 2,46. Kesalahan dalam kemiringan LS lebih dari 10 lebih dari 10% dari waktu. Dua penduga nonlinier bekerja jauh lebih baik - mereka melakukan cukup mirip satu sama lain, tak satu pun dari 1.000 perkiraan kemiringan dalam kedua kasus lebih dari 0,84 dari kemiringan sebenarnya dan kesalahan absolut median di lereng adalah di stadion baseball 0,14 untuk masing-masing (vs 1,86 untuk estimator kuadrat terkecil). Kemiringan LS memiliki RMSE sebesar 223 dan 232 kali dari estimasi L1 dan LE dalam kasus ini (yaitu '
Ada lusinan penaksir wajar lainnya yang mungkin telah digunakan di sini; ini hanyalah perhitungan cepat untuk menggambarkan bahwa bahkan penaksir linier terbaik / paling efisien mungkin tidak berguna. Pengukur ML lereng akan berkinerja lebih baik (dalam arti MSE) daripada dua penaksir kuat yang digunakan di sini, tetapi dalam praktiknya Anda menginginkan sesuatu dengan kekokohan pada titik yang berpengaruh.
sumber
Dalam hal data terdistribusi normal, OLS bertemu dengan MLE, solusi yang BIRU (pada titik itu). Sekali di luar normal, OLS tidak lagi BIRU (dalam istilah teorema Gauss-Markov) - ini karena OLS terlihat untuk meminimalkan SSR sedangkan GMT mendefinisikan BIRU dalam hal SE minimum. Lihat lebih lanjut di sini .
Secara umum, mengingat MLE ada (google untuk 'MLE failure' atau untuk kasus-kasus di mana MLE tidak ada), lebih mudah untuk menyesuaikannya, baik untuk meminimalkan varians atau membuatnya tidak bias (dan karena itu sebanding dengan penduga lain) .
sumber