Jika saya memiliki model regresi:
mana dan ,
kapan akan menggunakan , estimator kuadrat terkecil biasa dari , menjadi pilihan yang buruk untuk estimator?
Saya mencoba mencari tahu contoh kuadrat paling tidak berfungsi dengan baik. Jadi saya mencari distribusi kesalahan yang memuaskan hipotesis sebelumnya tetapi menghasilkan hasil yang buruk. Jika keluarga distribusi akan ditentukan oleh mean dan varians yang akan menjadi besar. Jika tidak, tidak apa-apa juga.
Saya tahu bahwa "hasil buruk" agak kabur, tetapi saya pikir idenya dapat dimengerti.
Hanya untuk menghindari kebingungan, saya tahu paling tidak kuadrat tidak optimal, dan bahwa ada penaksir yang lebih baik seperti regresi ridge. Tapi bukan itu yang saya tuju. Saya ingin contoh kuadrat akan menjadi tidak wajar.
Saya bisa membayangkan hal-hal seperti, vektor kesalahan hidup di daerah non-cembung , tapi saya tidak yakin tentang itu.
Sunting 1: Sebagai ide untuk membantu jawaban (yang saya tidak tahu bagaimana harus melangkah lebih jauh). adalah BIRU. Jadi mungkin akan membantu untuk memikirkan kapan estimator linier yang tidak memihak tidak akan menjadi ide yang baik.
Sunting 2: Seperti yang ditunjukkan Brian, jika dikondisikan buruk, maka adalah ide yang buruk karena varians terlalu besar, dan Regresi Ridge harus digunakan sebagai gantinya. Saya lebih tertarik adalah mengetahui distribusi apa yang harus untuk membuat kuadrat bekerja buruk.
Apakah ada distribusi dengan mean nol dan matriks varians identitas untuk yang membuat penaksir ini tidak efisien?
Jawaban:
Jawaban Brian Borchers cukup bagus --- data yang berisi outlier aneh seringkali tidak dianalisis dengan baik oleh OLS. Saya hanya akan memperluas ini dengan menambahkan gambar, Monte Carlo, dan beberapa
R
kode.Pertimbangkan model regresi yang sangat sederhana:
Model ini sesuai dengan pengaturan Anda dengan koefisien kemiringan 1.
Plot terlampir menunjukkan dataset yang terdiri dari 100 pengamatan pada model ini, dengan variabel x berjalan dari 0 hingga 1. Dalam dataset yang diplot, ada satu gambar kesalahan yang muncul dengan nilai outlier (+31 dalam kasus ini) . Juga digambarkan garis regresi OLS berwarna biru dan garis regresi deviasi absolut berwarna merah. Perhatikan bagaimana OLS tetapi tidak LAD terdistorsi oleh pencilan:
Kami dapat memverifikasi ini dengan melakukan Monte Carlo. Di Monte Carlo, saya menghasilkan dataset dari 100 pengamatan menggunakan dan an dengan distribusi di atas 10.000 kali. Dalam 10.000 replikasi itu, kita tidak akan mendapatkan outlier di sebagian besar. Tetapi dalam beberapa kita akan mendapatkan pencilan, dan itu akan mengacaukan OLS tetapi tidak LAD setiap kali. The kode di bawah menjalankan Monte Carlo. Berikut adalah hasil untuk koefisien kemiringan:x ϵ
R
Baik OLS dan LAD menghasilkan estimator yang tidak bias (lereng rata-rata 1,00 lebih dari 10.000 replikasi) OLS menghasilkan estimator dengan standar deviasi yang jauh lebih tinggi, meskipun, 0,34 vs 0,09. Dengan demikian, OLS tidak terbaik / paling efisien di antara penaksir yang tidak memihak, di sini. Ini masih BIRU, tentu saja, tetapi LAD tidak linier, jadi tidak ada kontradiksi. Perhatikan kesalahan liar yang dapat dilakukan OLS di kolom Min dan Max. Tidak begitu LAD.
Berikut adalah kode R untuk grafik dan Monte Carlo:
sumber
Salah satu contoh adalah ketika Anda tidak ingin memperkirakan nilai tengah. Ini muncul dalam pekerjaan yang biasa saya lakukan di mana kami memperkirakan jumlah pasangan seks yang dimiliki orang, sebagai bagian dari pemodelan penyebaran HIV / AIDS. Ada lebih banyak minat pada ekor distribusi: Orang mana yang memiliki banyak pasangan?
Dalam hal ini, Anda bisa menginginkan regresi kuantitatif; metode yang kurang dimanfaatkan, menurut saya.
sumber
sumber