Apa bahaya melanggar asumsi homoseksualitas untuk regresi linier?

28

Sebagai contoh, perhatikan ChickWeightkumpulan data dalam R. Varians jelas tumbuh dari waktu ke waktu, jadi jika saya menggunakan regresi linier sederhana seperti:

m <- lm(weight ~ Time*Diet, data=ChickWeight)

Pertanyaan saya:

  1. Aspek mana dari model yang akan dipertanyakan?
  2. Apakah masalah terbatas pada ekstrapolasi di luar Timerentang?
  3. Seberapa tolerankah regresi linier terhadap pelanggaran asumsi ini (yaitu, bagaimana heteroscedastic harus menyebabkan masalah)?
Dan M.
sumber
1
Selain hal-hal yang disebutkan dalam jawaban, interval prediksi Anda juga tidak akan memiliki cakupan yang tepat.
Glen_b -Reinstate Monica

Jawaban:

22

Model linier (atau "kuadrat terkecil") masih memiliki sifat tidak bias dalam kasus ini.

Dalam menghadapi heteroskedastisitas dalam hal kesalahan, Anda masih memiliki perkiraan parameter yang tidak bias tetapi Anda kehilangan pada matriks kovarians: kesimpulan Anda (yaitu pengujian parameter) mungkin tidak aktif. Perbaikan umum adalah menggunakan metode yang kuat untuk menghitung matriks kovarians alias kesalahan standar. Yang mana yang Anda gunakan agak tergantung pada domain tetapi metode White adalah permulaan.

Dan untuk kelengkapannya, korelasi seri istilah kesalahan lebih buruk karena akan menyebabkan estimasi parameter yang bias.

Dirk Eddelbuettel
sumber
Perkiraan kuat kesalahan standar (seperti metode White) membantu dengan tes / interval kepercayaan pada parameter, tetapi tidak membantu dengan interval prediksi?
kjetil b halvorsen
Kovarians vektor parameter digunakan dalam menghitung prediksi sehingga interval prediksi Anda juga akan menjadi bias secara umum.
Mustafa S Eisa
Benar. Penangguhan yang tidak sesuai, kesimpulan mungkin tidak aktif. Dua paras lainnya benar.
Dirk Eddelbuettel
1
Terima kasih telah menangkapnya, dan menjadi eksplisit (daripada diam-diam, atau "drive-by", downvote). Saya hanya sedikit ceroboh dalam penggunaan terminologi. Lebih baik sekarang.
Dirk Eddelbuettel
23

Homoscedasticity adalah salah satu asumsi Gauss Markov yang diperlukan untuk OLS untuk menjadi penaksir tidak bias linier terbaik (BLUE).

Teorema Gauss-Markov memberitahu kita bahwa estimator kuadrat terkecil untuk koefisien tidak bias dan memiliki varians minimum di antara semua estimator linier yang tidak bias, mengingat bahwa kita memenuhi semua asumsi Gauss-Markov. Anda dapat menemukan informasi lebih lanjut tentang Teorema Gauss-Markov termasuk bukti matematis teorema di sini . Selain itu, Anda dapat menemukan daftar lengkap asumsi OLS termasuk penjelasan apa yang terjadi jika mereka dilanggar di sini .β

Ringkas meringkas informasi dari situs web di atas, heteroskedastisitas tidak menimbulkan bias dalam estimasi koefisien Anda. Namun, dengan heteroskedastisitas, Anda tidak dapat memperkirakan dengan benar matriks varians-kovarians. Karenanya, kesalahan standar dari koefisien adalah salah. Ini berarti bahwa seseorang tidak dapat menghitung t-statistik dan nilai-p dan akibatnya pengujian hipotesis tidak dimungkinkan. Secara keseluruhan, di bawah heteroskedastisitas OLS kehilangan efisiensinya dan tidak BIRU lagi.

Namun, heteroskedastisitas bukanlah akhir dari dunia. Untungnya, mengoreksi heteroskedastisitas tidaklah sulit. Penaksir sandwich memungkinkan Anda memperkirakan kesalahan standar yang konsisten untuk koefisien. Namun demikian, menghitung kesalahan standar melalui estimator sandwich dikenakan biaya. Estimator tidak sangat efisien dan kesalahan standar mungkin sangat besar. Salah satu cara untuk mendapatkan kembali beberapa efisiensi adalah dengan mengelompokkan kesalahan standar jika memungkinkan.

Anda dapat menemukan informasi lebih rinci tentang subjek ini di situs web yang saya sebutkan di atas.

Simon O'Rourke
sumber
12

Tidak adanya homoseksualitas dapat memberikan estimasi kesalahan standar yang tidak dapat diandalkan dari parameter. Estimasi parameter tidak bias. Namun perkiraan tersebut mungkin tidak efisien (bukan BIRU). Anda dapat menemukan lebih banyak di tautan berikut

vinux
sumber
12

log(Y)Yβsalah dan menghasilkan jumlah kesalahan absolut yang tidak kompetitif. Kadang-kadang kurangnya ketegaran varian menandakan masalah pemodelan yang lebih mendasar.

Ylog(Y)

Frank Harrell
sumber
1

Ada informasi bagus di sini di jawaban lain, terutama untuk pertanyaan pertama Anda. Saya pikir saya akan menambahkan beberapa informasi gratis mengenai dua pertanyaan terakhir Anda.

  1. Masalah yang terkait dengan heteroskedastisitas tidak terbatas pada ekstrapolasi. Karena mereka terutama melibatkan interval kepercayaan, nilai p, dan batas prediksi salah, mereka berlaku di seluruh rentang data Anda.
  2. 4×
gung - Reinstate Monica
sumber