Apa artinya memiliki "varian konstan" dalam model regresi linier?

53

Apa artinya memiliki "varian konstan" dalam istilah kesalahan? Seperti yang saya lihat, kami memiliki data dengan satu variabel dependen dan satu variabel independen. Varians konstan adalah salah satu asumsi regresi linier. Saya bertanya-tanya apa arti homoseksualitas. Karena walaupun saya memiliki 500 baris, saya akan memiliki nilai varians tunggal yang jelas konstan. Dengan variabel apa saya harus membandingkan varians?

Mukul
sumber

Jawaban:

34

Ini berarti bahwa ketika Anda memetakan kesalahan individu terhadap nilai prediksi, varians dari nilai prediksi kesalahan harus konstan. Lihat panah merah pada gambar di bawah ini, panjang garis merah (proksi variansnya) adalah sama.

masukkan deskripsi gambar di sini

Penguin_Knight
sumber
1
Baik dimengerti.!! Tetapi karena ini adalah asumsi, kita tidak perlu memvalidasi asumsi sebelum menjalankan model. Dan mengapa kita membutuhkan asumsi ini
Mukul
2
Beberapa asumsi hanya dapat diuji setelah model dijalankan. Menghitung model hanyalah matematika dan tidak sama dengan menafsirkan model.
John
6
Rentang tidak sama dengan varian Penguin Knight sehingga Anda mungkin ingin memperbarui kata-kata Anda di sini.
John
4
Jika asumsi varian Anda salah, maka biasanya berarti kesalahan standar salah dan setiap pengujian hipotesis dapat menarik kesimpulan yang salah. (A John berbeda)
John
4
Saya sedikit berbeda. Saya tidak akan mengatakan bahwa heteroskedastisitas berarti kesalahan standar beta Anda salah, tetapi bahwa penaksir OLS bukan lagi penaksir tidak bias yang paling efisien. Artinya, Anda bisa mendapatkan lebih banyak daya / presisi jika Anda memiliki varians konstan (mungkin karena transformasi Y), atau jika Anda secara akurat memperhitungkan non-keteguhan (mungkin melalui estimator kuadrat terkecil umum).
gung - Reinstate Monica
58

Ini adalah tempat di mana saya menemukan melihat beberapa formula membantu, bahkan untuk orang-orang dengan kecemasan matematika (saya tidak menyarankan Anda melakukannya, tentu saja). Sederhana linier model regresi adalah: Apa yang penting untuk dicatat di sini adalah bahwa model ini secara eksplisit menyatakan setelah Anda memperkirakan informasi yang bermakna dalam data (itulah " "), tidak ada yang tersisa selain white noise. Selain itu, kesalahan didistribusikan sebagai Normal dengan varian .

Y=β0+β1X+εwhere εN(0,σε2)
β0+β1Xσε2

Sangat penting untuk menyadari bahwa bukan variabel (meskipun dalam aljabar tingkat sekolah menengah pertama, kita akan menyebutnya begitu). Itu tidak bervariasi. bervariasi. bervariasi. Istilah kesalahan, , bervariasi secara acak ; itu adalah variabel acak . Namun, parameter ( adalah placeholder untuk nilai yang kami tidak tahu - mereka tidak bervariasi. Sebaliknya, mereka adalah konstanta yang tidak diketahui . Hasil dari fakta ini untuk diskusi ini adalah bahwa tidak peduli apa adalah (yaitu, nilai apa yang terpasang di sana),σε2XYεβ0, β1, σε2)Xσε2tetap sama. Dengan kata lain, varians dari kesalahan / residual adalah konstan. Demi kontras (dan mungkin kejelasan yang lebih besar), pertimbangkan model ini: Dalam hal ini, kami memasukkan nilai untuk (dimulai pada baris ketiga) , sampaikan melalui fungsi dan dapatkan varians kesalahan yang diperoleh pada nilai yang tepat . Kemudian kita bergerak melalui sisa persamaan seperti biasa.
X f ( X ) X

Y=β0+β1X+εwhere εN(0,f(X)) where f(X)=exp(γ0+γ1X)and γ10
Xf(X) X

Diskusi di atas harus membantu memahami sifat asumsi; pertanyaannya juga menanyakan bagaimana cara menilai itu. Pada dasarnya ada dua pendekatan: tes hipotesis formal dan memeriksa plot. Tes untuk heteroskedastisitas dapat digunakan jika Anda memiliki data percobaan-ish (yaitu, yang hanya terjadi pada nilai tetap ) atau ANOVA. Saya membahas beberapa tes semacam itu di sini: Mengapa Levene menguji persamaan varian daripada rasio-FX. Namun, saya cenderung berpikir melihat plot adalah yang terbaik. @Penquin_Knight telah melakukan pekerjaan yang baik untuk menunjukkan seperti apa varian konstan dengan memplot residual dari model di mana homoscedasticity diperoleh terhadap nilai-nilai yang sesuai. Heteroscedasticity juga dapat dideteksi dalam plot data mentah, atau dalam plot skala lokasi (juga disebut spread-level). R dengan mudah memplot yang terakhir untuk Anda dengan panggilan ke plot.lm(model, which=2); ini adalah akar kuadrat dari nilai absolut residu terhadap nilai-nilai yang dipasang, dengan kurva lowess yang sangat membantu. Anda ingin agar lowess fit menjadi rata, bukan miring.

Pertimbangkan plot di bawah ini, yang membandingkan tampilan data homoscedastic vs heteroscedastic dalam tiga tipe angka yang berbeda ini. Perhatikan bentuk corong untuk dua plot heteroscedastic atas, dan garis lowess miring ke atas di yang terakhir.

masukkan deskripsi gambar di sini

Untuk kelengkapan, berikut adalah kode yang saya gunakan untuk menghasilkan data ini:

set.seed(5)

N  = 500
b0 = 3
b1 = 0.4

s2 = 5
g1 = 1.5
g2 = 0.015

x        = runif(N, min=0, max=100)
y_homo   = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2            ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))

mod.homo   = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)
gung - Reinstate Monica
sumber
1
terima kasih itu sangat membantu. Dapatkah Anda juga menjelaskan mengapa kita perlu asumsi ini dalam bahasa awam
Mukul
5
Sama-sama, @Mukul. Asumsi homoscedasticity (varians konstan) diperlukan untuk membuat penaksir OLS (yaitu, perangkat lunak prosedur default digunakan untuk memperkirakan beta) prosedur estimasi yang akan menghasilkan distribusi sampling dari beta yang memiliki kesalahan standar tersempit dari semua prosedur estimasi yang menghasilkan distribusi sampling yang berpusat pada nilai sebenarnya. Yaitu, penaksir OLS perlu menjadi penaksir tidak bias varians minimum .
gung - Reinstate Monica
5
Jika variabel respons Anda adalah biner , itu akan didistribusikan sebagai binomial. IE, banyak bagian dari model regresi linier yang dijelaskan di atas tidak pantas. Salah satu dari isu-isu tersebut adalah bahwa, karena varians dari binomial adalah fungsi dari mean (mean: , varians: ), asumsi homoscedasticity dilanggar. Untuk memahami hal-hal ini dengan lebih baik, mungkin akan membantu untuk membaca jawaban saya di sini: perbedaan-antara-logit-dan-probit-model , meskipun ditulis dalam konteks yang berbeda. ( p ( 1 - p ) ) / n )p(p(1p))/n)
gung - Reinstate Monica
2
@gung dalam komentar Anda, Anda menempatkan huruf miring pada semua kata dalam taksiran taksiran varians minimum varians. Saya mengerti bahwa dengan heteroskedastisitas, estimator akan menjadi kurang efisien (lebih bervariasi), tetapi apakah bias juga?
user1205901
5
@ user1205901, tetap tidak bias.
gung - Reinstate Monica