Apa artinya memiliki "varian konstan" dalam istilah kesalahan? Seperti yang saya lihat, kami memiliki data dengan satu variabel dependen dan satu variabel independen. Varians konstan adalah salah satu asumsi regresi linier. Saya bertanya-tanya apa arti homoseksualitas. Karena walaupun saya memiliki 500 baris, saya akan memiliki nilai varians tunggal yang jelas konstan. Dengan variabel apa saya harus membandingkan varians?
53
Ini adalah tempat di mana saya menemukan melihat beberapa formula membantu, bahkan untuk orang-orang dengan kecemasan matematika (saya tidak menyarankan Anda melakukannya, tentu saja). Sederhana linier model regresi adalah: Apa yang penting untuk dicatat di sini adalah bahwa model ini secara eksplisit menyatakan setelah Anda memperkirakan informasi yang bermakna dalam data (itulah " "), tidak ada yang tersisa selain white noise. Selain itu, kesalahan didistribusikan sebagai Normal dengan varian .
Sangat penting untuk menyadari bahwa bukan variabel (meskipun dalam aljabar tingkat sekolah menengah pertama, kita akan menyebutnya begitu). Itu tidak bervariasi. bervariasi. bervariasi. Istilah kesalahan, , bervariasi secara acak ; itu adalah variabel acak . Namun, parameter ( adalah placeholder untuk nilai yang kami tidak tahu - mereka tidak bervariasi. Sebaliknya, mereka adalah konstanta yang tidak diketahui . Hasil dari fakta ini untuk diskusi ini adalah bahwa tidak peduli apa adalah (yaitu, nilai apa yang terpasang di sana),σ2ε X Y ε β0, β1, σ2ε) X σ2ε tetap sama. Dengan kata lain, varians dari kesalahan / residual adalah konstan. Demi kontras (dan mungkin kejelasan yang lebih besar), pertimbangkan model ini:
Dalam hal ini, kami memasukkan nilai untuk (dimulai pada baris ketiga) , sampaikan melalui fungsi dan dapatkan varians kesalahan yang diperoleh pada nilai yang tepat . Kemudian kita bergerak melalui sisa persamaan seperti biasa.
X f ( X ) X
Diskusi di atas harus membantu memahami sifat asumsi; pertanyaannya juga menanyakan bagaimana cara menilai itu. Pada dasarnya ada dua pendekatan: tes hipotesis formal dan memeriksa plot. Tes untuk heteroskedastisitas dapat digunakan jika Anda memiliki data percobaan-ish (yaitu, yang hanya terjadi pada nilai tetap ) atau ANOVA. Saya membahas beberapa tes semacam itu di sini: Mengapa Levene menguji persamaan varian daripada rasio-FX . Namun, saya cenderung berpikir melihat plot adalah yang terbaik. @Penquin_Knight telah melakukan pekerjaan yang baik untuk menunjukkan seperti apa varian konstan dengan memplot residual dari model di mana homoscedasticity diperoleh terhadap nilai-nilai yang sesuai. Heteroscedasticity juga dapat dideteksi dalam plot data mentah, atau dalam plot skala lokasi (juga disebut spread-level). R dengan mudah memplot yang terakhir untuk Anda dengan panggilan ke
plot.lm(model, which=2)
; ini adalah akar kuadrat dari nilai absolut residu terhadap nilai-nilai yang dipasang, dengan kurva lowess yang sangat membantu. Anda ingin agar lowess fit menjadi rata, bukan miring.Pertimbangkan plot di bawah ini, yang membandingkan tampilan data homoscedastic vs heteroscedastic dalam tiga tipe angka yang berbeda ini. Perhatikan bentuk corong untuk dua plot heteroscedastic atas, dan garis lowess miring ke atas di yang terakhir.
Untuk kelengkapan, berikut adalah kode yang saya gunakan untuk menghasilkan data ini:
sumber