@NickCox telah melakukan pekerjaan dengan baik berbicara tentang tampilan residu ketika Anda memiliki dua kelompok. Biarkan saya membahas beberapa pertanyaan eksplisit dan asumsi implisit yang ada di balik utas ini.
Pertanyaannya bertanya, "bagaimana Anda menguji asumsi regresi linier seperti homoscedasticity ketika variabel independen adalah biner?" Anda memiliki beberapa model regresi. Model regresi (berganda) mengasumsikan hanya ada satu istilah kesalahan, yang konstan di mana-mana. Tidaklah terlalu berarti (dan Anda tidak perlu) memeriksa heteroskedastisitas untuk setiap prediktor secara individual. Inilah sebabnya, ketika kami memiliki model regresi berganda, kami mendiagnosis heteroskedastisitas dari plot residual vs nilai prediksi. Mungkin plot yang paling membantu untuk tujuan ini adalah plot skala-lokasi (juga disebut 'spread-level'), yang merupakan plot akar kuadrat dari nilai absolut residu vs nilai prediksi. Untuk melihat contoh,Apa artinya memiliki "varian konstan" dalam model regresi linier?
Demikian juga, Anda tidak perlu memeriksa residual untuk setiap prediktor untuk normalitas. (Jujur saya bahkan tidak tahu bagaimana itu akan bekerja.)
Apa yang dapat Anda lakukan dengan plot residu terhadap prediktor individual adalah memeriksa untuk melihat apakah bentuk fungsional ditentukan dengan benar. Misalnya, jika residu membentuk parabola, ada beberapa kelengkungan dalam data yang Anda lewatkan. Untuk melihat contoh, lihat plot kedua dalam jawaban @ Glen_b di sini: Memeriksa kualitas model dalam regresi linier . Namun, masalah ini tidak berlaku dengan prediktor biner.
Untuk apa nilainya, jika Anda hanya memiliki prediktor kategori, Anda dapat menguji heteroskedastisitas. Anda hanya menggunakan tes Levene. Saya membahasnya di sini: Mengapa uji Levene tentang persamaan varian daripada rasio F? Di R Anda menggunakan ? LeveneTest dari paket mobil.
Sunting: Untuk menggambarkan dengan lebih baik titik yang melihat plot residual vs variabel prediktor individual tidak membantu ketika Anda memiliki model regresi berganda, pertimbangkan contoh ini:
set.seed(8603) # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50)) # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12) # here is the (dichotomous) x2 variable
y = 5 + 1*x1 + 2*x2 + rnorm(48) # the true data generating process, there is
# no heteroscedasticity
mod = lm(y~x1+x2) # this fits the model
Anda dapat melihat dari proses pembuatan data bahwa tidak ada heteroskedastisitas. Mari kita periksa plot yang relevan dari model untuk melihat apakah mereka menyiratkan heteroskedastisitas bermasalah:
Tidak, tidak ada yang perlu dikhawatirkan. Namun, mari kita lihat plot residual vs variabel prediktor biner individu untuk melihat apakah ada heteroskedastisitas di sana:
Eh, sepertinya memang ada masalah. Kami tahu dari proses pembuatan data bahwa tidak ada heteroskedastisitas, dan plot utama untuk mengeksplorasi ini juga tidak menunjukkan apa-apa, jadi apa yang terjadi di sini? Mungkin plot ini akan membantu:
x1
dan x2
tidak independen satu sama lain. Apalagi pengamatannya yang x2 = 1
berada di ekstrem. Mereka memiliki lebih banyak pengaruh, sehingga residu mereka secara alami lebih kecil. Meskipun demikian, tidak ada heteroskedastisitas.
Pesan bawa pulang: Taruhan terbaik Anda adalah hanya mendiagnosis heteroskedastisitas dari plot yang sesuai (residu vs plot pas, dan plot level sebaran).
Memang benar bahwa plot residu konvensional lebih sulit dalam hal ini: akan lebih sulit untuk melihat apakah distribusinya hampir sama. Tetapi ada alternatif mudah di sini. Anda hanya membandingkan dua distribusi, dan ada banyak cara bagus untuk melakukan itu. Beberapa kemungkinan adalah plot kuantil, histogram, atau plot kotak berdampingan atau ditumpangkan. Prasangka saya sendiri adalah bahwa plot kotak tanpa hiasan sering digunakan berlebihan di sini: mereka biasanya akan menekan detail yang ingin kita lihat, bahkan jika kita sering dapat mengabaikannya sebagai hal yang tidak penting. Tapi Anda bisa makan kue Anda dan memilikinya.
Anda menggunakan R, tetapi tidak ada statistik dalam pertanyaan Anda yang spesifik-R. Di sini saya menggunakan Stata untuk regresi pada prediktor biner tunggal dan kemudian meluncurkan plot kotak kuantil yang membandingkan residu untuk dua tingkat prediktor. Kesimpulan praktis dalam contoh ini adalah bahwa distribusinya hampir sama.
Catatan: Lihat juga Bagaimana menyajikan plot kotak dengan pencilan ekstrim? termasuk contoh @ Glen_b tentang plot serupa menggunakan R. Plot seperti itu harus mudah dalam perangkat lunak yang layak; jika tidak, perangkat lunak Anda tidak layak.
sumber