Bagaimana melakukan analisis residual untuk prediktor independen biner / dikotomi dalam regresi linier?

11

Saya melakukan regresi linier berganda di bawah ini dalam R untuk memprediksi pengembalian dana yang dikelola.

reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata)

Di sini hanya GRI & MBA yang merupakan prediktor biner / dikotomis; prediktor yang tersisa bersifat kontinu.

Saya menggunakan kode ini untuk menghasilkan plot sisa untuk variabel biner.

plot(rawdata$GRI, reg$residuals)
abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) 

plot(rawdata$MBA, reg$residuals)
abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 

Pertanyaan saya: Saya tahu bagaimana memeriksa plot residu untuk prediktor kontinu tetapi bagaimana Anda menguji asumsi regresi linier seperti homoscedasticity ketika variabel independen adalah biner?

Plot Sisa:

Residual Plot untuk GR1 Residual Plot untuk MBA

GeorgeOfTheRF
sumber

Jawaban:

8

@NickCox telah melakukan pekerjaan dengan baik berbicara tentang tampilan residu ketika Anda memiliki dua kelompok. Biarkan saya membahas beberapa pertanyaan eksplisit dan asumsi implisit yang ada di balik utas ini.

Pertanyaannya bertanya, "bagaimana Anda menguji asumsi regresi linier seperti homoscedasticity ketika variabel independen adalah biner?" Anda memiliki beberapa model regresi. Model regresi (berganda) mengasumsikan hanya ada satu istilah kesalahan, yang konstan di mana-mana. Tidaklah terlalu berarti (dan Anda tidak perlu) memeriksa heteroskedastisitas untuk setiap prediktor secara individual. Inilah sebabnya, ketika kami memiliki model regresi berganda, kami mendiagnosis heteroskedastisitas dari plot residual vs nilai prediksi. Mungkin plot yang paling membantu untuk tujuan ini adalah plot skala-lokasi (juga disebut 'spread-level'), yang merupakan plot akar kuadrat dari nilai absolut residu vs nilai prediksi. Untuk melihat contoh,Apa artinya memiliki "varian konstan" dalam model regresi linier?

Demikian juga, Anda tidak perlu memeriksa residual untuk setiap prediktor untuk normalitas. (Jujur saya bahkan tidak tahu bagaimana itu akan bekerja.)

Apa yang dapat Anda lakukan dengan plot residu terhadap prediktor individual adalah memeriksa untuk melihat apakah bentuk fungsional ditentukan dengan benar. Misalnya, jika residu membentuk parabola, ada beberapa kelengkungan dalam data yang Anda lewatkan. Untuk melihat contoh, lihat plot kedua dalam jawaban @ Glen_b di sini: Memeriksa kualitas model dalam regresi linier . Namun, masalah ini tidak berlaku dengan prediktor biner.

Untuk apa nilainya, jika Anda hanya memiliki prediktor kategori, Anda dapat menguji heteroskedastisitas. Anda hanya menggunakan tes Levene. Saya membahasnya di sini: Mengapa uji Levene tentang persamaan varian daripada rasio F? Di R Anda menggunakan ? LeveneTest dari paket mobil.


Sunting: Untuk menggambarkan dengan lebih baik titik yang melihat plot residual vs variabel prediktor individual tidak membantu ketika Anda memiliki model regresi berganda, pertimbangkan contoh ini:

set.seed(8603)                       # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50))  # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12)        # here is the (dichotomous) x2 variable
y  = 5 + 1*x1 + 2*x2 + rnorm(48)     # the true data generating process, there is 
                                     #   no heteroscedasticity

mod = lm(y~x1+x2)                    # this fits the model

Anda dapat melihat dari proses pembuatan data bahwa tidak ada heteroskedastisitas. Mari kita periksa plot yang relevan dari model untuk melihat apakah mereka menyiratkan heteroskedastisitas bermasalah:

masukkan deskripsi gambar di sini

Tidak, tidak ada yang perlu dikhawatirkan. Namun, mari kita lihat plot residual vs variabel prediktor biner individu untuk melihat apakah ada heteroskedastisitas di sana:

masukkan deskripsi gambar di sini

Eh, sepertinya memang ada masalah. Kami tahu dari proses pembuatan data bahwa tidak ada heteroskedastisitas, dan plot utama untuk mengeksplorasi ini juga tidak menunjukkan apa-apa, jadi apa yang terjadi di sini? Mungkin plot ini akan membantu:

masukkan deskripsi gambar di sini

x1dan x2tidak independen satu sama lain. Apalagi pengamatannya yang x2 = 1berada di ekstrem. Mereka memiliki lebih banyak pengaruh, sehingga residu mereka secara alami lebih kecil. Meskipun demikian, tidak ada heteroskedastisitas.

Pesan bawa pulang: Taruhan terbaik Anda adalah hanya mendiagnosis heteroskedastisitas dari plot yang sesuai (residu vs plot pas, dan plot level sebaran).

gung - Pasang kembali Monica
sumber
Terima kasih! Untuk regresi yang sama yang saya lakukan, saya menemukan bahwa Residual Vs Y adalah homoscedastic tetapi ketika saya memeriksa tenor Residual Vs (independen) itu adalah bentuk corong. Jadi saya perlu melakukan beberapa transformasi untuk memperbaiki ini? Maka dalam konteks ini hanya ingin memahami mengapa Anda menyebutkan bahwa memeriksa variabel independen residu Vs tidak diperlukan?
GeorgeOfTheRF
@ mrcet007, tidak, Anda tidak perlu transformasi. Jika res vs pas tidak menunjukkan heteroskedastisitas, Anda OK. Mungkin ilustrasi akan membantu Anda. Saya telah mengedit jawaban saya untuk menambahkan demonstrasi.
gung - Reinstate Monica
Bisakah Anda memeriksa tautan ini people.duke.edu/~rnau/testing.htm . Dikatakan memeriksa variabel independen residual Vs juga. Hanya berbagi demi diskusi. Bisakah Anda mengomentari ini? Apa yang saya pikirkan adalah kita harus selalu memeriksa baik residual Vs yang diprediksi maupun residual vs independen. homoscedasticity (varian konstan) dari kesalahan (a) versus waktu (dalam hal data deret waktu) (b) versus prediksi (c) versus variabel independen
GeorgeOfTheRF
Komentar saya adalah bahwa saya telah memberi Anda berdua alasan mengapa Anda melihat grafik residu vs yang diprediksi untuk memeriksa heteroskedastisitas & menunjukkan kepada Anda contoh bagaimana melihat grafik residu vs IV dapat membuat Anda tersesat. Saya tidak tahu harus berkata apa lagi.
gung - Reinstate Monica
6

Memang benar bahwa plot residu konvensional lebih sulit dalam hal ini: akan lebih sulit untuk melihat apakah distribusinya hampir sama. Tetapi ada alternatif mudah di sini. Anda hanya membandingkan dua distribusi, dan ada banyak cara bagus untuk melakukan itu. Beberapa kemungkinan adalah plot kuantil, histogram, atau plot kotak berdampingan atau ditumpangkan. Prasangka saya sendiri adalah bahwa plot kotak tanpa hiasan sering digunakan berlebihan di sini: mereka biasanya akan menekan detail yang ingin kita lihat, bahkan jika kita sering dapat mengabaikannya sebagai hal yang tidak penting. Tapi Anda bisa makan kue Anda dan memilikinya.

Anda menggunakan R, tetapi tidak ada statistik dalam pertanyaan Anda yang spesifik-R. Di sini saya menggunakan Stata untuk regresi pada prediktor biner tunggal dan kemudian meluncurkan plot kotak kuantil yang membandingkan residu untuk dua tingkat prediktor. Kesimpulan praktis dalam contoh ini adalah bahwa distribusinya hampir sama.

masukkan deskripsi gambar di sini

1/43/4

Catatan: Lihat juga Bagaimana menyajikan plot kotak dengan pencilan ekstrim? termasuk contoh @ Glen_b tentang plot serupa menggunakan R. Plot seperti itu harus mudah dalam perangkat lunak yang layak; jika tidak, perangkat lunak Anda tidak layak.

Nick Cox
sumber
+1 Cantik. Apakah Anda merasa bahwa ada peran untuk pengujian hipotesis pada residu di sini juga?
Alexis
@ung, saya mengedit suntingan Anda. Yang asli jelas tidak cukup jelas jika Anda salah paham.
Nick Cox
2
@Alexis Terima kasih! Saya senang dengan gagasan bahwa hipotesis pencar yang setara didukung secara informal oleh grafik dalam kasus ini. Saya bukan dari aliran pemikiran bahwa setiap langkah kecil dalam analisis perlu dikuduskan oleh nilai-P. Sayangnya, tidak pernah mudah untuk memastikan bahwa Anda melompat dengan cara yang benar, tetapi saya akan berlatih menghibur model lain juga jika saya ragu. Di sini contohnya hanya dibuat untuk pertanyaan dan bukan bagian dari analisis yang serius.
Nick Cox
Saya minta maaf, Nick. Saya salah paham maksud kalimat itu. Saya pikir itu salah ketik. Lebih jelas sekarang.
gung - Reinstate Monica
1
@whuber Tidak apa-apa bagiku. Beberapa orang menganggapnya membingungkan, atau begitulah yang saya katakan.
Nick Cox