Garis lurus diagonal dalam residu vs nilai pas plot untuk regresi berganda

11

Saya mengamati pola aneh dalam residu untuk data saya: masukkan deskripsi gambar di sini

[EDIT] Berikut adalah plot regresi parsial untuk dua variabel:

http://i.imgur.com/Lh36l.png

http://i.imgur.com/akMjB.png

[EDIT2] Menambahkan Plot PP http://i.imgur.com/pCKFA.png

Distribusi tampaknya baik-baik saja (lihat di bawah) tetapi saya tidak tahu dari mana garis lurus ini berasal. Ada ide? masukkan deskripsi gambar di sini

[UPDATE 31,07]

Ternyata Anda benar, saya punya kasus di mana jumlah retweet memang 0 dan ini ~ 15 kasus menghasilkan pola residu yang aneh.

Residu terlihat jauh lebih baik sekarang: http://i.imgur.com/XGas9.png

Saya juga memasukkan sebagian regresi dengan garis loess. http://i.imgur.com/Jcr2M.png http://i.imgur.com/eb376.png

Plotti
sumber
Bisakah Anda menambahkan garis yang dipasang diplot pada data asli juga?
MånsT
Juga, terjemahan dari angka-angka mengatakan "komunitas: anime" dan "komunitas: astrologi", yang tampaknya menyiratkan bahwa plot ini berasal dari kumpulan data yang berbeda ...
MånsT
Saya ingat melihat jenis pola ini dalam residu saya ketika variabel dependen saya kategorikal atau 'tidak cukup kontinu'.
Raja
Saya telah menambahkan plot PP yang tepat dan plot parsial dari dua IV
plotti

Jawaban:

23

Tampaknya pada beberapa subrange variabel dependen Anda konstan atau persis linear tergantung pada prediktor. Mari kita memiliki dua variabel yang berkorelasi, X dan Y (Y tergantung). Plot sebaran ada di sebelah kiri.

masukkan deskripsi gambar di sini

Mari kita kembali, sebagai contoh, pada kemungkinan pertama ("konstan"). Recode semua nilai Y dari terendah ke -0,5 ke nilai tunggal -1 (lihat gambar di tengah). Regres Y pada X dan plot residu tersebar, yaitu, memutar gambar pusat sehingga garis prediksi horizontal sekarang. Apakah itu menyerupai gambar Anda?

ttnphns
sumber
6
Itu statistik forensik yang terbaik! +1 besar.
Michael R. Chernick
Ternyata Anda benar, saya punya kasus di mana jumlah retweet memang 0 dan ini ~ 15 kasus menghasilkan pola residu yang aneh. i.imgur.com/XGas9.png
plotti
4

Tidak mengherankan jika Anda tidak melihat pola dalam histogram, pola aneh mencakup sedikit rentang histogram dan hanya mewakili beberapa titik data di setiap nampan. Anda benar-benar perlu mencari tahu titik data mana itu dan melihatnya. Anda bisa menggunakan nilai yang diprediksi dan residu untuk menemukannya cukup mudah. Setelah Anda menemukan nilai-nilai mulai menyelidiki mengapa nilai-nilai itu mungkin istimewa.

Karena itu, pola khusus ini hanya istimewa karena panjang. Jika Anda perhatikan dengan cermat plot residual dan plot kuantil Anda, Anda akan melihatnya berulang tetapi urutannya lebih kecil. Mungkin itu hanya anomali. Atau mungkin itu adalah pola yang berulang. Tetapi, Anda harus menemukan di mana data itu berada di data mentah dan memeriksanya agar memiliki harapan untuk memahaminya sama sekali.

Untuk memberi Anda sedikit bantuan, plot kuantil-kuantil menyarankan Anda memiliki banyak residu yang identik. Mungkin saja itu bisa menjadi kesalahan pengkodean. Saya dapat menghasilkan sesuatu yang serupa di R dengan ...

x <- c(rnorm(50), rep(-0.2, 10), rep(0, 4))
qqnorm(x);qqline(x)

Perhatikan flat dua titik datar di garis. Namun, tampaknya lebih kompleks daripada itu karena ada implikasi bahwa residu identik datang di berbagai prediksi.

John
sumber
3

Sepertinya Anda menggunakan R. Jika demikian, perhatikan bahwa Anda dapat mengidentifikasi titik di sebar menggunakan ? Identifikasi . Saya pikir ada beberapa hal yang terjadi di sini. Pertama, Anda memiliki titik yang sangat berpengaruh pada plot LN_RT_vol_in ~ LN_AT_vol_in(yang disorot) sekitar (0,2, 1,5). Ini sangat mungkin menjadi residu terstandarisasi yaitu sekitar -3,7. Efek dari titik itu adalah untuk meratakan garis regresi, memiringkannya lebih horizontal daripada garis naik tajam yang seharusnya Anda dapatkan. Efek dari itu adalah bahwa semua residu Anda akan diputar berlawanan arah jarum jam relatif terhadap tempat mereka seharusnya berada di dalam residual ~ predictedplot (setidaknya ketika berpikir dalam hal kovariat itu dan mengabaikan yang lain).

Meskipun demikian, garis lurus residual yang Anda lihat masih ada di sana, karena mereka ada di suatu tempat di awan 3 dimensi dari data asli Anda. Mereka mungkin sulit ditemukan di salah satu plot marginal. Anda dapat menggunakan fungsi identifikasikan () untuk membantu, dan Anda juga dapat menggunakan paket rgl untuk membuat sebaran 3D yang dinamis yang dapat Anda putar dengan bebas menggunakan mouse. Namun, perhatikan bahwa residual garis lurus semuanya di bawah 0 dalam nilai prediksi mereka, dan memiliki residu di bawah 0 (yaitu, mereka di bawah garis regresi pas); itu memberi Anda petunjuk besar ke mana harus mencari. Melihat lagi plot AndaLN_RT_vol_in ~ LN_AT_vol_in, Saya pikir saya dapat melihat mereka. Ada sekelompok titik yang berjalan lurus secara diagonal ke bawah dan ke kiri dari sekitar (-.01, -1.00) di tepi bawah awan titik di wilayah itu. Saya menduga itu adalah poin yang dimaksud.

Dengan kata lain, residu terlihat seperti itu karena mereka sudah berada di suatu tempat dalam ruang data. Intinya, inilah yang disarankan oleh @ttnphns, tapi saya tidak berpikir itu cukup konstan di salah satu dimensi asli - ini adalah konstan dalam dimensi di sudut sumbu asli Anda. Saya lebih jauh setuju dengan @MichaelChernick bahwa kelurusan yang tampak dalam plot residual ini mungkin tidak berbahaya, tetapi data Anda tidak benar-benar sangat normal. Mereka agak normal-ish, bagaimanapun, dan Anda tampaknya memiliki jumlah data yang layak, sehingga CLT dapat melindungi Anda, tetapi Anda mungkin ingin bootstrap untuk berjaga-jaga. Akhirnya, saya khawatir bahwa 'outlier' yang mendorong hasil Anda; a kuat pendekatan mungkin layak.

gung - Pasang kembali Monica
sumber
1
Apakah ini pernyataan Anda it's a constant in a dimension at an angle to your original axesdapat dibandingkan dengan saya is exactly linearly dependent on the predictor(s), atau Anda bermaksud sesuatu yang berbeda?
ttnphns
@ttnphns, saya melewatkan bagian dari jawaban Anda ketika saya membukanya; Saya melihat "konstan" & melihat poin dalam plot Anda, & itulah yang saya ambil. Ya, "ini adalah konstanta dalam dimensi ..." secara logika identik dengan / "persis tergantung linear ...". Saya sekarang menyadari bahwa titik inti saya sebagian besar sama dengan milik Anda (+1), meskipun saya pikir beberapa poin saya yang lain (yaitu data mana yang kemungkinan penyebabnya, strategi R, pendekatan yang kuat, dll) masih menyumbangkan sesuatu untuk diskusi.
gung - Reinstate Monica
Tentu, jawaban Anda banyak berkontribusi, bagi saya.
ttnphns
1

Saya tidak perlu mengatakan bahwa histogramnya oke. Penumpangan visual yang pas secara normal pada histogram bisa menipu dan histogrsm Anda bisa peka terhadap pilihan lebar bin. Plot probabilitas normal tampaknya menunjukkan keberangkatan besar dari normal dan bahkan melihat histogram tampaknya mata saya agak miring (frekuensi yang lebih tinggi dalam nampan [0, + 0,5] dibandingkan dengan nampan [-0,5,0]) dan kurtosis parah (terlalu besar frekuensi dalam interval [-4, -3.5] dan [2.5, 3]).

Mengenai pola yang Anda lihat itu mungkin berasal dari penjelajahan selektif melalui sebar. Sepertinya jika Anda berburu lagi, Anda dapat menemukan dua atau tiga garis yang hampir sejajar dengan yang Anda pilih. Saya pikir Anda terlalu banyak membaca ini. Tetapi ketidaknormalan adalah masalah nyata. Anda memiliki satu pencilan yang sangat besar dengan sisa hampir -4. Apakah residu ini berasal dari kuadrat terkecil? Saya setuju bahwa mungkin mencerahkan untuk melihat garis yang cocok pada sebaran sebaran data.

Michael R. Chernick
sumber
Saya telah menambahkan plot parsial dari dua IV untuk lebih menjelaskan hal ini
plotti
1
Saya ingin melihat hal yang paling mendasar, garis yang dipasang melewati sebaran data.
Michael R. Chernick