Saya mengamati pola aneh dalam residu untuk data saya:
[EDIT] Berikut adalah plot regresi parsial untuk dua variabel:
[EDIT2] Menambahkan Plot PP
Distribusi tampaknya baik-baik saja (lihat di bawah) tetapi saya tidak tahu dari mana garis lurus ini berasal. Ada ide?
[UPDATE 31,07]
Ternyata Anda benar, saya punya kasus di mana jumlah retweet memang 0 dan ini ~ 15 kasus menghasilkan pola residu yang aneh.
Residu terlihat jauh lebih baik sekarang:
Saya juga memasukkan sebagian regresi dengan garis loess.
Jawaban:
Tampaknya pada beberapa subrange variabel dependen Anda konstan atau persis linear tergantung pada prediktor. Mari kita memiliki dua variabel yang berkorelasi, X dan Y (Y tergantung). Plot sebaran ada di sebelah kiri.
Mari kita kembali, sebagai contoh, pada kemungkinan pertama ("konstan"). Recode semua nilai Y dari terendah ke -0,5 ke nilai tunggal -1 (lihat gambar di tengah). Regres Y pada X dan plot residu tersebar, yaitu, memutar gambar pusat sehingga garis prediksi horizontal sekarang. Apakah itu menyerupai gambar Anda?
sumber
Tidak mengherankan jika Anda tidak melihat pola dalam histogram, pola aneh mencakup sedikit rentang histogram dan hanya mewakili beberapa titik data di setiap nampan. Anda benar-benar perlu mencari tahu titik data mana itu dan melihatnya. Anda bisa menggunakan nilai yang diprediksi dan residu untuk menemukannya cukup mudah. Setelah Anda menemukan nilai-nilai mulai menyelidiki mengapa nilai-nilai itu mungkin istimewa.
Karena itu, pola khusus ini hanya istimewa karena panjang. Jika Anda perhatikan dengan cermat plot residual dan plot kuantil Anda, Anda akan melihatnya berulang tetapi urutannya lebih kecil. Mungkin itu hanya anomali. Atau mungkin itu adalah pola yang berulang. Tetapi, Anda harus menemukan di mana data itu berada di data mentah dan memeriksanya agar memiliki harapan untuk memahaminya sama sekali.
Untuk memberi Anda sedikit bantuan, plot kuantil-kuantil menyarankan Anda memiliki banyak residu yang identik. Mungkin saja itu bisa menjadi kesalahan pengkodean. Saya dapat menghasilkan sesuatu yang serupa di R dengan ...
Perhatikan flat dua titik datar di garis. Namun, tampaknya lebih kompleks daripada itu karena ada implikasi bahwa residu identik datang di berbagai prediksi.
sumber
Sepertinya Anda menggunakan
R
. Jika demikian, perhatikan bahwa Anda dapat mengidentifikasi titik di sebar menggunakan ? Identifikasi . Saya pikir ada beberapa hal yang terjadi di sini. Pertama, Anda memiliki titik yang sangat berpengaruh pada plotLN_RT_vol_in ~ LN_AT_vol_in
(yang disorot) sekitar (0,2, 1,5). Ini sangat mungkin menjadi residu terstandarisasi yaitu sekitar -3,7. Efek dari titik itu adalah untuk meratakan garis regresi, memiringkannya lebih horizontal daripada garis naik tajam yang seharusnya Anda dapatkan. Efek dari itu adalah bahwa semua residu Anda akan diputar berlawanan arah jarum jam relatif terhadap tempat mereka seharusnya berada di dalamresidual ~ predicted
plot (setidaknya ketika berpikir dalam hal kovariat itu dan mengabaikan yang lain).Meskipun demikian, garis lurus residual yang Anda lihat masih ada di sana, karena mereka ada di suatu tempat di awan 3 dimensi dari data asli Anda. Mereka mungkin sulit ditemukan di salah satu plot marginal. Anda dapat menggunakan fungsi identifikasikan () untuk membantu, dan Anda juga dapat menggunakan paket rgl untuk membuat sebaran 3D yang dinamis yang dapat Anda putar dengan bebas menggunakan mouse. Namun, perhatikan bahwa residual garis lurus semuanya di bawah 0 dalam nilai prediksi mereka, dan memiliki residu di bawah 0 (yaitu, mereka di bawah garis regresi pas); itu memberi Anda petunjuk besar ke mana harus mencari. Melihat lagi plot Anda
LN_RT_vol_in ~ LN_AT_vol_in
, Saya pikir saya dapat melihat mereka. Ada sekelompok titik yang berjalan lurus secara diagonal ke bawah dan ke kiri dari sekitar (-.01, -1.00) di tepi bawah awan titik di wilayah itu. Saya menduga itu adalah poin yang dimaksud.Dengan kata lain, residu terlihat seperti itu karena mereka sudah berada di suatu tempat dalam ruang data. Intinya, inilah yang disarankan oleh @ttnphns, tapi saya tidak berpikir itu cukup konstan di salah satu dimensi asli - ini adalah konstan dalam dimensi di sudut sumbu asli Anda. Saya lebih jauh setuju dengan @MichaelChernick bahwa kelurusan yang tampak dalam plot residual ini mungkin tidak berbahaya, tetapi data Anda tidak benar-benar sangat normal. Mereka agak normal-ish, bagaimanapun, dan Anda tampaknya memiliki jumlah data yang layak, sehingga CLT dapat melindungi Anda, tetapi Anda mungkin ingin bootstrap untuk berjaga-jaga. Akhirnya, saya khawatir bahwa 'outlier' yang mendorong hasil Anda; a kuat pendekatan mungkin layak.
sumber
it's a constant in a dimension at an angle to your original axes
dapat dibandingkan dengan sayais exactly linearly dependent on the predictor(s)
, atau Anda bermaksud sesuatu yang berbeda?Saya tidak perlu mengatakan bahwa histogramnya oke. Penumpangan visual yang pas secara normal pada histogram bisa menipu dan histogrsm Anda bisa peka terhadap pilihan lebar bin. Plot probabilitas normal tampaknya menunjukkan keberangkatan besar dari normal dan bahkan melihat histogram tampaknya mata saya agak miring (frekuensi yang lebih tinggi dalam nampan [0, + 0,5] dibandingkan dengan nampan [-0,5,0]) dan kurtosis parah (terlalu besar frekuensi dalam interval [-4, -3.5] dan [2.5, 3]).
Mengenai pola yang Anda lihat itu mungkin berasal dari penjelajahan selektif melalui sebar. Sepertinya jika Anda berburu lagi, Anda dapat menemukan dua atau tiga garis yang hampir sejajar dengan yang Anda pilih. Saya pikir Anda terlalu banyak membaca ini. Tetapi ketidaknormalan adalah masalah nyata. Anda memiliki satu pencilan yang sangat besar dengan sisa hampir -4. Apakah residu ini berasal dari kuadrat terkecil? Saya setuju bahwa mungkin mencerahkan untuk melihat garis yang cocok pada sebaran sebaran data.
sumber