Bagaimana saya harus menafsirkan plot residu ini?

8

Saya tidak dapat menafsirkan grafik ini. Variabel dependen saya adalah jumlah tiket film yang akan dijual untuk sebuah pertunjukan. Variabel independen adalah jumlah hari yang tersisa sebelum pertunjukan, variabel dummy musiman (hari dalam seminggu, bulan dalam setahun, hari libur), harga, tiket yang terjual hingga tanggal, peringkat film, jenis film (film thriller, komedi, dll., Sebagai boneka ). Perlu diketahui juga bahwa kapasitas gedung bioskop tetap. Artinya, ia dapat menampung maksimum x jumlah orang saja. Saya membuat solusi regresi linier dan tidak cocok dengan data pengujian saya. Jadi saya berpikir untuk memulai dengan diagnosa regresi. Data berasal dari satu ruang bioskop yang ingin saya prediksi permintaannya.

Ini adalah dataset multivarian. Untuk setiap tanggal, ada 90 baris rangkap, mewakili hari sebelum pertunjukan. Jadi, untuk 1 Jan 2016 ada 90 catatan. Ada variabel 'lead_time' yang memberi saya jumlah hari sebelum pertunjukan. Jadi untuk 1 Jan 2016, jika lead_time memiliki nilai 5, itu berarti tiketnya akan terjual hingga 5 hari sebelum tanggal pertunjukan. Dalam variabel dependen, total tiket terjual, saya akan memiliki nilai yang sama 90 kali.

Juga, sebagai komentar sampingan, apakah ada buku yang menjelaskan bagaimana menafsirkan plot residual dan meningkatkan model setelahnya?

masukkan deskripsi gambar di sini

Penggemar
sumber
5
Bisakah Anda mengatakan sesuatu tentang situasi Anda, data, & modelnya? Kalau tidak, bagaimana kita bisa menafsirkan grafik?
gung - Reinstate Monica
1
Perluas sumbu x keluar (atau "perbesar"); Saya percaya Anda akan melihat "striping" di residu.
blackeneth
Sepertinya versi stats.stackexchange.com/questions/25068 . Untuk memberikan balasan yang bermanfaat, kami membutuhkan detail lebih lanjut.
whuber
Apakah ada jumlah tiket tetap yang mungkin bisa dijual?
gung - Reinstate Monica
@ung, ya karena kapasitas gedung bioskop sudah diperbaiki, yaitu jumlah kursi. Saya menambahkan itu ke pertanyaan sekarang, karena mungkin menjelaskan pertanyaan dengan lebih baik. Terima kasih!
Penggemar

Jawaban:

4

Plotnya sangat padat sehingga tidak mudah untuk melihat semua tren yang ada. Anda dapat menjalankan tes alternatif untuk hetoroscedasticity dan autocorrelation untuk mendapatkan diagnostik tambahan.

Apa yang terlihat adalah bahwa lebih dari 100 nilai pertama atau lebih varians dari peningkatan residual yang mungkin mengisyaratkan keetoroscedasticity. Setelah itu varians tampaknya berkurang lagi. Perilaku varians yang agak non-linear ini mungkin juga menunjukkan perlunya bentuk fungsional yang berbeda (jadi mungkin polinomial, bukan linear). Indikasi lain untuk ini adalah tren residu yang Anda amati di ujung atas dari nilai yang dipasang (tidak ada residu positif lagi).

Tomka
sumber
Fitur polinomial tampaknya ide yang masuk akal dan alasan yang diberikan untuk itu masuk akal. Terima kasih!
Penggemar
Dan ya ada auto-collinearity dan heteroskedastocity dalam data yang saya coba perbaiki sekarang.
Penggemar
@ Enthusiast Senang ini membantu. Saya akan penasaran apa set solusi terakhir yang menyebabkan pemecahan masalah ini (setelah Anda selesai)
tomka
Saya sebenarnya menggunakan pendekatan diagnostik model yang disarankan di sini. stats.stackexchange.com/a/189116/68444
Penggemar
dan inilah tahap selanjutnya dari stat
Penggemar
12

Plot residual Anda memiliki pola yang pasti, dengan beberapa garis berarah ke bawah saat nilai pas meningkat. Pola ini dapat terjadi jika Anda gagal memperhitungkan efek tetap / acak dalam model Anda dan efek tetap berkorelasi dengan variabel penjelas. Perhatikan contoh berikut:

set.seed(999)

N = 1000
num.groups = 10

alpha = runif(num.groups, -10, 10) #Fixed effects
beta = 10 #Slope parameter
group = sample(num.groups, N, replace = TRUE)

X = rnorm(N, mean = alpha[group], sd = 5) #Mean of X correlated with fixed effect
e = rnorm(N, sd = 1)
y = alpha[group] + X * beta + e

df = data.frame(group = as.factor(group), X, y)

m.no.fe = lm(y ~ X, data = df) #Not including group fixed effects
plot(m.no.fe, which = 1)

Ini menghasilkan plot sisa / pas berikut: res_fitted_nofe

Anda mungkin melihat sesuatu yang serupa jika, misalnya, Anda mengalami kemunduran skor SAT pada pendapatan masuk untuk beberapa sekolah menengah tetapi gagal memasukkan efek tetap sekolah menengah; setiap sekolah akan memiliki pendapatan awal yang berbeda (yaitu, efek tetap) dan skor SAT rata-rata, yang kemungkinan berkorelasi.

Termasuk efek tetap grup, kami dapatkan

m.fe = lm(y ~ group + X, data = df) #Now including fixed effects
plot(m.fe, which = 1)

yang memberikan plot sisa / pas yang jauh lebih baik:

res_fitted_fe

tkmckenzie
sumber
4
Ini mungkin benar, tetapi mereka terlihat seperti garis lurus sempurna bagi saya. Dugaan saya adalah bahwa Y adalah hitungan, atau hitungan 'keberhasilan' dari sejumlah uji coba (yaitu, modelnya salah). Kami tidak akan tahu sampai OP mengatakan lebih banyak tentang data & model.
gung - Reinstate Monica
@ tkmckenzie jadi maksud Anda saya perlu membuat lebih banyak variabel dalam model?
Penggemar
6

Plot residual memang terlihat tidak biasa dari sudut pandang regresi OLS (linear) standar. Ada, misalnya, indikasi heteroskedastisitas, khususnya bahwa penyebaran residu lebih besar di tengah daripada di kedua ujungnya. Namun, ini bukan masalah sebenarnya.

Masalah sebenarnya di sini adalah bahwa Anda telah cocok dengan model yang salah. Regresi OLS didasarkan pada asumsi bahwa respons terdistribusi normal (tergantung pada para regressor — yaitu, AndaXvariabel). Respons Anda tidak normal, dan tidak mungkin. Respons Anda adalah sejumlah kursi terjual dari jumlah total kursi di teater. Respons Anda adalah binomial . Binomial tidak dapat dimodelkan dengan benar dengan OLS. Anda harus menyesuaikan model regresi logistik .

Akan ada beberapa masalah tambahan yang perlu Anda atasi. Pasangan yang jelas dari uraian Anda adalah bahwa Anda memiliki pengamatan berkelompok, dalam arti bahwa Anda memiliki banyak pengamatan untuk acara yang sama (yaitu, selama 90 hari). Anda perlu mengatasi ketidak-merdeka ini, mungkin dengan memasang GLMM . Masalah lain adalah bahwa akan ada ketergantungan antara hari-hari berturut-turut dalam acara yang sama. Lagi pula, jika Anda telah menjualyd tiket pada hari itu d, Anda akan menjual setidaknya sebanyak itu pada hari itu d+1. Salah satu cara untuk mencoba mengatasinya adalah dengan memasukkan data hanya 89 hari dan memasukkan nomor hari sebelumnya sebagai kovariat. (Maaf, saat membaca kembali pertanyaan, saya melihat Anda sudah memasukkan tiket yang terjual hingga variabel tanggal.)

Mungkin ada lebih banyak masalah yang harus diatasi dalam pemodelan data Anda. Ini adalah topik yang cukup canggih; jika Anda tidak terbiasa dengan mereka, Anda mungkin perlu bekerja dengan konsultan statistik.

gung - Pasang kembali Monica
sumber
Data saya memiliki distribusi gamma yang muncul dari hasil fitdistrplus () dan qqplot (). stats.stackexchange.com/questions/234866/…
Penggemar
@Enthusiast, saya kenal dg fitdistrplus. Jika data respons Anda adalah sejumlah kursi terjual dari total jumlah kursi yang mungkin, maka itu adalah binomial. Hanya itu yang ada untuk itu. The distribusi gamma didukung pada(0,). Data Anda bisa saja0kursi yang dijual, tidak bisa memiliki3.5kursi terjual, & tidak dapat memiliki lebih banyak kursi dijual daripada yang ada di teater. Data Anda tidak mungkin berupa gamma.
gung - Reinstate Monica