Saya tidak dapat menafsirkan grafik ini. Variabel dependen saya adalah jumlah tiket film yang akan dijual untuk sebuah pertunjukan. Variabel independen adalah jumlah hari yang tersisa sebelum pertunjukan, variabel dummy musiman (hari dalam seminggu, bulan dalam setahun, hari libur), harga, tiket yang terjual hingga tanggal, peringkat film, jenis film (film thriller, komedi, dll., Sebagai boneka ). Perlu diketahui juga bahwa kapasitas gedung bioskop tetap. Artinya, ia dapat menampung maksimum x jumlah orang saja. Saya membuat solusi regresi linier dan tidak cocok dengan data pengujian saya. Jadi saya berpikir untuk memulai dengan diagnosa regresi. Data berasal dari satu ruang bioskop yang ingin saya prediksi permintaannya.
Ini adalah dataset multivarian. Untuk setiap tanggal, ada 90 baris rangkap, mewakili hari sebelum pertunjukan. Jadi, untuk 1 Jan 2016 ada 90 catatan. Ada variabel 'lead_time' yang memberi saya jumlah hari sebelum pertunjukan. Jadi untuk 1 Jan 2016, jika lead_time memiliki nilai 5, itu berarti tiketnya akan terjual hingga 5 hari sebelum tanggal pertunjukan. Dalam variabel dependen, total tiket terjual, saya akan memiliki nilai yang sama 90 kali.
Juga, sebagai komentar sampingan, apakah ada buku yang menjelaskan bagaimana menafsirkan plot residual dan meningkatkan model setelahnya?
sumber
Jawaban:
Plotnya sangat padat sehingga tidak mudah untuk melihat semua tren yang ada. Anda dapat menjalankan tes alternatif untuk hetoroscedasticity dan autocorrelation untuk mendapatkan diagnostik tambahan.
Apa yang terlihat adalah bahwa lebih dari 100 nilai pertama atau lebih varians dari peningkatan residual yang mungkin mengisyaratkan keetoroscedasticity. Setelah itu varians tampaknya berkurang lagi. Perilaku varians yang agak non-linear ini mungkin juga menunjukkan perlunya bentuk fungsional yang berbeda (jadi mungkin polinomial, bukan linear). Indikasi lain untuk ini adalah tren residu yang Anda amati di ujung atas dari nilai yang dipasang (tidak ada residu positif lagi).
sumber
Plot residual Anda memiliki pola yang pasti, dengan beberapa garis berarah ke bawah saat nilai pas meningkat. Pola ini dapat terjadi jika Anda gagal memperhitungkan efek tetap / acak dalam model Anda dan efek tetap berkorelasi dengan variabel penjelas. Perhatikan contoh berikut:
Ini menghasilkan plot sisa / pas berikut:
Anda mungkin melihat sesuatu yang serupa jika, misalnya, Anda mengalami kemunduran skor SAT pada pendapatan masuk untuk beberapa sekolah menengah tetapi gagal memasukkan efek tetap sekolah menengah; setiap sekolah akan memiliki pendapatan awal yang berbeda (yaitu, efek tetap) dan skor SAT rata-rata, yang kemungkinan berkorelasi.
Termasuk efek tetap grup, kami dapatkan
yang memberikan plot sisa / pas yang jauh lebih baik:
sumber
Plot residual memang terlihat tidak biasa dari sudut pandang regresi OLS (linear) standar. Ada, misalnya, indikasi heteroskedastisitas, khususnya bahwa penyebaran residu lebih besar di tengah daripada di kedua ujungnya. Namun, ini bukan masalah sebenarnya.
Masalah sebenarnya di sini adalah bahwa Anda telah cocok dengan model yang salah. Regresi OLS didasarkan pada asumsi bahwa respons terdistribusi normal (tergantung pada para regressor — yaitu, AndaX variabel). Respons Anda tidak normal, dan tidak mungkin. Respons Anda adalah sejumlah kursi terjual dari jumlah total kursi di teater. Respons Anda adalah binomial . Binomial tidak dapat dimodelkan dengan benar dengan OLS. Anda harus menyesuaikan model regresi logistik .
Akan ada beberapa masalah tambahan yang perlu Anda atasi. Pasangan yang jelas dari uraian Anda adalah bahwa Anda memiliki pengamatan berkelompok, dalam arti bahwa Anda memiliki banyak pengamatan untuk acara yang sama (yaitu, selama 90 hari). Anda perlu mengatasi ketidak-merdeka ini, mungkin dengan memasang GLMM .
Masalah lain adalah bahwa akan ada ketergantungan antara hari-hari berturut-turut dalam acara yang sama. Lagi pula, jika Anda telah menjualyd tiket pada hari itu d , Anda akan menjual setidaknya sebanyak itu pada hari itu d+ 1 . Salah satu cara untuk mencoba mengatasinya adalah dengan memasukkan data hanya 89 hari dan memasukkan nomor hari sebelumnya sebagai kovariat. (Maaf, saat membaca kembali pertanyaan, saya melihat Anda sudah memasukkan tiket yang terjual hingga variabel tanggal.)Mungkin ada lebih banyak masalah yang harus diatasi dalam pemodelan data Anda. Ini adalah topik yang cukup canggih; jika Anda tidak terbiasa dengan mereka, Anda mungkin perlu bekerja dengan konsultan statistik.
sumber
fitdistrplus
. Jika data respons Anda adalah sejumlah kursi terjual dari total jumlah kursi yang mungkin, maka itu adalah binomial. Hanya itu yang ada untuk itu. The distribusi gamma didukung pada