Variabel dependen saya yang ditunjukkan di bawah tidak sesuai dengan distribusi stok yang saya ketahui. Regresi linier menghasilkan residual miring kanan yang agak tidak normal, yang berhubungan dengan prediksi Y dengan cara yang aneh (plot kedua). Adakah saran untuk transformasi atau cara lain untuk mendapatkan hasil yang paling valid dan akurasi prediksi terbaik? Jika memungkinkan, saya ingin menghindari pengelompokan yang ceroboh ke dalam, katakanlah, 5 nilai (mis. 0, lo%, med%, hi%, 1).
25
Jawaban:
Metode regresi yang disensor dapat menangani data seperti ini. Mereka menganggap residu berperilaku seperti dalam regresi linier biasa tetapi telah dimodifikasi sehingga
(Sensor kiri): semua nilai lebih kecil dari ambang batas rendah, yang tidak tergantung pada data, (tetapi dapat bervariasi dari satu kasus ke yang lain) belum dikuantifikasi; dan / atau
(Sensor kanan): semua nilai yang lebih besar dari ambang tinggi, yang tidak tergantung pada data (tetapi dapat bervariasi dari satu kasus ke yang lain) belum dikuantifikasi.
"Tidak terkuantifikasi" berarti kita tahu apakah suatu nilai jatuh di bawah (atau di atas) ambangnya, tetapi itu saja.
Dalam pengalaman saya, metode seperti itu dapat bekerja dengan baik ketika kurang dari setengah data disensor; jika tidak, hasilnya bisa tidak stabil.
Berikut adalah
R
contoh sederhana menggunakancensReg
paket untuk menggambarkan bagaimana OLS dan hasil yang disensor dapat berbeda (banyak) bahkan dengan banyak data. Itu secara kualitatif mereproduksi data dalam pertanyaan.Mari kita gunakan keduanya
lm
dancensReg
agar sesuai dengan garis:Hasil dari regresi yang disensor ini, diberikan oleh
print(fit)
, adalahKesesuaian OLS, diberikan oleh
print(fit.OLS)
, adalahsummary
Sebagai perbandingan, mari kita batasi regresi untuk data yang diukur:
Lebih buruk lagi!
Beberapa gambar merangkum situasinya.
sumber
Apakah nilainya selalu antara 0 dan 1?
Jika demikian, Anda dapat mempertimbangkan distribusi beta dan regresi beta.
Tetapi pastikan untuk memikirkan proses yang mengarah ke data Anda. Anda juga bisa melakukan model inflasi 0 dan 1 (0 model inflasi yang umum, Anda mungkin perlu memperluas hingga 1 inflasi sendiri). Perbedaan besar adalah jika lonjakan-lonjakan itu mewakili sejumlah besar tepat 0 dan 1 atau hanya nilai mendekati 0 dan 1.
Mungkin sebaiknya berkonsultasi dengan ahli statistik lokal (dengan perjanjian non-pengungkapan sehingga Anda dapat mendiskusikan detail dari mana data berasal) untuk mengetahui pendekatan terbaik.
sumber
Sejalan dengan saran Greg Snow aku pernah mendengar model beta juga berguna dalam situasi seperti itu (lihat Smithson & verkuilen, 2006, Pemeras Lemon Lebih Baik ), serta regresi kuantitatif ( Bottai et al., 2010 ), tetapi ini tampak seperti efek lantai dan langit-langit yang sangat jelas sehingga mungkin tidak sesuai (terutama regresi beta).
Alternatif lain adalah mempertimbangkan jenis model regresi yang disensor, khususnya Model Tobit , di mana kami menganggap hasil yang diamati dihasilkan oleh beberapa variabel laten yang mendasarinya yang kontinu (dan mungkin normal). Saya tidak akan mengatakan model berkelanjutan yang mendasarinya ini wajar mengingat histogram Anda, tetapi Anda dapat menemukan beberapa dukungan untuk itu karena Anda melihat distribusinya (mengabaikan lantai) memiliki kepadatan yang lebih tinggi pada nilai instrumen yang lebih rendah dan perlahan-lahan membatasi hingga lebih tinggi nilai-nilai.
Semoga beruntung, bahwa penyensoran sangat dramatis sehingga sulit untuk membayangkan memulihkan banyak informasi berguna dalam keranjang yang ekstrem. Bagiku hampir separuh sampel Anda berada di tempat sampah lantai dan langit-langit.
sumber