Metrik evaluasi prediksi untuk data panel / longitudinal

11

Saya ingin mengevaluasi beberapa model berbeda yang memberikan prediksi perilaku di tingkat bulanan. Data seimbang, dan 100.000 dan 12. Hasilnya menghadiri konser di bulan tertentu, jadi nol untuk ~ 80% dari orang-orang di bulan apa pun, tetapi ada ekor panjang yang benar dari pengguna berat. Prediksi yang saya miliki tampaknya tidak menghargai sifat hitungan hasil: konser fraksional lazim.n=T=

Saya tidak tahu apa-apa tentang model. Saya hanya mengamati 6 prediksi kotak hitam berbeda untuk setiap orang per bulan. Saya memang memiliki satu tahun ekstra data yang tidak dimiliki oleh pembuat model untuk estimasi (meskipun penonton konser tetap sama), dan saya ingin mengukur di mana masing-masing berkinerja baik (dalam hal akurasi dan presisi). Misalnya, apakah beberapa model memprediksi dengan baik untuk penonton konser yang sering, tetapi gagal untuk kentang sofa? Apakah prediksi untuk bulan Januari lebih baik daripada prediksi untuk bulan Desember? Atau, akan menyenangkan untuk mengetahui bahwa prediksi memungkinkan saya untuk memberi peringkat orang dengan benar dalam hal aktual, bahkan jika besaran pastinya tidak dapat dipercaya.y^1,...,y^6

Pikiran pertama saya adalah menjalankan efek tetap regresi aktual pada prediksi dan waktu boneka dan melihat RMSEs atau untuk masing-masing model. Tapi itu tidak menjawab pertanyaan tentang di mana masing-masing model bekerja dengan baik atau jika perbedaannya signifikan (kecuali saya bootstrap RMSE). Distribusi hasilnya juga membuat saya khawatir dengan pendekatan ini.R2

Gagasan kedua saya adalah untuk memasukkan hasilnya menjadi 0, 1-3, dan 3+, dan menghitung matriks kebingungan, tetapi ini mengabaikan dimensi waktu, kecuali jika saya membuat 12 di antaranya. Ini juga cukup kasar.

Saya mengetahui perintah Stata concordoleh TJ Steichen dan NJ Cox - yang memiliki by()pilihan, tetapi itu akan membutuhkan menyusutkan data ke total tahunan. Ini menghitung Indeks Korelasi Konkordansi Lin dengan interval kepercayaan, di antara statistik berguna lainnya. CCC berkisar dari -1 hingga 1, dengan kesepakatan sempurna pada 1.

Ada juga Harrell's (dihitung melalui R. Newson), yang memiliki opsi, tetapi saya tidak yakin itu akan memungkinkan saya untuk berurusan dengan data panel. Ini memberi Anda interval kepercayaan. Harrell's c adalah generalisasi area di bawah kurva ROC (AUC) untuk hasil yang berkelanjutan. Proporsi semua pasangan yang dapat dipesan sehingga subjek dengan prediksi yang lebih tinggi sebenarnya memiliki hasil yang lebih tinggi. Jadi c = 0,5 untuk prediksi acak c = 1 untuk model diskriminatif sempurna. Lihat buku Harrell , hal.493csomersdclusterc=0,5c=1

Bagaimana Anda mengatasi masalah ini? Apakah Anda menyarankan menghitung statistik seperti MAPE yang umum dalam peramalan?


Hal-hal berguna yang ditemukan sejauh ini:

  • Slide pada versi ukuran berulang Koefisien Korelasi Korelasi Lin
Dimitriy V. Masterov
sumber
Kita perlu tahu lebih banyak tentang perilaku ini, apakah itu nilai ordinal / biner / berkelanjutan? Karena percobaan ini bersifat longitudinal, apakah minat Anda terletak pada perkiraan atau prediksi hasil pada individu? Model efek campuran digunakan untuk inferensi, bukan prediksi. Mereka tidak bekerja karena, untuk memprediksi , Anda memerlukan perkiraan efek acak.
AdamO
Perilaku aktual bisa dihitung atau terus menerus. Prediksi ini semuanya kontinu. Saya ingin melihat seberapa bagus prediksi bulanan level individu.
Dimitriy V. Masterov
Ysaya=12^=f(Xsaya=12,11,,1,Ysaya=11,10,,1Ysaya=saya^=f(Xsaya=saya,saya-1,,1,Ysaya=saya-1,saya-2,,1Ysaya^=f(Xsaya)
sayaY^saya,1=f(Ysaya,t-1,Xsaya,t).Y^saya,2=f(Y^saya,1,Xsaya,2)Ysaya,tY^saya,t
Estimasi menyiratkan estimasi parameter yang mungkin menjadi bagian dari "pelatihan" untuk model prediktif, tapi saya pikir Anda bermaksud mengatakan bahwa sampel Anda digunakan untuk melatih model prediktif. Apa yang Anda nyatakan di sini adalah proses semi-markov bersyarat dan memiliki aplikasi unik dalam peramalan.
AdamO

Jawaban:

1

Untuk mengevaluasi kemampuan prediksi ramalan semi-Markov, ada sejumlah metode yang tersedia tergantung pada ukuran sampel dan informasi lain yang tersedia.

Untuk mengevaluasi setiap model prediksi / perkiraan, Anda memiliki opsi untuk validasi silang (khusus tinggalkan-satu-keluar atau validasi sampel silang split iteratif), di mana model diperkirakan dalam sampel "pelatihan" dan ketidakpastian model dinilai dalam "validasi" Sampel. Bergantung pada distribusi hasil, sejumlah tindakan tersedia dimana Anda dapat memilih model di antara panel model yang memenuhi syarat. Untuk langkah-langkah umum non-parametrik untuk pemilihan model, orang sangat menyukai AIC dan BIC, terutama yang terakhir.

CCC dan c-statistik digunakan untuk mengevaluasi prediksi cross-sectional biner seperti dari tes / tes, sehingga Anda harus mengesampingkannya jika Anda memprediksi, katakanlah, BMI atau IQ. Mereka mengukur kalibrasi (seperti tes Hosmer Lemeshow) dan apa yang disebut kapasitas stratifikasi risiko. Tidak ada koneksi intuitif untuk hasil yang berkelanjutan di sana, setidaknya tidak sejauh yang saya tahu.

RMSE di sisi lain digunakan untuk mengevaluasi prediksi kontinu (menyimpan kasus prediksi risiko di mana RMSE disebut sebagai skor Brier, alat evaluasi model yang cukup kuno dan usang). Ini adalah alat yang sangat baik dan mungkin digunakan untuk mengkalibrasi ke atas 80% dari model prediksi yang kita temui setiap hari (ramalan cuaca, peringkat energi, MPG pada kendaraan, dll).

Peringatan dalam split sample validation atau resampling untuk mengevaluasi model perkiraan adalah bahwa Anda mungkin hanya tertarik pada hasil di masa mendatang ketika sampel Anda membuat Anda memprediksi hasil di masa lalu. Jangan lakukan ini! Itu tidak mencerminkan aplikasi model dan sangat dapat mempengaruhi pemilihan dengan cara negatif. Gulung semua informasi yang tersedia dan prediksi hasil di masa depan yang tidak teramati dalam semua kasus yang tersedia.

Cukup banyak buku model linear yang diterapkan akan mencakup prediksi, RMSE, dan nuansa model pelatihan dan validasi. Awal yang baik adalah Kutner, Nachtsheim, Neter, Li, juga mempertimbangkan "Analisis Rangkaian Waktu" Diggle, Diggle Heagerty Zeger Li, "Analisis Data Longitudinal", dan "Strategi Regresi Model Pemodelan" Harrell yang berpotensi.

AdamO
sumber
CCC dan Harrell's c dapat digunakan dengan hasil yang berkelanjutan. CCC juga memiliki implementasi tindakan yang berulang. Lihat referensi / tautan yang saya tambahkan dalam pertanyaan.
Dimitriy V. Masterov
Tidak masalah. Anda tidak mengklasifikasikan.
AdamO