Predictive Modeling - Haruskah kita peduli tentang pemodelan campuran?

19

Untuk pemodelan prediktif, apakah kita perlu memusatkan perhatian pada diri kita dengan konsep statistik seperti efek acak dan tidak independennya pengamatan (tindakan berulang)? Sebagai contoh....

Saya memiliki data dari 5 kampanye pengiriman langsung (terjadi selama setahun) dengan berbagai atribut dan tanda untuk pembelian. Idealnya, saya akan menggunakan semua data ini dikombinasikan untuk membangun model untuk pembelian atribut pelanggan yang diberikan pada saat kampanye. Alasannya adalah bahwa peristiwa pembelian jarang terjadi dan saya ingin menggunakan informasi sebanyak mungkin. Ada kemungkinan bahwa pelanggan tertentu dapat berada di mana saja dari 1 hingga 5 kampanye - artinya tidak ada independensi di antara catatan tersebut.

Apakah ini penting saat menggunakan:

1) Pendekatan pembelajaran mesin (mis. Pohon, MLP, SVM)

2) Pendekatan statistik (regresi logistik)?

**ADD:**

Pemikiran saya tentang pemodelan prediktif adalah jika model itu berhasil, gunakan saja Sehingga saya tidak pernah benar-benar mempertimbangkan pentingnya asumsi. Memikirkan kasus yang saya jelaskan di atas membuat saya bertanya-tanya.

Ambil algoritma pembelajaran mesin seperti a MLP and SVM. Ini digunakan dengan sukses untuk memodelkan peristiwa biner seperti contoh saya di atas tetapi juga data deret waktu yang jelas berkorelasi. Namun, banyak menggunakan fungsi kerugian yang kemungkinan dan diturunkan dengan asumsi kesalahan itu benar. Sebagai contoh, gradien boosted tree dalam R gbmmenggunakan fungsi deviance loss yang diturunkan dari binomial ( Halaman 10 ).

B_Miner
sumber
1
Penting untuk pendekatan statistik yang mengasumsikan independensi di antara catatan, karena Anda kemudian berurusan dengan tindakan berulang.
Michelle
4
Menurut saya salah satu perbedaan utama antara pembelajaran mesin yang difokuskan pada prediksi dan statistik yang berfokus pada inferensi adalah persis apa yang Anda katakan, B_Miner. Pembelajaran mesin lebih mementingkan apa yang berhasil sementara statistik tradisional memberikan perhatian khusus pada asumsi. Dalam kedua kasus tersebut, Anda perlu mengetahui asumsi / sifat pendekatan Anda, kemudian membuat keputusan berdasarkan informasi apakah itu penting atau tidak. Anda mungkin membodohi diri sendiri dalam pemodelan prediktif tentang apakah model Anda berfungsi jika Anda tidak memahami asumsi / sifat pendekatan.
Anne Z.
2
@ AnneZ.Jika Anda mengikuti pendekatan validasi yang disarankan dari training-, test- dan validationset (semua sampel cukup besar) dalam pemodelan prediktif dan Anda menemukan sesuatu yang berhasil, apakah orang masih perlu repot jika asumsi yang mendasarinya dipenuhi? Saya tentu tidak merekomendasikan aplikasi mindless dari ML, saya hanya ingin tahu ...
steffen
2
Dalam konteks ini, makalah "Pemodelan Statistik: The Two Cultures" mungkin menarik, dibahas dalam klub jurnal crossvalidated ketiga
steffen

Jawaban:

14

Saya sendiri bertanya-tanya , dan inilah kesimpulan sementara saya. Saya akan senang jika ada yang bisa melengkapi / memperbaiki ini dengan pengetahuan mereka dan referensi tentang topik ini.

Jika Anda ingin menguji hipotesis tentang koefisien regresi logistik dengan memeriksa signifikansi statistik, Anda perlu memodelkan korelasi di seluruh pengamatan (atau jika tidak benar untuk non-independensi) karena jika tidak, kesalahan standar Anda akan terlalu kecil, setidaknya ketika Anda mempertimbangkan dalam- efek cluster. Tetapi koefisien regresi tidak bias bahkan dengan pengamatan berkorelasi, jadi sebaiknya menggunakan model seperti itu untuk prediksi.

Dalam pemodelan prediktif, Anda tidak perlu menjelaskan korelasi secara eksplisit saat melatih model Anda, apakah Anda menggunakan regresi logistik atau pendekatan lain. Namun, jika Anda ingin menggunakan set ketidaksepakatan untuk validasi atau perhitungan kesalahan out-of-sample, Anda ingin memastikan bahwa pengamatan untuk setiap individu hanya muncul dalam satu set, baik pelatihan atau validasi tetapi tidak keduanya. Kalau tidak, model Anda akan memprediksi untuk individu yang sudah memiliki beberapa informasi tentang dan Anda tidak mendapatkan pembacaan yang benar tentang kemampuan klasifikasi out-of-sample.

Anne Z.
sumber