Saya mengalami kesulitan untuk masuk ke halaman yang sama dengan penyelia saya ketika datang untuk memvalidasi model saya. Saya telah menganalisis residu (diamati terhadap nilai yang dipasang) dan saya menggunakan ini sebagai argumen untuk membahas hasil yang diperoleh oleh model saya, namun penyelia saya bersikeras bahwa satu-satunya cara untuk memvalidasi model adalah dengan membuat subset acak dari data saya, menghasilkan model dengan 70% dari itu dan kemudian menerapkan model pada 30% sisanya.
Masalahnya adalah, variabel respons saya adalah nol meningkat (85% dari itu, menjadi lebih tepat) dan saya lebih suka tidak membuat subset karena sudah sangat sulit untuk menyatu dengan hasil.
Jadi, pertanyaan saya adalah: apa cara yang mungkin (dan dapat diterima secara ilmiah) untuk memvalidasi model? Apakah mengesampingkan data satu-satunya cara? Jika memungkinkan, rujuk pertanyaan Anda dengan artikel / buku sehingga saya dapat menggunakannya sebagai argumen saat menyajikan alternatif saya.
sumber
Jawaban:
Sebagai permulaan, saya menyarankan agar berhati-hati terhadap pernyataan bahwa hanya ada satucara untuk melakukan sesuatu. Memisahkan sampel yang diperoleh menjadi set "pelatihan" dan "pengujian" adalah pendekatan umum dalam banyak pembelajaran mesin / aplikasi ilmu data. Seringkali, pendekatan pemodelan ini kurang tertarik pada pengujian hipotesis tentang proses pembuatan data yang mendasarinya, yang berarti mereka cenderung agak tidak teoritis. Bahkan, sebagian besar jenis pelatihan / pengujian hanya ingin melihat apakah model ini terlalu pas dalam hal kinerja prediksi. Tentu saja, juga dimungkinkan untuk menggunakan pendekatan pelatihan / pengujian untuk melihat apakah model yang diberikan mereplikasi dalam hal parameter mana yang "signifikan", atau untuk melihat apakah estimasi parameter berada dalam kisaran yang diharapkan dalam kedua contoh.
Dalam teori, model validasi atau invalidasi adalah apa yang seharusnya dilakukan sains, baik yang besar, maupun yang harus dilakukan. Peneliti independen, yang secara terpisah memeriksa, menghasilkan, dan menguji hipotesis yang mendukung atau membantah argumen tentang teori mengapa atau dalam keadaan apa fenomena yang dapat diamati terjadi - yaitu perusahaan ilmiah dalam kulit kacang (atau setidaknya dalam satu kalimat yang terlalu panjang). Jadi untuk menjawab pertanyaan Anda, bagi saya, bahkan pemisahan pelatihan / pengujian tidak "memvalidasi" model. Itu adalah sesuatu yang membutuhkan bukti selama bertahun-tahun yang dikumpulkan dari beberapa peneliti independen yang mempelajari serangkaian fenomena yang sama. Meskipun, saya akan memberikan bahwa pandangan ini mungkin ada perbedaan dalam semantik tentang apa yang saya lihat validasi model berarti versus apa istilah validasi telah menjadi berarti dalam pengaturan yang diterapkan ...
Bergantung pada data dan pendekatan pemodelan Anda, mungkin tidak selalu tepat dari sudut pandang statistik untuk membagi sampel Anda menjadi set pelatihan dan pengujian. Sebagai contoh, sampel kecil mungkin sangat sulit untuk menerapkan pendekatan ini. Selain itu, beberapa distribusi mungkin memiliki sifat tertentu yang membuatnya sulit untuk dimodelkan bahkan dengan sampel yang relatif besar. Case nol-inflasi Anda kemungkinan cocok dengan deskripsi terakhir ini. Jika tujuannya adalah untuk mencapai perkiraan "kebenaran" tentang seperangkat hubungan atau proses yang mendasari dianggap untuk beberapa fenomena, Anda tidak akan dilayani dengan baik dengan secara sadar mengambil pendekatan yang kurang bertenaga untuk menguji hipotesis yang diberikan. Jadi mungkin langkah pertama adalah melakukan analisis kekuatan untuk melihat apakah Anda bahkan mungkin akan meniru temuan yang menarik dalam data yang Anda daftarkan.
Pilihan lain adalah menentukan beberapa model untuk melihat apakah mereka "lebih baik" menjelaskan data yang diamati. Tujuannya di sini adalah untuk mengidentifikasi model terbaik di antara serangkaian alternatif yang masuk akal. Ini adalah argumen relatif, bukan absolut, yang akan Anda buat tentang model Anda. Pada dasarnya, Anda mengakui bahwa mungkin ada model lain yang dapat diajukan untuk menjelaskan data Anda, tetapi model Anda adalah yang terbaik dari serangkaian alternatif yang diuji (setidaknya Anda berharap demikian). Semua model di set, termasuk model Anda yang dihipotesiskan, harus didasarkan pada teori; jika tidak, Anda berisiko membuat sekelompok pria jerami statistik.
Ada juga Bayes Factors di mana Anda dapat menghitung bobot bukti yang diberikan model Anda, berdasarkan data Anda, untuk hipotesis spesifik relatif terhadap skenario alternatif.
Ini jauh dari daftar opsi yang lengkap, tapi saya harap ini membantu. Saya akan turun dari kotak sabun sekarang. Ingatlah bahwa setiap model dalam setiap penelitian yang diterbitkan tentang perilaku manusia tidak benar. Hampir selalu ada variabel yang dihilangkan yang relevan, interaksi yang tidak dimodelkan, populasi sampel yang tidak sempurna, dan kesalahan pengambilan sampel lama yang sederhana yang mengaburkan mengaburkan kebenaran yang mendasarinya.
sumber
Pemecahan data secara umum merupakan cara yang sangat tidak kompetitif untuk melakukan validasi internal. Itu karena volatilitas serius - model 'final' yang berbeda dan 'validasi' yang berbeda pada saat pemisahan ulang, dan karena rata-rata kuadrat kesalahan estimasi (dari hal-hal seperti rata-rata kesalahan prediksi absolut danR2 ) lebih tinggi dari prosedur resampling yang bagus seperti bootstrap. Saya membahas hal ini secara terperinci dalam buku strategi dan catatan kursus Regresi Modeling . Resampling memiliki keunggulan utama tambahan: mengekspos volatilitas dalam pemilihan fitur.
sumber
Saya pikir jawabannya di sini berbeda karena pertanyaannya agak tidak jelas, terutama: apa yang Anda maksud dengan "validasi"?
Perpecahan 70/30 (atau validasi silang dalam hal ini) biasanya dilakukan untuk menilai kinerja prediktif model atau seluruh rantai analisis (mungkin termasuk pemilihan model). Validasi seperti itu sangat penting jika Anda membandingkan opsi pemodelan yang berbeda dalam hal kinerja prediktifnya.
Ini kasus lain sepenuhnya jika Anda tidak ingin memilih model, dan juga tidak tertarik dengan kinerja prediktif seperti itu, tetapi Anda tertarik pada kesimpulan (estimasi regresi / nilai-p), dan ingin memvalidasi jika asumsi model / kesalahan Anda GLMM memadai. Dalam hal ini, adalah mungkin untuk memprediksi ke bertahan dan membandingkan prediksi dengan data yang diamati, tetapi prosedur yang jauh lebih umum adalah melakukan analisis residual. Jika Anda perlu membuktikan ini kepada penyelia Anda: pada dasarnya inilah yang diajarkan oleh setiap buku teks statistik setelah regresi linier.
Lihat di sini untuk cara menjalankan analisis residu untuk GLMM (termasuk nol-inflasi dengan glmmTMB, yang saya lebih suka daripada glmmadmb) dengan paket DHARMa (penafian: Saya adalah pengelola).
sumber
Jawaban singkatnya adalah ya, Anda perlu menilai kinerja model Anda pada data yang tidak digunakan dalam pelatihan.
Teknik-teknik pembangunan model modern sangat baik dalam pemasangan data secara sewenang-wenang dan dapat dengan mudah menemukan sinyal dalam noise. Dengan demikian kinerja model pada data pelatihan hampir selalu bias.
Sebaiknya Anda mengeksplorasi topik validasi silang (bahkan jika Anda tidak menyetel hiperparameter) untuk mendapatkan pemahaman yang lebih baik tentang mengapa kami menyimpan data, ketika berfungsi, asumsi apa yang terlibat, dll. Salah satu makalah favorit saya adalah :
Tidak ada penaksir yang tidak bias dari varian k-fold cross-validation
sumber
rms
paket Rvalidate
dancalibrate
fungsi. Dengan bootstrap ini, tidak ada keputusan satu kali tentang menyimpan data. Seperti yang dijelaskan oleh buku dan catatan kursus RMS saya secara rinci, jumlah overfitting diestimasi dengan melihat berapa banyak model yang dikembangkan dalam sampel bootstrap berantakan ketika diterapkan pada sampel penuh asli (tumpang tindih). Bootstrap harus mengulangi semua langkah pemodelan lagi untuk setiap iterasi.