I have been studying statistics from many books for the last 3 years, and thanks to this site I learned a lot. Nevertheless one fundamental question still remains unanswered for me. It may have a very simple or a very difficult answer, but I know for sure it requires some deep understanding of statistics.
Saat memasang model ke data, baik itu pendekatan yang sering atau Bayesian, kami mengusulkan model, yang dapat terdiri dari bentuk fungsional untuk kemungkinan, prior, atau kernel (non-parametrik), dll. Masalahnya adalah model apa pun cocok dengan sampel dengan tingkat kebaikan tertentu. Seseorang selalu dapat menemukan model yang lebih baik atau lebih buruk dibandingkan dengan apa yang ada saat ini. Pada titik tertentu kita berhenti dan mulai menggambar kesimpulan, menggeneralisasi ke parameter populasi, melaporkan interval kepercayaan, menghitung risiko, dll. Oleh karena itu, kesimpulan apa pun yang kita gambar selalu tergantung pada model yang kita putuskan untuk diselesaikan. Bahkan jika kita menggunakan alat untuk memperkirakan jarak KL yang diharapkan seperti AIC, MDL, dll., Itu tidak mengatakan apa-apa tentang di mana kita berdiri dengan dasar absolut, tetapi hanya meningkatkan estimasi kita atas dasar relatif.
Sekarang anggaplah kita ingin mendefinisikan prosedur langkah demi langkah untuk diterapkan pada set data apa pun saat membangun model. Apa yang harus kita tentukan sebagai aturan penghentian? Bisakah kita setidaknya mengikat kesalahan model yang akan memberi kita titik henti objektif (ini berbeda dari menghentikan pelatihan menggunakan sampel validasi, karena hal itu juga memberikan titik henti dalam kelas model yang dievaluasi daripada menggunakan DGP yang sebenarnya)?
Jawaban:
Sayangnya, pertanyaan ini tidak memiliki jawaban yang bagus. Anda dapat memilih model terbaik berdasarkan fakta bahwa ia meminimalkan kesalahan absolut, kesalahan kuadrat, memaksimalkan kemungkinan, menggunakan beberapa kriteria yang menghukum kemungkinan (misalnya AIC, BIC) untuk menyebutkan hanya beberapa pilihan paling umum. Masalahnya adalah bahwa tidak satu pun dari kriteria itu akan membiarkan Anda memilih model terbaik yang objektif, tetapi lebih baik dari yang Anda membandingkan. Masalah lain adalah bahwa sementara mengoptimalkan Anda selalu dapat berakhir di beberapa lokal maksimum / minimum. Namun masalah lain adalah bahwa pilihan Anda untuk kriteria pemilihan model adalah subyektif . Dalam banyak kasus Anda secara sadar, atau setengah sadar, membuat keputusan tentang apa yang Anda minati dan memilih kriteria berdasarkan ini. Sebagai contoh , menggunakan BIC daripada AIC mengarah ke model yang lebih pelit, dengan lebih sedikit parameter. Biasanya, untuk pemodelanAnda tertarik pada model yang lebih pelit yang mengarah pada beberapa kesimpulan umum tentang alam semesta, sedangkan untuk memprediksinya tidak harus begitu dan kadang-kadang model yang lebih rumit dapat memiliki kekuatan prediksi yang lebih baik (tetapi tidak harus dan seringkali tidak) . Dalam kasus lain, kadang-kadang model yang lebih rumit lebih disukai karena alasan praktis , misalnya saat memperkirakan model Bayesian dengan MCMC, model dengan hyperpriors dapat berperilaku lebih baik dalam simulasi daripada yang lebih sederhana. Di sisi lain, umumnya kita takut overfitting hierarkis dan model yang lebih sederhana memiliki risiko lebih rendah dari overfitting, sehingga merupakan pilihan yang lebih aman. Contoh yang bagus untuk ini adalah pemilihan model bertahap otomatis yang umumnya tidak direkomendasikan karena mudah mengarah pada perkiraan yang berlebihan dan bias. Ada juga argumen filosofis,pisau cukur Occam , bahwa model yang paling sederhana adalah yang paling disukai. Perhatikan juga, yang sedang kita bahas di sini membandingkan model yang berbeda, sementara dalam situasi kehidupan nyata juga bisa sehingga menggunakan alat statistik yang berbeda dapat menghasilkan hasil yang berbeda - sehingga ada lapisan tambahan dalam memilih metode!
Semua ini mengarah pada fakta yang menyedihkan, namun menghibur, yang tidak pernah bisa kami yakini. Kita mulai dengan ketidakpastian, menggunakan metode untuk menghadapinya dan kita berakhir dengan ketidakpastian. Ini mungkin paradoks, tetapi ingat bahwa kita menggunakan statistik karena kita percaya bahwa dunia tidak pasti dan probabilistik (jika tidak kita akan memilih karier para nabi), jadi bagaimana mungkin kita bisa berakhir dengan kesimpulan yang berbeda? Tidak ada aturan penghentian yang objektif, ada beberapa model yang mungkin, semuanya salah (maaf untuk klise!) Karena mereka mencoba untuk menyederhanakan realitas yang rumit (terus berubah dan probabilistik). Kami menemukan beberapa dari mereka lebih berguna daripada yang lain untuk tujuan kami dan kadang-kadang kami lakukanmenemukan model yang berbeda berguna untuk tujuan yang berbeda. Anda dapat pergi ke paling bawah untuk memperhatikan bahwa dalam banyak kasus kami membuat model yang tidak diketahuiθ Itu, yang dalam banyak kasus tidak pernah bisa diketahui, atau bahkan tidak ada (apakah populasi memilikiμ untuk usia?). Sebagian besar model bahkan tidak mencoba menggambarkan realitas tetapi memberikan abstraksi dan generalisasi, sehingga mereka tidak bisa "benar", atau "benar".
Anda dapat melangkah lebih dalam dan menemukan bahwa tidak ada yang namanya "probabilitas" dalam kenyataan - itu hanya beberapa perkiraan ketidakpastian di sekitar kita dan ada juga cara alternatif untuk memperkirakannya seperti misalnya logika fuzzy (lihat Kosko, 1993 untuk diskusi). Bahkan alat dan teorema yang sangat mendasar yang menjadi dasar metode kita adalah perkiraan dan bukan satu-satunya yang mungkin. Kami tidak bisa memastikan pengaturan seperti itu.
Aturan berhenti yang Anda cari selalu spesifik masalah dan subyektif, yaitu berdasarkan penilaian profesional. Ngomong-ngomong, ada banyak contoh penelitian yang menunjukkan bahwa para profesional sering kali tidak lebih baik dan kadang-kadang bahkan lebih buruk dalam penilaian mereka daripada orang awam (misalnya dihidupkan kembali dalam makalah dan buku-buku oleh Daniel Kahneman ), sambil lebih cenderung terlalu percaya diri (ini sebenarnya argumen tentang mengapa kita tidak mencoba untuk "yakin" tentang model kita).
Kosko, B. (1993). Pemikiran fuzzy: ilmu baru logika fuzzy. New York: Hyperion.
sumber
Ada seluruh bidang yang disebut statistik nonparametrik yang menghindari penggunaan model yang kuat. Namun, kekhawatiran Anda tentang model pemasangan, per se, valid. Sayangnya tidak ada prosedur mekanis untuk menyesuaikan model yang akan diterima secara universal sebagai "optimal". Misalnya, jika Anda ingin mendefinisikan model yang memaksimalkan kemungkinan data Anda, maka Anda akan diarahkan ke fungsi distribusi empiris.
Namun, kami biasanya memiliki beberapa asumsi latar belakang dan kendala, seperti terus menerus dengan momen pertama dan kedua terbatas. Untuk kasus-kasus seperti ini, satu pendekatan adalah memilih ukuran seperti Shannon Differential Entropy dan memaksimalkannya di ruang distribusi kontinu yang memenuhi batasan batas Anda.
Yang ingin saya tunjukkan adalah bahwa jika Anda tidak hanya ingin default ke ECDF, maka Anda perlu menambahkan asumsi, di luar data, untuk sampai ke sana, dan itu membutuhkan keahlian materi pelajaran, dan, ya , ..... penilaian profesional yang ditakuti
Jadi, apakah ada titik berhenti dijamin untuk pemodelan ... jawabannya tidak. Apakah ada tempat yang cukup baik untuk berhenti? Secara umum, ya, tetapi titik itu akan tergantung pada lebih dari sekedar data dan beberapa desiderata statistik, Anda biasanya akan memperhitungkan risiko kesalahan yang berbeda, keterbatasan teknis untuk menerapkan model, dan kekuatan perkiraannya, dll.
Seperti yang ditunjukkan oleh @Luca, Anda selalu dapat rata-rata di atas kelas model, tetapi, seperti yang Anda tunjukkan dengan benar, itu hanya akan mendorong pertanyaan ke tingkat hyperparameter berikutnya. Sayangnya, kita tampaknya hidup dalam bawang berlapis-lapis ... di kedua arah!
sumber