Saya menemukan pertanyaan sederhana tentang membandingkan model yang fleksibel (yaitu splines) vs model yang tidak fleksibel (misalnya regresi linier) di bawah skenario yang berbeda. Pertanyaannya adalah:
Secara umum, apakah kita mengharapkan kinerja metode pembelajaran statistik yang fleksibel untuk melakukan lebih baik atau lebih buruk daripada metode yang tidak fleksibel ketika:
- Jumlah prediktor sangat besar, dan jumlah pengamatan kecil? n
- Varian dari istilah kesalahan, yaitu , sangat tinggi?
Saya pikir untuk (1), ketika kecil, model tidak fleksibel lebih baik (tidak yakin). Untuk (2), saya tidak tahu model mana yang (relatif) lebih baik.
machine-learning
model
alittleboy
sumber
sumber
Jawaban:
Dalam 2 situasi ini, kinerja komparatif model fleksibel vs tidak fleksibel juga tergantung pada:
Jika hubungan dekat dengan linier dan Anda tidak membatasi fleksibilitas, maka model linier harus memberikan kesalahan pengujian yang lebih baik dalam kedua kasus karena model fleksibel cenderung cocok dalam kedua kasus.
Anda dapat melihatnya seperti itu:
Namun, jika hubungan yang sebenarnya sangat tidak linier, sulit untuk mengatakan siapa yang akan menang (keduanya akan kalah :)).
Jika Anda menyetel / membatasi tingkat fleksibilitas dan melakukannya dengan cara yang benar (misalnya dengan validasi silang), maka model fleksibel harus menang dalam semua kasus.
sumber
Tentu saja itu tergantung pada data yang mendasarinya yang harus selalu Anda jelajahi untuk mengetahui beberapa karakteristiknya sebelum mencoba menyesuaikan model, tetapi apa yang saya pelajari sebagai aturan umum adalah:
sumber
Nah, untuk bagian kedua, saya pikir model yang lebih fleksibel akan mencoba menyesuaikan model keras dan data pelatihan mengandung noise yang tinggi, jadi model yang fleksibel juga akan mencoba mempelajari noise itu dan akan menghasilkan lebih banyak kesalahan pengujian. Saya tahu sumber pertanyaan ini karena saya juga membaca buku yang sama :)
sumber
Untuk bagian pertama, saya berharap model yang tidak fleksibel akan tampil lebih baik dengan sejumlah pengamatan terbatas. Ketika n sangat kecil, kedua model (apakah fleksibel atau tidak fleksibel) tidak akan menghasilkan prediksi yang cukup baik. Namun, model yang fleksibel akan cenderung menyesuaikan data dan akan berkinerja lebih buruk ketika datang ke testset baru.
Idealnya, saya akan mengumpulkan lebih banyak pengamatan untuk meningkatkan pemasangan, tetapi jika itu tidak terjadi, maka saya akan menggunakan model yang tidak fleksibel, mencoba untuk meminimalkan kesalahan pengujian dengan testset baru.
sumber
Untuk pertanyaan kedua saya yakin jawabannya adalah keduanya akan bekerja sama (dengan asumsi bahwa kesalahan tersebut tidak dapat direduksi, yaitu, kesalahan ini). Informasi lebih lanjut disediakan dalam Pengantar Pembelajaran Statistik pada halaman 18 (topik: Mengapa memperkirakan ) di mana penulis menjelaskan perkataanf
sumber
Untuk setiap bagian (a) hingga (d), tentukan apakah saya. atau ii. benar, dan jelaskan jawaban Anda. Secara umum, apakah kita mengharapkan kinerja metode pembelajaran statistik yang fleksibel untuk melakukan lebih baik atau lebih buruk daripada metode yang tidak fleksibel ketika:
Ukuran sampel n sangat besar, dan jumlah prediktor p kecil?
Jumlah prediktor p sangat besar, dan jumlah pengamatan n kecil?
Hubungan antara prediktor dan responsnya sangat non-linear?
Varian dari istilah kesalahan, yaitu σ2 = Var (ε), sangat tinggi?
Diambil dari sini .
sumber