Saya telah menganalisis satu set data ~ 400k catatan dan 9 variabel. Variabel dependen adalah biner. Saya telah memasang regresi logistik, pohon regresi, hutan acak, dan gradien yang didorong pohon. Semuanya memberikan angka cocok virtual yang identik ketika saya memvalidasinya pada set data lain.
Kenapa begitu? Saya menduga itu karena pengamatan saya terhadap rasio variabel sangat tinggi. Jika ini benar, pada pengamatan apa rasio variabel akan model yang berbeda mulai memberikan hasil yang berbeda?
sumber
nilainya juga melihat kesalahan pelatihan.
pada dasarnya saya tidak setuju dengan analisis Anda. jika regresi logistik dll semuanya memberikan hasil yang sama itu akan menunjukkan bahwa 'model terbaik' adalah yang sangat sederhana (bahwa semua model dapat cocok dengan baik - misalnya pada dasarnya linier).
Jadi, pertanyaannya mungkin mengapa model terbaik adalah model sederhana ?: Ini mungkin menunjukkan bahwa variabel Anda tidak terlalu prediktif. Tentu saja sulit untuk menganalisis tanpa mengetahui data.
sumber
Seperti yang disarankan @ seanv507, kinerja yang sama mungkin semata-mata karena data dipisahkan oleh model linier. Tetapi secara umum, pernyataan bahwa itu karena "rasio pengamatan terhadap variabel sangat tinggi" tidak benar. Bahkan ketika rasio ukuran sampel Anda dengan jumlah variabel mencapai tak terhingga, Anda seharusnya tidak mengharapkan model yang berbeda untuk melakukan hampir identik, kecuali mereka semua memberikan bias prediksi yang sama.
sumber
Saya pikir penjelasan ini masuk akal.
Ini mungkin akan sangat tergantung pada data spesifik Anda (misalnya, bahkan apakah sembilan variabel Anda kontinu, faktor, biasa atau biner), serta keputusan tuning yang Anda buat saat menyesuaikan model Anda.
Tapi Anda bisa bermain-main dengan rasio observasi-ke-variabel - bukan dengan meningkatkan jumlah variabel, tetapi dengan mengurangi jumlah pengamatan. Secara acak gambar 100 pengamatan, sesuaikan model dan lihat apakah model yang berbeda menghasilkan hasil yang berbeda. (Saya rasa mereka akan melakukannya.) Lakukan ini beberapa kali dengan sampel berbeda yang diambil dari jumlah total pengamatan Anda. Kemudian lihat sub-contoh 1.000 pengamatan ... 10.000 pengamatan ... dan sebagainya.
sumber