Berapa besar set pelatihan yang dibutuhkan?

24

Apakah ada metode umum yang digunakan untuk menentukan berapa banyak sampel pelatihan yang diperlukan untuk melatih classifier (LDA dalam kasus ini) untuk mendapatkan akurasi generalisasi ambang batas minimum?

Saya bertanya karena saya ingin meminimalkan waktu kalibrasi yang biasanya diperlukan dalam antarmuka otak-komputer.

Lunat1c
sumber
2
user2030669, @cbeleites menjawab di bawah ini luar biasa tetapi sebagai aturan praktis: Anda membutuhkan setidaknya 6 kali jumlah case (sampel) sebagai fitur.
BGreene
2
... di setiap kelas. Saya juga melihat rekomendasi 5p dan 3p / class.
Cbeleites mendukung Monica

Jawaban:

31

Istilah pencarian yang Anda cari adalah "kurva pembelajaran", yang memberikan kinerja model (rata-rata) sebagai fungsi dari ukuran sampel pelatihan.

Kurva belajar tergantung pada banyak hal, misalnya

  • metode klasifikasi
  • kompleksitas penggolong
  • seberapa baik kelas dipisahkan.

(Saya pikir untuk LDA dua kelas Anda mungkin dapat memperoleh beberapa perhitungan kekuatan teoretis, tetapi fakta penting adalah selalu apakah data Anda benar-benar memenuhi asumsi "sama dengan COV multivariat normal". Saya akan melakukan beberapa simulasi untuk kedua LDA asumsi dan resampling data Anda yang sudah ada).

Ada dua aspek kinerja classifier yang dilatih pada ukuran sampel hingga (seperti biasa),n

  • Bias, yaitu rata-rata classifier yang dilatih pada sampel pelatihan lebih buruk daripada classifier yang dilatih pada training cases (ini biasanya dimaksudkan oleh kurva pembelajaran), dannn=
  • varians: satu set pelatihan tertentu kasus dapat menyebabkan kinerja model yang sangat berbeda. Bahkan dengan beberapa kasus, Anda mungkin beruntung dan mendapatkan hasil yang baik. Atau Anda memiliki nasib buruk dan mendapatkan penggolong yang sangat buruk. Seperti biasa, varian ini berkurang dengan bertambahnya ukuran sampel pelatihan .n

    n

Aspek lain yang perlu Anda perhitungkan adalah bahwa biasanya tidak cukup untuk melatih classifier yang baik, tetapi Anda juga perlu membuktikan bahwa classifiernya bagus (atau cukup bagus). Jadi, Anda perlu merencanakan juga ukuran sampel yang diperlukan untuk validasi dengan presisi yang diberikan. Jika Anda perlu memberikan hasil ini sebagai bagian dari keberhasilan di antara begitu banyak kasus uji (misalnya, akurasi / presisi / sensitivitas / nilai prediksi positif produsen atau konsumen), dan tugas klasifikasi yang mendasarinya agak mudah, ini mungkin memerlukan lebih banyak kasus independen daripada pelatihan model yang bagus.

Sebagai aturan praktis, untuk pelatihan, ukuran sampel biasanya dibahas dalam kaitannya dengan kompleksitas model (jumlah kasus: jumlah variasi), sedangkan batas absolut pada ukuran sampel uji dapat diberikan untuk presisi yang diperlukan dari pengukuran kinerja.

Berikut ini makalah, di mana kami menjelaskan hal-hal ini secara lebih rinci, dan juga membahas cara
menyusun kurva pembelajaran: Beleites, C. dan Neugebauer, U. dan Bocklitz, T. dan Krafft, C. dan Popp, J .: Perencanaan ukuran sampel untuk model klasifikasi. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
naskah diterima di arXiv: 1211.1323

Ini adalah "penggoda", yang menunjukkan masalah klasifikasi yang mudah (kita sebenarnya memiliki satu perbedaan mudah seperti ini dalam masalah klasifikasi kita, tetapi kelas-kelas lain jauh lebih sulit untuk dibedakan): kertas perencanaan ukuran sampel penggoda

Kami tidak mencoba mengekstrapolasi ke ukuran sampel pelatihan yang lebih besar untuk menentukan berapa banyak kasus pelatihan yang dibutuhkan, karena ukuran sampel uji adalah hambatan kami, dan ukuran sampel pelatihan yang lebih besar akan memungkinkan kami membuat model yang lebih rumit, sehingga ekstrapolasi dipertanyakan. Untuk jenis set data yang saya miliki, saya akan mendekati ini secara iteratif, mengukur banyak kasus baru, menunjukkan seberapa banyak hal membaik, mengukur lebih banyak kasus, dan sebagainya.

Ini mungkin berbeda untuk Anda, tetapi makalah ini berisi referensi literatur ke makalah yang menggunakan ekstrapolasi ke ukuran sampel yang lebih tinggi untuk memperkirakan jumlah sampel yang diperlukan.

Cbeleites mendukung Monica
sumber
Apakah menggunakan skema regularisasi untuk LDA saya memungkinkan saya untuk bekerja dengan set pelatihan yang lebih kecil?
Lunat1c
1
@ user2036690, Model yang lebih pelit (lebih sedikit fitur) akan membutuhkan lebih sedikit sampel pelatihan. Skema regularisasi tidak akan mempengaruhi jumlah sampel yang diperlukan, jika hanya akan mengurangi dampak fitur yang kurang penting. Beberapa jenis rasionalisasi fitur memungkinkan set pelatihan yang lebih kecil
BGreene
1
Namun pemilihan fitur yang digerakkan oleh data membutuhkan jumlah sampel yang sangat besar karena setiap perbandingan model sebenarnya merupakan uji statistik. Pemilihan fitur oleh pengetahuan ahli, bagaimanapun, dapat membantu dengan segera. @BGreene: dapatkah Anda memperluas mengapa regularisasi tidak dapat membantu mengurangi persyaratan ukuran sampel (misalnya mempertimbangkan punggungan pada matriks kovarians yang dikondisikan dengan buruk)? IMHO tidak bisa melakukan keajaiban, tetapi bisa membantu.
cbeleites mendukung Monica
Baik tanpa masuk ke diskusi epik, saya mengacu pada formulasi regularisasi Friedman daripada ridge atau regresi lainnya yang dihukum. Namun demikian koefisien tidak direduksi menjadi nol seperti pada Lasso sehingga dimensi tidak terpengaruh yang akibatnya tidak akan berpengaruh pada ukuran sampel yang diperlukan untuk menghindari matriks berpose buruk seperti yang Anda rujuk di atas. Permintaan maaf jika ini tampaknya bertele
BGreene
@BGreene: jangan bertele-tele, saya memang bertanya balik. Pertanyaan yang menarik adalah: berapa banyak keseluruhan df / kompleksitas dikurangi dengan menetapkan koefisien ke nol dengan cara yang digerakkan oleh data .
Ngomong
4

Bertanya tentang ukuran sampel pelatihan menyiratkan Anda akan menahan data untuk validasi model. Ini adalah proses yang tidak stabil yang membutuhkan ukuran sampel besar. Validasi internal yang kuat dengan bootstrap sering lebih disukai. Jika Anda memilih jalur itu, Anda hanya perlu menghitung satu ukuran sampel. Sebagai @cbeleites dengan sangat baik menyatakan ini sering merupakan penilaian "peristiwa per kandidat variabel", tetapi Anda membutuhkan minimal 96 pengamatan untuk secara akurat memprediksi probabilitas hasil biner bahkan jika tidak ada fitur yang akan diperiksa [ini adalah untuk mencapai dari 0,95 margin kepercayaan kesalahan 0,1 dalam memperkirakan probabilitas marjinal aktual bahwa Y = 1].

Penting untuk mempertimbangkan aturan penilaian yang tepat untuk penilaian akurasi (misalnya, skor Brier dan kemungkinan log / penyimpangan). Juga pastikan Anda benar-benar ingin mengklasifikasikan pengamatan yang bertentangan dengan memperkirakan probabilitas keanggotaan. Yang terakhir hampir selalu lebih berguna karena memungkinkan zona abu-abu.

Frank Harrell
sumber