Berapa besar set pelatihan yang dibutuhkan?

Istilah pencarian yang Anda cari adalah "kurva pembelajaran", yang memberikan kinerja model (rata-rata) sebagai fungsi dari ukuran sampel pelatihan.

Kurva belajar tergantung pada banyak hal, misalnya

metode klasifikasi
kompleksitas penggolong
seberapa baik kelas dipisahkan.

(Saya pikir untuk LDA dua kelas Anda mungkin dapat memperoleh beberapa perhitungan kekuatan teoretis, tetapi fakta penting adalah selalu apakah data Anda benar-benar memenuhi asumsi "sama dengan COV multivariat normal". Saya akan melakukan beberapa simulasi untuk kedua LDA asumsi dan resampling data Anda yang sudah ada).

Ada dua aspek kinerja classifier yang dilatih pada ukuran sampel hingga (seperti biasa), $n$

Bias, yaitu rata-rata classifier yang dilatih pada sampel pelatihan lebih buruk daripada classifier yang dilatih pada training cases (ini biasanya dimaksudkan oleh kurva pembelajaran), dan $n$ $n = \infty$
varians: satu set pelatihan tertentu kasus dapat menyebabkan kinerja model yang sangat berbeda. Bahkan dengan beberapa kasus, Anda mungkin beruntung dan mendapatkan hasil yang baik. Atau Anda memiliki nasib buruk dan mendapatkan penggolong yang sangat buruk. Seperti biasa, varian ini berkurang dengan bertambahnya ukuran sampel pelatihan . $n$

$n$

Aspek lain yang perlu Anda perhitungkan adalah bahwa biasanya tidak cukup untuk melatih classifier yang baik, tetapi Anda juga perlu membuktikan bahwa classifiernya bagus (atau cukup bagus). Jadi, Anda perlu merencanakan juga ukuran sampel yang diperlukan untuk validasi dengan presisi yang diberikan. Jika Anda perlu memberikan hasil ini sebagai bagian dari keberhasilan di antara begitu banyak kasus uji (misalnya, akurasi / presisi / sensitivitas / nilai prediksi positif produsen atau konsumen), dan tugas klasifikasi yang mendasarinya agak mudah, ini mungkin memerlukan lebih banyak kasus independen daripada pelatihan model yang bagus.

Sebagai aturan praktis, untuk pelatihan, ukuran sampel biasanya dibahas dalam kaitannya dengan kompleksitas model (jumlah kasus: jumlah variasi), sedangkan batas absolut pada ukuran sampel uji dapat diberikan untuk presisi yang diperlukan dari pengukuran kinerja.

Berikut ini makalah, di mana kami menjelaskan hal-hal ini secara lebih rinci, dan juga membahas cara
menyusun kurva pembelajaran: Beleites, C. dan Neugebauer, U. dan Bocklitz, T. dan Krafft, C. dan Popp, J .: Perencanaan ukuran sampel untuk model klasifikasi. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
naskah diterima di arXiv: 1211.1323

Ini adalah "penggoda", yang menunjukkan masalah klasifikasi yang mudah (kita sebenarnya memiliki satu perbedaan mudah seperti ini dalam masalah klasifikasi kita, tetapi kelas-kelas lain jauh lebih sulit untuk dibedakan): kertas perencanaan ukuran sampel penggoda

Kami tidak mencoba mengekstrapolasi ke ukuran sampel pelatihan yang lebih besar untuk menentukan berapa banyak kasus pelatihan yang dibutuhkan, karena ukuran sampel uji adalah hambatan kami, dan ukuran sampel pelatihan yang lebih besar akan memungkinkan kami membuat model yang lebih rumit, sehingga ekstrapolasi dipertanyakan. Untuk jenis set data yang saya miliki, saya akan mendekati ini secara iteratif, mengukur banyak kasus baru, menunjukkan seberapa banyak hal membaik, mengukur lebih banyak kasus, dan sebagainya.

Ini mungkin berbeda untuk Anda, tetapi makalah ini berisi referensi literatur ke makalah yang menggunakan ekstrapolasi ke ukuran sampel yang lebih tinggi untuk memperkirakan jumlah sampel yang diperlukan.

Cbeleites mendukung Monica
sumber

Apakah menggunakan skema regularisasi untuk LDA saya memungkinkan saya untuk bekerja dengan set pelatihan yang lebih kecil?

Lunat1c

@ user2036690, Model yang lebih pelit (lebih sedikit fitur) akan membutuhkan lebih sedikit sampel pelatihan. Skema regularisasi tidak akan mempengaruhi jumlah sampel yang diperlukan, jika hanya akan mengurangi dampak fitur yang kurang penting. Beberapa jenis rasionalisasi fitur memungkinkan set pelatihan yang lebih kecil

BGreene

Namun pemilihan fitur yang digerakkan oleh data membutuhkan jumlah sampel yang sangat besar karena setiap perbandingan model sebenarnya merupakan uji statistik. Pemilihan fitur oleh pengetahuan ahli, bagaimanapun, dapat membantu dengan segera. @BGreene: dapatkah Anda memperluas mengapa regularisasi tidak dapat membantu mengurangi persyaratan ukuran sampel (misalnya mempertimbangkan punggungan pada matriks kovarians yang dikondisikan dengan buruk)? IMHO tidak bisa melakukan keajaiban, tetapi bisa membantu.

cbeleites mendukung Monica

Baik tanpa masuk ke diskusi epik, saya mengacu pada formulasi regularisasi Friedman daripada ridge atau regresi lainnya yang dihukum. Namun demikian koefisien tidak direduksi menjadi nol seperti pada Lasso sehingga dimensi tidak terpengaruh yang akibatnya tidak akan berpengaruh pada ukuran sampel yang diperlukan untuk menghindari matriks berpose buruk seperti yang Anda rujuk di atas. Permintaan maaf jika ini tampaknya bertele

BGreene

@BGreene: jangan bertele-tele, saya memang bertanya balik. Pertanyaan yang menarik adalah: berapa banyak keseluruhan df / kompleksitas dikurangi dengan menetapkan koefisien ke nol dengan cara yang digerakkan oleh data .

Ngomong

Bertanya tentang ukuran sampel pelatihan menyiratkan Anda akan menahan data untuk validasi model. Ini adalah proses yang tidak stabil yang membutuhkan ukuran sampel besar. Validasi internal yang kuat dengan bootstrap sering lebih disukai. Jika Anda memilih jalur itu, Anda hanya perlu menghitung satu ukuran sampel. Sebagai @cbeleites dengan sangat baik menyatakan ini sering merupakan penilaian "peristiwa per kandidat variabel", tetapi Anda membutuhkan minimal 96 pengamatan untuk secara akurat memprediksi probabilitas hasil biner bahkan jika tidak ada fitur yang akan diperiksa [ini adalah untuk mencapai dari 0,95 margin kepercayaan kesalahan 0,1 dalam memperkirakan probabilitas marjinal aktual bahwa Y = 1].

Penting untuk mempertimbangkan aturan penilaian yang tepat untuk penilaian akurasi (misalnya, skor Brier dan kemungkinan log / penyimpangan). Juga pastikan Anda benar-benar ingin mengklasifikasikan pengamatan yang bertentangan dengan memperkirakan probabilitas keanggotaan. Yang terakhir hampir selalu lebih berguna karena memungkinkan zona abu-abu.

Frank Harrell
sumber

Berapa besar set pelatihan yang dibutuhkan?

Jawaban: