Sehubungan dengan pengujian hipotesis, memperkirakan ukuran sampel dilakukan melalui daya, dan itu intuitif bahwa meningkatkan ukuran yang sama meningkatkan presisi efek yang diperkirakan. Tetapi bagaimana dengan prediksi untuk klasifikasi dan regresi? Aspek apa dari masalah prediksi yang dipengaruhi oleh ukuran sampel selain memperkirakan kesalahan generalisasi atau RMSE untuk regresi.
Singkatnya, sifat-sifat yang berkontribusi terhadap kekuasaan dalam pengaturan pengujian hipotesis berbeda dari mereka yang memungkinkan prediksi yang sukses melalui regresi yang dihukum / data mining / pemodelan algoritmik. Bagaimana ukuran sampel mempengaruhi keberhasilan teknik ini?
Satu makalah yang menjelaskan ide ini adalah yang ini .
Adakah yang bisa memberikan referensi untuk komentar mereka? Terima kasih.
sumber
Jawaban:
Pada dasarnya, saya pikir Anda bertanya secara intuitif bagaimana ukuran sampel memengaruhi teknik pembelajaran mesin. Jadi, faktor nyata yang mempengaruhi ukuran sampel yang diperlukan adalah dimensi ruang tempat data tinggal, dan kerapuhannya. Saya akan memberikan dua contoh, karena saya merasa sulit untuk meringkas semuanya dalam satu ...
Katakanlah Anda memiliki beberapa data padat dan Anda mencoba menyesuaikan model menggunakan beberapa regresi. Jika data mengikuti polinomial derajat maka Anda perlu lebih dari itu data sehingga algoritma Anda dapat menemukan kurva yang benar. Jika tidak, itu akan membuat model yang terlalu sederhana, berbeda dari kenyataan. Tentu saja dalam kenyataannya akan ada noise, sehingga Anda membutuhkan lebih banyak data untuk membuat model yang lebih baik.n n
Katakanlah Anda memiliki beberapa data yang jarang, yaitu, sebagian besar dimensi adalah nol. Contoh seperti itu adalah teks, seperti tweet atau SMS (lupakan buku untuk saat ini), di mana frekuensi setiap kata adalah dimensi dan tentu saja dokumen tidak memiliki mayoritas kata dalam kamus (ruang jarang). Anda mencoba mengklasifikasikan tweet berdasarkan topiknya. Algoritma, seperti kNN, SVMs dll, bekerja pada kesamaan antara sampel, misalnya 1-NN akan menemukan tweet dalam pelatihan yang paling dekat dengan yang Anda coba untuk mengklasifikasikan dan itu akan menetapkan label yang sesuai. Namun, karena jarangnya ... coba tebak ... kebanyakan kesamaan adalah nol! Hanya karena dokumen tidak membagikan kata-kata yang cukup. Untuk dapat membuat prediksi, Anda memerlukan data yang cukup sehingga sesuatu dalam rangkaian pelatihan Anda menyerupai dokumen yang tidak dikenal yang Anda coba klasifikasikan.
sumber
Saya tidak mengerti pertanyaan sepenuhnya. Umumnya sampel yang lebih besar akan menghasilkan (misalnya) klasifikasi yang lebih baik. Kecuali lebih besar berarti pengamatan kualitas buruk. Sampel kecil akan membuat banyak model tidak berguna. Misalnya karena model berbasis pohon adalah semacam pendekatan "divde and conquer" efisiensinya sangat tergantung pada ukuran sampel pelatihan.
Di sisi lain, jika Anda tertarik dalam pembelajaran statistik dalam dimensi tinggi, saya pikir perhatian Anda lebih terkait dengan kutukan dimensi. Jika ukuran sampel Anda "kecil" dan ruang fitur Anda berdimensi "tinggi", data Anda akan berperilaku seolah-olah jarang dan sebagian besar algoritma akan mengalami kesulitan untuk mencoba memahaminya. Mengutip John A. Richards dalam Analisis Gambar Digital Penginderaan Jauh:
Yang berarti masalahnya dua kali lipat, menemukan fitur yang relevan dan ukuran samp yang Anda sebutkan. Sampai sekarang Anda dapat memuat buku secara gratis jika Anda mencarinya di google.
Cara lain untuk membaca pertanyaan Anda yang sangat menarik bagi saya adalah: dalam pembelajaran yang diawasi Anda hanya dapat benar-benar memvalidasi model Anda pada data uji dengan validasi silang dan apa yang tidak. Jika sampel berlabel tempat Anda memperoleh kereta / sampel uji tidak mewakili alam semesta Anda dengan baik, hasil validasi mungkin tidak berlaku untuk alam semesta Anda. Bagaimana Anda bisa mengukur keterwakilan sampel berlabel Anda?
sumber