Ukuran sampel sehubungan dengan prediksi dalam klasifikasi dan regresi

8

Sehubungan dengan pengujian hipotesis, memperkirakan ukuran sampel dilakukan melalui daya, dan itu intuitif bahwa meningkatkan ukuran yang sama meningkatkan presisi efek yang diperkirakan. Tetapi bagaimana dengan prediksi untuk klasifikasi dan regresi? Aspek apa dari masalah prediksi yang dipengaruhi oleh ukuran sampel selain memperkirakan kesalahan generalisasi atau RMSE untuk regresi.

Singkatnya, sifat-sifat yang berkontribusi terhadap kekuasaan dalam pengaturan pengujian hipotesis berbeda dari mereka yang memungkinkan prediksi yang sukses melalui regresi yang dihukum / data mining / pemodelan algoritmik. Bagaimana ukuran sampel mempengaruhi keberhasilan teknik ini?

Satu makalah yang menjelaskan ide ini adalah yang ini .

Adakah yang bisa memberikan referensi untuk komentar mereka? Terima kasih.

Juliuli
sumber
2
Tidak begitu jelas apa yang Anda cari di sini, tidak sedikit pekerjaan rumah ini? Satu hal yang tidak ada dalam formula adalah bahwa dataset yang sangat besar dapat membawa masalah heterogenitas yang lebih besar, kualitas data, dan nilai yang hilang. Argumen tersebut terlihat dalam diskusi tentang manfaat relatif dari sensus nasional dibandingkan dengan survei sampel yang dikontrol secara ketat.
Nick Cox
1
Saya menambahkan beberapa detail. Sudah keluar dari sekolah pascasarjana selama bertahun-tahun, jadi tidak ada pekerjaan rumah!
julieth
"masalah heterogenitas yang lebih besar, kualitas data, dan nilai yang hilang": jika kumpulan data kecil lebih homogen, generalisasi (ekstrapolasi ke situasi yang dicakup oleh kumpulan data besar) dipertanyakan / buruk. Dengan kata lain: Anda mungkin cocok dengan set data kecil. (Kecuali jika besar menunjukkan kualitas trade-off. [Sinyal])
cbeleites tidak senang dengan SX
Ada beberapa langkah yang perlu dipertimbangkan termasuk kesalahan, generalisasi, kekikiran, operasi komputasi yang diperlukan, dan ukuran memori yang diperlukan. Ketika saya melihat ini saya melihat dua nilai yang dikenal: kinerja dan biaya. Generalisasi, form, dan kesalahan adalah tentang kinerja pascakematian. Mereka adalah hasilnya. Hitung waktu, kompleksitas kode, ukuran memori adalah tentang betapa sulitnya membuat kode, men-debug, dan menjalankan data melalui model. Mereka tentang biaya. Ketika berpikir tentang "pengaruh" semua pengaruh mengarah ke dua langkah itu, atau tidak ada.
EngrStudent

Jawaban:

1

Pada dasarnya, saya pikir Anda bertanya secara intuitif bagaimana ukuran sampel memengaruhi teknik pembelajaran mesin. Jadi, faktor nyata yang mempengaruhi ukuran sampel yang diperlukan adalah dimensi ruang tempat data tinggal, dan kerapuhannya. Saya akan memberikan dua contoh, karena saya merasa sulit untuk meringkas semuanya dalam satu ...

  • Katakanlah Anda memiliki beberapa data padat dan Anda mencoba menyesuaikan model menggunakan beberapa regresi. Jika data mengikuti polinomial derajat maka Anda perlu lebih dari itu data sehingga algoritma Anda dapat menemukan kurva yang benar. Jika tidak, itu akan membuat model yang terlalu sederhana, berbeda dari kenyataan. Tentu saja dalam kenyataannya akan ada noise, sehingga Anda membutuhkan lebih banyak data untuk membuat model yang lebih baik.nn

  • Katakanlah Anda memiliki beberapa data yang jarang, yaitu, sebagian besar dimensi adalah nol. Contoh seperti itu adalah teks, seperti tweet atau SMS (lupakan buku untuk saat ini), di mana frekuensi setiap kata adalah dimensi dan tentu saja dokumen tidak memiliki mayoritas kata dalam kamus (ruang jarang). Anda mencoba mengklasifikasikan tweet berdasarkan topiknya. Algoritma, seperti kNN, SVMs dll, bekerja pada kesamaan antara sampel, misalnya 1-NN akan menemukan tweet dalam pelatihan yang paling dekat dengan yang Anda coba untuk mengklasifikasikan dan itu akan menetapkan label yang sesuai. Namun, karena jarangnya ... coba tebak ... kebanyakan kesamaan adalah nol! Hanya karena dokumen tidak membagikan kata-kata yang cukup. Untuk dapat membuat prediksi, Anda memerlukan data yang cukup sehingga sesuatu dalam rangkaian pelatihan Anda menyerupai dokumen yang tidak dikenal yang Anda coba klasifikasikan.

iliasfl
sumber
0

Saya tidak mengerti pertanyaan sepenuhnya. Umumnya sampel yang lebih besar akan menghasilkan (misalnya) klasifikasi yang lebih baik. Kecuali lebih besar berarti pengamatan kualitas buruk. Sampel kecil akan membuat banyak model tidak berguna. Misalnya karena model berbasis pohon adalah semacam pendekatan "divde and conquer" efisiensinya sangat tergantung pada ukuran sampel pelatihan.

Di sisi lain, jika Anda tertarik dalam pembelajaran statistik dalam dimensi tinggi, saya pikir perhatian Anda lebih terkait dengan kutukan dimensi. Jika ukuran sampel Anda "kecil" dan ruang fitur Anda berdimensi "tinggi", data Anda akan berperilaku seolah-olah jarang dan sebagian besar algoritma akan mengalami kesulitan untuk mencoba memahaminya. Mengutip John A. Richards dalam Analisis Gambar Digital Penginderaan Jauh:

Pengurangan dan Pemisahan Fitur

Biaya klasifikasi meningkat dengan jumlah fitur yang digunakan untuk menggambarkan vektor piksel dalam ruang multispektral - yaitu dengan jumlah pita spektral yang terkait dengan suatu piksel. Untuk pengklasifikasi seperti prosedur parallelepiped dan jarak minimum ini adalah peningkatan linier dengan fitur; namun untuk klasifikasi kemungkinan maksimum, prosedur yang paling sering disukai, kenaikan biaya dengan fitur kuadratik. Oleh karena itu masuk akal secara ekonomis untuk memastikan bahwa tidak ada fitur lebih dari yang diperlukan digunakan saat melakukan klasifikasi. Bagian 8.2.6 menarik perhatian pada jumlah piksel pelatihan yang dibutuhkan untuk memastikan bahwa estimasi yang dapat diandalkan dari tanda tangan kelas dapat diperoleh. Secara khusus, jumlah piksel pelatihan yang dibutuhkan meningkat dengan jumlah pita atau saluran dalam data. Untuk data dimensi tinggi, seperti itu dari spektrometer pencitraan, persyaratan itu menghadirkan tantangan yang cukup dalam praktiknya, sehingga menjaga jumlah fitur yang digunakan dalam klasifikasi menjadi sesedikit mungkin adalah penting jika hasil yang dapat diandalkan diharapkan dari sejumlah piksel pelatihan yang terjangkau. Fitur yang tidak membantu diskriminasi, dengan berkontribusi sedikit pada pemisahan kelas spektral, harus dibuang. Penghapusan fitur yang paling tidak efektif disebut sebagai pemilihan fitur, ini menjadi salah satu bentuk pengurangan fitur. Yang lain adalah mengubah vektor piksel menjadi satu set koordinat baru di mana fitur yang dapat dihapus dibuat lebih jelas. Kedua prosedur tersebut dibahas secara terperinci dalam bab ini. jadi menjaga jumlah fitur yang digunakan dalam klasifikasi sesedikit mungkin adalah penting jika hasil yang dapat diandalkan diharapkan dari jumlah piksel pelatihan yang terjangkau. Fitur yang tidak membantu diskriminasi, dengan berkontribusi sedikit pada pemisahan kelas spektral, harus dibuang. Penghapusan fitur yang paling tidak efektif disebut sebagai pemilihan fitur, ini menjadi salah satu bentuk pengurangan fitur. Yang lain adalah mengubah vektor piksel menjadi satu set koordinat baru di mana fitur yang dapat dihapus dibuat lebih jelas. Kedua prosedur tersebut dibahas secara terperinci dalam bab ini. jadi menjaga jumlah fitur yang digunakan dalam klasifikasi sesedikit mungkin adalah penting jika hasil yang dapat diandalkan diharapkan dari jumlah piksel pelatihan yang terjangkau. Fitur yang tidak membantu diskriminasi, dengan berkontribusi sedikit pada pemisahan kelas spektral, harus dibuang. Penghapusan fitur yang paling tidak efektif disebut sebagai pemilihan fitur, ini menjadi salah satu bentuk pengurangan fitur. Yang lain adalah mengubah vektor piksel menjadi satu set koordinat baru di mana fitur yang dapat dihapus dibuat lebih jelas. Kedua prosedur tersebut dibahas secara terperinci dalam bab ini. harus dibuang. Penghapusan fitur yang paling tidak efektif disebut sebagai pemilihan fitur, ini menjadi salah satu bentuk pengurangan fitur. Yang lain adalah mengubah vektor piksel menjadi satu set koordinat baru di mana fitur yang dapat dihapus dibuat lebih jelas. Kedua prosedur tersebut dibahas secara terperinci dalam bab ini. harus dibuang. Penghapusan fitur yang paling tidak efektif disebut sebagai pemilihan fitur, ini menjadi salah satu bentuk pengurangan fitur. Yang lain adalah mengubah vektor piksel menjadi satu set koordinat baru di mana fitur yang dapat dihapus dibuat lebih jelas. Kedua prosedur tersebut dibahas secara terperinci dalam bab ini.

Yang berarti masalahnya dua kali lipat, menemukan fitur yang relevan dan ukuran samp yang Anda sebutkan. Sampai sekarang Anda dapat memuat buku secara gratis jika Anda mencarinya di google.

Cara lain untuk membaca pertanyaan Anda yang sangat menarik bagi saya adalah: dalam pembelajaran yang diawasi Anda hanya dapat benar-benar memvalidasi model Anda pada data uji dengan validasi silang dan apa yang tidak. Jika sampel berlabel tempat Anda memperoleh kereta / sampel uji tidak mewakili alam semesta Anda dengan baik, hasil validasi mungkin tidak berlaku untuk alam semesta Anda. Bagaimana Anda bisa mengukur keterwakilan sampel berlabel Anda?

JEquihua
sumber
strata adalah cara yang baik untuk mengukur keterwakilan. Memasukkan ini dalam model campuran dengan varian yang diperkirakan oleh REML adalah cara yang baik untuk memasukkan ketidakpastian tentang strata yang tidak ada dalam prediksi Anda.
probabilityislogic
Benar-benar di luar topik, dapatkah Anda merekomendasikan beberapa daftar pustaka tentang Edwin Jaynes dan "probabilitas sebagai logika yang diperluas"? Salam pembuka!
JEquihua
situs web ini adalah tempat yang baik untuk memulai
probabilityislogic