Meskipun semua gambar dalam dataset MNIST dipusatkan, dengan skala yang sama, dan menghadap ke atas tanpa rotasi, mereka memiliki variasi tulisan tangan yang signifikan yang membuat saya bingung bagaimana model linier mencapai akurasi klasifikasi tinggi.
Sejauh yang saya bisa memvisualisasikan, mengingat variasi tulisan tangan yang signifikan, digit harus tidak dapat dipisahkan secara linear dalam ruang dimensi 784, yaitu, harus ada sedikit batas non-linear yang kompleks (meskipun tidak terlalu kompleks) yang memisahkan digit yang berbeda , mirip dengan contoh dikutip dengan baik di mana kelas positif dan negatif tidak dapat dipisahkan oleh classifier linier. Tampaknya membingungkan bagi saya bagaimana regresi logistik multi-kelas menghasilkan akurasi tinggi dengan fitur yang sepenuhnya linier (tidak ada fitur polinomial).
Sebagai contoh, mengingat piksel apa pun dalam gambar, variasi tulisan tangan yang berbeda dari angka dan dapat membuat piksel tersebut menyala atau tidak. Oleh karena itu, dengan serangkaian bobot yang dipelajari, setiap piksel dapat membuat tampilan digit sebagai dan . Hanya dengan kombinasi nilai piksel yang memungkinkan untuk mengatakan apakah digit adalah atau . Ini berlaku untuk sebagian besar pasangan digit. Jadi, bagaimana regresi logistik, yang secara membabi buta mendasarkan keputusannya secara independen pada semua nilai piksel (tanpa mempertimbangkan ketergantungan antar-piksel sama sekali), dapat mencapai akurasi tinggi tersebut.
Saya tahu bahwa saya salah di suatu tempat atau hanya terlalu memperkirakan variasi dalam gambar. Namun, alangkah baiknya jika seseorang dapat membantu saya dengan intuisi tentang bagaimana digit 'hampir' terpisah secara linear.
sumber
Jawaban:
tl; dr Meskipun ini adalah kumpulan data klasifikasi gambar, ini tetap merupakan tugas yang sangat mudah , yang dengannya seseorang dapat dengan mudah menemukan pemetaan langsung dari input ke prediksi.
Menjawab:
Ini adalah pertanyaan yang sangat menarik dan berkat kesederhanaan regresi logistik Anda benar-benar dapat menemukan jawabannya.
Apa yang dilakukan regresi logistik adalah agar setiap gambar menerima input dan mengalikannya dengan bobot untuk menghasilkan prediksi. Yang menarik adalah karena pemetaan langsung antara input dan output (yaitu tidak ada lapisan tersembunyi), nilai setiap bobot sesuai dengan seberapa banyak masing-masing dari input diperhitungkan saat menghitung probabilitas setiap kelas. Sekarang, dengan mengambil bobot untuk setiap kelas dan membentuknya kembali menjadi (yaitu resolusi gambar), kita dapat mengetahui piksel apa yang paling penting untuk perhitungan setiap kelas .784 784 28×28
Perhatikan, sekali lagi, bahwa ini adalah bobotnya .
Sekarang lihat gambar di atas dan fokus pada dua digit pertama (yaitu nol dan satu). Bobot biru berarti bahwa intensitas piksel ini banyak berkontribusi untuk kelas itu dan nilai merah berarti memberi kontribusi negatif.
Sekarang bayangkan, bagaimana seseorang menggambar angka ? Dia menggambar bentuk melingkar yang kosong di antaranya. Itulah tepatnya yang diangkat oleh beban. Bahkan jika seseorang menggambar tengah gambar, itu dihitung negatif sebagai nol. Jadi untuk mengenali nol Anda tidak perlu beberapa filter canggih dan fitur tingkat tinggi. Anda bisa melihat lokasi piksel yang diambil dan menilai berdasarkan ini.0
Hal yang sama untuk . Itu selalu memiliki garis vertikal lurus di tengah gambar. Semua yang lain terhitung negatif.1
Sisa digitnya sedikit lebih rumit, tetapi dengan sedikit imajinasi Anda dapat melihat , , dan . Angka-angka lainnya sedikit lebih sulit, yang sebenarnya membatasi regresi logistik untuk mencapai tahun 90-an.2 3 7 8
Melalui ini Anda dapat melihat bahwa regresi logistik memiliki peluang yang sangat baik untuk mendapatkan banyak gambar dengan benar dan itulah mengapa nilainya sangat tinggi.
Kode untuk mereproduksi gambar di atas sedikit bertanggal, tetapi di sini Anda mulai:
sumber