Apa asumsi berlipat ganda dalam pembelajaran semi-terawasi?

20

Saya mencoba mencari tahu apa arti asumsi berlipat ganda dalam pembelajaran semi-diawasi. Adakah yang bisa menjelaskan dengan cara sederhana? Saya tidak bisa mendapatkan intuisi di baliknya.

Dikatakan bahwa data Anda terletak pada manifold dimensi rendah yang tertanam di ruang dimensi lebih tinggi. Saya tidak mengerti apa artinya itu.

pengguna34790
sumber
Terkait: youtube.com/watch?v=C2_5QFQZGvM
Benjamin Crouzier

Jawaban:

38

Bayangkan Anda memiliki seikat biji yang diikat di piring kaca, yang diletakkan secara horizontal di atas meja. Karena cara kita biasanya berpikir tentang ruang, akan lebih aman untuk mengatakan bahwa benih ini hidup dalam ruang dua dimensi, lebih atau kurang, karena setiap biji dapat diidentifikasi oleh dua angka yang memberikan koordinat benih pada permukaan tanaman. Kaca.

Sekarang bayangkan Anda mengambil piring dan memiringkannya secara diagonal ke atas, sehingga permukaan kaca tidak lagi horizontal sehubungan dengan tanah. Sekarang, jika Anda ingin menemukan salah satu benih, Anda memiliki beberapa opsi. Jika Anda memutuskan untuk mengabaikan gelas, maka setiap benih akan tampak mengambang di ruang tiga dimensi di atas tabel, dan karenanya Anda harus menggambarkan lokasi setiap biji menggunakan tiga angka, satu untuk setiap arah spasial. Tetapi hanya dengan memiringkan gelas, Anda belum mengubah fakta bahwa benih masih hidup di permukaan dua dimensi. Jadi Anda bisa menggambarkan bagaimana permukaan kaca terletak di ruang tiga dimensi, dan kemudian Anda bisa menggambarkan lokasi biji pada kaca menggunakan dua dimensi asli Anda.

Dalam eksperimen pemikiran ini, permukaan kaca mirip dengan manifold dimensi rendah yang ada di ruang dimensi lebih tinggi: tidak peduli bagaimana Anda memutar pelat dalam tiga dimensi, bijinya masih hidup di sepanjang permukaan bidang dua dimensi.

Contohnya

Lebih umum, manifold dimensi rendah yang tertanam dalam ruang dimensi lebih tinggi hanyalah sekumpulan titik yang, untuk alasan apa pun, dianggap terhubung atau bagian dari himpunan yang sama. Khususnya, manifold mungkin terdistorsi entah bagaimana dalam ruang dimensi yang lebih tinggi (misalnya, mungkin permukaan kaca melengkung menjadi bentuk mangkuk, bukan bentuk pelat), tetapi manifold pada dasarnya masih berdimensi rendah. Terutama di ruang dimensi tinggi, bermacam-macam ini bisa mengambil banyak bentuk dan bentuk yang berbeda, tetapi karena kita hidup di dunia tiga dimensi, sulit untuk membayangkan contoh yang memiliki lebih dari tiga dimensi. Sebagai contoh, pertimbangkan contoh-contoh ini:

  • selembar kaca (planar, dua dimensi) dalam ruang fisik (tiga dimensi)
  • satu benang (satu dimensi) di selembar kain (dua dimensi)
  • sepotong kain (dua dimensi) kusut di mesin cuci (tiga dimensi)

Contoh umum manifold dalam pembelajaran mesin (atau setidaknya set yang dihipotesiskan untuk hidup bersama manifold dimensi rendah) meliputi:

  • gambar pemandangan alami (biasanya Anda tidak melihat gambar white noise, misalnya, yang berarti bahwa gambar "alami" tidak menempati seluruh ruang dari kemungkinan konfigurasi piksel)
  • suara alami (argumen serupa)
  • gerakan manusia (tubuh manusia memiliki ratusan derajat kebebasan, tetapi gerakan tampaknya hidup dalam ruang yang dapat diwakili secara efektif menggunakan ~ 10 dimensi)

Mempelajari bermacam-macam

Asumsi berlipat ganda dalam pembelajaran mesin adalah bahwa, alih-alih mengasumsikan bahwa data di dunia dapat berasal dari setiap bagian dari ruang yang mungkin (misalnya, ruang dari semua gambar 1-megapiksel yang mungkin, termasuk white noise), lebih masuk akal untuk mengasumsikan bahwa data pelatihan berasal dari manifold yang relatif rendah (seperti pelat kaca dengan bijinya). Kemudian mempelajari struktur manifold menjadi tugas penting; Selain itu, tugas pembelajaran ini tampaknya dapat dilakukan tanpa menggunakan data pelatihan yang diberi label.

Ada banyak, banyak cara belajar struktur berjenis dimensi rendah. Salah satu pendekatan yang paling banyak digunakan adalah PCA, yang mengasumsikan bahwa manifold terdiri dari "gumpalan" ellipsoidal tunggal seperti bentuk pancake atau cerutu, yang tertanam dalam ruang dimensi yang lebih tinggi. Teknik yang lebih rumit seperti isomap, ICA, atau pengkodean yang jarang mengendurkan beberapa asumsi ini dengan berbagai cara.

Pembelajaran semi-diawasi

Alasan mengapa bermacam-macam asumsi penting dalam pembelajaran semi-terawasi adalah dua kali lipat. Untuk banyak tugas realistis (misalnya, menentukan apakah piksel dalam gambar menunjukkan 4 atau 5), ada lebih banyak data yang tersedia di dunia tanpa label (misalnya, gambar yang mungkin memiliki digit di dalamnya) daripada dengan label (misalnya, gambar yang secara eksplisit diberi label "4" atau "5"). Selain itu, ada banyak urutan besarnya informasi lebih banyak tersedia dalam piksel gambar daripada ada di label gambar yang memiliki label. Tapi, seperti yang saya jelaskan di atas, gambar alami sebenarnya tidak disampel dari distribusi seragam atas konfigurasi piksel, jadi sepertinya ada beberapa ragam yang menangkap struktur gambar alami.manifold, sementara gambar yang berisi 5s juga terletak pada manifold yang berbeda tetapi berdekatan, maka kita dapat mencoba mengembangkan representasi untuk masing-masing manifold ini hanya dengan menggunakan data piksel, berharap bahwa manifold yang berbeda akan diwakili menggunakan fitur-fitur data yang dipelajari. Kemudian, nanti, ketika kami memiliki beberapa bit data label yang tersedia, kami dapat menggunakan bit-bit itu untuk menerapkan label pada manifold yang sudah diidentifikasi.

Sebagian besar penjelasan ini berasal dari karya dalam literatur pembelajaran yang mendalam dan fitur. Yoshua Bengio dan Yann LeCun - lihat Tutorial Pembelajaran Berbasis Energi memiliki argumen khusus yang dapat diakses di bidang ini.

lmjohns3
sumber
1
Ini tidak menjawab pertanyaan: Anda tidak menjelaskan mengapa manifold diperlukan, Anda pada dasarnya menjelaskan mengapa embedding dimensi yang lebih tinggi tidak diperlukan (subset dari embedding dimensi yang lebih tinggi tidak perlu bermacam-macam agar sesuai dengan contoh Anda).
gented
5

Pertama, pastikan Anda memahami apa itu embedding. Ini dipinjam dari matematika . Secara kasar, ini adalah pemetaan data ke ruang lain (sering disebut ruang embedding atau ruang fitur ), melestarikan beberapa struktur atau properti data. Perhatikan bahwa dimensinya bisa lebih besar atau lebih kecil dari ruang input. Dalam praktiknya, pemetaan ini rumit dan sangat tidak linier. Beberapa contoh:

  • "Kata vektor" bernilai tinggi untuk mewakili kata, seperti word2vec
  • Aktivasi lapisan convnet, seperti lapisan FC7 AlexNet (FC7 adalah lapisan ke-7 yang sepenuhnya terhubung)

Sebagai ilustrasi, saya akan mengambil contoh makalah ini dari Josh Tenenbaum:

Gambar 1 mengilustrasikan masalah penemuan fitur dengan contoh dari persepsi visual. Himpunan tampilan wajah dari semua sudut pandang yang memungkinkan adalah kumpulan data berdimensi sangat tinggi ketika direpresentasikan sebagai susunan gambar di komputer atau pada retina; misalnya, gambar skala abu-abu 32 x 32 piksel dapat dianggap sebagai titik dalam ruang observasi 1.024 dimensi [ruang input] . Namun, struktur yang bermakna secara perseptif dari gambar-gambar ini [ruang fitur] memiliki dimensi yang jauh lebih rendah; semua gambar pada Gbr. 1 terletak pada manifold dua dimensi yang diparameterisasi dengan sudut pandang

masukkan deskripsi gambar di sini

Josh Tenenbaum kemudian membahas kesulitan mempelajari pemetaan semacam itu dari input hingga feature space. Tapi mari kita kembali ke pertanyaan: kami tertarik pada bagaimana ruang input dan fitur terkait.

  • The 32*32 array of grey pixel valuesadalah ruang input
  • The [x1=elevation, x2=azimuth]ruang adalah ruang fitur (meskipun sederhana, itu dapat dianggap sebagai ruang embedding valid).

Menyatakan ulang hipotesis berlipat ganda (mengutip dari artikel hebat ini ):

Hipotesis manifold adalah bahwa data alami membentuk manifold dimensi lebih rendah dalam ruang embedding

Dengan contoh ini, jelas bahwa dimensi ruang penyematan jauh lebih sedikit daripada ruang input: 2 vs 1024. (Perbedaan ini akan berlaku bahkan untuk pilihan dimensi yang lebih tinggi, ruang penyisipan yang lebih sederhana).

Untuk meyakinkan diri Anda bahwa penyematan bentuk berlipat ganda, saya mengundang Anda untuk membaca sisa kertas Tenenbaum atau artikel Colah .

Catatan: ini hanyalah ilustrasi tentang apa arti hipotesis berlipat ganda, bukan argumen mengapa itu terjadi .

Terkait: Penjelasan vektor kata , kertas word2vec

Benjamin Crouzier
sumber