Peta pengorganisasian diri (SOM) adalah kisi pengisi ruang yang menyediakan pengurangan dimensi diskritisasi data.
Anda mulai dengan ruang titik data berdimensi tinggi, dan kisi sembarang yang berada di ruang itu. Grid dapat dari dimensi apa saja, tetapi biasanya lebih kecil dari dimensi dataset Anda, dan biasanya 2D, karena itu mudah divisualisasikan.
Untuk setiap datum di set data Anda, Anda menemukan titik grid terdekat, dan "tarik" titik grid itu ke set data. Anda juga menarik masing-masing titik kisi yang berdekatan ke posisi baru dari titik kisi pertama. Pada awal proses, Anda menarik banyak tetangga ke titik data. Kemudian dalam proses, ketika kisi Anda mulai mengisi ruang, Anda memindahkan lebih sedikit tetangga, dan ini bertindak sebagai semacam penyempurnaan. Proses ini menghasilkan seperangkat titik dalam ruang data yang sesuai dengan bentuk ruang dengan cukup baik, tetapi juga dapat diperlakukan sebagai kotak dimensi-lebih rendah.
Ini adalah proses yang dijelaskan dengan baik oleh dua gambar dari halaman 1468 dari makalah Kohonen 1990 :
Gambar ini menunjukkan peta satu dimensi dalam distribusi seragam dalam segitiga. Kotak mulai sebagai kekacauan di tengah, dan secara bertahap ditarik ke dalam kurva yang mengisi segitiga dengan cukup baik, mengingat jumlah titik kotak:
Bagian kiri dari gambar kedua ini menunjukkan kisi SOM 2D yang dengan penuh mengisi ruang yang ditentukan oleh bentuk kaktus di sebelah kiri:
Ada video proses SOM menggunakan grid 2D di ruang 2D, dan dalam ruang 3D di youtube.
Sekarang setiap titik data asli di ruang memiliki satu tetangga terdekat, yang ditugaskan. Grid dengan demikian merupakan pusat dari kumpulan titik data. Kotak menyediakan pengurangan dimensi.
Berikut ini adalah perbandingan pengurangan dimensi menggunakan analisis komponen utama (PCA), dari halaman SOM di wikipedia :
Segera terlihat bahwa SOM satu dimensi memberikan kesesuaian yang jauh lebih baik terhadap data, menjelaskan lebih dari 93% varians, dibandingkan dengan 77% untuk PCA. Namun, sejauh yang saya ketahui, tidak ada cara mudah untuk menjelaskan varians yang tersisa, seperti halnya dengan PCA (menggunakan dimensi ekstra), karena tidak ada cara yang rapi untuk membuka data di sekitar grid SOM diskrit.