Bagaimana menemukan bobot untuk ukuran ketidakpatuhan

9

Saya ingin mempelajari (menyimpulkan) bobot atribut untuk ukuran ketidaksamaan yang dapat saya gunakan untuk pengelompokan.

Saya punya beberapa contoh pasangan objek yang "mirip" (harus berada di cluster yang sama), serta beberapa contoh pasangan objek yang "tidak mirip" (tidak boleh). berada di cluster yang sama). Setiap objek memiliki sejumlah atribut: jika Anda suka, kita dapat menganggap setiap objek sebagai vektor dimensi dimensi, di mana setiap fitur adalah bilangan bulat non-negatif. Apakah ada teknik untuk menggunakan contoh serupa / objek yang berbeda untuk memperkirakan dari mereka bobot fitur yang optimal untuk ukuran ketidaksamaan?( c i , d i ) d(ai,bi)(ci,di)d

Jika itu membantu, dalam aplikasi saya, mungkin akan masuk akal untuk fokus pada belajar ukuran ketidaksamaan yang merupakan norma L2 tertimbang:

d(x,y)=jαj(x[j]y[j])2.

di mana bobot tidak diketahui dan harus dipelajari. (Atau, semacam ukuran kesamaan cosinus tertimbang mungkin masuk akal juga.) Apakah ada algoritma yang baik untuk mempelajari bobot untuk ukuran seperti itu, mengingat contohnya? Atau adakah metode lain untuk mempelajari ukuran kesamaan / perbedaan yang harus saya pertimbangkan?α jαjαj

Jumlah dimensi sayangnya sangat besar (ribuan atau lebih tinggi; itu berasal dari fitur bag-of-words). Namun, saya punya puluhan ribu contoh. Saya kemudian memiliki ratusan ribu objek yang ingin saya klaster, jadi penting untuk menggeneralisasi dari contoh untuk mempelajari metrik perbedaan yang baik.

Saya mengetahui bahwa ini termasuk ke dalam rubrik semi-supervised clustering, dan kedengarannya seperti nada "kesamaan-adaptasi", tetapi saya belum dapat menemukan deskripsi algoritma yang jelas untuk digunakan untuk tujuan ini.

DW
sumber
Masalah yang sangat menarik. Jika saya menyelesaikan masalah Anda dengan benar, Anda akan diberi matriks yang kosong dengan elemen-elemennya yang mengkodekan persamaan atau ketidaksamaan berpasangan. Beberapa elemen diisi tetapi sebagian besar hilang. Saya akan mencoba untuk mengisi matriks itu terlebih dahulu (misalnya menggunakan asumsi peringkat rendah).
Vladislavs Dovgalecs
@ xeon, itu akan menjadi salah satu pendekatan, tetapi mengabaikan fitur. Hipotesis saya adalah bahwa beberapa fitur sangat relevan dan beberapa fitur tidak relevan, dan bahwa melihat perbedaan fitur yang relevan memberikan metrik perbedaan yang masuk akal - tetapi bagaimana kita menemukan metrik itu? Hanya mencoba untuk menyelesaikan matriks seperti yang Anda sarankan mengabaikan struktur ini dan dengan demikian tidak mengambil keuntungan penuh dari data yang kami miliki.
DW
Apa tujuan akhir Anda? Bukan hanya mempelajari jarak metrik, bukan? Anda ingin mengelompokkan poin data, bukan?
Vladislavs Dovgalecs
1
Ada hal-hal yang saya pikir Anda belum jelaskan. Apakah seluruh rangkaian pasangan contoh membentuk matriks biner lengkap (1 = serupa; 0 = berbeda) atau sebagian informasi sel tidak ada? Apakah matriks "noncontradictory" - yaitu, contoh partisi objek ke dalam kelas yang tidak tumpang tindih? Juga, perhatikan bahwa tidak ada metode pembelajaran yang dapat (atau seharusnya digunakan untuk) memberi tahu Anda jenis ukuran (seperti norma L2 atau L1, misalnya) karena pilihan tersebut bersifat teoretis (tergantung pada jenis atribut, konseptualisasi fitur ruang, metode pengelompokan yang akan Anda gunakan kemudian).
ttnphns
Ini terlalu luas untuk dijawab secara wajar di sini. Ada sejumlah besar literatur yang didedikasikan untuk fitur pembobotan, pemilihan dan pembelajaran fungsi jarak. Saya pikir saya telah melihat bahkan konferensi tentang pembelajaran kesamaan!
Memiliki QUIT - Anony-Mousse

Jawaban:

6

Ini adalah masalah besar di beberapa bidang pembelajaran mesin. Saya tidak terbiasa dengan itu seperti yang saya inginkan, tapi saya pikir ini harus Anda mulai.

Mengingat bahwa data Anda sangat berdimensi tinggi (dan mungkin jarang?), Anda mungkin tidak perlu sesuatu yang terlalu linier. Mungkin analisis komponen lingkungan adalah tempat terbaik untuk memulai? Ini paling dekat dengan gagasan norma tertimbang , seperti yang Anda sarankan dalam pertanyaan Anda.L.2

David J. Harris
sumber
Ya, datanya jarang. Ini terlihat sangat membantu, terima kasih. Apakah ada varian analisis komponen lingkungan di mana matriks dibatasi menjadi diagonal (ekuivalen adalah diagonal)? (Sepertinya ini mungkin sesuai dengan kelas tindakan ketidaksamaan yang disebutkan dalam pertanyaan saya di atas.)AQSEBUAH
DW
Saya tidak mengerti mengapa Anda tidak bisa memasukkan batasan itu. Saya tidak yakin apakah model yang dihasilkan memiliki nama.
David J. Harris
1

Menempatkan bobot pada fitur dalam ukuran kesamaan Anda adalah sama, jadi data Anda ditetapkan oleh . 1 / w iSebuahsaya1/wsaya

Dengan kata lain, Anda bertanya tentang preprocessing dan penskalaan data. Ini terlalu luas untuk dijawab dengan baik dalam satu pertanyaan. Mencari:

  • pemilihan fitur
  • fitur pembobotan
  • normalisasi
  • pengurangan dimensi
  • teknik proyeksi lainnya
  • fungsi jarak lainnya
  • "belajar peringkat"

Ada sejumlah besar literatur dan bahkan trek konferensi yang didedikasikan untuk ini. Beberapa metode untuk Anda mulai:

Memiliki QUIT - Anony-Mousse
sumber