Pengurangan dimensi yang diawasi

Saya memiliki satu set data yang terdiri dari sampel berlabel 15K (dari 10 grup). Saya ingin menerapkan pengurangan dimensi menjadi 2 dimensi, yang akan mempertimbangkan pengetahuan label.

Ketika saya menggunakan teknik reduksi dimensionalitas tanpa pengawasan "standar" seperti PCA, plot sebar tampaknya tidak ada hubungannya dengan label yang dikenal.

Apakah yang saya cari punya nama? Saya ingin membaca beberapa referensi solusi.

machine-learning pca dimensionality-reduction supervised-learning discriminant-analysis Roy
sumber

Jika Anda mencari metode linier, maka analisis diskriminan linier (LDA) adalah yang harus Anda gunakan.

Amoeba berkata Reinstate Monica

@amoeba: Terima kasih. Saya menggunakannya dan kinerjanya jauh lebih baik!

Roy

Senang itu membantu. Saya memberikan jawaban singkat dengan beberapa referensi lebih lanjut.

Amuba mengatakan Reinstate Monica

Salah satu kemungkinan adalah pertama-tama mengurangi ke ruang sembilan dimensi yang membentang centroid kelas, dan kemudian menggunakan PCA untuk mengurangi menjadi dua dimensi.

A. Donda

Terkait: stats.stackexchange.com/questions/16305 (mungkin duplikat, meskipun mungkin sebaliknya. Saya akan kembali ke ini setelah saya memperbarui jawaban saya di bawah ini.)

Amuba mengatakan Reinstate Monica

Jawaban:

Metode linear paling standar dari pengurangan dimensi yang diawasi disebut analisis diskriminan linier (LDA). Ini dirancang untuk menemukan proyeksi dimensi rendah yang memaksimalkan pemisahan kelas. Anda dapat menemukan banyak informasi tentang hal itu di bawah tag analisis diskriminan kami , dan di buku teks pembelajaran mesin apa pun seperti misalnya Elemen Pembelajaran Statistik yang tersedia secara bebas .

Berikut adalah gambar yang saya temukan di sini dengan pencarian google cepat; ini menunjukkan proyeksi PCA dan LDA satu dimensi ketika ada dua kelas dalam dataset (asal ditambahkan oleh saya):

Pendekatan lain disebut partial least square (PLS). LDA dapat diartikan sebagai mencari proyeksi yang memiliki korelasi tertinggi dengan variabel dummy label kelompok pengkodean (dalam hal ini LDA dapat dilihat sebagai kasus khusus analisis korelasi kanonik, CCA). Sebaliknya, PLS mencari proyeksi yang memiliki kovarian tertinggi dengan label grup. Sedangkan LDA hanya menghasilkan 1 sumbu untuk kasus dua kelompok (seperti pada gambar di atas), PLS akan menemukan banyak sumbu yang dipesan oleh kovarians yang menurun. Perhatikan bahwa ketika ada lebih dari dua kelompok yang ada dalam dataset, ada "rasa" PLS yang berbeda yang akan menghasilkan hasil yang agak berbeda.

Pembaruan (2018)

Saya harus mencari waktu untuk memperluas jawaban ini; utas ini tampaknya populer tetapi jawaban asli saya di atas sangat pendek dan tidak cukup detail.

$k$

amuba kata Reinstate Monica
sumber

grafis yang bagus, menjelaskan banyak hal

Titou