Apakah ada "regresi tanpa pengawasan"?

15

Jika saya benar, "klasifikasi tanpa pengawasan" sama dengan pengelompokan. Lalu apakah ada "regresi tanpa pengawasan"? Terima kasih!

StackExchange untuk Semua
sumber

Jawaban:

20

Saya belum pernah mengalami istilah ini sebelumnya. Saya tidak yakin apakah itu akan menyebarkan cahaya atau kegelapan di salah satu bidang statistik: yang menjadi pembelajaran mesin (di mana perbedaan yang diawasi dan tidak diawasi merupakan pusat penyelesaian masalah) dan statistik inferensial (di mana regresi, analisis konfirmasi, dan NHST paling sering digunakan).

Ketika kedua filosofi tersebut tumpang tindih, mayoritas regresi dan terminologi terkait dilemparkan ke dalam lingkungan yang diawasi dengan ketat. Namun, saya pikir banyak konsep yang ada dalam pembelajaran tanpa pengawasan terkait erat dengan pendekatan berbasis regresi, terutama ketika Anda secara iteratif mengulangi setiap kelas atau fitur sebagai hasil dan mengumpulkan hasilnya. Contohnya adalah analisis korelasi PCA dan bivariat. Dengan menerapkan regresi subset terbaik secara iteratif pada sejumlah variabel, Anda dapat melakukan semacam estimasi jaringan yang sangat kompleks, seperti yang diasumsikan dalam pemodelan persamaan struktural (hanya dalam pengertian EFA). Bagi saya, ini seperti masalah belajar yang tidak diawasi dengan regresi.

YXXY

AdamO
sumber
4
+1, dan saya memilih kegelapan. Pencarian Google menghasilkan sejumlah referensi untuk "regresi tanpa pengawasan", banyak di antaranya dari pemodelan persamaan struktural / kelas laten rasa. Dari ulasan singkat dari makalah-makalah ini, saya pribadi akan cenderung menggambarkannya sebagai penerapan metode kuadrat terkecil (LS) dan maksimalisasi harapan (EM) untuk masalah yang tidak terawasi, daripada "regresi tanpa pengawasan"
JBK
Terima kasih! Saya bertanya-tanya apakah masalah belajar tanpa pengawasan memiliki komutatif?
StackExchange for All
Sebagian besar aplikasi pembelajaran tanpa pengawasan yang saya temui berurusan dengan estimasi kovarian dan pengelompokan (sangat terkait). Karena dalam aplikasi ini Anda dapat secara acak mengubah kolom data tanpa menyebabkan kesulitan apa pun, dan tidak perlu menetapkan variabel sebagai fitur atau respons, saya akan mengatakan aplikasi ini bersifat komutatif.
AdamO
4

Hal terdekat yang bisa saya pikirkan adalah sihir hitam kecil yang menggerakkan orang ketika diumumkan beberapa tahun yang lalu, tapi saya tidak percaya itu mendapatkan daya tarik nyata di masyarakat. Para penulis mengembangkan statistik yang mereka sebut "Koefisien Informasi Maksimal (MIC)." Gagasan umum di balik metode mereka adalah untuk mengambil data yang sangat dimensional, plot setiap variabel terhadap setiap variabel lainnya berpasangan, dan kemudian menerapkan algoritma window-binning yang menarik untuk setiap plot (yang menghitung MIC untuk dua variabel tersebut) untuk menentukan apakah ada berpotensi hubungan antara dua variabel. Teknik ini seharusnya kuat dalam mengidentifikasi hubungan terstruktur sewenang-wenang , bukan hanya linear.

Teknik ini menargetkan pasangan variabel, tapi saya yakin itu bisa diperluas untuk menyelidiki hubungan multivariat. Masalah utamanya adalah Anda harus menjalankan teknik pada kombinasi variabel yang lebih banyak secara signifikan karena Anda mengizinkan permutasi lebih banyak dan lebih banyak variabel. Saya membayangkan mungkin perlu waktu hanya dengan berpasangan: mencoba untuk menggunakan ini pada data dimensi tinggi bahkan jarak jauh dan mempertimbangkan hubungan yang lebih kompleks daripada pasangan variabel akan menjadi sangat cepat.

Referensi kertas Mendeteksi Asosiasi Novel di Kumpulan Data Besar (2011)

David Marx
sumber
0

Regresi otomatis adalah salah satu cara untuk menghitung bobot matriks meminimalkan kesalahan pada input yang direkonstruksi dari input yang diberikan.

Kalidas Y
sumber
0

Pertanyaan ini muncul di benak saya ketika meneliti perbedaan antara metode yang diawasi dan yang tidak diawasi. Berasal dari latar belakang ekonometrik, saya lebih suka berpikir dalam model, yang memperlambat pemahaman saya karena kebanyakan literatur pembelajaran mesin yang saya temui berfokus pada metode.

Apa yang saya temukan sejauh ini adalah bahwa perbedaan yang ketat harus dibuat antara clustering(tidak diawasi) versus classification(diawasi). Analogi berkelanjutan dari hubungan antara desain model ini adalah principal component analysis(tanpa pengawasan) versus linear regression(diawasi).

Namun, saya berpendapat bahwa hubungan antara pengelompokan dan klasifikasi adalah murni kebetulan; itu ada hanya ketika kita menafsirkan kedua desain model sebagai menggambarkan hubungan geometris, yang menurut saya sangat membatasi. Semua metode tanpa pengawasan yang saya ketahui (k-means, algoritma peta elastis seperti kohonen / gas saraf, DBSCAN, PCA) juga dapat diartikan sebagai model variabel laten. Dalam kasus metode pengelompokan, ini akan sama dengan melihat milik sebuah cluster dalam keadaan, yang dapat dikodekan sebagai model variabel laten dengan memperkenalkan boneka negara.

Diberikan interpretasi sebagai model variabel laten, Anda bebas menentukan model apa pun, mungkin nonlinier, yang menggambarkan fitur Anda dalam hal variabel laten berkelanjutan.

Sebastiaan
sumber