Saya bertanya-tanya apakah ada algoritma yang bisa melakukan klasifikasi dan regresi pada saat yang sama. Sebagai contoh, saya ingin membiarkan algoritma mempelajari classifier, dan pada saat yang sama dalam setiap label, ia juga mempelajari target yang berkelanjutan. Jadi, untuk setiap contoh pelatihan, ia memiliki label kategoris dan nilai kontinu.
Saya bisa melatih classifier terlebih dahulu, dan kemudian melatih seorang regressor di dalam setiap label, tetapi saya hanya berpikir bahwa jika ada algoritma yang bisa melakukan keduanya, itu akan luar biasa.
Jawaban:
Masalah yang Anda gambarkan dapat diselesaikan dengan regresi kelas laten , atau regresi cluster-wise , atau ekstensi ekstensi dari model linier umum yang semua anggota keluarga yang lebih luas dari model campuran hingga , atau model kelas laten .
Ini bukan kombinasi klasifikasi (supervised learning) dan regresi per se , tetapi lebih pada pengelompokan (belajar tanpa pengawasan) dan regresi. Pendekatan dasar dapat diperluas sehingga Anda memprediksi keanggotaan kelas menggunakan variabel yang bersamaan, apa yang membuatnya lebih dekat dengan apa yang Anda cari. Bahkan, menggunakan model kelas laten untuk klasifikasi dideskripsikan oleh Vermunt dan Magidson (2003) yang merekomendasikannya untuk tujuan tersebut.
Regresi kelas laten
Pendekatan ini pada dasarnya adalah model campuran terbatas (atau analisis kelas laten ) dalam bentuk
di mana adalah vektor semua parameter dan adalah komponen campuran yang oleh , dan setiap komponen muncul dengan proporsi laten . Jadi idenya adalah bahwa distribusi data Anda adalah campuran komponen , masing-masing yang dapat dijelaskan oleh model regresi muncul dengan probabilitas . Model campuran hingga sangat fleksibel dalam pemilihan komponen dan dapat diperluas ke bentuk lain dan campuran dari berbagai kelas model (misalnya campuran analisis faktor).ψ = ( π , ϑ ) fk ϑk πk K fk πk fk
Memprediksi probabilitas keanggotaan kelas berdasarkan variabel yang bersamaan
Model regresi kelas laten sederhana dapat diperluas untuk memasukkan variabel bersamaan yang memprediksi keanggotaan kelas (Dayton dan Macready, 1998; lihat juga: Linzer dan Lewis, 2011; Grun dan Leisch, 2008; McCutcheon, 1987; Hagenaars dan McCutcheon, 2009) , dalam hal demikian model menjadi
di mana lagi adalah vektor dari semua parameter, tetapi kami juga menyertakan variabel dan fungsi (mis. logistik) yang digunakan untuk memprediksi proporsi laten berdasarkan variabel yang bersamaan. Jadi, pertama-tama Anda dapat memprediksi probabilitas keanggotaan kelas dan memperkirakan regresi cluster-wise dalam satu model tunggal.ψ w πk( w , α )
Pro dan kontra
Apa yang baik tentang itu, adalah bahwa itu adalah teknik pengelompokan berbasis model , apa artinya Anda menyesuaikan model dengan data Anda, dan model tersebut dapat dibandingkan dengan menggunakan metode yang berbeda untuk perbandingan model (tes rasio kemungkinan, BIC, AIC dll. ), sehingga pilihan model akhir tidak subyektif seperti dengan analisis cluster pada umumnya. Membawa masalah menjadi dua masalah independen pengelompokan dan kemudian menerapkan regresi dapat menyebabkan hasil yang bias dan memperkirakan semuanya dalam satu model tunggal memungkinkan Anda untuk menggunakan data Anda lebih efisien.
Kelemahannya adalah Anda perlu membuat sejumlah asumsi tentang model Anda dan memikirkannya, jadi itu bukan metode kotak hitam yang hanya akan mengambil data dan mengembalikan beberapa hasil tanpa mengganggu Anda tentang hal itu. Dengan data yang bising dan model yang rumit, Anda juga dapat mengalami masalah pengidentifikasian model. Juga karena model seperti itu tidak begitu populer, tidak ada yang diimplementasikan secara luas (Anda dapat memeriksa paket R yang hebat
flexmix
danpoLCA
, sejauh yang saya tahu itu juga diimplementasikan dalam SAS dan Mplus sampai batas tertentu), apa yang membuat Anda bergantung pada perangkat lunak.Contoh
Di bawah ini Anda dapat melihat contoh model tersebut dari
flexmix
perpustakaan (Leisch, 2004; Grun dan Leisch, 2008) campuran sketsa campuran dua model regresi untuk data yang dibuat-buat.Divisualisasikan pada plot berikut (bentuk titik adalah kelas yang benar, warna adalah klasifikasi).
Referensi dan sumber daya tambahan
Untuk perincian lebih lanjut, Anda dapat memeriksa buku dan kertas berikut:
sumber