Clustering sebagai cara untuk memisahkan data untuk regresi logistik

11

Saya mencoba memprediksi keberhasilan atau kegagalan siswa berdasarkan beberapa fitur dengan model regresi logistik. Untuk meningkatkan kinerja model, saya sudah berpikir untuk membagi siswa menjadi kelompok yang berbeda berdasarkan perbedaan yang jelas dan membangun model yang terpisah untuk masing-masing kelompok. Tetapi saya pikir mungkin sulit untuk mengidentifikasi kelompok-kelompok ini dengan pemeriksaan, jadi saya berpikir untuk memisahkan siswa dengan mengelompokkan fitur-fitur mereka. Apakah ini praktik umum dalam membangun model seperti itu? Apakah Anda menyarankan agar saya memecahnya menjadi kelompok-kelompok yang jelas (misalnya, siswa semester pertama vs siswa yang kembali) dan kemudian melakukan pengelompokan pada kelompok-kelompok itu, atau klaster dari awal?

Untuk mencoba menjelaskan:

Maksud saya adalah bahwa saya sedang mempertimbangkan menggunakan algoritma pengelompokan untuk memecah set pelatihan saya untuk regresi logistik ke dalam kelompok. Saya kemudian akan melakukan regresi logistik terpisah untuk masing-masing kelompok tersebut. Kemudian ketika menggunakan regresi logistik untuk memprediksi hasil untuk seorang siswa, saya akan memilih model mana yang akan digunakan berdasarkan kelompok mana yang paling cocok untuk mereka.

Mungkin saya bisa melakukan hal yang sama dengan memasukkan pengenal grup, misalnya 1 jika siswa kembali dan 0 jika tidak.

Sekarang Anda membuat saya berpikir tentang apakah mungkin menguntungkan untuk mengelompokkan set data pelatihan dan menggunakan label cluster mereka sebagai fitur dalam regresi logistik, daripada membangun model regresi logistik terpisah untuk setiap populasi.

Jika berguna untuk menyertakan pengenal kelompok bagi mereka yang kembali siswa vs siswa baru, apakah juga bermanfaat untuk memperluas daftar grup? Clustering sepertinya cara alami untuk melakukan ini.

Saya harap itu jelas ...

dave
sumber
Saya pikir saya tidak memahami bagaimana "clustering" dan model regresi logistik akan berinteraksi atau mempengaruhi satu sama lain. Bisakah Anda menjelaskan perbedaan antara "pengelompokan" dalam konteks ini dan termasuk pengidentifikasi kelompok sebagai variabel penjelas dalam regresi?
whuber

Jawaban:

4

Saya percaya bahwa jika Anda memiliki perbedaan yang signifikan dalam variabel dependen Anda antara cluster Anda maka pendekatan pengelompokan terlebih dahulu PASTI akan sangat membantu. Terlepas dari algoritma pembelajaran yang Anda pilih.

Menurut pendapat saya, menjalankan algoritme learningign di seluruh basis dapat menutupi perbedaan yang berarti pada tingkat agregasi yang lebih rendah.

Siapa pun yang mendengar tentang paradoks simpson, ini adalah kasus sulit dari masalah yang lebih dalam di mana Anda memiliki korelasi yang berbeda dalam kelompok yang berbeda yang ditutupi oleh kebisingan sampel yang lebih besar dan atau korelasi yang lebih lemah dari kelompok yang lebih besar.

clancy
sumber
Anda mungkin benar, tetapi saya tidak mengikuti argumen Anda. Apakah Anda menganjurkan OP menjalankan LR terpisah pada kluster yang ditemukan, menambahkan indeks kluster di samping kovariat, atau bukannya kovariat? Memang benar bahwa kovariat dapat dikacaukan dengan variabel yang dihilangkan dalam penelitian observasional, tetapi apakah Anda mengatakan bahwa CA dapat menghasilkan informasi yang tidak ada dalam variabel yang dijalankannya? Adapun paradoks Simpson, dibahas di CV di sini jika Anda tertarik.
gung - Reinstate Monica
Saya menyarankan bahwa analisis tanpa pengawasan menarik keluar kelompok homogen dengan seperangkat IV (variabel independen) yang sewenang-wenang. Setelah ini, Anda dapat memutuskan sendiri apakah Anda maju dengan set varbs yang sama atau set baru atau set gabungan untuk tahap selanjutnya dari pemodelan Anda dengan LR. Tujuannya adalah untuk membangun dan menyetel 1 LR per cluster (mengingat bahwa cluster memiliki nilai atau frekuensi DV yang sangat berbeda).
clancy
Saya sebenarnya telah melakukan ini sendiri dalam konteks model pengambilan untuk penjualan silang produk-produk Asuransi Jiwa dan menemukan peningkatan prediksi pada 2 klaster yang sedang terdilusi oleh kluster ke-3.
clancy
Saya bertanya-tanya apakah model itu mungkin membutuhkan istilah spline. Bisakah Anda memasukkan simulasi beberapa data, kecocokan dasar, CA, & akhir dengan indikator w / cluster? Saya akan tertarik melihat ini, dan bermain dengannya sedikit untuk memahami apa yang terjadi.
gung - Reinstate Monica
Hai Gung, saya ingin tetapi tidak dapat menemukan waktu. Saya banyak berinvestasi dengan keluarga, bekerja dan meningkatkan keterampilan pemodelan saya. Saya baru saja mulai bekerja dengan pemodelan MARS dan saya tidak yakin apakah ini akan memenuhi hasil yang diinginkan sama dengan gugus + gugus LR yang dijelaskan.
clancy
8

Pendekatan umum yang Anda usulkan - menggunakan partisi laten untuk menetapkan titik data yang berbeda untuk pengklasifikasi basis yang berbeda - adalah pendekatan yang diteliti dengan baik menuju klasifikasi.

Alasan mengapa metode ini tidak banyak digunakan kemungkinan karena mereka relatif rumit dan memiliki waktu berjalan lebih lama daripada regresi logistik atau SVM. Dalam banyak kasus, tampaknya mereka dapat menyebabkan kinerja klasifikasi yang lebih baik.

Berikut ini beberapa referensi:

  • Shahbaba, B. dan Neal, R. "Model nonlinier menggunakan campuran proses Dirichlet"

  • Zhu, J. dan Chen, N. dan Xing, EP "SVM Laten Tak Terbatas untuk Klasifikasi dan Pembelajaran Banyak Tugas"

  • Rasmussen, CE dan Ghahramani, Z. "Campuran ahli proses Gaussian yang tak terbatas"

  • Meeds, E. dan Osindero, S. "Alternatif campuran tak terbatas dari para ahli proses Gaussian"

pengguna1149913
sumber
1

Saya ingin mengakui dari awal bahwa saya tahu sedikit tentang pengelompokan. Namun, saya tidak melihat inti dari prosedur yang Anda gambarkan. Jika Anda berpikir, misalnya, bahwa semester pertama vs siswa yang kembali mungkin berbeda, mengapa tidak menyertakan kovariat yang mengindeks itu? Demikian juga jika Anda berpikir fitur lain dari siswa itu relevan, Anda dapat memasukkannya juga. Jika Anda khawatir bahwa hubungan antara prediktor utama minat dan tingkat keberhasilan Anda mungkin berbeda, Anda juga dapat menyertakan interaksi antara prediktor itu dan semester pertama vs pengembalian, dll. Regresi logistik dilengkapi dengan baik untuk menjawab pertanyaan-pertanyaan ini melalui termasuk seperti istilah dalam model.

Di sisi lain, selama Anda hanya mengelompokkan fitur-fitur ini, dan melakukannya terlebih dahulu (tanpa melihat jawabannya), saya tidak melihat ada masalah yang muncul. Saya menduga pendekatan ini akan menjadi tidak efisien, dengan masing-masing model memiliki daya yang lebih rendah karena hanya cocok pada sebagian dari data, tetapi saya tidak berpikir itu akan membiaskan parameter atau membatalkan tes. Jadi saya kira Anda bisa mencoba ini jika Anda benar-benar mau.

Memperbarui:

Dugaan saya adalah bahwa akan lebih baik (yaitu, paling efisien) untuk menyesuaikan satu model dengan semua data. Anda dapat menyertakan beberapa kovariat tambahan (seperti kembali vs tidak) di luar minat utama Anda, dan indikator pengelompokan yang Anda temukan melalui menjalankan analisis kluster sebelumnya. Namun, jika kovariat yang masuk ke analisis kluster juga tersedia untuk model regresi logistik, saya tidak yakin apakah saya dapat melihat apa yang akan diperoleh hanya dengan memasukkan semua kovariat dalam model LR tanpaindikator cluster. Mungkin ada keuntungan untuk hal ini yang saya tidak kenal, karena saya bukan ahli dalam analisis cluster, tapi saya tidak tahu apa yang akan terjadi. Menurut saya CA tidak akan menghasilkan informasi tambahan yang belum ada di kovariat, dan karenanya tidak akan menambahkan apa pun pada model LR. Anda bisa mencobanya; mungkin aku salah. Tapi tebakan saya adalah Anda hanya akan membakar beberapa derajat kebebasan tambahan.

Pendekatan yang berbeda adalah memasukkan indikator cluster ke dalam model LR dan bukan kovariat yang menjadi basisnya. Saya ragu ini akan bermanfaat. CA tidak akan sempurna, tidak lebih dari analisis lain yang pernah ada, dan karena itu beralih dari kovariat asli ke indikator kluster turunan cenderung menyebabkan sejumlah kehilangan informasi . (Sekali lagi, saya tidak tahu itu, tapi saya sangat curiga itu benar.) Sekali lagi, Anda bisa mencoba keduanya dan membandingkannya sebagai latihan akademis, meskipun hanya mencoba banyak hal dan menentukan hasil yang terlihat paling baik tidak disukai setelah jika Anda ingin mengambil hasil Anda dengan serius.

Saya tidak ingin hanya mengandalkan analisis cluster. Mungkin ada banyak manfaatnya secara umum, dan mungkin ada manfaatnya di sini. Namun, ketika saya memahami situasi Anda, saya pikir hanya membangun model LR dengan kovariat yang Anda pikir relevan adalah cara yang harus dilakukan.

gung - Pasang kembali Monica
sumber
1

Jika Anda tidak terikat dengan regresi logistik, saya sarankan Anda menggunakan classifier hutan acak karena memiliki semacam built in clustering. Idenya adalah menggunakan menggunakan matriks proximity to cluster. Matriks proximity adalah matriks N_Obs by N_Obs untuk fraksi out of bag tree di mana pengamatannya dilakukan pada simpul terminal yang sama. Anda kemudian dapat menggabungkan ini ke tingkat fitur dengan matriks tingkat fitur di mana elemen adalah rata-rata fraksi dalam matriks kedekatan. Anda kemudian akan mengelompokkan semua level bersamaan ketika melewati ambang dan melihat apakah ini meningkatkan prediksi Anda. Mungkin yang terbaik untuk mengambil pendekatan iteratif langkah-bijaksana untuk menemukan pengelompokan optimal tetapi Anda dapat memilih ambang batas dengan cara lain. Ketika pengelompokan ini selesai, Anda bisa mengganti fitur dengan label klaster atau menambahkan label kluster sebagai fitur baru. Saya kira pada titik ini Anda dapat beralih kembali ke regresi logistik jika Anda benar-benar menginginkannya.

Keith
sumber
0

Saat membuat model multi-segmented, saya pikir pendekatan terbaik adalah membuat segmen yang berbicara dengan perbedaan nyata dalam distribusi yang mendasarinya. Siswa semester pertama vs siswa yang kembali adalah contoh yang bagus, karena distribusi prediktor kemungkinan akan sangat berbeda untuk kedua populasi ini. Lebih penting lagi, perbedaan-perbedaan ini memiliki penjelasan yang intuitif.

Zelazny7
sumber
Saya mendapatkan nilai dari penjelasan intuitif - ini membantu Anda menafsirkan model Anda. Tetapi apakah tidak ada alasan untuk berpikir bahwa jika Anda mengelompokkan orang ke dalam kelompok berdasarkan kesamaan mereka, dalam hal fitur yang Anda miliki, Anda akan mendapatkan manfaat yang sama, meskipun tidak dengan interpretabilitas yang sama? Saya kira ide di balik penggunaan pengelompokan adalah bahwa ketika datang untuk mengidentifikasi kelompok-kelompok yang tidak sesuai dengan kategori yang kita gunakan dalam kehidupan sehari-hari, mesin lebih baik daripada manusia ...
dave
Dan, tambahannya, bahwa jika Anda melatih model regresi pada sekelompok siswa yang serupa, model itu akan lebih akurat dalam prediksi keberhasilan siswa-siswa itu daripada model yang dilatih menggunakan serangkaian siswa yang lebih luas.
dave