Saya sedang melakukan studi tentang penggunaan polydrug. Saya memiliki set data 400 pecandu narkoba, yang masing-masing menyatakan narkoba yang mereka penyalahgunaan. Ada lebih dari 10 obat dan karenanya ada kemungkinan kombinasi yang besar. Saya telah mencatat ulang sebagian besar obat yang mereka konsumsi menjadi variabel biner (yaitu heroin adalah 1 jika pecandu narkoba menyalahgunakan heroin lain 0). Saya ingin mencari kombinasi populer atau umum dari 2 atau 3 obat. Apakah ada metode statistik yang dapat saya gunakan?
10
Pemodelan kelas laten akan menjadi salah satu, pendekatan pembelajaran yang diawasi untuk menemukan partisi atau pengelompokan obat dan pengguna narkoba yang mendasarinya "tersembunyi". LC adalah metode yang sangat fleksibel dengan dua pendekatan luas: replikasi berdasarkan pengukuran berulang untuk satu subjek vs replikasi berdasarkan cross-classifying seperangkat variabel kategori. Data Anda akan cocok dengan tipe kedua.
Fleksibilitas LC adalah fungsi dari kemampuannya untuk menyerap "campuran" variabel dengan skala yang berbeda (misalnya, kategori atau kontinu). Karena pendekatan ini menemukan partisi, segmen, atau kelompok data yang tersembunyi, itu juga dapat dianggap sebagai teknik pengurangan dimensi.
Semua model LC memiliki 2 tahap: pada tahap 1, variabel dependen atau target diidentifikasi dan model regresi dibangun. Pada tahap 2, residual (satu "laten" vektor) dari model tahap 1 dianalisis dan partisi dibuat menangkap variabilitas (atau heterogenitas) - "kelas laten" - dalam vektor itu.
Freeware ada di luar sana untuk mengunduh yang mungkin akan bekerja dengan baik untuk Anda. Salah satunya adalah modul R yang disebut polCA yang tersedia di sini:
http://www.jstatsoft.org/article/view/v042i10
Jika Anda memiliki sekitar $ 1.000 untuk dibelanjakan pada produk komersial, Latent Gold tersedia dari www.statisticalinnovations.com Setelah menggunakan Latent Gold selama bertahun-tahun, saya penggemar berat produk itu karena kekuatan analitik dan beragam solusi. Misalnya, polCA hanya berguna untuk model LC dengan informasi kategoris sedangkan LG bekerja secara menyeluruh ... ditambah, pengembang mereka selalu menambahkan modul baru. Penambahan terbaru membangun model LC menggunakan rantai Markov tersembunyi. Namun perlu diingat bahwa LG bukan platform data "end-to-end", yaitu, tidak baik untuk manipulasi atau pengangkatan data berat.
Jika tidak, ada banyak pendekatan lain untuk menganalisis informasi kategori yang banyak didukung oleh perangkat lunak statistik seperti R, SPSS, SAS, Python, dll. Ini termasuk analisis tabel kontingensi, model log-linear, model campuran hingga, regresi tensor Bayesian, dan seterusnya. Literatur di bidang ini sangat luas dan dimulai dengan Bishop, et al., Discrete Multivariate Analysis pada tahun 1975, meluas melalui model RC Leo Goodman berdasarkan pekerjaannya yang dilakukan sejak tahun 80-an, Analisis Data Kategorikal Agresti , buku-buku oleh Stephen Fienberg dan termasuk Thomas Wickens Buku yang bagus Analisis Multiway Contingency Tables untuk Ilmu Sosial yang diterbitkan pada tahun 1989. Bayesian Tensor Regression adalah judul sebuah makalah oleh David Dunson di Duke dan merupakan semacam "state-of-the-art" dalam menjadi metode yang sangat baru untuk pemodelan tabel kontingensi multi-jalan besar-besaran.
sumber
Apa yang muncul di benak Anda secara intuitif? Anda ingin menghitung kombinasi, mengapa tidak mencari semua kombinasi yang mungkin dan hanya menghitung? Saya sarankan Anda melihat ke penambangan set item Sering.
Wikipedia - Apriori
Berikut adalah beberapa implementasi yang sama:
Penambangan Pola Frekuensi
sumber