Apa metode statistik yang dapat saya gunakan untuk menemukan kombinasi populer atau umum dari variabel kategori?

10

Saya sedang melakukan studi tentang penggunaan polydrug. Saya memiliki set data 400 pecandu narkoba, yang masing-masing menyatakan narkoba yang mereka penyalahgunaan. Ada lebih dari 10 obat dan karenanya ada kemungkinan kombinasi yang besar. Saya telah mencatat ulang sebagian besar obat yang mereka konsumsi menjadi variabel biner (yaitu heroin adalah 1 jika pecandu narkoba menyalahgunakan heroin lain 0). Saya ingin mencari kombinasi populer atau umum dari 2 atau 3 obat. Apakah ada metode statistik yang dapat saya gunakan?

tatami
sumber

Jawaban:

6

Hanya ada 1024 kombinasi obat yang mungkin untuk digunakan bersama (jika hanya ada 10 obat) dengan asumsi setiap pengguna telah menggunakan setidaknya 1 obat. Anda cukup mengonversi variabel 0/1 Anda menjadi string dan menggabungkannya dan menjalankan analisis frekuensi pada string untuk melihat kombinasi mana yang paling sering muncul. Mengambil contoh mainan, katakan saja 3 obat, A, B, dan C, ada dalam penelitian Anda. Jika peserta menggunakan obat A dan C, maka variabel alldrugstersebut dapat dikodekan 101. Peserta yang hanya menggunakan obat B akan diberi kode 010. Jalankan frekuensi ini untuk mencari yang paling sering dipilih. Sebagian besar perangkat lunak harus dapat memproses ini dalam hitungan detik.

StatsStudent
sumber
1
Sepakat. Hanya ada 400 pecandu sehingga 1024 itu tidak bisa terjadi.
Nick Cox
Ya. Ini harus menjadi sepotong kue.
StatsStudent
5

Pemodelan kelas laten akan menjadi salah satu, pendekatan pembelajaran yang diawasi untuk menemukan partisi atau pengelompokan obat dan pengguna narkoba yang mendasarinya "tersembunyi". LC adalah metode yang sangat fleksibel dengan dua pendekatan luas: replikasi berdasarkan pengukuran berulang untuk satu subjek vs replikasi berdasarkan cross-classifying seperangkat variabel kategori. Data Anda akan cocok dengan tipe kedua.

Fleksibilitas LC adalah fungsi dari kemampuannya untuk menyerap "campuran" variabel dengan skala yang berbeda (misalnya, kategori atau kontinu). Karena pendekatan ini menemukan partisi, segmen, atau kelompok data yang tersembunyi, itu juga dapat dianggap sebagai teknik pengurangan dimensi.

Semua model LC memiliki 2 tahap: pada tahap 1, variabel dependen atau target diidentifikasi dan model regresi dibangun. Pada tahap 2, residual (satu "laten" vektor) dari model tahap 1 dianalisis dan partisi dibuat menangkap variabilitas (atau heterogenitas) - "kelas laten" - dalam vektor itu.

Freeware ada di luar sana untuk mengunduh yang mungkin akan bekerja dengan baik untuk Anda. Salah satunya adalah modul R yang disebut polCA yang tersedia di sini:

http://www.jstatsoft.org/article/view/v042i10

Jika Anda memiliki sekitar $ 1.000 untuk dibelanjakan pada produk komersial, Latent Gold tersedia dari www.statisticalinnovations.com Setelah menggunakan Latent Gold selama bertahun-tahun, saya penggemar berat produk itu karena kekuatan analitik dan beragam solusi. Misalnya, polCA hanya berguna untuk model LC dengan informasi kategoris sedangkan LG bekerja secara menyeluruh ... ditambah, pengembang mereka selalu menambahkan modul baru. Penambahan terbaru membangun model LC menggunakan rantai Markov tersembunyi. Namun perlu diingat bahwa LG bukan platform data "end-to-end", yaitu, tidak baik untuk manipulasi atau pengangkatan data berat.

Jika tidak, ada banyak pendekatan lain untuk menganalisis informasi kategori yang banyak didukung oleh perangkat lunak statistik seperti R, SPSS, SAS, Python, dll. Ini termasuk analisis tabel kontingensi, model log-linear, model campuran hingga, regresi tensor Bayesian, dan seterusnya. Literatur di bidang ini sangat luas dan dimulai dengan Bishop, et al., Discrete Multivariate Analysis pada tahun 1975, meluas melalui model RC Leo Goodman berdasarkan pekerjaannya yang dilakukan sejak tahun 80-an, Analisis Data Kategorikal Agresti , buku-buku oleh Stephen Fienberg dan termasuk Thomas Wickens Buku yang bagus Analisis Multiway Contingency Tables untuk Ilmu Sosial yang diterbitkan pada tahun 1989. Bayesian Tensor Regression adalah judul sebuah makalah oleh David Dunson di Duke dan merupakan semacam "state-of-the-art" dalam menjadi metode yang sangat baru untuk pemodelan tabel kontingensi multi-jalan besar-besaran.

Mike Hunter
sumber
suka daftar referensi!
Chris
3

Apa yang muncul di benak Anda secara intuitif? Anda ingin menghitung kombinasi, mengapa tidak mencari semua kombinasi yang mungkin dan hanya menghitung? Saya sarankan Anda melihat ke penambangan set item Sering.

Wikipedia - Apriori

Berikut adalah beberapa implementasi yang sama:

Penambangan Pola Frekuensi

Harsh Nisar
sumber