Saya mencari untuk memprediksi kelompok item yang akan dibeli seseorang ... yaitu, saya memiliki beberapa variabel dependen colinear.
Daripada membangun 7 atau lebih model independen untuk memprediksi probabilitas seseorang membeli masing-masing dari 7 item, dan kemudian menggabungkan hasilnya, metode apa yang harus saya perhatikan untuk memiliki satu model yang menjelaskan hubungan antara 7 variabel dependen terkait ( barang yang bisa mereka beli).
Saya menggunakan R sebagai bahasa pemrograman, jadi setiap saran spesifik R dihargai.
sumber
?poLCA
di R untuk informasi lebih lanjut tentang pemasangan model ini.?nnet
dalam R).Anda dapat membangun hutan acak di mana masing-masing kelas Anda adalah sekelompok item (yaitu "apel hijau dengan stroberi hasil pertanian, dengan susu 2%"). Kemudian, berdasarkan karakteristik pembelanja atau apa pun prediktor Anda, Anda dapat memberikan probabilitas pembelian yang diperkirakan untuk setiap kelompok barang. Saya akan menggunakan paket randomForest R ( https://cran.r-project.org/web/packages/randomForest/index.html ) untuk melakukan ini.
sumber
Salah satu opsi adalah untuk mendapatkan frekuensi semua kombinasi pembelian produk; pilih beberapa kombinasi yang paling umum; kemudian buat model regresi untuk memprediksi kombinasi yang dipilih masing-masing individu. Misalnya, dengan regresi logistik biner, Anda dapat memperkirakan pembelian a) Anggur Putih, Brie, Stroberi dan Anggur vs. b) Anggur Merah, Cheddar dan Gouda. Dengan lebih dari 2 kombinasi seperti itu, atau jika Anda ingin memasukkan kategori "tidak satu pun di atas," regresi logistik multinomial mungkin akan menjadi metode pilihan.
Perhatikan bahwa memasukkan hanya kombo yang sama berarti Anda akan memiliki angka masing-masing yang lebih bisa diterapkan tetapi Anda tidak akan memasukkan yang lain, setidaknya dari prosedur ini. Saya bisa membayangkan 7 item menciptakan puluhan kombo yang masing-masing dipilih oleh setidaknya beberapa orang. Ini mungkin terlalu banyak kategori untuk ukuran sampel Anda. Selain itu, jika kombo dipilih oleh hanya beberapa orang, model Anda akan memiliki informasi yang sangat sedikit untuk dikerjakan.
Pilihan lain adalah menggunakan analisis kluster untuk sampai pada beberapa set barang yang cenderung dibeli bersama. Dengan 7 item, Anda mungkin akan memiliki kurang dari 4 cluster, yang mungkin membuat tugas Anda lebih mudah. Jika Anda mencoba analisis kluster dan menemukan hasilnya tidak bisa dijalankan, tidak ada alasan mengapa Anda harus menggunakannya: cukup kembali ke pendekatan berbasis frekuensi yang dijelaskan di atas. Dalam hal ini, jika saya membacanya dengan benar, Anda sedang mencari berbagai kategori yang paling deskriptif dan menarik, dan dalam menetapkan itu, Anda tidak perlu khawatir tentang derajat kebebasan atau beberapa perbandingan atau masalah apa pun yang mungkin berlaku jika Anda mencoba beberapa metode dalam melakukan beberapa tes inferensial.
sumber
Saya berasumsi bahwa Anda ingin menganalisis situasi yang serupa dengan yang berikut ini;
Yi = f (X), di mana f () adalah tautan non-linear dan X adalah vektor kovariat dan Yi adalah variabel dependen ke-i, yang sifatnya ordinal (jika kategorisnya Yi tidak boleh memiliki lebih dari dua kategori), dan katakan dalam model Anda i = 1, 2, ... 5 dan masing-masing Yi s berkorelasi ... Jika demikian, Anda tentu dapat menggunakan Multivariate Probit. R, Mplus, dan SAS dapat memperkirakan MVP
Sebaliknya, Anda memiliki Y = f (X), dan Y (perhatikan hanya ada satu Y) yang kategoris dan misalnya, memiliki kategori N sehingga pilihan yang dibuat di atas kategori N bersifat eksklusif dan lengkap; Anda harus menyesuaikan model Multinomial Logit. Ada sesuatu yang disebut multinomial probit juga, simialr to multinomial Logit.
Semoga ini membantu. Terima kasih Sanjoy
sumber