Bagaimana cara melakukan pembelajaran mesin multivarian? (memprediksi beberapa variabel dependen)

9

Saya mencari untuk memprediksi kelompok item yang akan dibeli seseorang ... yaitu, saya memiliki beberapa variabel dependen colinear.

Daripada membangun 7 atau lebih model independen untuk memprediksi probabilitas seseorang membeli masing-masing dari 7 item, dan kemudian menggabungkan hasilnya, metode apa yang harus saya perhatikan untuk memiliki satu model yang menjelaskan hubungan antara 7 variabel dependen terkait ( barang yang bisa mereka beli).

Saya menggunakan R sebagai bahasa pemrograman, jadi setiap saran spesifik R dihargai.

blast00
sumber

Jawaban:

7

Berdasarkan uraian Anda, tampaknya regresi logistik multinomial sesuai. Dengan asumsi hasil Anda adalah faktor dengan 7 level (salah satu dari 7 opsi pembelian), maka Anda dapat dengan cepat memperkirakan keanggotaan menggunakan model regresi logistik multinomial (lihat ?multinomdalam nnetpaket dalam R). Jika hasil Anda tidak dapat digabungkan menjadi faktor dengan 7 level, maka diperlukan analisis cluster untuk mengelompokkan item-item tersebut sebelum menyesuaikan dengan regresi logistik multinomial.

statsRus
sumber
Ini bukan regresi multinomial. Saya memiliki 7 produk berbeda, setiap produk memiliki hingga 4 faktor .... ada stroberi, dan jenis stroberi, dan kemudian susu dan berbagai jenis susu, dan apel dan berbagai jenis apel, dan saya perlu memprediksi yang benar keranjang belanja ... apel hijau dengan stroberi hasil pertanian, dengan 2% susu, dll.
blast00
1
Saya punya solusi! Saya akan merekomendasikan analisis kelas laten politis, di mana hasilnya adalah seperangkat faktor yang diasumsikan untuk dikelompokkan dalam satu atau lebih kelas laten. Keanggotaan dalam kelas-kelas ini diprediksi berdasarkan pada regresi logistik multinomial. Lihat ?poLCAdi R untuk informasi lebih lanjut tentang pemasangan model ini.
statsRus
Saya membaca ini - terima kasih statsRus. Tapi pasti ada cara lain.
blast00
Secara khusus, metode pembelajaran mesin, karena saya tidak perlu menyesuaikan distribusi probabilitas / saya OK dengan model kotak hitam
blast00
Ingatlah bahwa banyak model statistik sebenarnya model pembelajaran mesin tanpa pengawasan - tetapi Anda benar kami biasanya peduli dengan input dengan model-model ini. Untuk pembelajaran mesin yang diawasi dengan banyak input dan hasil (dan kualitas kotak hitam), saya sarankan jaringan saraf ( ?nnetdalam R).
statsRus
5

Anda dapat membangun hutan acak di mana masing-masing kelas Anda adalah sekelompok item (yaitu "apel hijau dengan stroberi hasil pertanian, dengan susu 2%"). Kemudian, berdasarkan karakteristik pembelanja atau apa pun prediktor Anda, Anda dapat memberikan probabilitas pembelian yang diperkirakan untuk setiap kelompok barang. Saya akan menggunakan paket randomForest R ( https://cran.r-project.org/web/packages/randomForest/index.html ) untuk melakukan ini.

LindsayL
sumber
3

Salah satu opsi adalah untuk mendapatkan frekuensi semua kombinasi pembelian produk; pilih beberapa kombinasi yang paling umum; kemudian buat model regresi untuk memprediksi kombinasi yang dipilih masing-masing individu. Misalnya, dengan regresi logistik biner, Anda dapat memperkirakan pembelian a) Anggur Putih, Brie, Stroberi dan Anggur vs. b) Anggur Merah, Cheddar dan Gouda. Dengan lebih dari 2 kombinasi seperti itu, atau jika Anda ingin memasukkan kategori "tidak satu pun di atas," regresi logistik multinomial mungkin akan menjadi metode pilihan.

Perhatikan bahwa memasukkan hanya kombo yang sama berarti Anda akan memiliki angka masing-masing yang lebih bisa diterapkan tetapi Anda tidak akan memasukkan yang lain, setidaknya dari prosedur ini. Saya bisa membayangkan 7 item menciptakan puluhan kombo yang masing-masing dipilih oleh setidaknya beberapa orang. Ini mungkin terlalu banyak kategori untuk ukuran sampel Anda. Selain itu, jika kombo dipilih oleh hanya beberapa orang, model Anda akan memiliki informasi yang sangat sedikit untuk dikerjakan.

Pilihan lain adalah menggunakan analisis kluster untuk sampai pada beberapa set barang yang cenderung dibeli bersama. Dengan 7 item, Anda mungkin akan memiliki kurang dari 4 cluster, yang mungkin membuat tugas Anda lebih mudah. Jika Anda mencoba analisis kluster dan menemukan hasilnya tidak bisa dijalankan, tidak ada alasan mengapa Anda harus menggunakannya: cukup kembali ke pendekatan berbasis frekuensi yang dijelaskan di atas. Dalam hal ini, jika saya membacanya dengan benar, Anda sedang mencari berbagai kategori yang paling deskriptif dan menarik, dan dalam menetapkan itu, Anda tidak perlu khawatir tentang derajat kebebasan atau beberapa perbandingan atau masalah apa pun yang mungkin berlaku jika Anda mencoba beberapa metode dalam melakukan beberapa tes inferensial.

rolando2
sumber
Terima kasih atas saran ini. Harus ada metode pembelajaran mesin multivariat. Serupa dengan bagaimana Anda mungkin memiliki 2 variabel dependen dalam model regresi "lebih mudah" .. dan Anda hanya melakukan lm (y + z ~ ...) .. Saya pikir ..
blast00
0

Saya berasumsi bahwa Anda ingin menganalisis situasi yang serupa dengan yang berikut ini;

Yi = f (X), di mana f () adalah tautan non-linear dan X adalah vektor kovariat dan Yi adalah variabel dependen ke-i, yang sifatnya ordinal (jika kategorisnya Yi tidak boleh memiliki lebih dari dua kategori), dan katakan dalam model Anda i = 1, 2, ... 5 dan masing-masing Yi s berkorelasi ... Jika demikian, Anda tentu dapat menggunakan Multivariate Probit. R, Mplus, dan SAS dapat memperkirakan MVP

Sebaliknya, Anda memiliki Y = f (X), dan Y (perhatikan hanya ada satu Y) yang kategoris dan misalnya, memiliki kategori N sehingga pilihan yang dibuat di atas kategori N bersifat eksklusif dan lengkap; Anda harus menyesuaikan model Multinomial Logit. Ada sesuatu yang disebut multinomial probit juga, simialr to multinomial Logit.

Semoga ini membantu. Terima kasih Sanjoy

Sanjoy Bhattacharjee
sumber