Saya memiliki data yang setara dengan:
shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...
Saya ingin melakukan beberapa analisis pada set data ini untuk mendapatkan matriks korelasi yang akan memiliki implikasi yang mirip dengan: jika Anda membeli x, Anda cenderung membeli y.
Menggunakan python (atau mungkin selain MATLAB), bagaimana saya bisa melakukannya? Beberapa pedoman dasar, atau petunjuk ke tempat saya harus mencari akan membantu.
Terima kasih,
Sunting - Apa yang telah saya pelajari:
Jenis masalah ini dikenal sebagai penemuan aturan asosiasi. Wikipedia memiliki artikel bagus yang membahas beberapa algoritma umum untuk melakukannya. Algoritma klasik untuk melakukannya tampaknya adalah Apriori, karena Agrawal et. Al.
Itu membuat saya oranye , sebuah paket penambangan data python interfaced. Untuk Linux, cara terbaik untuk menginstalnya tampaknya dari sumber menggunakan setup.py yang disediakan
Oranye secara default membaca input dari file, diformat dalam salah satu dari beberapa cara yang didukung.
Akhirnya, pembelajaran aturan asosiasi Apriori sederhana berwarna oranye.
sumber
arules
akan layak untuk dilihat. Mungkin "aturan asosiasi" adalah istilah penelusuran yang bagusJawaban:
Selain tautan yang diberikan dalam komentar, berikut adalah beberapa petunjuk lebih lanjut:
Tentang Python, saya kira sekarang Anda memiliki ide tentang apa yang seharusnya Anda cari, tetapi paket data mining Orange memiliki paket tentang aturan dan Itemsets Asosiasi (meskipun untuk yang terakhir saya tidak dapat menemukan referensi di situs web).
Edit:
Saya baru-baru ini menemukan pysuggest yang
sumber