Bagaimana melakukan analisis korelasi 'bir dan popok'

8

Saya memiliki data yang setara dengan:

shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...

Saya ingin melakukan beberapa analisis pada set data ini untuk mendapatkan matriks korelasi yang akan memiliki implikasi yang mirip dengan: jika Anda membeli x, Anda cenderung membeli y.

Menggunakan python (atau mungkin selain MATLAB), bagaimana saya bisa melakukannya? Beberapa pedoman dasar, atau petunjuk ke tempat saya harus mencari akan membantu.

Terima kasih,

Sunting - Apa yang telah saya pelajari:

  1. Jenis masalah ini dikenal sebagai penemuan aturan asosiasi. Wikipedia memiliki artikel bagus yang membahas beberapa algoritma umum untuk melakukannya. Algoritma klasik untuk melakukannya tampaknya adalah Apriori, karena Agrawal et. Al.

  2. Itu membuat saya oranye , sebuah paket penambangan data python interfaced. Untuk Linux, cara terbaik untuk menginstalnya tampaknya dari sumber menggunakan setup.py yang disediakan

  3. Oranye secara default membaca input dari file, diformat dalam salah satu dari beberapa cara yang didukung.

  4. Akhirnya, pembelajaran aturan asosiasi Apriori sederhana berwarna oranye.

Azarias R
sumber
3
Jika Anda mencari paket R, arulesakan layak untuk dilihat. Mungkin "aturan asosiasi" adalah istilah penelusuran yang bagus
Karsten W.
2
Lihat juga algoritma Apriori untuk pendekatan "standar" untuk masalah ini.
kardinal

Jawaban:

7

Selain tautan yang diberikan dalam komentar, berikut adalah beberapa petunjuk lebih lanjut:

Tentang Python, saya kira sekarang Anda memiliki ide tentang apa yang seharusnya Anda cari, tetapi paket data mining Orange memiliki paket tentang aturan dan Itemsets Asosiasi (meskipun untuk yang terakhir saya tidak dapat menemukan referensi di situs web).

Edit:

Saya baru-baru ini menemukan pysuggest yang

mesin rekomendasi Top-N yang mengimplementasikan berbagai algoritma rekomendasi. Sistem rekomendasi Top-N, teknologi penyaringan informasi yang dipersonalisasi, digunakan untuk mengidentifikasi serangkaian item N yang akan menarik bagi pengguna tertentu. Dalam beberapa tahun terakhir, sistem rekomendasi top-N telah digunakan dalam sejumlah aplikasi yang berbeda seperti untuk merekomendasikan produk yang kemungkinan besar akan dibeli oleh pelanggan; merekomendasikan film, program TV, atau musik yang menurut pengguna menyenangkan; mengidentifikasi halaman web yang akan menarik; atau bahkan menyarankan cara alternatif untuk mencari informasi.

chl
sumber
Berapa banyak produk, saya ingin tahu, perlu dilibatkan sebelum matriks korelasi sederhana tidak cukup?
rolando2