Pertanyaan untuk penambang data yang berpengalaman di luar sana:
Dengan skenario ini:
- Ada N troli belanja
- Setiap kereta belanja diisi dengan jumlah item M yang sewenang-wenang dari set besar yang tak terhingga (dengan jumlah data saat ini yang saya miliki, angka sewenang-wenang itu dapat mencapai angka sekitar 1500)
- Urutan di mana setiap kereta diisi adalah signifikan
- Ada atribut lain seperti geolokasi pembelanja, tetapi ini dapat (dan saat ini) dibuang demi membuat algoritma lebih sederhana
Aku ingin:
- Pada titik waktu tertentu, hanya diberikan set barang yang dipesan di setiap gerobak, identifikasi gerobak 'serupa' tanpa pengetahuan sebelumnya tentang label kelas
- Setelah sejumlah data telah dikumpulkan dan pekerjaan membanting tulang melalui data dan memberikan label, buat classifier yang dapat bekerja dengan cepat dengan data yang tak terlihat di masa depan
Pendekatan awal:
- Sejauh ini, pendekatan saya difokuskan pada poin pertama. Metode saya menggunakan k-means clustering dan menangani sifat sekuensial data dengan menggunakan matriks jarak yang dihasilkan dengan menghitung jarak Hamming antara kereta. Dengan cara ini, [apel, pisang, pir] berbeda dari [pir, apel, pisang], tetapi [apel, pisang, pir] kurang berbeda dari [apel, pisang, kijang]. Nilai k yang tepat ditentukan melalui investigasi koefisien siluet. Cluster yang dihasilkan dari ini tampaknya masuk akal, tetapi runtime dari metode saya pasti akan menjadi penghalang karena dataset saya.
Pertanyaan:
- Adakah yang kebetulan memiliki saran untuk penambang data pemula untuk masalah ini?
Suntingan dengan info lebih lanjut:
- Saya telah menemukan saran yang mempertimbangkan untuk menggunakan fitur n-gram dan membandingkannya secara bijaksana. Kekhawatiran saya tentang ini adalah pesanan: apakah urutan urutan akan dipertahankan jika model n-gram digunakan? Juga, saya melihat masalah kinerja menjadi kemungkinan yang lebih besar dengan metode ini.
clustering
classification
data-mining
ordinal-data
mengenakan
sumber
sumber
Jawaban:
Saya juga seorang penambang data pemula, tetapi bolehkah saya menyarankan bahwa analisis data eksplorasi selalu merupakan langkah pertama yang baik? Saya akan melihat apakah item dapat diberi semacam 'nilai prioritas' yang dapat berfungsi untuk memprediksi seberapa awal mereka muncul di keranjang, karena hasil seperti itu memungkinkan Anda untuk menggunakan model yang lebih sederhana. Sesuatu yang sederhana seperti regresi linier on (#order in cart / # number of items in cart) untuk semua kereta yang memiliki item X akan memberi Anda gambaran apakah ini mungkin. Misalkan Anda menemukan bahwa proporsi item tertentu selalu muncul lebih awal, atau lebih lambat, dan beberapa item tampaknya benar-benar acak: ini akan memandu Anda dalam pembuatan model nanti.
sumber