Saya tidak pernah menggunakannya secara langsung, jadi saya hanya dapat berbagi beberapa makalah yang saya miliki dan pemikiran umum tentang teknik itu (yang terutama membahas pertanyaan Anda 1 dan 3).
Pemahaman umum saya tentang biclustering sebagian besar berasal dari studi genetik (2-6) di mana kami berupaya menjelaskan kelompok gen dan pengelompokan individu: singkatnya, kami sedang mencari kelompok sampel yang berbagi profil ekspresi gen yang sama secara bersamaan (ini mungkin terkait untuk keadaan penyakit, misalnya) dan gen yang berkontribusi pada pola profil gen ini. Sebuah survei tentang keadaan seni untuk dataset "besar" biologis tersedia di slide Pardalos, Biclustering . Perhatikan bahwa ada paket R, biclust , dengan aplikasi untuk data microarray.
Sebenarnya, ide awal saya adalah untuk menerapkan metodologi ini untuk diagnosis klinis, karena memungkinkan untuk menempatkan fitur atau variabel di lebih dari satu cluster, yang menarik dari perspektif semeiologis karena gejala yang cluster bersama memungkinkan untuk mendefinisikan sindrom , tetapi beberapa gejala dapat tumpang tindih dalam berbagai penyakit. Diskusi yang baik dapat ditemukan dalam Cramer et al., Comorbidity: Suatu perspektif jaringan (Behavioral and Brain Sciences 2010, 33, 137-193).
Teknik yang agak terkait adalah pemfilteran kolaboratif . Ulasan yang baik disediakan oleh Su dan Khoshgoftaar ( Kemajuan dalam Kecerdasan Buatan , 2009): Sebuah Survei Teknik Penyaringan Kolaboratif . Referensi lain tercantum di bagian akhir. Mungkin analisis itemet yang sering , seperti yang dicontohkan dalam masalah keranjang pasar , juga terkait dengannya, tetapi saya tidak pernah menyelidiki ini. Contoh lain dari co-clustering adalah ketika kita ingin secara bersamaan mengelompokkan kata dan dokumen, seperti dalam penambangan teks, misalnya Dhillon (2001). Mengelompokkan dokumen dan kata-kata menggunakan partisi grafik spektral bipartit . Proc KDD , hlm. 269-274.
Tentang beberapa referensi umum, berikut adalah daftar yang tidak terlalu lengkap yang saya harap dapat bermanfaat:
- Jain, AK (2010). Pengelompokan data: 50 tahun di luar K-means . Pengenalan Pola Surat , 31 , 651-666
- Carmona-Saez et al. (2006). Biclustering data ekspresi gen dengan faktorisasi matriks non-negatif non-negatif . BMC Bioinformatics , 7 , 78.
- Prelic et al. (2006). Perbandingan sistematis dan evaluasi metode biclustering untuk data ekspresi gen . Bioinformatika , 22 (9) , 1122-1129. www.tik.ee.ethz.ch/sop/bimax
- DiMaggio et al. (2008). Biclustering melalui pemesanan ulang matriks data yang optimal dalam sistem biologi: metode yang ketat dan studi banding . BMC Bioinformatics , 9 , 458.
- Santamaria et al. (2008). BicOverlapper: Alat untuk visualisasi bicluster . Bioinformatika , 24 (9) , 1212-1213.
- Madeira, SC dan Oliveira, AL (2004) algoritma Bicluster untuk analisis data biologis: survei . IEEE Trans. Komputasi. Biol. Bioinform. , 1 , 24–45.
- Badea, L. (2009). Clustergram Umum untuk Biclusters yang Tumpang tindih . IJCAI
- Symeonidis, P. (2006). Penyaringan Kolaboratif-Biclusters Terdekat . WEBKDD
Inilah survei / tinjauan yang bagus:
Stanislav Busygin, Oleg Prokopyev, dan Panos M. Pardalos. Biclustering dalam penambangan data . Penelitian Komputer & Operasi, 35 (9): 2964–2987, September 2008.
sumber