Memulai dengan biclustering

9

Saya telah melakukan beberapa penelitian internet kasual tentang biclusters. (Saya telah membaca artikel Wiki beberapa kali.) Sejauh ini, sepertinya ada beberapa definisi atau terminologi standar.

Saya ingin tahu apakah ada makalah standar atau buku yang harus dibaca oleh siapa pun yang tertarik dengan algoritma untuk menemukan pengendara sepeda.
Apakah mungkin untuk mengatakan seperti apa keadaan seni di lapangan? Saya tertarik dengan gagasan menemukan pengendara sepeda motor menggunakan algoritma genetika, jadi saya akan sangat menghargai komentar tentang pendekatan itu khususnya dalam konteks pendekatan lain.
Biasanya dalam clustering, tujuannya adalah untuk mempartisi data-set ke dalam kelompok-kelompok di mana setiap elemen dalam beberapa kelompok. Apakah algoritma bicluster juga berupaya menempatkan semua elemen dalam grup tertentu?

clustering data-mining Henry B.
sumber

16

Saya tidak pernah menggunakannya secara langsung, jadi saya hanya dapat berbagi beberapa makalah yang saya miliki dan pemikiran umum tentang teknik itu (yang terutama membahas pertanyaan Anda 1 dan 3).

Pemahaman umum saya tentang biclustering sebagian besar berasal dari studi genetik (2-6) di mana kami berupaya menjelaskan kelompok gen dan pengelompokan individu: singkatnya, kami sedang mencari kelompok sampel yang berbagi profil ekspresi gen yang sama secara bersamaan (ini mungkin terkait untuk keadaan penyakit, misalnya) dan gen yang berkontribusi pada pola profil gen ini. Sebuah survei tentang keadaan seni untuk dataset "besar" biologis tersedia di slide Pardalos, Biclustering . Perhatikan bahwa ada paket R, biclust , dengan aplikasi untuk data microarray.

Sebenarnya, ide awal saya adalah untuk menerapkan metodologi ini untuk diagnosis klinis, karena memungkinkan untuk menempatkan fitur atau variabel di lebih dari satu cluster, yang menarik dari perspektif semeiologis karena gejala yang cluster bersama memungkinkan untuk mendefinisikan sindrom , tetapi beberapa gejala dapat tumpang tindih dalam berbagai penyakit. Diskusi yang baik dapat ditemukan dalam Cramer et al., Comorbidity: Suatu perspektif jaringan (Behavioral and Brain Sciences 2010, 33, 137-193).

Teknik yang agak terkait adalah pemfilteran kolaboratif . Ulasan yang baik disediakan oleh Su dan Khoshgoftaar ( Kemajuan dalam Kecerdasan Buatan , 2009): Sebuah Survei Teknik Penyaringan Kolaboratif . Referensi lain tercantum di bagian akhir. Mungkin analisis itemet yang sering , seperti yang dicontohkan dalam masalah keranjang pasar , juga terkait dengannya, tetapi saya tidak pernah menyelidiki ini. Contoh lain dari co-clustering adalah ketika kita ingin secara bersamaan mengelompokkan kata dan dokumen, seperti dalam penambangan teks, misalnya Dhillon (2001). Mengelompokkan dokumen dan kata-kata menggunakan partisi grafik spektral bipartit . Proc KDD , hlm. 269-274.

Tentang beberapa referensi umum, berikut adalah daftar yang tidak terlalu lengkap yang saya harap dapat bermanfaat:

Jain, AK (2010). Pengelompokan data: 50 tahun di luar K-means . Pengenalan Pola Surat , 31 , 651-666
Carmona-Saez et al. (2006). Biclustering data ekspresi gen dengan faktorisasi matriks non-negatif non-negatif . BMC Bioinformatics , 7 , 78.
Prelic et al. (2006). Perbandingan sistematis dan evaluasi metode biclustering untuk data ekspresi gen . Bioinformatika , 22 (9) , 1122-1129. www.tik.ee.ethz.ch/sop/bimax
DiMaggio et al. (2008). Biclustering melalui pemesanan ulang matriks data yang optimal dalam sistem biologi: metode yang ketat dan studi banding . BMC Bioinformatics , 9 , 458.
Santamaria et al. (2008). BicOverlapper: Alat untuk visualisasi bicluster . Bioinformatika , 24 (9) , 1212-1213.
Madeira, SC dan Oliveira, AL (2004) algoritma Bicluster untuk analisis data biologis: survei . IEEE Trans. Komputasi. Biol. Bioinform. , 1 , 24–45.
Badea, L. (2009). Clustergram Umum untuk Biclusters yang Tumpang tindih . IJCAI
Symeonidis, P. (2006). Penyaringan Kolaboratif-Biclusters Terdekat . WEBKDD

chl
sumber

1

Jawaban yang bagus Jika saya memiliki suara lagi, saya akan memilih jawaban ini lagi.

Henry B.

@ chl Tautan pertama ke slide Pardalos tampaknya sudah mati. Adakah yang tahu lokasi alternatif?

Erik

@ Erik Sebagian besar materi dari slide dapat ditemukan di Consistent Biclustering via Fractional 0–1 Programming oleh penulis yang sama. (Saya memeriksa isi slide dengan salinan tautan mati saya.)

chl

4

Inilah survei / tinjauan yang bagus:

Stanislav Busygin, Oleg Prokopyev, dan Panos M. Pardalos. Biclustering dalam penambangan data . Penelitian Komputer & Operasi, 35 (9): 2964–2987, September 2008.

kc2001
sumber

Memulai dengan biclustering

Jawaban: