Clustering - Intuisi di balik Teorema Imposibilitas Kleinberg

17

Saya sudah berpikir tentang menulis posting blog tentang analisis yang menarik ini oleh Kleinberg (2002) yang mengeksplorasi kesulitan pengelompokan. Kleinberg menguraikan tiga desiderata yang tampaknya intuitif untuk fungsi pengelompokan dan kemudian membuktikan bahwa tidak ada fungsi tersebut. Ada banyak algoritma pengelompokan yang memuaskan dua dari tiga kriteria; Namun, tidak ada fungsi yang dapat memuaskan ketiganya secara bersamaan.

Secara singkat dan tidak resmi, tiga desiderata yang diuraikannya adalah:

  • Scale-Invariance : Jika kita mentransformasikan data sehingga semuanya terentang merata ke segala arah, maka hasil pengelompokan seharusnya tidak berubah.
  • Konsistensi : Jika kita merentangkan data sehingga jarak antara cluster meningkat dan / atau jarak dalam cluster berkurang, maka hasil clustering tidak boleh berubah.
  • Kekayaan : Fungsi pengelompokan secara teoritis harus dapat menghasilkan partisi / pengelompokan titik data yang sewenang-wenang (dengan tidak adanya mengetahui jarak berpasangan antara dua titik)

Pertanyaan:

(1) Apakah ada intuisi yang baik, gambaran geometris yang dapat menunjukkan ketidakkonsistenan antara ketiga kriteria ini?

(2) Ini mengacu pada rincian teknis untuk kertas. Anda harus membaca tautan di atas untuk memahami bagian pertanyaan ini.

Di koran, bukti untuk teorema 3.1 agak sulit bagi saya untuk mengikuti pada poin. Saya terjebak di: "Biarkan f menjadi fungsi pengelompokan yang memenuhi Konsistensi. Kami mengklaim bahwa untuk setiap partisi ΓRange(f) , ada bilangan real positif a<b sehingga pasangan (a,b) adalah Γ - memaksa. "

Saya tidak melihat bagaimana ini bisa terjadi ... Bukankah partisi di bawah contoh-counter di mana a>b (yaitu jarak minimum antara cluster lebih besar dari jarak maksimum dalam cluster)?

contoh tandingan?

Sunting: ini jelas bukan contoh tandingan, saya bingung sendiri (lihat jawaban).


Makalah lainnya:

Alex Williams
sumber
Berkenaan dengan "konsistensi": karakteristik ini secara intuitif diinginkan hanya ketika cluster sudah dipisahkan dengan baik. Ketika tidak, ada masalah pada jumlah cluster dalam data - untuk analisis, karena tidak diawasi, itu adalah pertanyaan. Maka sangat normal untuk mengharapkan bahwa ketika Anda secara bertahap menambahkan jarak antara cluster (seperti yang dihasilkan oleh Anda) analisis mengubah tugas yang dilakukannya selama proses pengelompokan.
ttnphns
Berkenaan dengan "kekayaan": Maaf saya tidak mengerti apa artinya (setidaknya seperti yang Anda katakan). Algoritma pengelompokan banyak, bagaimana Anda bisa berharap bahwa mereka semua mematuhi beberapa persyaratan mewah tertentu?
ttnphns
Sehubungan dengan gambar Anda: diperlukan metode pengelompokan khusus untuk mengenali pola tersebut. Metode pengelompokan tradisional / asli berasal dari biologi dan sosiologi, di mana kluster adalah "pulau" yang lebih padat, bukan cincin atol. Metode-metode ini tidak dapat menuntut untuk mengatasi data pada gambar.
ttnphns
Anda mungkin juga tertarik dengan: Estivill-Castro, Vladimir. "Mengapa begitu banyak algoritma pengelompokan: kertas posisi." ACM SIGKDD buletin eksplorasi 4.1 (2002): 65-75.
Anony-Mousse -Reinstate Monica
Saya belum membaca koran. Tetapi dalam banyak algoritma pengelompokan Anda memiliki beberapa jarak ambang batas (misalnya DBSCAN, pengelompokan hierarkis). Jika Anda mengukur jarak, tentu saja Anda juga perlu mengukur ambang Anda. Jadi, saya tidak setuju dengan persyaratan skala-invariannya. Saya juga tidak setuju dengan kekayaan. Tidak setiap partisi harus menjadi solusi yang valid untuk setiap algoritma. Ada jutaan partisi acak.
Anony-Mousse -Reinstate Monica

Jawaban:

11

Dengan satu atau lain cara, setiap algoritma pengelompokan bergantung pada beberapa gagasan "kedekatan" poin. Tampaknya secara intuitif jelas bahwa Anda dapat menggunakan gagasan relatif (invarian skala) atau gagasan kedekatan mutlak (konsisten), tetapi tidak keduanya .

Pertama saya akan mencoba mengilustrasikan ini dengan sebuah contoh, dan kemudian melanjutkan untuk mengatakan bagaimana intuisi ini cocok dengan Teorema Kleinberg.

Contoh ilustratif

Misalkan kita memiliki dua set dan S 2 dari 270 poin masing-masing, diatur dalam pesawat seperti ini:S1S2270

dua set 270 poin

Anda mungkin tidak melihat poin di salah satu dari foto-foto ini, tapi itu hanya karena banyak poin yang sangat berdekatan. Kami melihat lebih banyak poin ketika memperbesar:270

atur 1 dengan zoom

Anda mungkin akan secara spontan setuju bahwa, dalam kedua set data, poin-poin tersebut diatur dalam tiga kelompok. Namun, ternyata jika Anda memperbesar salah satu dari tiga kelompok , Anda melihat yang berikut:S2

atur 2 dengan zoom

Jika Anda percaya pada gagasan kedekatan mutlak, atau konsistensi, Anda akan tetap mempertahankannya, terlepas dari apa yang baru saja Anda lihat di bawah mikroskop, hanya terdiri dari tiga cluster. Memang, satu-satunya perbedaan antara S 1 dan S 2 adalah bahwa, di dalam setiap kluster, beberapa titik sekarang lebih dekat satu sama lain. Di lain pihak, jika Anda meyakini gagasan tentang kedekatan, atau invariansi skala, Anda akan cenderung berpendapat bahwa S 2 tidak terdiri dari 3 tetapi dari 3 × 3 = 9 cluster. Tidak satu pun dari sudut pandang ini yang salah, tetapi Anda harus membuat pilihan dengan satu atau lain cara.S2S1S2S233×3=9

Kasus untuk invarian isometri

Jika Anda membandingkan intuisi di atas dengan Teorema Kleinberg, Anda akan menemukan bahwa mereka sedikit berselisih. Memang, Teorema Kleinberg tampaknya mengatakan bahwa Anda dapat mencapai skala invarian dan konsistensi secara bersamaan selama Anda tidak peduli dengan properti ketiga yang disebut kekayaan. Namun, kekayaan bukan satu-satunya properti yang hilang jika Anda secara bersamaan bersikeras pada invarian skala dan konsistensi. Anda juga kehilangan properti lain yang lebih mendasar: isometry-invariance. Ini adalah properti yang tidak ingin saya korbankan. Karena tidak muncul di koran Kleinberg, aku akan memikirkannya sebentar.

Singkatnya, algoritma pengelompokan adalah invarian isometrik jika outputnya hanya bergantung pada jarak antara titik, dan bukan pada beberapa informasi tambahan seperti label yang Anda lampirkan ke poin Anda, atau pada pemesanan yang Anda terapkan pada poin Anda. Saya harap ini terdengar seperti kondisi yang sangat ringan dan sangat alami. Semua algoritma yang dibahas dalam makalah Kleinberg adalah isometri invarian, kecuali untuk algoritma keterkaitan tunggal dengan kondisi berhenti -cluster. Menurut uraian Kleinberg, algoritma ini menggunakan urutan leksikografis dari poin, jadi hasilnya mungkin tergantung pada bagaimana Anda memberi label. Misalnya, untuk satu set tiga titik yang sama, output dari algoritma hubungan tunggal dengan 2k2kondisi berhenti -cluster akan memberikan jawaban yang berbeda sesuai dengan apakah Anda label tiga poin Anda sebagai "kucing", "anjing", "tikus" (c <d <m) atau sebagai "Tom", "Spike", "Jerry" (J <S <T):

pengelompokan {cat, dog, mouse} versus {Tom, Spike, Jerry}

Perilaku yang tidak alami ini tentu saja dapat dengan mudah diperbaiki dengan mengganti kondisi berhenti cluster dengan “ ( k ) kondisi berhenti positif”. Idenya adalah tidak memutuskan hubungan antara titik yang sama, dan untuk berhenti menggabungkan cluster segera setelah kami telah mencapai paling banyak k cluster. Algoritma yang diperbaiki ini masih akan menghasilkan klaster k sebagian besar waktu, dan itu akan menjadi invarian isometry dan skala invarian. Dalam perjanjian dengan intuisi yang diberikan di atas, bagaimanapun tidak akan lagi konsisten.k(k) kk

Untuk definisi invarian isometry yang tepat, ingat bahwa Kleinberg mendefinisikan algoritma pengelompokan pada himpunan terbatas sebagai peta yang menetapkan untuk setiap metrik pada S sebuah partisi S : Γ : { metrik pada  S } { partisi  S }SSS Sebuahisometry i antara dua metrik d dan d ' pada S adalah permutasi i : S S sehingga d ' ( i ( x ) , i ( y ) ) = d ( x , y ) untuk semua poin x dan y di S .

Γ:{metrics on S}{partitions of S}dΓ(d)
iddSi:SSd(i(x),i(y))=d(x,y)xyS

Definisi: Algoritma pengelompokan adalah isometri invarian jika memenuhi syarat berikut: untuk setiap metrik d dan d , dan setiap isometri i di antara keduanya, titik i ( x ) dan i ( y ) terletak pada gugus yang sama Γ ( d ) jika dan hanya jika titik asli x dan y terletak pada gugus Γ ( d ) yang sama .Γddii(x)i(y)Γ(d)xyΓ(d)

Ketika kita berpikir tentang algoritma pengelompokan, kita sering mengidentifikasi himpunan abstrak dengan himpunan titik konkret di pesawat, atau di beberapa ruang ambient lainnya, dan bayangkan memvariasikan metrik pada S sebagai memindahkan titik S di sekitar. Memang, inilah sudut pandang yang kami ambil dalam contoh ilustrasi di atas. Dalam konteks ini, invarian isometri berarti bahwa algoritma pengelompokan kami tidak peka terhadap rotasi, refleksi, dan terjemahan.SSS

satu set poin di pesawat, dan dua rotasi itu

Sebuah varian dari Teorema Kleinberg

Intuisi yang diberikan di atas ditangkap oleh varian berikut dari Teorema Kleinberg.

Teorema: Tidak ada algoritma pengelompokan isometri-invarian non-trivial yang secara bersamaan konsisten dan berskala-invarian.

Di sini, dengan algoritma pengelompokan sepele , maksud saya salah satu dari dua algoritma berikut:

  1. S

  2. S

Klaimnya adalah bahwa algoritma konyol ini adalah satu - satunya dua algoritma invarian isometry yang konsisten dan invarian-skala.

SΓdSd(x,y)=1xySΓΓ(d)Γ(d)Γ(d)Γ(d)dS1dΓ(d)=Γ(d)ΓΓ(d)dS1Γ(d)=Γ(d)Γ

Tentu saja, bukti ini sangat dekat dengan bukti Margareta Ackerman tentang teorema asli Kleinberg, yang dibahas dalam jawaban Alex Williams.

Aljabar Komunikatif
sumber
7

Ini adalah intuisi yang saya hasilkan (cuplikan dari posting blog saya di sini ).

masukkan deskripsi gambar di sini

d1d2d3d2d3d1d1d3d2d3

Alex Williams
sumber
Apakah maksud Anda kiri bawah untuk d2? Satu hal yang menyenangkan tentang diagram Anda adalah ia menunjukkan bagaimana konsistensi bukan properti yang diinginkan secara umum (atau terlalu dirumuskan secara bebas).
xan
Ya kiri bawah, edit jawaban sesuai dengan itu. Terima kasih!
Alex Williams
Sebelum saya sepenuhnya memahami jawaban Anda, saya datang dengan logika yang ternyata adalah dua dari Anda: mulai dengan pengelompokan di mana semua titik berada di cluster yang sama. Mengubahnya menjadi pengaturan lain dengan mengecilkannya menjadi versi miniatur dari pengaturan lain dan meningkatkannya ke versi ukuran penuh dari pengaturan lainnya.
xan