Bagaimana cara menghitung kemurnian?

15

Dalam analisis kluster bagaimana kita menghitung kemurnian? Apa persamaannya?

Saya tidak mencari kode untuk melakukannya untuk saya.

masukkan deskripsi gambar di sini

Biarkan menjadi cluster k, dan c_j menjadi kelas j.c jωkcj

Jadi apakah kemurnian bisa dibilang akurat? sepertinya menjumlahkan jumlah kelas yang benar-benar diklasifikasikan per cluster di atas ukuran sampel.

sumber persamaan

Pertanyaannya adalah apa hubungan antara output dan input?

Jika ada Truly Positive (TP), Truly Negative (TN), Falsely Positive (FP), Falsely Negative (FN). Apakah itu Purity=TPK(TP+TN+FP+FN) ?

Iancovici
sumber
3
Jika Anda hanya memerlukan definisi cepat: Pencarian google teratas pada pengelompokan kemurnian ** tautan di sini yang memberikan definisi matematika. (** bagi saya, setidaknya - hasil pribadi Anda mungkin berbeda)
Glen_b -Reinstate Monica
Saya tidak tahu apa yang Anda maksud dengan 'kemurnian', tetapi David Colquhoun menggunakan "uji magis hitam tentang kemurnian hati" sebagai contoh pengambilan sampel binomial pada hal. 111-114 dari buku pelajarannya yang luar biasa Lectures on Biostatistics (1971) yang merupakan tersedia sebagai pdf gratis dari situs web penulis: dcscience.net Meskipun tidak relevan dengan pertanyaan Anda, ini adalah kisah yang hebat.
Michael Lew
Dalam pohon klasifikasi beberapa fungsi untuk mengukur pengotor adalah: kesalahan penggantian, indeks-gini dan entropi. (Klasifikasi pohon melakukan bentuk tertentu dari pengelompokan, jadi saya pikir ini harus relevan.) Semoga ini bisa membantu!
Angelorf

Jawaban:

25

Dalam konteks analisis cluster, Purity adalah kriteria evaluasi eksternal kualitas cluster. Ini adalah persen dari jumlah total objek (titik data) yang diklasifikasikan dengan benar, dalam kisaran unit [0..1].

Purity=1Ni=1kmaxj|citj|

di mana = jumlah objek (titik data), = jumlah cluster, adalah sebuah cluster di , dan adalah klasifikasi yang memiliki jumlah maksimum untuk clusterNkciCtjci

Ketika kita mengatakan "dengan benar" yang menyiratkan bahwa setiap cluster telah mengidentifikasi sekelompok objek sebagai kelas yang sama dengan yang telah ditunjukkan oleh kebenaran dasar. Kami menggunakan klasifikasi kebenaran dasar dari objek-objek itu sebagai ukuran kebenaran penugasan, namun untuk melakukannya kita harus tahu cluster memetakan peta ke mana klasifikasi kebenaran dasar . Jika 100% akurat maka setiap akan dipetakan ke tepat 1 , tetapi dalam kenyataannya kami berisi beberapa poin yang kebenaran dasarnya mengklasifikasikannya sebagai beberapa klasifikasi lain. Secara alami kita dapat melihat bahwa kualitas pengelompokan tertinggi akan diperoleh dengan menggunakan untukciticiticiticicitipemetaan yang memiliki klasifikasi paling benar yaitu . Dari situlah berasal dari dalam persamaan.citimax

Untuk menghitung Kemurnian, pertama-tama buat matriks kebingungan Anda. Ini dapat dilakukan dengan melakukan perulangan melalui setiap gugus dan menghitung berapa banyak objek yang diklasifikasikan sebagai setiap kelas .citi

   |  T1 |  T2  |  T3
---------------------
C1 |  0  |  53  |  10
C2 |  0  |  1   |  60
C3 |  0  |  16  |  0

Kemudian untuk setiap cluster , pilih nilai maksimum dari barisnya, jumlahkan semuanya dan akhirnya bagi dengan jumlah total poin data.ci

Purity = (53 + 60 + 16) / 140 = 0.92142
Mendengkur
sumber
dapatkah Anda juga menjawab untuk entropi?
MonsterMMORPG
di sini pertanyaan saya: stackoverflow.com/questions/35709562/…
MonsterMMORPG
tjmaxj