Dalam analisis kluster bagaimana kita menghitung kemurnian? Apa persamaannya?
Saya tidak mencari kode untuk melakukannya untuk saya.
Biarkan menjadi cluster k, dan c_j menjadi kelas j.c j
Jadi apakah kemurnian bisa dibilang akurat? sepertinya menjumlahkan jumlah kelas yang benar-benar diklasifikasikan per cluster di atas ukuran sampel.
Pertanyaannya adalah apa hubungan antara output dan input?
Jika ada Truly Positive (TP), Truly Negative (TN), Falsely Positive (FP), Falsely Negative (FN). Apakah itu ?
clustering
Iancovici
sumber
sumber
Jawaban:
Dalam konteks analisis cluster, Purity adalah kriteria evaluasi eksternal kualitas cluster. Ini adalah persen dari jumlah total objek (titik data) yang diklasifikasikan dengan benar, dalam kisaran unit [0..1].
di mana = jumlah objek (titik data), = jumlah cluster, adalah sebuah cluster di , dan adalah klasifikasi yang memiliki jumlah maksimum untuk clusterN k ci C tj ci
Ketika kita mengatakan "dengan benar" yang menyiratkan bahwa setiap cluster telah mengidentifikasi sekelompok objek sebagai kelas yang sama dengan yang telah ditunjukkan oleh kebenaran dasar. Kami menggunakan klasifikasi kebenaran dasar dari objek-objek itu sebagai ukuran kebenaran penugasan, namun untuk melakukannya kita harus tahu cluster memetakan peta ke mana klasifikasi kebenaran dasar . Jika 100% akurat maka setiap akan dipetakan ke tepat 1 , tetapi dalam kenyataannya kami berisi beberapa poin yang kebenaran dasarnya mengklasifikasikannya sebagai beberapa klasifikasi lain. Secara alami kita dapat melihat bahwa kualitas pengelompokan tertinggi akan diperoleh dengan menggunakan untukci ti ci ti ci ti ci ci ti pemetaan yang memiliki klasifikasi paling benar yaitu . Dari situlah berasal dari dalam persamaan.ci∩ti max
Untuk menghitung Kemurnian, pertama-tama buat matriks kebingungan Anda. Ini dapat dilakukan dengan melakukan perulangan melalui setiap gugus dan menghitung berapa banyak objek yang diklasifikasikan sebagai setiap kelas .ci ti
Kemudian untuk setiap cluster , pilih nilai maksimum dari barisnya, jumlahkan semuanya dan akhirnya bagi dengan jumlah total poin data.ci
sumber