Dengan dua histogram, bagaimana kita menilai apakah mereka serupa atau tidak?
Apakah cukup dengan hanya melihat kedua histogram? Pemetaan sederhana ke satu memiliki masalah bahwa jika histogram sedikit berbeda dan sedikit bergeser maka kita tidak akan mendapatkan hasil yang diinginkan.
Ada saran?
histogram
image-processing
Mew 3.4
sumber
sumber
Jawaban:
Makalah terbaru yang mungkin layak dibaca adalah:
Cao, Y. Petzold, L. Keterbatasan akurasi dan pengukuran kesalahan dalam simulasi stokastik sistem bereaksi secara kimia, 2006.
Meskipun fokus tulisan ini adalah membandingkan algoritma simulasi stokastik, pada dasarnya ide utamanya adalah bagaimana membandingkan dua histogram.
Anda dapat mengakses pdf dari halaman web penulis.
sumber
Ada banyak ukuran jarak antara dua histogram. Anda dapat membaca kategorisasi yang baik dari tindakan ini di:
Fungsi jarak paling populer tercantum di sini untuk kenyamanan Anda:
Implementasi Matlab dari beberapa jarak ini tersedia dari repositori GitHub saya: https://github.com/meshgi/Histogram_of_Color_Advancements/tree/master/distance Anda juga dapat mencari orang-orang seperti Yossi Rubner, Ofir Pele, Marco Cuturi dan Haibin Ling untuk lebih banyak jarak state-of-the-art.
Pembaruan: Penjelasan alternatif untuk jarak muncul di sana-sini dalam literatur, jadi saya mencantumkannya di sini demi kelengkapan.
sumber
hist1 < hist2
Jawaban standar untuk pertanyaan ini adalah tes chi-square . Tes KS adalah untuk data yang tidak dimasukkan, bukan data yang dibuang. (Jika Anda memiliki data yang belum dihapus, maka gunakan uji gaya KS, tetapi jika Anda hanya memiliki histogram, tes KS tidak sesuai.)
sumber
Anda sedang mencari tes Kolmogorov-Smirnov . Jangan lupa untuk membagi ketinggian batang dengan jumlah semua pengamatan dari setiap histogram.
Perhatikan bahwa uji KS juga melaporkan perbedaan jika mis. Sarana distribusi bergeser relatif satu sama lain. Jika terjemahan histogram sepanjang sumbu x tidak berarti dalam aplikasi Anda, Anda mungkin ingin mengurangi rata-rata dari setiap histogram terlebih dahulu.
sumber
Seperti yang ditunjukkan oleh jawaban David, uji chi-kuadrat diperlukan untuk data yang dibuang karena uji KS mengasumsikan distribusi kontinu. Mengenai mengapa tes KS tidak tepat (komentar naught101), telah ada beberapa diskusi tentang masalah ini dalam literatur statistik terapan yang layak untuk diangkat di sini.
Pertukaran lucu dimulai dengan klaim ( García-Berthou dan Alcaraz, 2004 ) bahwa sepertiga dari makalah Nature mengandung kesalahan statistik. Namun, makalah berikutnya ( Jeng, 2006 , " Kesalahan dalam tes statistik dari kesalahan dalam tes statistik " - mungkin judul kertas favorit saya sepanjang masa) menunjukkan bahwa Garcia-Berthou dan Alcaraz (2005) menggunakan tes KS pada data diskrit, memimpin untuk pelaporan nilai-p yang tidak akurat dalam meta-studi mereka. Makalah Jeng (2006) memberikan diskusi yang bagus tentang masalah ini, bahkan menunjukkan bahwa seseorang dapat memodifikasi tes KS untuk bekerja untuk data diskrit. Dalam kasus khusus ini, perbedaan bermuara pada perbedaan antara distribusi seragam dari digit tambahan pada [0,9],
sumber
Anda dapat menghitung korelasi silang (konvolusi) antara kedua histogram. Itu akan memperhitungkan sedikit gejolak.
sumber