Mengukur kesamaan antara dua set data

12

Ringkasan : Mencoba menemukan metode terbaik merangkum kesamaan antara dua set data yang disejajarkan dengan menggunakan nilai tunggal.

Detail :

Pertanyaan saya paling baik dijelaskan dengan diagram. Grafik di bawah ini menunjukkan dua set data yang berbeda, masing-masing dengan nilai berlabel nfdan nr. Titik-titik di sepanjang sumbu x mewakili tempat pengukuran dilakukan, dan nilai pada sumbu y adalah nilai yang diukur diukur.

Untuk setiap grafik, saya ingin satu angka untuk merangkum persamaan nfdan nrnilai pada setiap titik pengukuran. Dalam contoh ini secara visual jelas bahwa hasil dalam grafik pertama kurang mirip daripada yang ada di grafik kedua. Tapi saya punya banyak data lain di mana perbedaannya kurang jelas, sehingga dapat peringkat ini secara kuantitatif akan sangat membantu.

Saya pikir mungkin ada teknik standar yang biasanya digunakan. Mencari kesamaan statistik telah memberikan banyak hasil berbeda, tetapi saya tidak yakin apa yang terbaik untuk dipilih atau jika hal-hal yang saya siapkan berlaku untuk masalah saya. Jadi saya pikir pertanyaan ini mungkin layak ditanyakan di sini kalau-kalau ada jawaban sederhana.

masukkan deskripsi gambar di sini

Gabriel Southern
sumber
1
Anda mungkin ingin melihat makalah ini yang memiliki sejumlah besar langkah-langkah yang tercantum. ( users.uom.gr/~kouiruki/sung.pdf ) Jika tautan tidak berfungsi, disebut "Survei Komprehensif tentang Jarak / Kesamaan Ukuran Antara Fungsi Kerapatan Probabilitas" oleh Sung-Hyuk Cha dalam International Journal of Mathematics Models and Methods dalam Ilmu Terapan yang mengulas sejumlah besar kesamaan.
arie64
Dynamic Time Warping digunakan untuk mengukur kesamaan antara dua seri-waktu. Teknik ini dapat melakukan tugas di sini. Periksa tautan ini: en.wikipedia.org/wiki/Dynamic_time_warping
Aman Anand

Jawaban:

6

Area antara 2 kurva dapat memberi Anda perbedaan. Karenanya jumlah (nr-nf) (jumlah dari semua perbedaan) akan menjadi perkiraan area antara 2 kurva. Jika Anda ingin membuatnya relatif, jumlah (nr-nf) / jumlah (nf) dapat digunakan. Ini akan memberi Anda nilai tunggal yang menunjukkan kesamaan antara 2 kurva untuk setiap grafik.

Sunting: Metode di atas jumlah perbedaan akan berguna bahkan jika ini adalah titik atau pengamatan yang terpisah dan tidak terhubung garis atau kurva, tetapi dalam hal itu, rata-rata perbedaan juga dapat menjadi indikator dan mungkin lebih baik karena akan mempertimbangkan jumlah pengamatan.

juga
sumber
1
Saya akan mencoba ini dan melihat cara kerjanya. Saya masih berharap bisa menghubungkannya dengan teknik yang lebih formal. Saya telah membaca tentang Euclidean Distance dan sepertinya sangat mirip dengan teknik di sini. Juga sebagai catatan tambahan meskipun grafik saya memiliki garis penghubung, saya hanya peduli pada poin individu. Saya tidak benar-benar membandingkan kurva, hanya nilai yang diukur. Saya tidak tahu apakah itu jelas dalam pertanyaan saya.
Gabriel Southern
Itu harus bekerja bahkan jika titik tidak terhubung.
rnso
1

Anda perlu lebih mendefinisikan apa yang Anda maksud dengan 'kesamaan'. Apakah besaran itu penting? Atau hanya bentuk?

Jika hanya masalah bentuk, Anda ingin menormalkan kedua seri waktu dengan nilai maksimalnya (sehingga keduanya dari 0 hingga 1).

Jika Anda mencari korelasi linier, korelasi pearson sederhana akan berfungsi dengan baik - yang pada dasarnya mengukur kovarians.

Ada teknik lain, misalnya, yang bisa cocok dengan garis atau polinomial ke deret waktu (pada dasarnya merapikannya), dan kemudian membandingkan polinomial halus.

Jika Anda mencari kesamaan periodik (yaitu deret waktu memiliki komponen sinusoidal atau musiman tertentu), pertimbangkan untuk menggunakan dekomposisi deret waktu ke dalam tren, dan gabungkan komponen musim terlebih dahulu. Atau menggunakan sesuatu seperti FFT untuk membandingkan data dalam domain frekuensi.

Itulah semua yang saya tahu tanpa lebih banyak definisi tentang apa yang 'mirip' seharusnya. Semoga ini bisa membantu.

pengguna151975
sumber
0

Anda bisa menggunakan (nr-nf) untuk setiap titik pengukuran, semakin kecil angkanya (nilai absolut) semakin banyak nilainya. Bukan pendekatan yang paling ilmiah, maafkan saya, saya tidak punya pelatihan formal nyata dalam hal ini. Jika Anda hanya mencari representasi numerik dari visual, itu harus dilakukan.

Mike G
sumber
1
Terima kasih atas saran Anda. Saya memikirkan hal itu juga, tetapi masalahnya adalah itu akan ditimbang oleh perbedaan absolut daripada perbedaan relatif. Dalam contoh saya menyertakan kumpulan data yang lebih mirip juga memiliki nilai absolut yang lebih kecil, tetapi jika situasinya terbalik Anda bisa mendapatkan interpretasi yang salah menggunakan teknik ini. Saya perlu merangkum persamaan / perbedaan relatif daripada perbedaan absolut.
Gabriel Southern
Apakah (nr-nf) / nf bekerja? Itu akan membuat Anda relatif. Saya benar-benar tertarik melihat jawaban yang sebenarnya karena saya sendiri menghadapi situasi yang sama.
Mike G
Jika mereka semua pada skala yang sebanding fakta bahwa yang serupa Anda umumnya lebih rendah bukan tentang nilai relatif, ini tentang interpretasi kesamaan. Jika nilai-nilai dalam grafik kedua berkisar 101-104 akankah itu mengubah interpretasi kesamaan mereka? Jika demikian, Anda perlu menjelaskannya. Rincian lebih lanjut tentang apa sebenarnya variabel y diperlukan.
John
@ John itu poin yang bagus. Saya kira saya perlu memikirkan hal ini lebih lanjut. Nilai-nilai pada y adalah nilai-nilai speedup untuk sebuah tolok ukur dan saya mencoba membandingkan kesamaan antara berbagai konfigurasi yang berbeda. Jadi saya kira saran dalam jawaban ini bisa berhasil, saya mungkin mencoba hanya untuk melihat seperti apa angka-angkanya. Saya masih lebih suka menggunakan teknik statistik yang lebih formal diterima (jika ada satu untuk masalah saya).
Gabriel Southern