Metode apa yang ada untuk mengukur kekuatan hubungan yang sewenang-wenang dan sangat linier antara dua variabel berpasangan? Dengan sangat non-linear, maksud saya hubungan yang tidak dapat secara masuk akal atau andal dimodelkan dengan regresi ke model yang dikenal. Saya sangat tertarik dengan deret waktu, tetapi saya membayangkan hal apa pun yang berfungsi untuk data dua-variasi akan berfungsi di sini (jika kita memperlakukan dua deret waktu sebagai satu set titik data pasangan)
Dua yang saya ketahui adalah Mean Square Difference (mis. Mean square error , memperlakukan satu deret waktu sebagai nilai "yang diharapkan", dan satu sebagai yang diamati), sebagai dan Jarak Kovarian . Apa yang ada di sana?
Klarifikasi: Saya pada dasarnya bertanya tentang ketergantungan antara seri, di mana korelasi linier atau korelasi non-linear sederhana (setelah log, exp, trigonometri, transformasi analitik sederhana lainnya) tidak terlalu berarti.
sumber
Jawaban:
Regresi linear lama yang polos memiliki interpretasi non-parametrik yang bagus sebagai tren linier rata-rata di semua pasangan pengamatan; lihat Berman 1988, "Teorema Jacobi dan generalisasi". Jadi, data tidak harus terlihat linier untuk menggunakannya; tren monotonik (secara luas) dapat diringkas dengan cara ini.
Anda juga bisa menggunakan korelasi peringkat Spearman ... dan mungkin banyak lagi selain itu.
sumber
"Jumlah hubungan" antara dua variabel diskrit , secara resmi diukur dengan informasi timbal balik : . Sementara kovarians / korelasi entah bagaimana merupakan jumlah hubungan linier, informasi timbal balik entah bagaimana adalah jumlah (apapun jenis) hubungan. Saya menempelkan gambar dari halaman Wikipedia:X Y I(X,Y)
Untuk variabel kontinu, konsep informasi-teoretis sering didefinisikan juga tetapi kurang dapat dikelola, mungkin kurang bermakna. Saya tidak ingin repot untuk saat ini. Mari kita berpegang pada variabel diskrit. Lagi pula masuk akal mendekati variabel kontinu dengan yang diskrit (menggunakan irisan) terutama dalam pendekatan teori informasi.
Masalah dengan konsep teori informasi seringkali tidak praktis. Mampu memperkirakan informasi timbal balik antara dan sama dengan kemampuan menemukan hubungan non-linear yang sewenang-wenang di antara mereka: Anda memerlukan kekuatan statistik (jumlah data) yang paling sering jauh melampaui apa yang masuk akal: untuk setiap nilai yang mungkin untuk , Anda perlu banyak (katakan 1000) sampel untuk menghitung estimasi setiap . Ini tidak mungkin di sebagian besar masalah pembelajaran mesin atau analisis statistik. Ini agak masuk akal: jika Anda membiarkan suatu model dapat mengekspresikan "segala kemungkinan", maka itu hanya dapat dilatih oleh sejumlah data yang mencakup kemungkinan apa pun beberapa kali.X Y x P(Y=y|X=x)
Tetapi mungkin pendekatan semacam itu mungkin dilakukan, untuk variabel dimensi rendah, jika Anda menerapkan presisi rendah: dekomposisi domain dan menjadi sejumlah irisan yang cukup kecil sehingga tidak masalah untuk data Anda. Bagaimanapun saya pikir ini memerlukan beberapa penelitian.X Y
sumber
Akhirnya bentuk paling umum dari fungsi injeksi adalah
dan Anda dapat menggunakan versi diskretisasi dari fungsi itu sebagai model untuk data Anda.
Kemudian masalah berkurang untuk menentukan diharapkan untuk daerah yang terpisah .y a<x<b
Metode ini tidak kuat karena tingginya tingkat kebebasan dalam model. Meskipun, itu juga melekat pada masalah yang menginginkan tingkat kebebasan tinggi (dan generalitas) dalam jenis fungsi yang dapat menggambarkan model untuk data.
Untuk kasus yang lebih spesifik, perbaikan dapat dilakukan.
sumber
Korelasi Spearman, yang disebutkan dalam jawaban lain, sesuai dengan RUU tersebut. Itu dihitung dengan hanya mengkonversi data ke peringkat dan kemudian menemukan korelasi Pearson untuk peringkat. Itu dapat mendeteksi hubungan monotonik apa pun.
Ada juga korelasi Kendall. Korelasi Kendall memiliki interpretasi yang bagus sebagai (versi yang diskala ulang) probabilitas bahwa peringkat kasus pada satu variabel akan setuju dengan peringkat mereka pada variabel lain. Sebaliknya, korelasi Spearman agak kabur — siapa yang berpikir tentang data dalam hal hubungan linier di antara barisan? Korelasi Kendall tidak "cepat untuk menghitung" dalam hal kompleksitas komputasi (itu sedangkan Spearman adalah ), tetapi itu tidak memerlukan penilaian manusia untuk menghitung dan itu sudah diterapkan dalam banyak statistik perangkat lunak, dan dengan mesin modern, kompleksitas asimptomatik tidak menjadi masalah kecuali dengan dataset yang sangat besar.O(nlogn) O(n)
sumber
Tidak sepenuhnya jelas untuk menjadi apa yang Anda coba ukur, tetapi saya akan mencoba memberi Anda info yang mungkin bisa membantu. Ada langkah-langkah korelasi seperti Cronback's Alpha yang dapat digunakan untuk menilai konsistensi internal / hubungan antara satu set variabel. Anda juga dapat menggunakan hal-hal seperti model aditif umum (GAM) untuk menguji apakah taksiran fungsional konstan. Ini berarti tidak ada hubungan antara variabel Anda. Lihat jawabannya di sini untuk diskusi tentang ini: Bagaimana cara menguji asosiasi nonlinear?
sumber
Anda dapat mencoba koefisien informasi maksimal . Ini mengungguli metode yang dipilih dalam makalah dan bekerja dengan baik dalam mendeteksi hubungan nonlinear antara dua variabel acak.
sumber
Saya tidak dapat berkomentar sehingga saya harus memposting jawabannya. Lihat Dynamic Time Warping, algoritme sederhana yang dapat mendeteksi / membandingkan pola antara dua seri waktu, yang bahkan dapat memiliki granularitas yang berbeda. https://en.wikipedia.org/wiki/Dynamic_time_warping
sumber