Kapan kovarians jarak kurang tepat daripada kovarians linier?

21

Saya baru saja diperkenalkan (samar-samar) ke brown / kovarians jarak / korelasi . Tampaknya sangat berguna dalam banyak situasi non-linear, ketika menguji ketergantungan. Tetapi sepertinya tidak sering digunakan, meskipun kovarians / korelasi sering digunakan untuk data non-linear / kacau.

Itu membuat saya berpikir bahwa mungkin ada beberapa kelemahan untuk menjauhkan kovarian. Jadi apa yang mereka, dan mengapa tidak semua orang selalu menggunakan kovarians jarak?

tidak ada apa-apa101
sumber
6
Sebagai referensi, saya membuat versi korelasi jarak dari grafik korelasi di wikipedia
naught101
Saya membaca bahwa Anda menggunakan dcov untuk membandingkan deret waktu non linier dan menggabungkannya dengan bobot .. Saya bertanya-tanya apakah yang Anda lakukan adalah menggunakan kovarians jarak tertimbang..berarti Anda memberikan bobot yang berbeda pada data Anda menggunakan vektor bobot untuk menghitung korelasi jarak? Saya mencoba melakukan itu tetapi saya tidak yakin apakah memasukkan vektor bobot ke dalam rumus korelasi jarak adalah cara yang tepat untuk dilakukan.
user3757561
Tidak, maaf @ user3757561, saya hanya mencoba korelasi jarak sebagai pengganti korelasi, dan kemudian membuat bobot berdasarkan itu. Tapi akhirnya saya tidak menggunakannya ...
naught101

Jawaban:

18

Saya telah mencoba untuk mengumpulkan beberapa komentar tentang kovarian jarak berdasarkan kesan saya dari membaca referensi yang tercantum di bawah ini. Namun, saya tidak menganggap diri saya ahli dalam topik ini. Komentar, koreksi, saran, dll. Dipersilakan.

Pernyataan itu (sangat) bias terhadap potensi kelemahan, seperti yang diminta dalam pertanyaan awal .

Seperti yang saya lihat, potensi kelemahannya adalah sebagai berikut:

  1. Metodologinya baru . Dugaan saya adalah bahwa ini adalah faktor tunggal terbesar mengenai kurangnya popularitas saat ini. Makalah yang menguraikan kovarian jarak dimulai pada pertengahan 2000-an dan berkembang hingga saat ini. Makalah yang dikutip di atas adalah yang paling banyak mendapat perhatian (hype?) Dan usianya kurang dari tiga tahun. Sebaliknya, teori dan hasil pada korelasi dan langkah-langkah seperti korelasi sudah lebih dari satu abad bekerja di belakangnya.
  2. Konsep dasar lebih menantang . Korelasi momen-produk Pearson, pada tingkat operasional, dapat dijelaskan kepada mahasiswa baru perguruan tinggi tanpa latar belakang kalkulus dengan mudah. Sudut pandang "algoritmik" sederhana dapat ditata dan intuisi geometris mudah untuk dijelaskan. Sebaliknya, dalam kasus kovarians jarak, bahkan gagasan jumlah produk dari jarak Euclidean berpasangan agak sedikit lebih sulit dan gagasan kovarian berkenaan dengan proses stokastik jauh melampaui apa yang bisa dijelaskan kepada audiens seperti itu. .
  3. Secara komputasi lebih menuntut . Algoritma dasar untuk menghitung statistik uji adalah dalam ukuran sampel dibandingkan dengan O ( n ) untuk metrik korelasi standar. Untuk ukuran sampel kecil ini bukan masalah besar, tetapi untuk sampel yang lebih besar, ini menjadi lebih penting.HAI(n2)HAI(n)
  4. Statistik uji tidak bebas distribusi, bahkan tanpa gejala . Orang mungkin berharap bahwa untuk statistik uji yang konsisten terhadap semua alternatif, bahwa distribusi — setidaknya asimptotik — mungkin independen dari distribusi dan Y yang mendasarinya di bawah hipotesis nol. Ini bukan kasus untuk kovarians jarak karena distribusi di bawah nol tergantung pada distribusi yang mendasari X dan Y bahkan ketika ukuran sampel cenderung tak terbatas. Ini adalah benar bahwa distribusi secara seragam dibatasi oleh χ 2 1 distribusi, yang memungkinkan untuk perhitungan dari konservatif nilai kritis.XYXYχ12
  5. |ρ|
  6. Properti daya tidak dikenal . Konsisten terhadap semua alternatif pada dasarnya menjamin bahwa kovarians jarak harus memiliki daya yang sangat rendah terhadap beberapa alternatif. Dalam banyak kasus, seseorang rela menyerah generalitas untuk mendapatkan kekuatan tambahan terhadap alternatif kepentingan tertentu. Makalah asli menunjukkan beberapa contoh di mana mereka mengklaim daya tinggi relatif terhadap metrik korelasi standar, tapi saya percaya bahwa, kembali ke (1.) di atas, perilakunya terhadap alternatif belum dipahami dengan baik.

Untuk mengulangi, jawaban ini mungkin agak negatif. Tapi, bukan itu maksudnya. Ada beberapa ide yang sangat indah dan menarik terkait dengan kovarian jarak dan kebaruan relatifnya juga membuka jalan penelitian untuk memahaminya lebih lengkap.

Referensi :

  1. GJ Szekely dan ML Rizzo (2009), kovarian jarak Brown , Ann. Appl. Statist. , vol. 3, tidak. 4, 1236–1265.
  2. GJ Szekely, ML Rizzo dan NK Bakirov (2007), Mengukur dan menguji independensi dengan korelasi jarak , Ann. Statist. , vol. 35, 2769–2794.
  3. R. Lyons (2012), Jarak kovarians dalam ruang metrik , Ann. Mungkin. (muncul).
kardinal
sumber
Jawaban yang bagus, terima kasih. Beberapa di antaranya sedikit di luar kepala saya, tapi saya pikir saya akan dapat memperbaikinya sendiri :)
naught101
1
Lihat juga Ringkasan dan diskusi: “Jurnal Jurnal Jarak Jauh Brownian”, 36-825 Benjamin Cowley dan Giuseppe Vinci 27 Oktober 2014 stat.cmu.edu/~ryantibs/journalclub/dcov.pdf
Felipe G. Nievinski
2
HAI(nlogn)
3

Saya bisa saja kehilangan sesuatu, tetapi hanya memiliki kuantifikasi ketergantungan nonlinier antara dua variabel tampaknya tidak memiliki banyak hasil. Itu tidak akan memberi tahu Anda bentuk hubungan. Itu tidak akan memberi Anda sarana untuk memprediksi satu variabel dari yang lain. Dengan analogi, ketika melakukan analisis data eksplorasi seseorang kadang-kadang menggunakan kurva loess (scatterplot tertimbang secara lokal) sebagai langkah pertama untuk melihat apakah data dimodelkan dengan garis lurus, kuadrat, kubik, dll. Tapi loess dalam dan itu sendiri bukan alat prediksi yang sangat berguna. Ini hanya perkiraan pertama tentang cara menemukan persamaan yang bisa diterapkan untuk menggambarkan bentuk bivariat. Persamaan itu, tidak seperti loess (atau hasil kovarian jarak), dapat membentuk dasar dari model konfirmasi.

rolando2
sumber
Untuk tujuan saya, memang ada hasil. Saya tidak menggunakan dcov () untuk memprediksi sesuatu, melainkan membandingkan beberapa time-series non-linear dalam sebuah ensemble, dan menggabungkannya dengan bobot berdasarkan ketergantungannya. Dalam situasi ini, dcov () berpotensi memberikan manfaat besar.
naught101
@ naught101 Bisakah Anda memasukkan beberapa info bijih- ketika Anda mengatakan -'kombinasi '? Ini terdengar menarik bagi saya dalam hal pembobotan berdasarkan ketergantungan nonlinear. Apakah maksud Anda - mengelompokkan deret waktu ke dalam kelompok? Juga - apa yang ditekankan oleh bobot tinggi dan rendah dalam skenario ini?
mobil jenazah
2
@PraneethVepakomma: periksa jawaban saya di stats.stackexchange.com/questions/562/…
naught101
1
Juga, jika Anda mengetahui bentuk umum ketergantungan (misalnya, persamaan polinom), maka Anda dapat mengukur kekuatan ketergantungan menggunakan koefisien determinasi, lihat, misalnya, Menghitung R2 yang Disesuaikan untuk Regresi Polinomial
Felipe G. Nievinski