Mengukur ketergantungan non-linear

11

Kovarian antara dua variabel acak mendefinisikan ukuran seberapa dekat mereka terkait secara linear satu sama lain. Tetapi bagaimana jika distribusi bersama itu berbentuk sirkuler? Tentunya ada struktur dalam distribusi. Bagaimana struktur ini diekstraksi?

Infinity
sumber

Jawaban:

8

Dengan "melingkar", saya mengerti bahwa distribusi terkonsentrasi pada wilayah melingkar, seperti dalam plot kontur pdf ini.

Plot kontur dari distribusi melingkar

Jika struktur seperti itu ada, bahkan sebagian, cara alami untuk mengidentifikasi dan mengukurnya adalah dengan meratakan distribusi secara melingkar di sekitar pusatnya . (Secara intuitif, ini berarti bahwa untuk setiap jari-jari yang mungkin kita harus menyebarkan probabilitas berada pada jarak dari pusat secara merata di semua arah.) Menandakan variabel sebagai , pusat harus ditempatkan pada titik momen pertama . Untuk melakukan rata-rata, mudah untuk mendefinisikan fungsi distribusi radialrr(X,Y)(μX,μY)

F(ρ)=Pr[(XμX)2+(YμY)2ρ2],ρ0;
F(ρ)=0,ρ<0.

Ini menangkap total probabilitas berbaring antara jarak dan dari pusat. Untuk menyebar ke segala arah, biarkan adalah variabel acak dengan cdf dan adalah variabel acak seragam pada independen . Variabel acak bivariat adalah rata - rata lingkaran . (Ini melakukan pekerjaan intuisi kita menuntut "rata-rata lingkaran" karena (a) ia memiliki distribusi radial yang benar, yaitu , dengan konstruksi, dan (b) semua arah dari pusat (0ρRFΘ[0,2π]R(Ξ,H)=(Rcos(Θ)+μX,Rsin(Θ)+μY)(X,Y)FΘ) sama-sama memungkinkan.)

Pada titik ini Anda memiliki banyak pilihan: yang tersisa hanyalah membandingkan distribusi dengan distribusi . Kemungkinan meliputi jarak dan divergensi Kullback-Leibler (bersama dengan berbagai pengukuran jarak terkait: divergensi simetrize, jarak Hellinger, informasi timbal balik, dll .). Perbandingan menunjukkan mungkin memiliki struktur lingkaran ketika "dekat" dengan . Dalam hal ini struktur dapat "diekstrak" dari sifat-sifat . Misalnya, ukuran lokasi pusat , seperti rata-rata atau median, mengidentifikasi "jari-jari" dari distribusi(X,Y)(Ξ,H)Lp(X,Y)(Ξ,H)FF(X,Y) , dan deviasi standar (atau ukuran skala lainnya) dari menyatakan bagaimana "menyebar" dalam arah radial tentang lokasi pusatnya .F(X,Y)(μX,μY)

Ketika mengambil sampel dari distribusi, dengan data , tes sirkularitas yang masuk akal adalah memperkirakan lokasi pusat seperti biasa (dengan cara atau median) dan kemudian mengubah setiap nilai ke dalam koordinat kutub relatif terhadap perkiraan pusat. Bandingkan deviasi standar (atau IQR) dari jari-jari dengan nilai tengah (atau median). Untuk distribusi non-sirkuler rasionya akan besar; untuk distribusi sirkular, jumlahnya relatif kecil. (Jika Anda memiliki model spesifik dalam pikiran untuk distribusi yang mendasarinya, Anda dapat menghitung distribusi sampel statistik radial dan menyusun tes signifikansi dengannya.) Secara terpisah, uji koordinat sudut untuk keseragaman dalam interval.(xi,yi),1in(xi,yi)(ri,θi)[0,2π) . Sekitar seragam untuk distribusi sirkular (dan untuk beberapa distribusi lainnya juga); ketidakseragaman menunjukkan keberangkatan dari sirkularitas.

whuber
sumber
1
Terima kasih! Meskipun tidak sepenuhnya jelas, ini memberi saya beberapa ide. Bisakah Anda merekomendasikan beberapa bacaan di mana distribusi semacam ini ditangani? Saya hanya terpapar dengan Gaussians dan distribusi standar lainnya. Pertanyaan lain, apakah ini ada hubungannya dengan fungsi distribusi radial atom dll?
Infinity
1
@Infinity Biarkan saya tahu bagian mana yang tidak jelas sehingga saya dapat mencoba memperbaikinya. Saya tidak tahu di mana distribusi tersebut dibahas, tetapi analisis terkait dapat ditemukan dalam literatur tentang "distribusi melingkar." Ide-ide matematika yang mendasarinya memang agak terkait dengan teori orbital atom. Konsep yang relevan termasuk pemisahan Persamaan Schrodinger dalam koordinat bola, membangun ukuran Haar dari kelompok Lie kompak dengan rata-rata, dan membandingkan orbital dengan cara integral tumpang tindih.
whuber
Terima kasih. Saya sangat baru dalam hal probabilitas dan statistik jadi mungkin karena itu. Saya tidak benar-benar mengerti apa yang Anda maksud dengan "rata-rata distribusi secara melingkar di sekitar pusatnya", saya pikir itu berarti untuk semua lingkaran sehingga hanya ada satu lingkaran yang tersisa dengan pusat di dan jari-jari agak seperti cocok garis regresi linier. Apakah itu benar? (μX,μY)ρ
Infinity
Keraguan lain yang saya miliki adalah bahwa fungsi distribusi tampaknya menggambarkan disk tetapi sosok (dan apa yang ada dalam pikiran saya) adalah sebuah cincin. Variabel acak menggambarkan lingkaran rata-rata dalam bentuk kutub. Maaf saya tidak mendapatkan apa yang terjadi selanjutnya. Saya mengerti kami membandingkan kedua distribusi menggunakan metrik jarak, tetapi mengapa istimewa dan bagaimana ini membantu saya tidak dapat menalar. Saya minta maaf jika pertanyaannya tampak terlalu bodoh. F(ρ)(Ξ,H)(Ξ,H)
Infinity
1
@Infinity Saya menambahkan beberapa komentar klarifikasi. Anda tidak meratakan lingkaran; alih-alih, Anda mengeluarkan rata-rata (atau "corengan") semua probabilitas di setiap lingkaran sehingga apa pun yang Anda mulai, akhirnya tampak seperti gambar saya (dengan kontur melingkar). Jika distribusi asli benar-benar melingkar, rata-rata ini tidak mengubahnya. Jadi, membandingkan distribusi dengan versi rata-ratanya memberi tahu Anda seberapa jauh itu dari lingkaran.
whuber
5

Informasi timbal balik memiliki sifat yang agak analog dengan kovarian. Kovarian adalah angka yang merupakan 0 untuk variabel independen dan bukan nol untuk variabel yang bergantung linear. Secara khusus, jika dua variabel sama, maka kovarians sama dengan varians (yang biasanya merupakan angka positif). Satu masalah dengan kovarians adalah mungkin nol bahkan jika dua variabel tidak independen, asalkan ketergantungannya tidak linier.

Informasi timbal balik (MI) adalah angka non-negatif. Ini nol jika dan hanya jika dua variabel secara statistik independen. Properti ini lebih umum daripada properti kovarians dan mencakup segala ketergantungan, termasuk yang nonlinear.

Jika kedua variabel itu sama, MI sama dengan entropi variabel (sekali lagi, biasanya angka positif). Jika variabel berbeda dan tidak terkait secara deterministik, maka MI lebih kecil dari entropi. Dalam pengertian ini, MI dari dua variabel berjalan antara 0 dan H (entropi), dengan 0 hanya jika independen dan H hanya jika secara deterministik bergantung.

Satu perbedaan dari kovarians adalah bahwa "tanda" ketergantungan diabaikan. Misalnya , tetapi .Cov(X,X)=Cov(X,X)=Var(X)MI(X,X)=MI(X,X)=H(X)

SheldonCooper
sumber
4
Bisakah Anda mengembangkan bagaimana konsep ini memberikan jawaban atas pertanyaan?
onestop
3

Silakan lihat artikel berikut dari sains - ini membahas poin Anda dengan tepat:

Mendeteksi Asosiasi Novel dalam Kumpulan Data Besar oleh David N. Reshef et al.

Dari abstrak:

Mengidentifikasi hubungan yang menarik antara pasangan variabel dalam set data besar semakin penting. Di sini, kami menyajikan ukuran ketergantungan untuk hubungan dua variabel: koefisien informasi maksimal (MIC). MIC menangkap berbagai asosiasi baik fungsional maupun tidak, dan untuk hubungan fungsional memberikan skor yang kira-kira sama dengan koefisien determinasi (R ^ 2) data relatif terhadap fungsi regresi. MIC termasuk dalam kelas yang lebih besar dari statistik eksplorasi nonparametrik berbasis informasi maksimal (MINE) untuk mengidentifikasi dan mengklasifikasikan hubungan. Kami menerapkan MIC dan MINE untuk kumpulan data dalam kesehatan global, ekspresi gen, bisbol liga utama, dan mikrobiota usus manusia dan mengidentifikasi hubungan yang dikenal dan baru.

Anda menemukan bahan tambahan di sini: http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1

Para penulis bahkan menyediakan alat gratis yang menggabungkan metode novel yang dapat digunakan dengan R dan Python: http://www.exploredata.net/

vonjd
sumber