Dengan "melingkar", saya mengerti bahwa distribusi terkonsentrasi pada wilayah melingkar, seperti dalam plot kontur pdf ini.
Jika struktur seperti itu ada, bahkan sebagian, cara alami untuk mengidentifikasi dan mengukurnya adalah dengan meratakan distribusi secara melingkar di sekitar pusatnya . (Secara intuitif, ini berarti bahwa untuk setiap jari-jari yang mungkin kita harus menyebarkan probabilitas berada pada jarak dari pusat secara merata di semua arah.) Menandakan variabel sebagai , pusat harus ditempatkan pada titik momen pertama . Untuk melakukan rata-rata, mudah untuk mendefinisikan fungsi distribusi radialrr(X,Y)(μX,μY)
F(ρ)=Pr[(X−μX)2+(Y−μY)2≤ρ2],ρ≥0;
F(ρ)=0,ρ<0.
Ini menangkap total probabilitas berbaring antara jarak dan dari pusat. Untuk menyebar ke segala arah, biarkan adalah variabel acak dengan cdf dan adalah variabel acak seragam pada independen . Variabel acak bivariat adalah rata - rata lingkaran . (Ini melakukan pekerjaan intuisi kita menuntut "rata-rata lingkaran" karena (a) ia memiliki distribusi radial yang benar, yaitu , dengan konstruksi, dan (b) semua arah dari pusat (0ρRFΘ[0,2π]R(Ξ,H)=(Rcos(Θ)+μX,Rsin(Θ)+μY)(X,Y)FΘ) sama-sama memungkinkan.)
Pada titik ini Anda memiliki banyak pilihan: yang tersisa hanyalah membandingkan distribusi dengan distribusi . Kemungkinan meliputi jarak dan divergensi Kullback-Leibler (bersama dengan berbagai pengukuran jarak terkait: divergensi simetrize, jarak Hellinger, informasi timbal balik, dll .). Perbandingan menunjukkan mungkin memiliki struktur lingkaran ketika "dekat" dengan . Dalam hal ini struktur dapat "diekstrak" dari sifat-sifat . Misalnya, ukuran lokasi pusat , seperti rata-rata atau median, mengidentifikasi "jari-jari" dari distribusi(X,Y)(Ξ,H)Lp(X,Y)(Ξ,H)FF(X,Y) , dan deviasi standar (atau ukuran skala lainnya) dari menyatakan bagaimana "menyebar" dalam arah radial tentang lokasi pusatnya .F(X,Y)(μX,μY)
Ketika mengambil sampel dari distribusi, dengan data , tes sirkularitas yang masuk akal adalah memperkirakan lokasi pusat seperti biasa (dengan cara atau median) dan kemudian mengubah setiap nilai ke dalam koordinat kutub relatif terhadap perkiraan pusat. Bandingkan deviasi standar (atau IQR) dari jari-jari dengan nilai tengah (atau median). Untuk distribusi non-sirkuler rasionya akan besar; untuk distribusi sirkular, jumlahnya relatif kecil. (Jika Anda memiliki model spesifik dalam pikiran untuk distribusi yang mendasarinya, Anda dapat menghitung distribusi sampel statistik radial dan menyusun tes signifikansi dengannya.) Secara terpisah, uji koordinat sudut untuk keseragaman dalam interval.(xi,yi),1≤i≤n(xi,yi)(ri,θi)[0,2π) . Sekitar seragam untuk distribusi sirkular (dan untuk beberapa distribusi lainnya juga); ketidakseragaman menunjukkan keberangkatan dari sirkularitas.
Informasi timbal balik memiliki sifat yang agak analog dengan kovarian. Kovarian adalah angka yang merupakan 0 untuk variabel independen dan bukan nol untuk variabel yang bergantung linear. Secara khusus, jika dua variabel sama, maka kovarians sama dengan varians (yang biasanya merupakan angka positif). Satu masalah dengan kovarians adalah mungkin nol bahkan jika dua variabel tidak independen, asalkan ketergantungannya tidak linier.
Informasi timbal balik (MI) adalah angka non-negatif. Ini nol jika dan hanya jika dua variabel secara statistik independen. Properti ini lebih umum daripada properti kovarians dan mencakup segala ketergantungan, termasuk yang nonlinear.
Jika kedua variabel itu sama, MI sama dengan entropi variabel (sekali lagi, biasanya angka positif). Jika variabel berbeda dan tidak terkait secara deterministik, maka MI lebih kecil dari entropi. Dalam pengertian ini, MI dari dua variabel berjalan antara 0 dan H (entropi), dengan 0 hanya jika independen dan H hanya jika secara deterministik bergantung.
Satu perbedaan dari kovarians adalah bahwa "tanda" ketergantungan diabaikan. Misalnya , tetapi .Cov(X,−X)=−Cov(X,X)=−Var(X) MI(X,−X)=MI(X,X)=H(X)
sumber
Silakan lihat artikel berikut dari sains - ini membahas poin Anda dengan tepat:
Mendeteksi Asosiasi Novel dalam Kumpulan Data Besar oleh David N. Reshef et al.
Dari abstrak:
Anda menemukan bahan tambahan di sini: http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1
Para penulis bahkan menyediakan alat gratis yang menggabungkan metode novel yang dapat digunakan dengan R dan Python: http://www.exploredata.net/
sumber