Misalkan saya memiliki sampel dari distribusi gabungan dari dan . Bagaimana saya menguji hipotesis bahwa dan adalah independen ?X Y X Y
Tidak ada asumsi yang dibuat pada undang-undang distribusi gabungan atau marginal dan (paling tidak dari semua normalitas gabungan, karena dalam hal itu independensi identik dengan korelasi menjadi ).Y 0
Tidak ada asumsi dibuat pada sifat hubungan yang mungkin antara dan ; mungkin non-linear, sehingga variabel tidak berkorelasi ( ) tetapi sangat co-dependen ( ).Y r = 0 I = H
Saya bisa melihat dua pendekatan:
Bin kedua variabel dan gunakan uji eksak Fisher atau G-test .
- Pro: gunakan tes statistik mapan
- Con: tergantung pada binning
Memperkirakan ketergantungan dari dan : (ini adalah untuk independen dan dan ketika mereka benar-benar menentukan satu sama lain).Y I ( X ; Y )XY1
- Pro: menghasilkan angka dengan makna teoretis yang jelas
- Con: tergantung pada perhitungan entropi perkiraan (yaitu, binning lagi)
Apakah pendekatan ini masuk akal?
Apa metode lain yang digunakan orang?
Jawaban:
Ini adalah masalah yang sangat sulit secara umum, meskipun variabel Anda ternyata hanya 1d sehingga membantu. Tentu saja, langkah pertama (jika memungkinkan) adalah memplot data dan melihat apakah ada yang muncul pada Anda; Anda berada di 2d jadi ini harus mudah.
Berikut adalah beberapa pendekatan yang bekerja di atau bahkan pengaturan yang lebih umum:Rn
Seperti yang Anda sebutkan, perkirakan informasi timbal balik melalui entropi. Ini mungkin pilihan terbaik Anda; penaksir berbasis tetangga terdekat baik-baik saja dalam dimensi rendah, dan bahkan histogram tidak mengerikan dalam 2d. Jika Anda khawatir tentang kesalahan estimasi, estimator ini sederhana dan memberi Anda batas sampel terbatas (kebanyakan yang lain hanya membuktikan sifat asimptotik):
Atau, ada penaksir langsung serupa untuk informasi timbal balik, misalnya
Kriteria independensi Hilbert-Schmidt: pendekatan berbasis kernel (dalam arti RKHS, bukan KDE).
Pendekatan Schweizer-Wolff: didasarkan pada transformasi kopula, dan begitu juga dengan perubahan monoton yang meningkat. Saya tidak terlalu terbiasa dengan yang satu ini, tapi saya pikir ini lebih sederhana secara komputasi tetapi juga mungkin kurang kuat.
sumber
k
tetangga pertama ). Tidak tahu bagaimana membandingkannya dalam hal kekuatan statistik / dll.Hmisc
hoeffd
sumber
Bagaimana dengan makalah ini:
http://arxiv.org/pdf/0803.4101.pdf
+ Msgstr "Mengukur dan menguji ketergantungan dengan korelasi jarak". Székely dan Bakirov selalu memiliki hal-hal menarik.
Ada kode matlab untuk implementasi:
http://www.mathworks.com/matlabcentral/fileexchange/39905-distance-correlation
Jika Anda menemukan tes lain (mudah diterapkan) untuk kemerdekaan, beri tahu kami.
sumber
Kaitan antara Jarak Kovarian dan uji kernel (berdasarkan kriteria independensi Hilbert-Schmidt) diberikan dalam makalah ini:
Sejdinovic, D., Sriperumbudur, B., Gretton, A., dan Fukumizu, K., Kesetaraan statistik berbasis jarak dan RKHS dalam pengujian hipotesis, Annals of Statistics, 41 (5), pp.2263-2702, 2013
Ini menunjukkan bahwa kovarians jarak adalah kasus khusus dari statistik kernel, untuk keluarga kernel tertentu.
Jika Anda berniat menggunakan informasi timbal balik, tes berdasarkan pada perkiraan bined dari MI adalah:
Gretton, A. dan Gyorfi, L., Tes Nonparametrik Konsisten yang Konsisten, Jurnal Penelitian Pembelajaran Mesin, 11, hlm.1391--1423, 2010.
Jika Anda tertarik untuk mendapatkan kekuatan uji terbaik, Anda lebih baik menggunakan tes kernel, daripada binning dan informasi timbal balik.
Yang mengatakan, mengingat variabel Anda adalah univariat, tes independensi nonparametrik klasik seperti Hoeffding mungkin baik-baik saja.
sumber
Jarang (tidak pernah?) Dalam statistik Anda dapat menunjukkan bahwa statistik sampel Anda = nilai poin. Anda dapat menguji terhadap nilai poin dan mengecualikannya atau tidak mengecualikannya. Tetapi sifat statistik adalah tentang memeriksa data variabel. Karena selalu ada varians maka tidak akan ada cara untuk mengetahui bahwa sesuatu itu tidak berhubungan, normal, gaussian, dll. Anda hanya dapat mengetahui rentang nilai untuk itu. Anda bisa tahu jika suatu nilai dikecualikan dari rentang nilai yang masuk akal. Misalnya, mudah untuk mengecualikan tidak ada hubungan dan memberikan rentang nilai untuk seberapa besar hubungan itu.
Karena itu, berusaha menunjukkan tidak ada hubungan, intinya nilai point of
relationship = 0
tidak akan menemui kesuksesan. Jika Anda memiliki serangkaian ukuran hubungan yang dapat diterima sekitar 0. Maka mungkin untuk menyusun tes.Dengan asumsi bahwa Anda dapat menerima batasan itu, akan sangat membantu bagi orang-orang yang mencoba membantu Anda untuk memberikan sebaran dengan kurva lowess. Karena Anda mencari solusi R, cobalah:
Berdasarkan informasi terbatas yang Anda berikan sejauh ini saya pikir model aditif umum mungkin menjadi hal terbaik untuk menguji non-independensi. Jika Anda memplotnya dengan CI di sekitar nilai-nilai prediksi Anda mungkin dapat membuat pernyataan tentang kepercayaan akan kemerdekaan. Periksa
gam
dalam paket mgcv. Bantuannya cukup bagus dan ada bantuan di sini mengenai CI .sumber
Mungkin menarik ...
Garcia, JE; Gonzalez-Lopez, VA (2014) Tes independensi untuk variabel acak kontinu berdasarkan peningkatan terpanjang berikutnya. Jurnal Analisis Multivariat, v. 127 hal. 126-146.
http://www.sciencedirect.com/science/article/pii/S0047259X14000335
sumber
Jika Anda menggunakan R,
cor.test
fungsi dalam paket statistik (default dalam R) dapat melakukan itu:Tes untuk Asosiasi / Korelasi Antara Sampel Berpasangan. Tes untuk hubungan antara sampel berpasangan, menggunakan salah satu dari koefisien korelasi momen produk Pearson, tau Kendall atau rho Spearman.
sumber