Bagaimana saya menguji bahwa dua variabel kontinu independen?

48

Misalkan saya memiliki sampel dari distribusi gabungan dari dan . Bagaimana saya menguji hipotesis bahwa dan adalah independen ?X Y X Y(Xn,Yn),n=1..NXYXY

Tidak ada asumsi yang dibuat pada undang-undang distribusi gabungan atau marginal dan (paling tidak dari semua normalitas gabungan, karena dalam hal itu independensi identik dengan korelasi menjadi ).Y 0XY0

Tidak ada asumsi dibuat pada sifat hubungan yang mungkin antara dan ; mungkin non-linear, sehingga variabel tidak berkorelasi ( ) tetapi sangat co-dependen ( ).Y r = 0 I = HXYr=0I=H

Saya bisa melihat dua pendekatan:

  1. Bin kedua variabel dan gunakan uji eksak Fisher atau G-test .

    • Pro: gunakan tes statistik mapan
    • Con: tergantung pada binning
  2. Memperkirakan ketergantungan dari dan : (ini adalah untuk independen dan dan ketika mereka benar-benar menentukan satu sama lain).Y I ( X ; Y )XYI(X;Y)H(X,Y)XY10XY1

    • Pro: menghasilkan angka dengan makna teoretis yang jelas
    • Con: tergantung pada perhitungan entropi perkiraan (yaitu, binning lagi)

Apakah pendekatan ini masuk akal?

Apa metode lain yang digunakan orang?

sds
sumber
3
Lihatlah korelasi jarak .
Ray Koopman
@RayKoopman: terima kasih, saya sedang membaca Mengukur dan Menguji Ketergantungan oleh Korelasi Jarak sekarang!
sds
2
ketergantungan tidak masuk akal ketika berbicara tentang variabel kontinu. Variabel kontinyu memiliki entropi tak terbatas. Di sini, Anda tidak dapat mengganti untuk entropi diferensial, karena entropi diferensial tidak dapat dibandingkan dengan informasi bersama. Sementara informasi saling memiliki "mutlak" yang berarti, entropi diferensial bisa menjadi positif, nol, atau bahkan negatif, tergantung pada unit yang Anda gunakan untuk mengukur variabel dan . H X YI(X;Y)/H(X;Y)HXY
fonini
@fonini: tentu saja, saya berbicara tentang variabel binned. Terima kasih atas komentar Anda.
sds

Jawaban:

27

Ini adalah masalah yang sangat sulit secara umum, meskipun variabel Anda ternyata hanya 1d sehingga membantu. Tentu saja, langkah pertama (jika memungkinkan) adalah memplot data dan melihat apakah ada yang muncul pada Anda; Anda berada di 2d jadi ini harus mudah.

Berikut adalah beberapa pendekatan yang bekerja di atau bahkan pengaturan yang lebih umum:Rn

Dougal
sumber
Bisakah Anda menyebutkan secara singkat bagaimana pendekatan ini dibandingkan dengan Korelasi Jarak ? Saya menggunakan DC untuk menyaring dataset besar (well, besar untuk saya), jadi saya tertarik dengan komentar yang mungkin Anda miliki. Terima kasih!
pteetor
1
@pteetor Itu menarik, saya belum pernah menemukan korelasi jarak sebelumnya Secara komputasional, tampaknya lebih mahal daripada pendekatan estimasi entropi untuk ukuran sampel besar karena Anda memerlukan matriks jarak penuh (di mana untuk estimator entropi Anda dapat menggunakan indeks untuk mendapatkan hanya ktetangga pertama ). Tidak tahu bagaimana membandingkannya dalam hal kekuatan statistik / dll.
Dougal
4
Untuk pembaca selanjutnya: Makalah 2013 Kesetaraan statistik berbasis jarak dan berbasis RKHS dalam pengujian hipotesis oleh Sejdinovic et al. menunjukkan bahwa korelasi jarak dan jarak energi lainnya adalah contoh khusus dari MMD, ukuran yang mendasari di balik HSIC, dan membahas hubungan dalam hal kekuatan uji dan sebagainya.
Dougal
19

H0:H(x,y)=F(x)G(y)Hmischoeffd

Frank Harrell
sumber
6

Bagaimana dengan makalah ini:

http://arxiv.org/pdf/0803.4101.pdf

+ Msgstr "Mengukur dan menguji ketergantungan dengan korelasi jarak". Székely dan Bakirov selalu memiliki hal-hal menarik.

Ada kode matlab untuk implementasi:

http://www.mathworks.com/matlabcentral/fileexchange/39905-distance-correlation

Jika Anda menemukan tes lain (mudah diterapkan) untuk kemerdekaan, beri tahu kami.

JLp
sumber
2
Selamat datang di situs ini, @JLp. Kami berharap dapat membangun repositori permanen untuk informasi statistik berkualitas tinggi dalam bentuk pertanyaan & jawaban. Dengan demikian, satu hal yang kami khawatirkan adalah linkrot. Dengan mengingat hal itu, maukah Anda memberikan ringkasan tentang apa yang ada di koran itu / bagaimana menjawab pertanyaan, jika tautannya mati. Ini juga akan membantu pembaca masa depan dari utas ini memutuskan apakah mereka ingin menginvestasikan waktu untuk membaca koran.
gung - Reinstate Monica
@ung: ini sama dengan energi
sds
5

Kaitan antara Jarak Kovarian dan uji kernel (berdasarkan kriteria independensi Hilbert-Schmidt) diberikan dalam makalah ini:

Sejdinovic, D., Sriperumbudur, B., Gretton, A., dan Fukumizu, K., Kesetaraan statistik berbasis jarak dan RKHS dalam pengujian hipotesis, Annals of Statistics, 41 (5), pp.2263-2702, 2013

Ini menunjukkan bahwa kovarians jarak adalah kasus khusus dari statistik kernel, untuk keluarga kernel tertentu.

Jika Anda berniat menggunakan informasi timbal balik, tes berdasarkan pada perkiraan bined dari MI adalah:

Gretton, A. dan Gyorfi, L., Tes Nonparametrik Konsisten yang Konsisten, Jurnal Penelitian Pembelajaran Mesin, 11, hlm.1391--1423, 2010.

Jika Anda tertarik untuk mendapatkan kekuatan uji terbaik, Anda lebih baik menggunakan tes kernel, daripada binning dan informasi timbal balik.

Yang mengatakan, mengingat variabel Anda adalah univariat, tes independensi nonparametrik klasik seperti Hoeffding mungkin baik-baik saja.

arthur gretton
sumber
4

Jarang (tidak pernah?) Dalam statistik Anda dapat menunjukkan bahwa statistik sampel Anda = nilai poin. Anda dapat menguji terhadap nilai poin dan mengecualikannya atau tidak mengecualikannya. Tetapi sifat statistik adalah tentang memeriksa data variabel. Karena selalu ada varians maka tidak akan ada cara untuk mengetahui bahwa sesuatu itu tidak berhubungan, normal, gaussian, dll. Anda hanya dapat mengetahui rentang nilai untuk itu. Anda bisa tahu jika suatu nilai dikecualikan dari rentang nilai yang masuk akal. Misalnya, mudah untuk mengecualikan tidak ada hubungan dan memberikan rentang nilai untuk seberapa besar hubungan itu.

Karena itu, berusaha menunjukkan tidak ada hubungan, intinya nilai point of relationship = 0tidak akan menemui kesuksesan. Jika Anda memiliki serangkaian ukuran hubungan yang dapat diterima sekitar 0. Maka mungkin untuk menyusun tes.

Dengan asumsi bahwa Anda dapat menerima batasan itu, akan sangat membantu bagi orang-orang yang mencoba membantu Anda untuk memberikan sebaran dengan kurva lowess. Karena Anda mencari solusi R, cobalah:

scatter.smooth(x, y)

Berdasarkan informasi terbatas yang Anda berikan sejauh ini saya pikir model aditif umum mungkin menjadi hal terbaik untuk menguji non-independensi. Jika Anda memplotnya dengan CI di sekitar nilai-nilai prediksi Anda mungkin dapat membuat pernyataan tentang kepercayaan akan kemerdekaan. Periksa gamdalam paket mgcv. Bantuannya cukup bagus dan ada bantuan di sini mengenai CI .

John
sumber
2

Mungkin menarik ...

Garcia, JE; Gonzalez-Lopez, VA (2014) Tes independensi untuk variabel acak kontinu berdasarkan peningkatan terpanjang berikutnya. Jurnal Analisis Multivariat, v. 127 hal. 126-146.

http://www.sciencedirect.com/science/article/pii/S0047259X14000335

pengguna78122
sumber
2
Posting ini akan mendapat manfaat dari rincian lebih lanjut tentang apa yang ada di artikel, terutama karena ada di balik paywall.
Erik
-1

Jika Anda menggunakan R, cor.testfungsi dalam paket statistik (default dalam R) dapat melakukan itu:

Tes untuk Asosiasi / Korelasi Antara Sampel Berpasangan. Tes untuk hubungan antara sampel berpasangan, menggunakan salah satu dari koefisien korelasi momen produk Pearson, tau Kendall atau rho Spearman.

cor.test(x, y,method="spearman")
Shicheng Guo
sumber
1
Ini merindukan hubungan non-linear yang secara eksplisit menjadi topik pertanyaan.
sds