Contoh data Independen dan tidak berkorelasi dalam kehidupan nyata, dan cara untuk mengukur / mendeteksinya

20

Kami selalu mendengar tentang vektor data ini VS vektor data lain ini independen satu sama lain, atau tidak berkorelasi, dll, dan sementara mudah untuk menemukan matematika mengenai dua konsep itu, saya ingin mengikat mereka menjadi contoh-contoh dari real- hidup, dan juga menemukan cara untuk mengukur hubungan ini.

Dari sudut pandang ini, saya mencari contoh dua sinyal yang merupakan kombinasi berikut: (Saya akan mulai dengan beberapa):

  • Dua sinyal yang independen DAN (tentu saja) tidak berkorelasi:

    • Suara dari mesin mobil (sebut saja ) dan suara Anda ( ) saat Anda berbicara.v1[n]v2[n]
    • Rekaman kelembaban setiap hari ( ) dan indeks dow-jones ( ).v 2 [ n ]v1[n]v2[n]

T1) Bagaimana Anda mengukur / membuktikan bahwa mereka independen dengan dua vektor di tangan? Kita tahu bahwa independensi berarti bahwa produk pdf mereka sama dengan pdf bersama mereka, dan itu hebat, tetapi dengan dua vektor di tangan, bagaimana seseorang membuktikan independensi mereka?

  • Dua sinyal yang TIDAK independen, tetapi masih tidak berkorelasi:

T2) Saya tidak bisa memikirkan contoh di sini ... apa contohnya? Saya tahu kita bisa mengukur korelasi dengan mengambil korelasi silang dari dua vektor tersebut, tetapi bagaimana kita membuktikan bahwa mereka juga TIDAK independen?

  • Dua sinyal yang berkorelasi:
    • Vektor yang mengukur suara penyanyi opera di aula utama, , sementara seseorang merekam suaranya dari suatu tempat di dalam gedung, katakan di ruang latihan ( ).v 2 [ n ]v1[n]v2[n]
    • Jika Anda terus mengukur detak jantung di mobil Anda, ( ), dan juga mengukur intensitas cahaya biru yang menimpa kaca depan mobil Anda ( ) ... Saya kira itu akan sangat berkorelasi .. . :-)v 2 [ n ]v1[n]v2[n]

Q3) Terkait dengan q2, tetapi dalam hal mengukur korelasi silang dari titik berdiri empiris ini, apakah cukup untuk melihat titik produk dari vektor-vektor tersebut (karena itu adalah nilai pada puncak korelasi silang mereka)? Mengapa kita peduli dengan nilai-nilai lain dalam fungsi cross-corr?

Terima kasih sekali lagi, semakin banyak contoh yang diberikan semakin baik untuk membangun intuisi!

Spacey
sumber
@DilipSarwate Terima kasih Dilip, saya akan memeriksanya. Untuk saat ini beberapa contoh akan lebih baik.
Spacey
Anda tidak dapat "membuktikan" bahwa mereka independen dengan cara yang sama bahwa bahkan jajak pendapat yang dibangun dengan baik tidak dapat "membuktikan" bagaimana semua orang akan memilih - dan untuk alasan yang sama.
Jim Clay
@JimClay Merasa bebas untuk bersantai kriteria 'buktikan' - apa yang saya coba dapatkan adalah cara untuk mengukur / mengukur independensi. Kita sering mendengar tentang ini dan begitu mandiri, bagaimana mereka tahu itu? Pita pengukur apa yang digunakan?
Spacey
saya ingin tahu apakah cros corelation dapat digunakan untuk dua sinyal analog satu resolusi tinggi & resolusi rendah lainnya untuk tujuan analisis.
Jika kita memiliki beberapa variabel acak X dan membangun 2 sinyal a ** = (x) dan ** b ** = (x) dengan dan menjadi ortogonal dan ** x = a + bf 2 f 1 f 2f1f2f1f2 . Apakah ini menyiratkan bahwa sinyal seperti itu independen? Apakah ini memerlukan beberapa kondisi tambahan? Properti ini akan menarik karena menghindari membangun pdf bersama a dan b .
Mladen

Jawaban:

9

Beberapa elemen ... (Saya tahu ini tidak lengkap, jawaban yang lebih lengkap mungkin harus menyebutkan momen)

Q1

Untuk memeriksa apakah dua distribusi independen, Anda perlu mengukur seberapa mirip distribusi bersama dengan produk dari distribusi marjinalnya . Untuk tujuan ini, Anda dapat menggunakan jarak antara distribusi. Jika Anda menggunakan divergensi Kullback-Leibler untuk membandingkan distribusi tersebut, Anda akan mempertimbangkan jumlahnya:p ( x ) × p ( y )p(x,y)p(x)×p(y)

xyp(x,y)logp(x,y)p(x)p(y)dxdy

Dan Anda akan mengenali ... Informasi Saling Menguntungkan! Semakin rendah, semakin independen variabel-variabelnya.

Lebih praktisnya, untuk menghitung jumlah ini dari pengamatan Anda, Anda dapat memperkirakan kepadatan , , dari data Anda menggunakan penduga kepadatan Kernel dan melakukan integrasi numerik pada grid halus. ; atau hanya mengukur data Anda ke dalam bin dan menggunakan ekspresi dari Informasi Bersama untuk distribusi diskrit.p ( y ) p ( x , y ) Np(x)p(y)p(x,y)N

Q2

Dari halaman Wikipedia tentang independensi dan korelasi statistik:

Plot distribusi

Dengan pengecualian pada contoh terakhir, distribusi 2D ini tidak berkorelasi (matriks kovarians diagonal), tetapi tidak independen, distribusi marginal dan .p ( x ) p ( y )p(x,y)p(x)p(y)

Q3

Memang ada situasi di mana Anda mungkin melihat semua nilai dari fungsi korelasi silang. Mereka muncul, misalnya, dalam pemrosesan sinyal audio. Pertimbangkan dua mikrofon yang menangkap sumber yang sama, tetapi jauh dari beberapa meter. Korelasi silang dari kedua sinyal akan memiliki puncak kuat pada lag yang sesuai dengan jarak antara mikrofon dibagi dengan kecepatan suara. Jika Anda hanya melihat korelasi silang pada lag 0, Anda tidak akan melihat bahwa satu sinyal adalah versi yang bergeser waktu dari yang lain!

pichenettes
sumber
Terima kasih pichenettes: 1) Tolong jelaskan pada poin pertama Anda - Saya benar-benar mengalami kesulitan memahami bagaimana, dari dua vektor data, x [n] dan y [n], saya mungkin dapat datang dengan JOINT PDF mereka. , . Saya bisa mengerti bagaimana mengambil histogram x [n] akan memberi saya pdf dari X, ( ), dan hal yang sama dengan Y, tetapi bagaimana mungkin seseorang membuat sambungan dengan dua vektor ?? Saya bertanya secara konkrit - pemetaan konkret yang tepat dari PDF dari sampel yang diamati. Inilah yang paling membingungkan saya. (lanjutan)p (x}p(x,y)p(x}
Spacey
(lanjutan) 2) Jadi untuk meringkas: Jika matriks kovarians x, dan y adalah diagonal, maka mereka tidak berkorelasi, tetapi TIDAK harus independen, benar? Untuk menguji independensi adalah masalah dengan pertanyaan lanjutan (1). Namun, jika kita menunjukkan bahwa mereka indep, maka tentu saja matriks kovarians mereka HARUS diagonal. Apakah saya mengerti benar? Apa contoh dari 2 sinyal fisik yang dapat saya ukur dalam kehidupan nyata yang tergantung, tetapi tidak berkorelasi? Terima kasih lagi.
Spacey
1
Katakanlah Anda memiliki dua sinyal dan direpresentasikan sebagai vektor elemenAnda bisa mendapatkan perkiraan menggunakan, misalnya, penduga kepadatan Kernel: mana adalah fungsi Kernel. Atau Anda dapat menggunakan teknik yang sama seperti untuk membangun histogram, tetapi dalam 2D. Bangun kisi persegi panjang, hitung berapa banyak pasangan ( x n , y n ) yang jatuh di setiap sel kisi, dan gunakan p ( x , y ) = Cy n N p ( x , y ) p ( x , y ) = i 1xnynNp(x,y)Kp(x,y)=i1NK(xxi,yyi)K(xn,yn) mana N adalah ukuran sinyal Anda danCadalah jumlah elemen dalam sel yang terkait dengan titik(x,y). p(x,y)=CNC(x,y)
pichenettes
1
"2 sinyal fisik yang akan tergantung, tetapi tidak berkorelasi": Katakanlah kita meretas GPS dari taksi NY untuk merekam sejarah (lintang, bujur) dari posisinya. Ada peluang bagus, lat., Lama. data akan tidak berkorelasi - tidak ada "orientasi" istimewa dari cloud titik. Tapi itu tidak akan independen, karena, jika Anda diminta untuk menebak lintang kabin, Anda akan memberikan tebakan yang jauh lebih baik jika Anda tahu garis bujurnya (Anda kemudian dapat melihat peta dan mengesampingkan [lat, panjang] pasangan ditempati oleh bangunan).
pichenettes
Contoh lain: dua gelombang sinus pada kelipatan bilangan bulat dari frekuensi yang sama. Korelasi nol (Basis Fourier adalah ortonormal); tetapi jika Anda tahu nilai satu, hanya ada satu set nilai terbatas yang bisa diambil yang lain (pikirkan plot Lissajous).
pichenettes
5

Menyimpulkan apakah dua sinyal independen sangat sulit dilakukan (diberikan pengamatan terbatas) tanpa pengetahuan / asumsi sebelumnya.

Dua variabel acak dan Y adalah independen jika nilai X tidak memberikan informasi tentang nilai Y (yaitu tidak mempengaruhi distribusi probabilitas kami sebelumnya untuk Y ). Ini sama dengan transformasi nonlinear X dan Y yang tidak berkorelasi yaitu cov ( f 1 ( X ) , f 2 ( Y ) ) = E ( f 1 ( X ) , f 2 ( Y )XYXYYXY untuk f 1 dan f 2 non-linierdengan asumsi wlog kedua variabel memiliki rata-rata nol. Perbedaan antara kemandirian dan uncorrelatedness adalah bahwa X dan Y tidak berkorelasi jika di atas berlaku, hanya untuk f 1 ( x ) = f 2 ( x ) = x , fungsi identitas.

cov(f1(X),f2(Y))=E(f1(X),f2(Y))=0
f1f2XYf1(x)=f2(x)=x

Jika kita mengasumsikan Gaussianity bersama, maka semua momen sambungan lebih besar dari urutan 2 sama dengan nol dan dalam hal ini tidak berkorelasi menyiratkan independen. Jika kita tidak memiliki asumsi sebelumnya, maka estimasi momen bersama akan memberi kita informasi tentang 'seberapa tergantung' mereka pada satu sama lain.E(XiYj)

X(t)Y(t)

SX,Y(f),SX2,Y(f),SX,Y2(f)
f

Contoh :

X(t)=sin(2πft)
Y(t)=sin(2πftk)
kZk1X(t)Y(t)sin(kx)sin(x)
Y(t)=f(X(t))
f

X(t)Y(t)

rwolst
sumber
Xx2,Y(f)
X2(t)Y(t)