Apa korelasinya jika standar deviasi satu variabel adalah 0?

15

Seperti yang saya pahami, kita bisa mendapatkan korelasi dengan menormalkan kovarians menggunakan persamaan

ρi,j=cov(Xi,Xj)σiσj

dimana adalah standar deviasiXi.σi=E[(Xiμi)2]Xi

Kekhawatiran saya adalah bagaimana jika standar deviasi sama dengan nol? Apakah ada syarat yang menjamin tidak boleh nol?

Terima kasih.

chepukha
sumber
11
Tidak ada variabel yang memiliki standar deviasi 0 yang mungkin dapat dikorelasikan dengan variabel lain (tidak konstan). Korelasi adalah ukuran seberapa besar / kecil nilai dalam satu variabel sesuai dengan nilai besar / kecil di variabel lain - jika salah satu variabel sama dengan konstanta dengan probabilitas 1 (konsekuensi dari memiliki standar deviasi 0), maka dapat ' t mungkin memberikan informasi tentang apakah variabel lain kecil atau besar. Saya tidak tahu apa konvensi itu tetapi sepertinya korelasinya harus didefinisikan sebagai 0 dalam kasus itu.
Makro
Makro terima kasih banyak. Saya pikir ide Anda sama dengan jawaban di bawah ini. Namun, saya tidak dapat memberikan suara untuk komentar Anda karena keterbatasan dalam poin. Terima kasih.
chepukha
4
Anda sudah menerima jawaban, jadi saya hanya akan menulis komentar. Jika variabel acak memiliki simpangan baku σ Y = 0 , maka cov ( X , Y ) = E [ ( X - μ X ) ( Y - μ Y ) ] = 0 untuk variabel acak X lainnya (karena ( Y - μ Y ) = 0 dengan probabilitas 1YσY=0
cov(X,Y)=E[(XμX)(YμY)]=0
X(YμY)=01). Dengan demikian, definisi koefisien korelasi memberikan bentuk tak tentu0ρX,Y=cov(X,Y)σXσY . Adalah konvensional untukmendefinisikanρX,Ysama dengan0dalam kasus ini, dan ini dapat dipertahankan dengan alasan nilai pembatasρX,YsebagaiσY0dll.00 ρX,Y0ρX,YσY0
Dilip Sarwate
6
@Dilip, jika itu adalah jawaban, itu harusnya sebagai jawaban. Tidak masalah apakah jawaban sudah diterima.
Andy W
1
@Dilip Masalah dengan Bentuk 0 adalah bahwa meskipun dapat dibuat untuk memiliki nilai yang pasti melalui operasi pembatasan, nilainya tergantung padabagaimanaAnda mengambil batas. Dari mana, argumen bahwaρX,Y=0tidak lengkap (dan tidak meyakinkan). Bisakah Anda mengutip sumber yang mengadopsi konvensi ini dan mendukungnya dengan alasan yang sah? 00ρX,Y=0
whuber

Jawaban:

14

Memang benar, jika salah satu SD Anda adalah 0, persamaan itu tidak terdefinisi. Namun, cara yang lebih baik untuk memikirkan ini adalah bahwa jika salah satu SD Anda adalah 0, tidak ada korelasi. Dalam istilah konseptual yang longgar, sebuah korelasi memberi tahu Anda tentang bagaimana satu variabel bergerak ketika variabel lain bergerak. SD 0 menyiratkan bahwa variabel tidak 'bergerak'. Anda harus memiliki vektor konstanta, seperti rep(constant, n_times).

gung - Pasang kembali Monica
sumber
Terima kasih banyak. Saya pikir itu masuk akal. Sangat menarik bahwa saya belum melihat buku teks menyebutkan kasus itu.
chepukha
@ung Jadi ini adalah batasan dalam definisi koefisien korelasi, maksud saya persamaan korelasi dapat memiliki dua nilai, satu seperti yang diberikan dalam persamaan di atas dan 0 ketika SD dari salah satu variabel adalah 0.
prashanth
@prashanth, kurasa.
gung - Reinstate Monica
2

Hal lain yang perlu dipikirkan adalah asumsi yang mendasari ketika kita berbicara tentang sarana dan standar deviasi, dan korelasi.

Jika kita berbicara tentang sampel data, satu asumsi umum adalah bahwa data tersebut (setidaknya kira-kira) terdistribusi secara normal, atau dapat ditransformasikan sedemikian rupa (misalnya melalui transformasi log). Jika Anda mengamati standar deviasi nol, ada dua skenario: apakah standar deviasi sebenarnya bukan nol, tetapi sangat kecil, dan oleh karena itu dataset yang Anda miliki memiliki sampel yang semuanya pada nilai rata-rata (ini bisa, misalnya, terjadi jika Anda mengukur data pada tingkat presisi kasar); atau model tidak ditentukan dengan spesifik.

Dalam skenario kedua ini, standar deviasi, dan akibatnya korelasinya, adalah ukuran yang tidak berarti.

Secara umum, distribusi yang mendasarinya harus memiliki momen kedua yang terbatas, dan oleh karena itu deviasi standar yang tidak nol, agar korelasi menjadi konsep yang valid.

tdc
sumber
Mungkin perlu dicatat bahwa pertanyaan aslinya adalah tentang distribusi (teoritis), bukan tentang data.
whuber
Jika itu masalahnya, maka deviasi standar nol akan menyiratkan distribusi berdegenerasi dengan ukuran hanya pada rata-rata (yaitu fungsi konstan) ... sekali lagi deviasi standar hanya masuk akal bahwa distribusi yang mendasarinya adalah normal. Jika standar deviasi adalah nol, PDF dari Gaussian tidak didefinisikan dengan benar, dan karenanya tidak diperbolehkan dalam model.
tdc
Saya terkejut dengan penampilan Gaussians dalam komentar Anda, Tom. Ini sepertinya pembatasan yang tidak perlu. Membutuhkan keberadaan pdf juga tampaknya membatasi (setelah semua, tidak ada distribusi diskrit yang memiliki pdf). Perhatikan juga, bahwa SD didefinisikan dengan baik - "bermakna" - kapan pun momen kedua terbatas, dan ini termasuk atom probabilitas (fungsi "Dirac delta" Anda).
whuber
Ok saya setuju mungkin terlalu ketat, tetapi umumnya ini yang orang maksud dengan SD. mis. dari Wolfram: "Deviasi standar dapat didefinisikan untuk distribusi apa pun dengan dua momen pertama hingga, tetapi yang paling umum untuk mengasumsikan bahwa distribusi yang mendasarinya adalah normal." Apakah Anda mengambil poin saya, bahwa jika SD = 0 untuk salah satu variabel, asumsi dasar yang mendasari konsep statistik korelasi tidak terpenuhi?
tdc
Ya, Tom, pernyataan terakhir Anda tepat dan saya menerimanya dengan senang hati. Namun, ide yang diungkapkannya tidak muncul dengan sangat jelas dalam balasan Anda; jika itu ada, itu terkubur dalam pernyataan tentang distribusi normal, log, fungsi delta, dan fokus pada data daripada distribusi itu sendiri. BTW, orang harus berhati-hati tentang pernyataan statistik yang muncul di situs Wolfram: sangat berorientasi pada matematika sehingga penokohannya tentang praktik statistik dapat dipertanyakan. Di sini, itu salah: penggunaan SD melampaui pengaturan distribusi normal.
whuber
2

Korelasi adalah kosinus sudut antara dua vektor. Mengatakan bahwa deviasi standar untuk Y adalah nol sama dengan mengatakan bahwa vektor Y-mean (Y) adalah nol (atau, lebih keras, bahwa ia mewakili nol dalam ruang vektor yang sesuai). Jadi pertanyaannya menjadi "Apa yang bisa dikatakan tentang sudut (cosinus dari) antara vektor nol dan vektor X-mean (X)?". Lebih umum, dalam ruang vektor apa pun dengan produk dalam, apa yang dimaksud dengan sudut antara vektor nol dan beberapa vektor lainnya? Hanya ada satu jawaban untuk ini, menurut saya, dan itu adalah bahwa konsep "sudut" dalam situasi ini tidak ada artinya, dan konsep korelasi dalam situasi ini tidak ada artinya.

David Epstein
sumber
0

Penafian, saya menyadari bahwa sudah ada jawaban kualitas yang diterima, jadi ini harus menjadi respons, tetapi saya tidak memiliki poin pengalaman untuk mengizinkannya. @Dilip menyebutkan bahwa Anda dapat mendefinisikan korelasi sebagai 0 untuk konvensi, tetapi ini tampaknya bermasalah karena akan memiliki interpretasi yang sangat berbeda dari korelasi yang benar-benar nol (dengan SD yang bukan nol). Pertanyaan aslinya mengatakan "jika SD dari satu variabel adalah nol". Jika kita hanya berhenti dan memikirkan definisi 'variabel' maka kita mendapatkan jalan yang jauh lebih langsung ke jawabannya. Variabel dengan 0 SD bukan variabel sama sekali, itu adalah konstan. Jadi dalam hal ini Anda tidak memiliki dua variabel, jadi secara konseptual tidak masuk akal untuk mendefinisikan korelasi sama sekali.

Skye Buckner-Petty
sumber
Jika Anda tidak memiliki cukup poin untuk berkomentar, Anda tidak boleh berkomentar melalui jawaban.
Michael R. Chernick