Korelasi signifikan pada masing-masing kelompok tetapi tidak signifikan atas semua?

9

Misalkan kita menguji korelasi Pearson antara variabel dan dalam kelompok dan . Apakah mungkin untuk korelasi menjadi signifikan di masing-masing dan , tetapi tidak signifikan ketika data dari kedua kelompok digabungkan? Dalam hal ini, bisakah Anda memberikan penjelasan untuk itu.xySEBUAHB(x,y)SEBUAHB

qed
sumber

Jawaban:

21

Ya, itu mungkin dan itu bisa terjadi dengan berbagai cara. Salah satu contoh yang jelas adalah ketika keanggotaan A dan B dipilih dalam beberapa cara yang mencerminkan nilai-nilai x dan y. Contoh lain dimungkinkan, misalnya komentar @ Macro menyarankan kemungkinan alternatif.

Pertimbangkan contoh di bawah ini, yang ditulis dalam R. x dan y adalah variabel normal standar iid, tetapi jika saya mengalokasikannya ke grup berdasarkan nilai relatif dari x dan y saya mendapatkan siutation yang Anda sebutkan. Di dalam kelompok A dan kelompok B ada korelasi yang kuat secara statistik signifikan antara x dan y, tetapi jika Anda mengabaikan struktur pengelompokan tidak ada korelasi.

masukkan deskripsi gambar di sini

> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)

        Pearson's product-moment correlation

data:  x and y 
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.09292  0.03094 
sample estimates:
     cor 
-0.03111 

> cor.test(x[Group=="A"], y[Group=="A"])

        Pearson's product-moment correlation

data:  x[Group == "A"] and y[Group == "A"] 
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.4040 0.5414 
sample estimates:
   cor 
0.4756 

> cor.test(x[Group=="B"], y[Group=="B"])

        Pearson's product-moment correlation

data:  x[Group == "B"] and y[Group == "B"] 
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.3292 0.4744 
sample estimates:
   cor 
0.4043 
> qplot(x,y, color=Group)
Peter Ellis
sumber
+1. Ini adalah contoh yang sangat cerdas yang tidak terpikir oleh saya.
Makro
13

Satu kemungkinan adalah bahwa efeknya mungkin menuju ke arah yang berbeda di setiap kelompok dan dibatalkan ketika Anda menjumlahkannya . Ini juga terkait dengan bagaimana, ketika Anda meninggalkan istilah interaksi penting dalam model regresi, efek utama dapat menyesatkan.

SEBUAHysayaxsaya

E(ysaya|xsaya,GrHaikamuhal SEBUAH)=1+xsaya

B

E(ysaya|xsaya,GrHaikamuhal B)=1-xsaya

P(GrHaikamuhal SEBUAH)=1-P(GrHaikamuhal B)=hal
E(ysaya|xsaya)

E(ysaya|xsaya)=E(E(ysaya|xsaya,GrHaikamuhal))=hal(1+xsaya)+(1-hal)(1-xsaya)=hal+halxsaya+1-xsaya-hal+halxsaya=1-xsaya(2hal-1)

hal=1/2E(ysaya|xsaya)=1xsayaxsayaysaya

hal

Catatan: Dengan kesalahan normal, signifikansi koefisien regresi linier setara dengan signifikansi korelasi Pearson, jadi contoh ini menyoroti satu penjelasan untuk apa yang Anda lihat.

Makro
sumber