Ambang untuk koefisien korelasi untuk menunjukkan signifikansi statistik dari korelasi dalam matriks korelasi

10

Saya telah menghitung matriks korelasi dari kumpulan data yang berisi 455 titik data, setiap titik data mengandung 14 karakteristik. Jadi dimensi matriks korelasi adalah 14 x 14.

Saya bertanya-tanya apakah ada ambang batas untuk nilai koefisien korelasi yang menunjukkan bahwa ada korelasi yang signifikan antara dua karakteristik tersebut.

Saya memiliki nilai mulai dari -0,2 hingga 0,85, dan saya berpikir bahwa yang penting adalah yang berada di atas 0,7.

  • Apakah ada nilai umum untuk koefisien korelasi yang harus dipertimbangkan untuk ambang atau hanya konteks tergantung pada tipe data yang saya selidiki?
Simon
sumber
@ user603 Bagus menangkap: ini praktis pertanyaan yang sama. Inovasi di sini adalah untuk menanyakan apakah tes untuk korelasi signifikan mungkin tergantung pada "tipe data" (baca: distribusi data). Mari kita berharap bahwa balasan fokus pada aspek ini daripada pergi ke tanah lama.
whuber

Jawaban:

8

Tes signifikansi untuk korelasi

Ada tes signifikansi statistik yang dapat diterapkan pada korelasi individu, yang menunjukkan kemungkinan memperoleh korelasi sama besar atau lebih besar dari korelasi sampel dengan asumsi hipotesis nol adalah benar.

Poin kuncinya adalah bahwa apa yang merupakan koefisien korelasi signifikan secara statistik tergantung pada:

  • Ukuran sampel : ukuran sampel yang lebih besar akan menyebabkan ambang yang lebih kecil
  • alpha : sering diatur ke 0,05, alfa yang lebih kecil akan mengarah ke ambang batas yang lebih tinggi untuk signifikansi statistik
  • uji satu-ekor / dua-ekor : Saya menduga Anda akan menggunakan dua-ekor jadi ini mungkin tidak masalah
  • jenis koefisien korelasi : Saya kira Anda menggunakan Pearson
  • asumsi distribusi x dan y

Dalam keadaan umum, di mana alpha adalah 0,05, menggunakan uji dua sisi, dengan korelasi Pearson, dan di mana normalitas setidaknya merupakan pendekatan yang memadai, faktor utama yang mempengaruhi cut-off adalah ukuran sampel.

Ambang kepentingan

Cara lain untuk menginterpretasikan pertanyaan Anda adalah dengan mempertimbangkan bahwa Anda tertarik bukan pada apakah suatu korelasi signifikan secara statistik, melainkan apakah itu secara praktis penting.

Beberapa peneliti telah menawarkan aturan praktis untuk menafsirkan makna koefisien korelasi, tetapi aturan praktis ini bersifat spesifik domain.

Pengujian signifikansi berganda

k(k-1)/2k14(13)/2=91910,05=4.55

Seperti yang ditunjukkan oleh @ user603, masalah-masalah ini dibahas dengan baik dalam pertanyaan sebelumnya .

Secara umum, saya merasa berguna ketika menafsirkan matriks korelasi untuk fokus pada struktur tingkat yang lebih tinggi. Ini dapat dilakukan secara informal dengan melihat pola umum dalam matriks korelasi. Ini dapat dilakukan secara lebih formal dengan menggunakan teknik seperti PCA dan analisis faktor. Pendekatan semacam itu menghindari banyak masalah yang terkait dengan pengujian signifikansi berganda.

Jeromy Anglim
sumber
1

Satu opsi adalah simulasi atau pengujian permutasi. Jika Anda tahu distribusi dari mana data Anda berasal, Anda bisa mensimulasikan dari distribusi itu, tetapi dengan semua pengamatan independen. Jika Anda tidak tahu distribusinya maka Anda dapat mengubah setiap variabel Anda secara independen satu sama lain dan itu akan memberi Anda distribusi marginal umum yang sama untuk setiap variabel, tetapi dengan korelasi yang dihapus.

Lakukan salah satu dari yang di atas (menjaga ukuran sampel dan dimensi matriks yang sama) sejumlah besar kali (10.000 atau lebih) dan melihat korelasi absolut maksimum, atau kuantil tinggi lain yang mungkin menarik. Ini akan memberi Anda distribusi dari hipotesis nol yang kemudian dapat Anda bandingkan dengan maksimum korelasi aktual yang diamati dengan (dan jumlah bunga tinggi lainnya).

Greg Snow
sumber
0

n-2ncHairr>>n-2

Hrobjartur
sumber