Saya telah menghitung matriks korelasi dari kumpulan data yang berisi 455 titik data, setiap titik data mengandung 14 karakteristik. Jadi dimensi matriks korelasi adalah 14 x 14.
Saya bertanya-tanya apakah ada ambang batas untuk nilai koefisien korelasi yang menunjukkan bahwa ada korelasi yang signifikan antara dua karakteristik tersebut.
Saya memiliki nilai mulai dari -0,2 hingga 0,85, dan saya berpikir bahwa yang penting adalah yang berada di atas 0,7.
- Apakah ada nilai umum untuk koefisien korelasi yang harus dipertimbangkan untuk ambang atau hanya konteks tergantung pada tipe data yang saya selidiki?
Jawaban:
Tes signifikansi untuk korelasi
Ada tes signifikansi statistik yang dapat diterapkan pada korelasi individu, yang menunjukkan kemungkinan memperoleh korelasi sama besar atau lebih besar dari korelasi sampel dengan asumsi hipotesis nol adalah benar.
Poin kuncinya adalah bahwa apa yang merupakan koefisien korelasi signifikan secara statistik tergantung pada:
Dalam keadaan umum, di mana alpha adalah 0,05, menggunakan uji dua sisi, dengan korelasi Pearson, dan di mana normalitas setidaknya merupakan pendekatan yang memadai, faktor utama yang mempengaruhi cut-off adalah ukuran sampel.
cor.test
akan menghitung signifikansi statistik dari suatu korelasi dalam RAmbang kepentingan
Cara lain untuk menginterpretasikan pertanyaan Anda adalah dengan mempertimbangkan bahwa Anda tertarik bukan pada apakah suatu korelasi signifikan secara statistik, melainkan apakah itu secara praktis penting.
Beberapa peneliti telah menawarkan aturan praktis untuk menafsirkan makna koefisien korelasi, tetapi aturan praktis ini bersifat spesifik domain.
Pengujian signifikansi berganda
Seperti yang ditunjukkan oleh @ user603, masalah-masalah ini dibahas dengan baik dalam pertanyaan sebelumnya .
Secara umum, saya merasa berguna ketika menafsirkan matriks korelasi untuk fokus pada struktur tingkat yang lebih tinggi. Ini dapat dilakukan secara informal dengan melihat pola umum dalam matriks korelasi. Ini dapat dilakukan secara lebih formal dengan menggunakan teknik seperti PCA dan analisis faktor. Pendekatan semacam itu menghindari banyak masalah yang terkait dengan pengujian signifikansi berganda.
sumber
Satu opsi adalah simulasi atau pengujian permutasi. Jika Anda tahu distribusi dari mana data Anda berasal, Anda bisa mensimulasikan dari distribusi itu, tetapi dengan semua pengamatan independen. Jika Anda tidak tahu distribusinya maka Anda dapat mengubah setiap variabel Anda secara independen satu sama lain dan itu akan memberi Anda distribusi marginal umum yang sama untuk setiap variabel, tetapi dengan korelasi yang dihapus.
Lakukan salah satu dari yang di atas (menjaga ukuran sampel dan dimensi matriks yang sama) sejumlah besar kali (10.000 atau lebih) dan melihat korelasi absolut maksimum, atau kuantil tinggi lain yang mungkin menarik. Ini akan memberi Anda distribusi dari hipotesis nol yang kemudian dapat Anda bandingkan dengan maksimum korelasi aktual yang diamati dengan (dan jumlah bunga tinggi lainnya).
sumber
sumber