Saya memiliki beberapa ratus pengukuran. Sekarang, saya mempertimbangkan untuk menggunakan beberapa jenis perangkat lunak untuk menghubungkan setiap ukuran dengan setiap ukuran. Ini berarti ada ribuan korelasi. Di antara ini harus ada (secara statistik) ada korelasi yang tinggi, bahkan jika data benar-benar acak (masing-masing ukuran hanya memiliki sekitar 100 titik data).
Ketika saya menemukan korelasi, bagaimana saya memasukkan informasi tentang seberapa keras saya mencari korelasi, ke dalamnya?
Saya tidak berada pada level tinggi dalam statistik, jadi tolong tahan dengan saya.
R
pada mesin ini membutuhkan waktu 18 detik untuk memperoleh 1000 realisasi distribusi permutasi nol dari koefisien korelasi maksimum untuk 300 oleh 100 matriksx
:correl <- function(x, k=1) { n <- dim(x)[2] * (dim(x)[2]-1) / 2; v <- cor(x); sort(v[lower.tri(v)])[(n-k+1):n] }; sim <- replicate(1000, correl(apply(x,2,sample)))
Jawaban:
Ini adalah pertanyaan yang sangat bagus, layak bagi seseorang yang merupakan pemikir statistik yang jelas, karena ia mengakui aspek halus tetapi penting dari pengujian berganda.
Ada metode standar untuk menyesuaikan nilai-p dari koefisien korelasi berganda (atau, yang setara, untuk memperluas interval kepercayaan mereka), seperti metode Bonferroni dan Sidak ( qv ). Namun, ini terlalu konservatif dengan matriks korelasi besar karena hubungan matematika yang melekat yang harus dimiliki antara koefisien korelasi secara umum. (Untuk beberapa contoh hubungan seperti itu lihat pertanyaan terakhir dan utas berikutnya .) Salah satu pendekatan terbaik untuk menangani situasi ini adalah dengan melakukan tes permutasi (atau resampling). Sangat mudah untuk melakukan ini dengan korelasi: dalam setiap iterasi tes, hanya secara acak mengacak urutan nilai masing-masing bidang (dengan demikian menghancurkan setiap korelasi yang melekat) dan menghitung ulang matriks korelasi penuh. Lakukan ini untuk beberapa ribu iterasi (atau lebih), kemudian rangkum distribusi entri dari matriks korelasi dengan, misalnya, memberikan 97,5 dan 2,5 persennya: ini akan berfungsi sebagai interval kepercayaan 95% dua sisi simetris yang saling menguntungkan di bawah nol hipotesis tidak ada korelasi. (Pertama kali Anda melakukan ini dengan sejumlah besar variabel Anda akan kagum pada seberapa tinggi beberapa koefisien korelasi dapat bahkan ketika tidak ada korelasi yang melekat.)
Saat melaporkan hasil, apa pun perhitungan yang Anda lakukan, Anda harus memasukkan yang berikut:
Ukuran matriks korelasi ( yaitu , berapa banyak variabel yang telah Anda lihat).
Bagaimana Anda menentukan nilai-p atau "signifikansi" dari salah satu koefisien korelasi ( misalnya , biarkan apa adanya, menerapkan koreksi Bonferroni, melakukan tes permutasi, atau apa pun).
Apakah Anda melihat langkah-langkah alternatif korelasi, seperti korelasi peringkat Spearman . Jika ya, tunjukkan juga mengapa Anda memilih metode yang Anda laporkan dan gunakan.
sumber
Dari respons tindak lanjut Anda terhadap pertanyaan Peter Flom, sepertinya Anda mungkin lebih baik dilayani oleh teknik yang melihat struktur tingkat yang lebih tinggi dalam matriks korelasi Anda.
Teknik seperti analisis faktor, PCA, penskalaan multidimensi, dan analisis cluster variabel dapat digunakan untuk mengelompokkan variabel Anda ke dalam set variabel yang relatif lebih terkait.
Juga, Anda mungkin ingin berpikir secara teoritis tentang struktur apa yang harus ada. Ketika jumlah variabel Anda besar dan jumlah pengamatan kecil, Anda seringkali lebih mengandalkan harapan sebelumnya.
sumber
Ini adalah contoh beberapa perbandingan. Ada banyak literatur tentang ini.
Jika Anda memiliki, katakanlah, 100 variabel, maka Anda akan memiliki 100 * 99/2 = 4950 korelasi.
Jika data hanya noise, maka Anda akan mengharapkan 1 dari 20 ini menjadi signifikan pada p = 0,05. Itu 247,5
Sebelum melangkah lebih jauh, akan lebih baik jika Anda bisa mengatakan MENGAPA Anda melakukan ini. Apa variabel-variabel ini, mengapa Anda menghubungkannya, apa ide substantif Anda?
Atau, apakah Anda hanya memancing korelasi tinggi?
sumber
Mungkin Anda bisa melakukan analisis awal pada bagian acak dari data untuk membentuk hipotesis, dan kemudian menguji beberapa hipotesis yang menarik menggunakan sisa data. Dengan begitu Anda tidak perlu mengoreksi beberapa tes berulang. (Kupikir...)
Tentu saja, jika Anda menggunakan prosedur seperti itu, Anda akan mengurangi ukuran dataset yang digunakan untuk analisis akhir sehingga mengurangi kekuatan Anda untuk menemukan efek nyata. Namun, koreksi untuk beberapa perbandingan juga mengurangi daya, jadi saya tidak yakin Anda akan kehilangan apa pun.
sumber