Saya bekerja dengan kumpulan data yang memiliki N sekitar 200.000. Dalam regresi, saya melihat nilai signifikansi yang sangat kecil << 0,001 terkait dengan ukuran efek yang sangat kecil, misalnya r = 0,028. Yang ingin saya ketahui adalah, apakah ada cara berprinsip untuk menentukan ambang batas signifikansi yang sesuai terkait dengan ukuran sampel? Apakah ada pertimbangan penting lainnya tentang menafsirkan ukuran efek dengan sampel sebesar itu?
regression
probability
statistical-significance
sample-size
ted.strauss
sumber
sumber
Jawaban:
Dalam The signifikansi pengujian signifikansi , Johnson (1999) mencatat bahwa nilai-p adalah arbitrer, di mana Anda dapat menjadikannya sekecil yang Anda inginkan dengan mengumpulkan data yang cukup, dengan asumsi hipotesis nol adalah salah, yang hampir selalu demikian. Di dunia nyata, tidak mungkin ada korelasi semi-parsial yang benar-benar nol, yang merupakan hipotesis nol dalam menguji signifikansi koefisien regresi. Pemutusan signifikansi nilai-P bahkan lebih sewenang-wenang. Nilai 0,05 sebagai batas antara signifikansi dan tidak signifikan digunakan oleh konvensi, bukan pada prinsipnya. Jadi jawaban untuk pertanyaan pertama Anda adalah tidak, tidak ada cara berprinsip untuk memutuskan batas signifikansi yang sesuai.
Jadi apa yang bisa Anda lakukan, mengingat kumpulan data besar Anda? Itu tergantung pada alasan Anda untuk mengeksplorasi signifikansi statistik dari koefisien regresi Anda. Apakah Anda mencoba memodelkan sistem multi-faktorial yang kompleks dan mengembangkan teori yang berguna yang cukup sesuai atau memprediksi kenyataan? Maka mungkin Anda bisa berpikir tentang mengembangkan model yang lebih rumit dan mengambil perspektif pemodelan di atasnya, seperti yang dijelaskan dalam Rodgers (2010), The Epistemology of Mathematical And Statistical Modeling . Salah satu keuntungan memiliki banyak data adalah dapat menjelajahi model yang sangat kaya, yang memiliki banyak level dan interaksi yang menarik (dengan asumsi Anda memiliki variabel untuk melakukannya).
Jika, di sisi lain, Anda ingin membuat penilaian apakah akan memperlakukan koefisien tertentu sebagai signifikan secara statistik atau tidak, Anda mungkin ingin mengambil saran Good (1982) seperti yang dirangkum dalam Woolley (2003) : Hitung nilai -q sebagai yang menstandarkan nilai p ke ukuran sampel 100. Nilai p tepat 0,001 mengkonversi ke nilai p sebesar 0,045 - masih signifikan secara statistik.p⋅(n/100)−−−−−−√
Jadi, jika signifikan menggunakan ambang batas arbitrer atau yang lain, bagaimana? Jika ini adalah penelitian observasional, Anda memiliki lebih banyak pekerjaan untuk membenarkan bahwa itu sebenarnya bermakna dalam cara Anda berpikir dan bukan hanya hubungan palsu yang muncul karena Anda telah salah menentukan model Anda. Perhatikan bahwa efek kecil tidak begitu menarik secara klinis jika itu mewakili perbedaan yang sudah ada sebelumnya di antara orang yang memilih ke dalam tingkat pengobatan yang berbeda daripada efek pengobatan.
Anda perlu mempertimbangkan apakah hubungan yang Anda lihat secara praktis signifikan, seperti yang dicatat oleh komentator. Mengonversi angka-angka yang Anda kutip dari ke r 2 untuk varians dijelaskan ( r adalah korelasi, kuadratkan untuk mendapatkan varians dijelaskan) masing-masing hanya memberikan varians 3 dan 6%, yang sepertinya tidak terlalu banyak.r r2 r
sumber
Saya kira cara mudah untuk memeriksa akan secara acak mengambil sampel dalam jumlah yang sama besar dari apa yang Anda ketahui adalah satu distribusi dua kali dan membandingkan dua hasil. Jika Anda melakukan itu beberapa kali dan mengamati nilai-p yang serupa, itu akan menyarankan bahwa tidak ada efek nyata. Jika di sisi lain Anda tidak, maka mungkin ada.
sumber