Apa artinya studi menjadi terlalu bertenaga?

11

Apa artinya studi menjadi terlalu bertenaga?

Kesan saya adalah itu berarti bahwa ukuran sampel Anda sangat besar sehingga Anda memiliki kekuatan untuk mendeteksi ukuran efek sangat kecil. Ukuran efek ini mungkin sangat kecil sehingga lebih mungkin dihasilkan dari sedikit bias dalam proses pengambilan sampel daripada koneksi kausal (tidak harus langsung) antara variabel.

Apakah ini intuisi yang benar? Jika demikian, saya tidak melihat apa masalahnya, asalkan hasilnya ditafsirkan dalam cahaya itu dan Anda memeriksa secara manual dan melihat apakah ukuran efek yang diperkirakan cukup besar untuk menjadi "bermakna" atau tidak.

Apakah saya melewatkan sesuatu? Apakah ada rekomendasi yang lebih baik tentang apa yang harus dilakukan dalam skenario ini?

Frank Barry
sumber
Kedengarannya persis seperti pemahaman intuitif saya tentang istilah ini.
Henrik

Jawaban:

11

Saya pikir interpretasi Anda salah.

Anda mengatakan "Ukuran efek ini mungkin sangat kecil karena lebih mungkin dihasilkan dari sedikit bias dalam proses pengambilan sampel daripada koneksi kausal (tidak harus langsung) antara variabel" yang tampaknya menyiratkan bahwa nilai P dalam 'over-powered' studi bukanlah hal yang sama dengan nilai P dari studi yang didukung dengan 'benar'. Itu salah. Dalam kedua kasus, nilai P adalah probabilitas untuk memperoleh data yang ekstrem seperti yang diamati, atau lebih ekstrem, jika hipotesis nol itu benar.

Jika Anda lebih suka pendekatan Neyman-Pearson, tingkat kesalahan positif palsu yang diperoleh dari studi 'bertenaga' adalah sama dengan studi bertenaga 'baik' jika nilai alpha yang sama digunakan untuk keduanya.

Perbedaan dalam interpretasi yang diperlukan adalah bahwa ada hubungan yang berbeda antara signifikansi statistik dan signifikansi ilmiah untuk studi yang sangat kuat. Akibatnya, penelitian yang terlalu bertenaga akan memberikan probabilitas besar untuk mendapatkan signifikansi meskipun pengaruhnya, seperti yang Anda katakan, sangat kecil, dan karena itu penting untuk dipertanyakan.

Selama hasil dari studi 'over-powered' ditafsirkan secara tepat (dan interval kepercayaan untuk ukuran efek membantu interpretasi seperti itu) tidak ada masalah statistik dengan studi 'over-powered'. Dalam terang itu, satu-satunya kriteria di mana sebuah penelitian dapat benar-benar menjadi terlalu kuat adalah masalah alokasi etis dan sumber daya yang diangkat dalam jawaban lain.

Michael Lew
sumber
Terima kasih, ini sangat informatif. Saya mengerti bahwa definisi p-value tidak berubah. Tentu saja dari sudut pandang statistik, tingkat kesalahan tipe I tidak meningkat.
Frank Barry
1
Menurut definisi, kami memperbaiki tingkat kesalahan tipe I dalam menetapkan ambang batas p-value. Namun, sepertinya perbedaan antara signifikansi "statistik" dan "praktis" adalah masalah di sini. Ketika ukuran sampel mampu mendeteksi perbedaan yang jauh lebih halus daripada ukuran efek yang diharapkan, perbedaan yang secara statistik berbeda secara praktis tidak berarti secara praktis (dan dari perspektif "pengguna akhir" ini secara efektif merupakan "false positive" bahkan jika ini bukan statistik). Namun, seperti yang Anda katakan ini mulai keluar dari bidang statistik.
Frank Barry
1
yaitu saya pikir saya setuju - "perbedaan dalam interpretasi yang diperlukan adalah bahwa ada hubungan yang berbeda antara signifikansi statistik dan signifikansi ilmiah"
Frank Barry
4

Dalam penelitian medis, percobaan mungkin tidak etis jika merekrut terlalu banyak pasien. Misalnya, jika tujuannya adalah untuk memutuskan perawatan mana yang lebih baik, maka tidak etis lagi untuk merawat pasien dengan perawatan yang lebih buruk setelah ditetapkan menjadi lebih rendah. Meningkatkan ukuran sampel tentu saja akan memberi Anda perkiraan ukuran efek yang lebih akurat, tetapi Anda mungkin harus berhenti jauh sebelum efek faktor-faktor seperti "sedikit bias dalam proses pengambilan sampel" muncul.

Mungkin juga tidak etis untuk menghabiskan uang publik dari penelitian yang cukup dikonfirmasi.

GaBorgulya
sumber
1

Semua yang Anda katakan masuk akal (meskipun saya tidak tahu apa "masalah besar" yang Anda maksudkan), dan saya terutama. seperti poin Anda tentang ukuran efek yang bertentangan dengan signifikansi statistik. Satu pertimbangan lain adalah bahwa beberapa studi memerlukan alokasi sumber daya yang langka untuk mendapatkan partisipasi dari setiap kasus, sehingga orang tidak ingin berlebihan.

rolando2
sumber
Maaf, "masalah besar" terlalu banyak komentar editorial. Pertanyaan apakah ini "kesepakatan yang lebih besar" daripada yang saya lakukan pada dasarnya adalah pertanyaan apakah ada pertimbangan tambahan yang mungkin saya tidak tahu.
Frank Barry
0

Pengalaman saya berasal dari eksperimen A / B online, di mana masalahnya biasanya kurang bertenaga studi atau mengukur hal-hal yang salah. Tetapi bagi saya, studi yang terlalu kuat menghasilkan interval kepercayaan yang lebih sempit daripada studi yang sebanding, nilai-p yang lebih rendah, dan mungkin perbedaan yang berbeda. Saya membayangkan ini bisa membuat lebih sulit untuk membandingkan studi serupa. Sebagai contoh, jika saya mengulangi penelitian yang dikuasai menggunakan kekuatan yang tepat, nilai-p saya akan lebih tinggi bahkan jika saya benar-benar mereplikasi efeknya. Ukuran sampel yang meningkat bahkan dapat menghilangkan variabilitas atau memperkenalkan variabilitas jika ada outlier yang mungkin memiliki peluang lebih tinggi untuk muncul dalam sampel yang lebih besar.

Juga, simulasi saya menunjukkan bahwa efek selain yang Anda tertarik mungkin menjadi signifikan dengan sampel yang lebih besar. Jadi, sementara nilai-p dengan benar memberi tahu Anda probabilitas bahwa hasil Anda nyata, mereka bisa nyata karena alasan selain apa yang Anda pikirkan misalnya, kombinasi peluang, beberapa efek sementara yang tidak Anda kendalikan, dan mungkin beberapa lainnya efek yang lebih kecil yang Anda perkenalkan tanpa menyadarinya. Jika studi sedikit dikuasai, risiko ini rendah. Masalahnya seringkali sulit untuk mengetahui kekuatan yang memadai misalnya, jika metrik dasar dan efek target minimum adalah tebakan atau ternyata berbeda dari yang diharapkan.

Saya juga menemukan artikel yang berpendapat bahwa sampel yang terlalu besar dapat membuat tes good-of-fit terlalu sensitif terhadap penyimpangan yang tidak penting, yang mengarah pada hasil yang berpotensi kontra-intuitif.

Yang mengatakan, saya percaya yang terbaik untuk berbuat salah di sisi kekuatan tinggi daripada rendah.

Vlad
sumber