Memahami Gelman & Carlin "Beyond Power Calculations: ..." (2014)

11

Saya membaca Gelman & Carlin "Beyond Power Calculations: Menilai Tipe S (Sign) dan Tipe M (Magnitude) Errors" (2014). Saya mencoba memahami ide utama, takeway utama, tetapi saya bingung. Adakah yang bisa membantu saya menyaring esensinya?

Makalahnya kira-kira seperti ini (jika saya memahaminya dengan benar).

  • Studi statistik dalam psikologi sering diganggu oleh sampel kecil.
  • Bersyarat pada hasil yang signifikan secara statistik dalam studi yang diberikan,
    (1) ukuran efek sebenarnya cenderung sangat ditaksir dan
    (2) tanda efeknya mungkin berlawanan dengan probabilitas tinggi - kecuali ukuran sampel cukup besar.
  • Di atas ditunjukkan menggunakan tebakan sebelumnya dari ukuran efek dalam populasi, dan efek itu biasanya dianggap kecil.

Masalah pertama saya adalah, mengapa kondisi pada hasil yang signifikan secara statistik? Apakah itu untuk mencerminkan bias publikasi? Tapi sepertinya tidak demikian. Jadi mengapa?

Masalah kedua saya adalah, jika saya melakukan penelitian sendiri, haruskah saya memperlakukan hasil saya berbeda dari yang biasa saya lakukan (saya sering melakukan statistik, tidak terlalu akrab dengan Bayesian)? Misalnya saya akan mengambil sampel data, memperkirakan model, dan mencatat perkiraan titik untuk beberapa efek yang menarik dan kepercayaan yang terikat di sekitarnya. Haruskah saya sekarang tidak mempercayai hasil saya? Atau haruskah saya tidak mempercayainya jika secara statistik signifikan? Bagaimana perubahan yang diberikan sebelumnya itu?

Apa takeaway utama (1) untuk "produsen" penelitian statistik dan (2) untuk pembaca makalah statistik terapan?

Referensi:

PS Saya pikir elemen baru bagi saya di sini adalah dimasukkannya informasi sebelumnya, yang saya tidak yakin bagaimana memperlakukannya (datang dari paradigma frequentist).

Richard Hardy
sumber
Seperti yang Anda lihat, saya cukup bingung, jadi pertanyaan saya mungkin tidak masuk akal atau masuk akal. Saya akan menghargai setiap petunjuk untuk membuat lebih masuk akal dari kertas yang saya pelajari. Saya berharap dapat mengajukan pertanyaan yang lebih masuk akal saat pemahaman saya tentang masalah ini berkembang.
Richard Hardy
7
Perhatikan bahwa mereka mengatur premis makalah ini tepat di awal: " Anda baru saja selesai menjalankan eksperimen. Anda menganalisis hasilnya, dan Anda menemukan efek yang signifikan . Sukses! Tapi tunggu — berapa banyak informasi yang benar-benar diberikan studi Anda kepada Anda Berapa banyak Anda harus mempercayai hasil Anda? "--- mereka menggambarkan apa yang terjadi / apa yang tersirat ketika Anda memiliki signifikansi. Mereka menggunakan konsekuensi tersebut untuk memotivasi fokus pada hal-hal selain yang penting.
Glen_b -Reinstate Monica
Anda harus tidak mempercayai hasil Anda - ya - jika Anda menjalankan beberapa tes signifikansi dan memfilter semua yang ternyata tidak signifikan; ini semacam "bias publikasi" tetapi itu bisa terjadi tanpa publikasi apa pun, cukup di dalam laboratorium seseorang selama beberapa bulan percobaan atau bertahun-tahun. Setiap orang melakukan hal seperti itu sampai batas tertentu, karenanya minat pedagogis untuk mengkondisikan hasil yang signifikan.
Amuba mengatakan Reinstate Monica
@amoeba, OK, tetapi jika (secara hipotetis) saya memperkirakan hanya satu model dan fokus hanya pada satu parameter yang ditentukan sebelumnya (jadi sama sekali tidak ada beberapa pengujian), apakah hasil Gelman & Carlin akan mengubah apa pun? Bagaimana dengan memasukkan informasi sebelumnya?
Richard Hardy
2
Informasi sebelumnya diperlukan untuk menilai tingkat penemuan palsu; logika pengujian signifikansi yang biasa hanya menjamin tingkat kesalahan tipe I P (angka | nol). Untuk memperkirakan P (null | signif), Anda perlu memohon beberapa sebelumnya. Itulah yang dilakukan Gelman & Carlin di sini. Jika Anda hanya memperkirakan satu model maka "tingkat penemuan palsu" tidak ada artinya (dalam pendekatan frequentist); tetapi biasanya orang memperkirakan banyak model :-) atau setidaknya mereka membaca literatur yang terdiri dari orang lain yang memperkirakan banyak model.
Amuba kata Reinstate Monica

Jawaban:

5

Saya membaca ulang makalahnya dan kali ini sepertinya jauh lebih jelas. Sekarang juga komentar yang bermanfaat dari @Glen_b dan @amoeba sangat masuk akal.

Seluruh diskusi didasarkan pada titik awal bahwa hasil yang signifikan secara statistik telah diperoleh. Tergantung pada itu, kami memperkirakan ukuran efek didistribusikan berbeda dari itu akan absen Makalah ini tampaknya menargetkan dua masalah:

Pβ^(|β^ is statistically significant)Pβ^().
  1. Bias publikasi (hanya hasil yang signifikan secara statistik yang dipublikasikan) dan
  2. Bias dalam perhitungan desain untuk studi baru (mengambil ukuran efek yang diharapkan terlalu besar sebagai tolok ukur).

Berita baiknya adalah, kedua masalah tersebut dapat diatasi dengan cara yang memuaskan.

  1. βplausibleβ^s.e.(β^)tPβ^()
  2. βplausible

Untuk secara singkat menjawab dua pertanyaan saya sendiri:

  1. Ini adalah tentang bias publikasi, meskipun tidak dalam arti pengerukan data tetapi dalam konteks studi yang kurang kuat; ada hasil yang signifikan secara statistik kemungkinan menjadi bagian dari, katakanlah, penolakan 5% di bawah nol (sehingga nol sebenarnya benar tetapi kita kebetulan jauh dari itu secara kebetulan) daripada penolakan di bawah alternatif (di mana null tidak benar dan hasilnya "asli").
  2. Saya harus berhati-hati dalam menolak nol, karena hasil yang signifikan secara statistik kemungkinan disebabkan oleh kebetulan (walaupun peluang terbatas pada, katakanlah, 5%) daripada karena efek "asli" (karena daya rendah) .
Richard Hardy
sumber
2
Jawaban oleh Glen_b ini juga sangat membantu.
Richard Hardy
βplausibleD
@ Patrickrick., Terima kasih. Saya akan melihat sedikit nanti. (Saya tahu saya sudah mengangkat jawaban Anda sebelumnya; itu artinya saya sudah merasa terbantu.)
Richard Hardy
1
Richard, saya telah mengembangkan fungsi R untuk memperkirakan kesalahan Tipe "S" dan Tipe "M" untuk kasus ukuran efek yang lebih umum, bukan yang ditunjukkan Gelman di bawah distribusi normal. Ada saat Anda membaca makalah proses pemulihan sederhana dari temuan sebelumnya, dan signifikan secara statistik. Tetapi proses Utuh sepenuhnya didasarkan pada analisis kekuatan. Pada intinya, untuk studi berisik SE besar dan dengan asumsi beberapa wajar oleh efek yang masuk akal secara empiris diverifikasi ukuran yang Anda dapat memperoleh wajar ...
rnorouzian
1
... perkiraan mengenai apa yang harus dimasukkan dalam studi di masa depan dalam hal ukuran sampel yang diperlukan untuk menghindari mendapatkan tingkat tinggi dari Tipe "S" dan tingkat berlebihan yang tinggi (yaitu, Tipe "M"). Sebagai catatan, Jenis Gelman "S" adalah bagian sederhana di bawah distribusi ukuran efek yang mendasarinya yang berada di sisi berlawanan dari efek bawahan dibagi dengan kekuatan. Pokoknya, lihat fungsinya jika itu bisa membantu.
rnorouzian
2

Ada sudut lain dari makalah ini yang dapat membantu jika Anda sudah menerapkan analisis Bayesian dan tidak peduli dengan bagian signifikansi statistik.

PβVβ

p(β|V)p(V|β)p(β)

VVp(V|β)

βplausibleP(V|β)β=βplausibleVβplausible adalah ukuran efek sebenarnya.

Vβ

VV

ββplausible

βplausible

βhallSebuahkamussayable

Anda harus berhati-hati bahwa tidak ada yang menyalahgunakan metrik "kekuatan" ini seperti itu adalah hal yang sama dengan perhitungan daya yang sering terjadi, yang cukup sulit. Tetapi semua metrik ini cukup berguna untuk analisis desain prospektif dan retrospektif bahkan ketika seluruh prosedur pemodelan adalah Bayesian dan tidak akan merujuk pada hasil signifikansi statistik apa pun.

Ely
sumber