Batas kesalahan menurut keluarga: Apakah menggunakan kembali set data pada studi yang berbeda dari pertanyaan independen menyebabkan beberapa masalah pengujian?

Jika tim peneliti melakukan beberapa tes (hipotesis) pada set data yang diberikan, ada volume literatur yang menyatakan bahwa mereka harus menggunakan beberapa bentuk koreksi untuk pengujian ganda (Bonferroni, dll), bahkan jika tes tersebut independen. Pertanyaan saya adalah ini: apakah logika yang sama ini berlaku untuk beberapa tim menguji hipotesis pada set data yang sama? Mengatakan dengan cara lain - apa hambatan untuk perhitungan kesalahan berdasarkan keluarga? Haruskah peneliti dibatasi menggunakan kembali set data untuk eksplorasi saja?

hypothesis-testing multiple-comparisons toypajme
sumber

Jawaban:

Saya sangat tidak setuju dengan lompatan @fcoppens dari mengakui pentingnya koreksi multi-hipotesis dalam satu penyelidikan untuk mengklaim bahwa "Dengan alasan yang sama, hal yang sama berlaku jika beberapa tim melakukan tes ini."

Tidak ada pertanyaan bahwa semakin banyak penelitian dilakukan dan semakin banyak hipotesis diuji, semakin banyak kesalahan Tipe I akan terjadi. Tapi saya pikir ada kebingungan di sini tentang arti dari tingkat "kesalahan karena keluarga" dan bagaimana mereka berlaku dalam karya ilmiah yang sebenarnya.

Pertama, ingatlah bahwa beberapa pengujian pengujian biasanya muncul dalam perbandingan post-hoc yang tidak ada hipotesis pra-formulasi. Sama sekali tidak jelas bahwa koreksi yang sama diperlukan ketika ada seperangkat hipotesis yang telah ditentukan sebelumnya.

Kedua, "kebenaran ilmiah" dari sebuah publikasi individual tidak bergantung pada kebenaran dari setiap pernyataan individu dalam publikasi tersebut. Sebuah studi yang dirancang dengan baik mendekati hipotesis ilmiah secara keseluruhan (yang bertentangan dengan statistik) dari berbagai perspektif, dan menyatukan berbagai jenis hasil untuk mengevaluasi hipotesis ilmiah . Setiap hasil individu dapat dievaluasi dengan uji statistik.

Namun dengan argumen dari @ fcoppens, jika bahkan salah satu dari uji statistik individu tersebut membuat kesalahan Tipe I maka itu mengarah pada "kepercayaan salah 'kebenaran ilmiah'". Ini salah.

"Kebenaran ilmiah" dari hipotesis ilmiah dalam publikasi, yang bertentangan dengan validitas uji statistik individu, umumnya berasal dari kombinasi berbagai jenis bukti. Desakan pada berbagai jenis bukti membuat validitas hipotesis ilmiah kuat untuk kesalahan individu yang tak terelakkan terjadi. Ketika saya melihat kembali pada 50 atau lebih publikasi ilmiah saya, saya akan sulit sekali menemukan ada yang tetap begitu sempurna dalam setiap detail seperti yang tampaknya ditekankan oleh @ fcoppens. Namun saya juga sulit sekali menemukan di mana pun ilmiahhipotesis itu salah besar. Tidak lengkap, mungkin; dibuat tidak relevan dengan perkembangan selanjutnya di lapangan, tentu saja. Namun tidak "salah" dalam konteks keadaan pengetahuan ilmiah saat itu.

Ketiga, argumen mengabaikan biaya membuat kesalahan Tipe II. Kesalahan tipe II mungkin menutup seluruh bidang penyelidikan ilmiah yang menjanjikan. Jika rekomendasi @fcoppens harus diikuti, tingkat kesalahan Tipe II akan meningkat secara besar-besaran, sehingga merugikan perusahaan ilmiah.

Akhirnya, rekomendasi tidak mungkin untuk diikuti dalam praktik. Jika saya menganalisis satu set data yang tersedia untuk umum, saya mungkin tidak memiliki cara untuk mengetahui apakah orang lain telah menggunakannya, atau untuk tujuan apa. Saya tidak memiliki cara untuk mengoreksi tes hipotesis orang lain. Dan seperti yang saya katakan di atas, saya seharusnya tidak perlu.

EdM
sumber

Saya memberikan pertanyaan itu hadiah karena saya ingin membawanya 'dimuka'. Alasan mengapa saya ingin melakukan itu adalah karena saya pikir itu tidak mendapatkan perhatian yang cukup dan itu dan itu - ternyata, seperti yang saya alami dengan jawaban saya - tidak ada 'diskusi' lagi tentang hal itu. Seperti yang diperlihatkan, ini mungkin diskusi yang menarik, sehingga Anda mendapatkan (+1)

@fcoppens terima kasih telah membawa "muka" ini

EdM

Sejak posting ini, saya menemukan makalah besar yang membahas topik ini juga oleh Salzberg yang disebut "Pada Membandingkan Pengklasifikasi: Perangkap yang Harus Dihindari dan Pendekatan yang Disarankan" ( cs.ru.nl/~tomh/onderwijs/lrs/lrs_files/salzberg97comparing. pdf ). Saya menghargai diskusi ini. Jenis pertanyaan ini memunculkan kesenjangan antara statistik dan pembelajaran mesin / bidang terapan lainnya yang dibahas dalam posting ini: stats.stackexchange.com/questions/1194/… ....

toypajme

Sebuah makalah oleh Breiman juga membahas topik ini: projecteuclid.org/euclid.ss/1009213726 . Saya berharap makalah ini dapat menjadi referensi mudah bagi mereka yang tertarik dengan penelitian saat ini dan diskusi yang diterbitkan pada topik ini.

toypajme

α = 0.05

$\alpha=0.05$

$\alpha=5\%$ $H_0^{(1)}$ $H_1^{(1)}$ $H_0^{(2)}$ $H_1^{(2)}$

$H_0^{(1)}$ $\alpha=5\%$

$1 - (1-\alpha)^2$ $\alpha=5\%$ $9.75\%$

Dalam pengujian hipotesis statistik seseorang hanya dapat menemukan bukti statistik untuk hipotesis alternatif dengan menolak nol, menolak nol memungkinkan kita untuk menyimpulkan bahwa ada bukti yang mendukung hipotesis alternatif. (lihat juga Apa yang terjadi jika kita gagal menolak hipotesis nol? ).

Jadi penolakan yang salah terhadap yang nol memberi kita bukti yang salah sehingga keyakinan yang salah tentang '' kebenaran ilmiah ''. Inilah sebabnya mengapa inflasi tipe I ini (hampir dua kali lipat dari kesalahan tipe I) harus dihindari; kesalahan tipe I yang lebih tinggi menyiratkan keyakinan yang lebih keliru bahwa sesuatu terbukti secara ilmiah . Oleh karena itu orang '' mengontrol '' tipe Ierror pada tingkat keluarga.

$5\%$

Dengan alasan yang sama, hal yang sama berlaku jika beberapa tim melakukan tes ini (pada data yang sama).

Jelas, temuan di atas hanya berlaku jika kita tim bekerja pada data yang sama . Apa bedanya ketika mereka mengerjakan sampel yang berbeda?

$\sigma$ $H_0: \mu = 0$ $H_1: \mu \ne 0$ $\alpha=5\%$

$o$ $1.96\sigma$ $-1.96\sigma$

$5\%$ $H_0$ $H_0$ $\mu=0$ $H_0$ $o \not \in [-1.96\sigma;1.96\sigma$ $H_0$

Jadi jika kita menggunakan data yang sama, bisa jadi kesimpulan dari tes didasarkan pada sampel yang diambil dengan '' peluang buruk ''. Dengan sampel lain konteksnya berbeda.

Komunitas
sumber

Saya bukan penggemar menggunakan "bukti" sehubungan dengan bukti ilmiah.

Alexis

@Alexis: itu pasti karena bahasa Inggris bukan bahasa ibu saya, tapi saya pikir 'bukti' dan 'bukti' lebih atau mirip dengan sinomim, tetapi sepertinya bukan itu masalahnya?

"Bukti" formal, menurut saya, termasuk dalam matematika. Atau, kurang formal, termasuk dalam yurisprudensi. Bagi saya bukti bukan milik sains, karena itu menyiratkan akhir dari penyelidikan dan awal dari dogma, dan sains pada dasarnya adalah tentang penyelidikan. Dalam bahasa Inggris (dan di AS), misalnya, kita memiliki permainan retoris di mana individu anti-evolusi akan mengatakan "evolusi biologis hanyalah sebuah teori, dan belum terbukti secara ilmiah ." Tentu saja, triknya adalah membuat pendengar lupa bahwa sains tidak pernah membuktikan, hanya memberikan bukti.

Alexis