Interval kepercayaan dan probabilitas - di mana kesalahan dalam pernyataan ini?

11

Jika seseorang membuat pernyataan seperti di bawah ini:

"Secara keseluruhan, bukan perokok yang terpapar asap lingkungan memiliki risiko relatif penyakit jantung koroner 1,25 (interval kepercayaan 95 persen, 1,17-1,32) dibandingkan dengan bukan perokok yang tidak terpapar asap rokok."

Apa risiko relatif untuk populasi secara keseluruhan? Berapa banyak hal yang berhubungan dengan penyakit jantung koroner? Dari sejumlah besar hal yang dapat diuji, sangat sedikit yang benar-benar terhubung dengan penyakit jantung koroner, sehingga kemungkinan bahwa hal-hal tertentu yang dipilih secara acak terhubung adalah semakin kecil. Dengan demikian kita dapat mengatakan bahwa risiko relatif untuk populasi adalah 1. Tetapi interval yang dikutip tidak mengandung nilai 1. Jadi, apakah sebenarnya ada hubungan antara dua hal, probabilitas yang semakin kecil, atau ini adalah salah satu dari 5% interval yang tidak mengandung parameter. Karena yang terakhir jauh lebih mungkin daripada yang pertama, itulah yang harus kita asumsikan. Oleh karena itu, kesimpulan yang tepat adalah bahwa kumpulan data hampir pasti tidak khas dari populasi,

Tentu saja, jika ada beberapa dasar untuk berasumsi bahwa lebih dari 5% hal terkait dengan penyakit jantung koroner maka mungkin ada beberapa bukti dalam statistik untuk mendukung saran bahwa asap lingkungan adalah salah satunya. Akal sehat menunjukkan bahwa ini tidak mungkin.

Apa kesalahan dalam alasan mereka (karena semua organisasi kesehatan setuju bahwa ada literatur yang signifikan mengenai efek merusak dari perokok pasif)? Apakah karena premis mereka bahwa "Dari sejumlah besar hal yang dapat diuji, sangat sedikit yang benar-benar terhubung dengan penyakit jantung koroner"? Kalimat ini mungkin benar untuk setiap faktor yang dipilih secara acak (mis. Berapa banyak anjing yang dimiliki seseorang dengan risiko penyakit arteri koroner) tetapi probabilitas a priori jauh lebih tinggi untuk perokok pasif dan penyakit jantung koroner daripada hanya 'faktor acak' .

Apakah ini alasan yang benar? Atau ada yang lain?

BYS2
sumber
Teks yang dikutip sepertinya ... yah, seperti kutipan. Dari mana asalnya? :)
MånsT
haha ya itu kutipan, dari wikipedia ... seseorang menambahkan ini ke artikel untuk "interval kepercayaan". Saya mencoba untuk menghapusnya karena itu jelas salah, tetapi orang itu menolak jadi saya memerlukan alasan yang logis secara matematis alih-alih hanya "ini jelas salah" .. walaupun saya memiliki beberapa ide, saya ingin tahu apakah seseorang dapat menjelaskan persis apa kesalahan yang dilakukan di sini. Karena jika ini benar maka banyak penelitian dapat disangkal dengan alasan yang sama
BYS2
3
Jika sedikit berlarut-larut, saya akan pindah dan mencoba untuk membantu. Argumennya jelas keliru dan menunjukkan kuat padanya memiliki agenda.
Erik
3
Sebagai seorang ahli fisika yang menggunakan banyak statistik tetapi bukan ahli statistik, saya menemukan paragraf itu benar-benar tidak membantu, apalagi fakta bahwa itu kedengarannya salah. Saya selalu berpikir, mungkin salah, bahwa 95% cl berarti bahwa jika hipotesis nol itu benar maka 1 kali dalam 20 jika saya mengulangi percobaan saya akan mendapatkan hasil yang signifikan pada tingkat 95% (alasan yang baik menurut saya untuk tidak menggunakan kurang dari 99,9 tapi itulah diskusi lain). Posting itu tampaknya lebih merupakan titik tentang faktor-faktor yang berkorelasi dan benar-benar tidak membantu sama sekali non-ahli (atau siapa pun).
Bowler
@Erik. Pengguna memiliki sejarah boneka kaus kaki yang cukup cerdik (memiliki beberapa akun dan menggunakan suntingan IP) dan telah diblokir sebelumnya ... tidak yakin apa masalahnya. Tapi sepertinya seperti pembuat onar
BYS2

Jawaban:

10

Ada banyak hal yang salah di sini. Seperti yang dijelaskan oleh @ Néstor, ia secara implisit mengasumsikan probabilitas sebelumnya pada (tanpa tautan) dan (tautan).H 1H0H1

Dia menempatkan bobot yang sangat tinggi (sangat dekat dengan 1) pada dan yang sangat kecil pada . Ini adalah hal pertama yang dia lakukan, karena ada hubungan mekanis antara asap dan penyakit jantung (pertimbangkan perokok aktif), pertanyaannya adalah apakah paparannya cukup. Ini bahkan tidak mempertimbangkan studi sebelumnya yang dilakukan. Jadi benar-benar bukan salah satu dari "banyak hal" untuk diuji seperti mengenakan kaus kaki merah misalnya. Ini berarti dia sudah mulai dengan yang sangat bias dan tidak benar-benar dibenarkan sebelumnya.H 1H0H1

Dia kemudian memperbarui sebelumnya dengan menyatakan bahwa probabilitas mendapatkan interval kepercayaan-95% tidak mengandung nilai sebenarnya memiliki probabilitas 5%. Meskipun ini benar, ini bukan kesempatan untuk mendapatkan interval tertentu di bawah asumsi hipotesis nol . Perhatikan bahwa ia akan memperlakukan interval kepercayaan [1,17, 1,32] persis sama dengan interval kepercayaan [100, 200] yang jelas bermasalah.

Ini sangat penting untuk pendekatan Bayesian: sementara Anda memiliki probabilitas total 5% untuk tidak mendapatkan interval yang mengandung 1 dengan asumsi bahwa 1 adalah nol, kepadatan probabilitas untuk mendapatkan interval tertentu berbeda (dan lebih kecil).

Kesalahan ketiga adalah bahwa ia tidak pernah menentukan sebelumnya atau menyatakan seberapa besar kemungkinan dibandingkan dengan baginya untuk mendapatkan hasil itu. Itu hanya "sangat kecil".H 1H0H1

Kesalahan keempat adalah mengatakan bahwa tindakan yang tepat untuk diambil adalah mengabaikan data. Perhatikan bahwa hasilnya bahkan tidak bergantung pada data, argumennya menyiratkan tindakan yang persis sama akan dilakukan untuk data apa pun. Jika Anda menemukan tautan yang menarik tetapi menduga itu hanya kebetulan, hal ilmiah yang tepat untuk dilakukan adalah mencoba mereplikasi hasil Anda!

Erik
sumber
Terima kasih telah memperluas jawaban Nestor! Namun, pertanyaan singkat, Anda menyatakan bahwa "... ini bukan kesempatan untuk mendapatkan interval tertentu di bawah asumsi hipotesis nol." Jika kita ingin menemukan peluang untuk mendapatkan interval tertentu di bawah asumsi hipotesis nol, kita perlu menggunakan inferensi bayesian dan interval kredibel yang benar? Interval kepercayaan sering hanya memberi tahu Anda "peluang bahwa interval akan menyertakan nilai sebenarnya". Terima kasih lagi
BYS2
Interval kepercayaan frequentist dari 95% dibangun sehingga setidaknya 95% dari waktu interval dibangun mengandung nilai sebenarnya. Sejauh ini bagus. Ini dikatakan Anda juga dapat menghitung probabilitas (atau nilai kepadatan) untuk mendapatkan interval kepercayaan tertentu jika hipotesis nol itu benar. Lokasi persis mengandung lebih banyak "informasi" daripada hanya apakah itu termasuk hipotesis nol. Membuang informasi itu buruk ketika menggunakan inferensi Bayesian karena relevan dengan probabilitas nol yang benar.
Erik
Contoh mainannya adalah ini: Bayesian inference, Anda ingin membuat inferensi terhadap bentuk distribusi. Sebelum memungkinkan dua kemungkinan: H1: Distribusi adalah standar normal. H2: Distribusi normal, rata-rata = sd = 1. Sampel nilai-nilai distribusi memungkinkan Anda untuk memperbarui sebelumnya. Ketika Anda hanya diberi tanda-tanda nilai-nilai Anda, Anda juga dapat memperbarui sebelumnya, tetapi pembaruan itu akan kurang informatif karena Anda membuang informasi yang relevan.
Erik
6

Ini adalah masalah filosofis yang cukup menarik terkait dengan pengujian hipotesis (dan dengan demikian dalam pengaturan sering juga interval kepercayaan, seperti yang saya jelaskan di sini ).

Ada, tentu saja, banyak hipotesis yang dapat diselidiki - merokok pasif menyebabkan penyakit jantung koroner, minum alkohol menyebabkan chd, memiliki anjing menyebabkan chd, menjadi Capricorn menyebabkan chd ...

Jika kita memilih salah satu dari semua hipotesis ini secara acak, probabilitas kita untuk memilih hipotesis yang ternyata benar adalah nol. Ini tampaknya menjadi argumen dalam teks yang dikutip - bahwa sangat tidak mungkin kita menguji hipotesis yang sebenarnya.

Tetapi hipotesis itu tidak dipilih secara acak. Itu dimotivasi oleh pengetahuan epidemiologis dan medis sebelumnya tentang penyakit jantung koroner. Ada mekanisme teoretis yang menjelaskan bagaimana merokok dapat menyebabkan penyakit jantung koroner, sehingga tampaknya tidak masuk akal untuk berpikir bahwa itu akan bekerja untuk merokok pasif juga.

Kritik dalam kutipan mungkin valid untuk studi eksplorasi di mana set data ditambang untuk hipotesis. Itulah alasan mengapa kami tidak menerima "penemuan" seperti itu sebagai fakta - sebagai gantinya kami meminta agar hasilnya dapat direplikasi dalam studi baru. Either way, makalah yang dikutip dalam kutipan adalah studi meta dan karena itu tidak terpengaruh oleh masalah ini.

Kami telah melihat secara empiris selama berabad-abad terakhir bahwa pengujian hipotesis dimotivasi oleh teori dengan membandingkan hasil yang diprediksi dengan hasil yang diamati bekerja. Fakta bahwa kami percaya pada prosedur ini adalah alasan kami telah membuat banyak kemajuan dalam bidang kedokteran, teknik dan sains. Itulah alasan saya dapat menulis ini di komputer saya dan Anda dapat membacanya di komputer Anda. Untuk berargumen bahwa prosedur ini salah adalah dengan berargumen bahwa metode ilmiah pada dasarnya cacat - dan kami memiliki banyak bukti yang mengatakan sebaliknya.

Saya ragu bahwa ada sesuatu yang bisa diterima oleh seseorang yang tidak mau menerima bukti semacam ini ...

MånsT
sumber
Saya benar-benar tidak mendapatkan paragraf Anda sebelum yang terakhir; Apakah Anda mengacu pada "pengujian signifikansi" (misalnya, menghitung probabilitas data setidaknya lebih ekstrim) atau benar-benar ke "pengujian hipotesis" (pengaturan bayesian)? Siapa bilang salah satu dari mereka tidak berfungsi jika Anda mengajukan pertanyaan yang tepat?
Néstor
@ Néstor: Saya mungkin harus menulisnya secara berbeda. Saya tidak benar-benar membuat pernyataan tentang pengujian hipotesis statistik , melainkan membuat pengamatan tentang fakta bahwa membandingkan prediksi model dengan data dunia nyata (yaitu "pengujian" jika hipotesis benar) tampaknya menjadi cara yang sangat efisien untuk melakukan ilmu. Di jantung kritik terhadap CI ini, saya percaya, keengganan untuk menerima metode ini. Jenis argumen yang diberikan dalam kutipan akan berlaku untuk metode statistik apa pun - dengan nol probabilitas sebelumnya untuk semua hipotesis nol, kami tidak akan pernah percaya pada apa pun.
MånsT
6

Saya benar-benar tidak mengerti mengapa penulis mengatakan bahwa kemungkinan risiko relatif penyakit jantung koroner menjadi 1 bisa sangat kecil berdasarkan analisisnya hanya pada Interval Keyakinan; ini jelas salah. Bagi saya, sepertinya dia menggunakan pengaturan yang sering, tetapi dia beralasan bayesianly (yang sangat umum).

Satu-satunya hal yang terkait dengan CI adalah tes signifikansi klasik tetapi, seperti yang kita semua tahu, jika { Tidak ada hubungan antara dan penyakit jantung koroner }, mereka memberi Anda (di mana menunjukkan " data setidaknya sama ekstrimnya dengan apa yang kami amati "), bukan (di mana adalah datanya), yang merupakan klaimnya, dan apa yang terkait persis dengan apa yang Anda tunjukkan; Anda harus memasukkan pengetahuan sebelumnya tentang tautan khusus itu! Ini berasal dari fakta bahwa: oleh Bayes Theorem, di mana adalah probabilitas sebelumnya pada .p ( D e | H 0 ) D e p ( H 0 | D ) D p ( H 0 | D ) p ( D | H 0 ) p ( H 0 ) , p ( H 0 ) H 0H0:p(De|H0)Dep(H0|D)D

p(H0|D)p(D|H0)p(H0),
p(H0)H0
Néstor
sumber
Bukankah H0 akan: tidak ada hubungan antara merokok pasif dan PJK? Karena hipotesis nol biasanya hipotesis yang tidak berpengaruh. Terlepas dari itu, terima kasih atas jawaban ini!
BYS2
Ya kamu benar! Saya tidak menyadarinya sampai Anda menunjukkan :-). Saya akan mengedit jawaban saya.
Néstor
3

Sementara ada sesuatu pada garis pemikiran Bayesian ini (didekonstruksi dengan sangat teliti oleh Erik!), Dan memang garis pemikiran ini akan menjelaskan mengapa banyak temuan medis tidak dapat direproduksi, argumen khusus ini berlaku bahwa berpikir seperti palu godam.

Penulis mengandaikan dua hal tanpa memberikan bukti: bahwa paparan asap dipilih secara acak, dan bahwa hampir tidak ada di dunia yang menyebabkan penyakit jantung. Di bawah standar penalaran yang lemah ini, penulis dapat menolak kesimpulan APAPUN bahwa sesuatu menyebabkan penyakit jantung. Yang perlu Anda lakukan adalah menegaskan:

  1. Bahwa hipotesis dipilih secara acak, dan
  2. Penyakit jantung itu hampir mendekati nol penyebabnya.

Kedua pernyataan ini masih bisa diperdebatkan (dan, berdasarkan pengetahuan umum saya, sangat mungkin salah). Tetapi, dengan asumsi-asumsi ini, bahkan dengan mengamati bahwa 100% orang yang terpapar asap rokok mati karena serangan jantung dalam setahun, Anda dapat menyatakan bahwa hubungan itu hanyalah korelasi kebetulan dengan penyebab tersembunyi, tunggal, "benar". .

Jonathan
sumber
Baiklah terima kasih atas pemikiran Anda! Ya, penulis pasti berasumsi bahwa hipotesis itu 'dipilih secara acak' yang tidak benar.
BYS2
-1

Saya tidak melihat ada yang salah dengan paragraf dalam kutipan, tetapi saya belum melihat datanya dan tidak dapat memeriksa nomornya. Namun, dua paragraf yang mengikutinya sangat tidak jelas.

Misalkan dia mengatakan, "Secara keseluruhan, bukan perokok yang gemuk tidak sehat memiliki risiko relatif penyakit jantung koroner 1,25 (interval kepercayaan 95 persen, 1,17-1,32) dibandingkan dengan bukan perokok yang memiliki berat badan normal." Adakah yang punya alasan untuk meragukannya?

Emil Friedman
sumber
Nah paragraf pertama dalam kutipan hanya penulis yang mengutip kesimpulan dari studi epidemiologi sehingga tidak ada yang salah dengan itu .. Beberapa paragraf berikutnya adalah dia mencoba untuk mendiskreditkan penelitian yang merupakan tempat dia membuat beberapa pernyataan yang meragukan.
BYS2