Kesalahpahaman nilai-P?

16

Jadi saya sudah banyak membaca tentang bagaimana menafsirkan nilai-P dengan benar, dan dari apa yang saya baca, nilai-p mengatakan TIDAK ADA tentang kemungkinan bahwa hipotesis nol benar atau salah. Namun, ketika membaca pernyataan berikut:

Nilai p menunjukkan kemungkinan membuat kesalahan tipe I, atau menolak hipotesis nol ketika itu benar. Semakin kecil nilai p, semakin kecil probabilitas bahwa Anda akan salah menolak hipotesis nol.

EDIT: Dan kemudian 5 menit kemudian saya membaca:

Interpretasi yang salah dari nilai P sangat umum. Kesalahan yang paling umum adalah menafsirkan nilai P sebagai probabilitas untuk membuat kesalahan dengan menolak hipotesis nol yang benar (kesalahan Tipe I).

Ini membingungkan saya. Yang mana yang benar? Dan adakah yang bisa menjelaskan bagaimana menginterpretasikan nilai-p dengan benar dan bagaimana hal itu berkaitan dengan probabilitas membuat kesalahan tipe I?

rb612
sumber
1
The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is trueNilai p menunjukkan probabilitas apriori untuk membuat kesalahan tipe I, yaitu, menolak hipotesis nol dengan asumsi bahwa itu benar.
ttnphns
4
@ Paul: probabilitas untuk menolak kondisi nol pada null yang benar adalah probabilitas kesalahan tipe I, ini tidak sama dengan nilai p. Proabilitas kesalahan tipe I adalah sama (untuk variabel acak kontinu) dengan tingkat signifikansi yang dipilih, lihat juga jawaban saya di bawah ini.
Ya, saya mengerti sekarang, Anda benar sekali.
Paul
4
@ fcoppens Probabilitas kesalahan tipe I hanya sama dengan tingkat alpha yang dipilih sebelumnya jika Anda mengkondisikan pada hipotesis nol menjadi benar. Dalam kasus tanpa syarat Anda tidak tahu apakah nol itu benar atau salah, jadi Anda hanya bisa menentukan probabilitas kesalahan tipe I jika Anda memberikan probabilitas sebelumnya untuk kebenaran nol.
Michael Lew - mengembalikan Monica
@ Michael Lew: Pengondisian pada null ini disebutkan dalam jawaban saya di bawah ini?

Jawaban:

25

Karena komentar Anda, saya akan membuat dua bagian terpisah:

nilai-p

Dalam pengujian hipotesis statistik, Anda dapat menemukan 'bukti statistik' untuk hipotesis alternatif ; Seperti yang saya jelaskan dalam Apa yang terjadi jika kita gagal menolak hipotesis nol? , ini mirip dengan 'bukti oleh kontradiksi' dalam matematika.

Jadi jika kita ingin menemukan 'bukti statistik' maka kita mengasumsikan sebaliknya, yang kami tunjukkan dari apa yang kami coba buktikan yang kami sebut . Setelah ini kami mengambil sampel, dan dari sampel kami menghitung apa yang disebut uji statistik (misalnya nilai-t dalam uji-t).H0H1

Kemudian, ketika kita mengasumsikan bahwa benar dan bahwa sampel kita diambil secara acak dari distribusi di bawah , kita dapat menghitung probabilitas mengamati nilai yang melebihi atau sama dengan nilai yang diperoleh dari sampel (acak) kami. Probabilitas ini disebut nilai-p.H0H0

Jika nilai ini 'cukup kecil', yaitu lebih kecil dari tingkat signifikansi yang telah kami pilih, maka kami menolak dan kami menganggap adalah 'terbukti secara statistik'.H0H1

Beberapa hal penting dalam cara melakukan ini:

  • kami telah memperoleh probabilitas dengan asumsi bahwa benarH0
  • kami telah mengambil sampel acak dari distrubtion yang diasumsikan di bawahH0
  • kami memutuskan untuk menemukan bukti untuk jika statistik uji yang berasal dari sampel acak memiliki probabilitas rendah terlampaui. Jadi bukan tidak mungkin itu terlampaui ketika benar dan dalam kasus ini kita membuat kesalahan tipe I. H1H0

Jadi apa yang dimaksud dengan kesalahan tipe I: kesalahan tipe I dibuat ketika sampel, yang diambil secara acak dari , mengarah pada kesimpulan bahwa salah sedangkan kenyataannya itu benar.H0H0

Catatan bahwa ini menyiratkan bahwa p-value tidak probabilitas kesalahan tipe I . Memang, kesalahan tipe I adalah keputusan yang salah oleh tes dan keputusan hanya dapat dibuat dengan membandingkan nilai-p dengan tingkat signifikansi yang dipilih, dengan nilai-p saja orang tidak dapat membuat keputusan, hanya setelah membandingkan nilai p ke tingkat signifikansi yang dipilih bahwa suatu keputusan dibuat , dan selama tidak ada keputusan yang dibuat, kesalahan tipe I bahkan tidak didefinisikan.

Lalu apa nilai-p? Penolakan berpotensi salah adalah karena kita mengambil sampel acak di bawah , jadi bisa jadi kita memiliki 'nasib buruk' dengan menggambar sampel, dan bahwa 'nasib buruk' ini mengarah ke penolakan salah . Jadi nilai-p (meskipun ini tidak sepenuhnya benar) lebih seperti probabilitas menggambar '' sampel buruk ''. Interpretasi yang benar dari nilai-p adalah bahwa itu adalah probabilitas bahwa uji-statistik melebihi atau sama dengan nilai uji-statistik yang berasal dari sampel yang diambil secara acak di bawahH0H0H0H0


Tingkat penemuan palsu (FDR)

Sebagaimana dijelaskan di atas, setiap kali hipotesis nol ditolak, orang menganggap ini sebagai 'bukti statistik' untuk . Jadi kami telah menemukan pengetahuan ilmiah baru, oleh karena itu disebut penemuan . Juga dijelaskan di atas adalah bahwa kita dapat membuat penemuan palsu (yaitu menolak secara salah ) ketika kita membuat kesalahan tipe I. Dalam hal ini kita memiliki kepercayaan salah tentang kebenaran ilmiah. Kami hanya ingin menemukan hal-hal yang benar-benar benar dan oleh karena itu seseorang mencoba untuk menjaga penemuan palsu seminimal mungkin, yaitu seseorang akan mengendalikan kesalahan tipe I. Tidak terlalu sulit untuk melihat bahwa probabilitas kesalahan tipe I adalah tingkat signifikansi yang dipilih . Jadi untuk mengontrol kesalahan tipe I, seseorang memperbaikiH1H0αα-level mencerminkan kesediaan Anda untuk menerima '' bukti palsu ''.

Secara intuitif, ini berarti bahwa jika kita menarik sejumlah besar sampel, dan dengan masing-masing sampel kami melakukan tes, kemudian sebagian kecil dari tes ini akan mengarah pada kesimpulan yang salah. Penting untuk dicatat bahwa kami 'rata-rata atas banyak sampel' ; tes yang sama, banyak sampel. α

Jika kami menggunakan sampel yang sama untuk melakukan banyak tes berbeda maka kami memiliki beberapa kesalahan pengujian (lihat server saya tentang batas kesalahan Keluarga-bijaksana: Apakah menggunakan kembali kumpulan data pada studi yang berbeda dari pertanyaan independen menyebabkan beberapa masalah pengujian? ). Dalam hal ini seseorang dapat mengendalikan inflasi menggunakan teknik untuk mengendalikan tingkat kesalahan keluarga-bijaksana (FWER) , seperti misalnya koreksi Bonferroni.α

Pendekatan yang berbeda dari FWER adalah mengendalikan false discovery rate (FDR) . Dalam hal ini seseorang mengontrol jumlah penemuan palsu (FD) di antara semua penemuan (D), jadi ia mengendalikan , D adalah jumlah ditolak .FDDH0

Jadi probabilitas kesalahan tipe I ada hubungannya dengan mengeksekusi tes yang sama pada banyak sampel yang berbeda. Untuk sejumlah besar sampel, probabilitas kesalahan tipe I akan menyatu dengan jumlah sampel yang mengarah ke penolakan palsu dibagi dengan jumlah total sampel yang diambil .

The FDR harus dilakukan dengan banyak tes pada sampel yang sama dan untuk sejumlah besar tes itu akan konvergen ke sejumlah tes di mana kesalahan tipe I dibuat (yaitu jumlah penemuan palsu) dibagi dengan total jumlah penolakan dari (yaitu jumlah total penemuan)H0 .

Perhatikan bahwa, membandingkan dua paragraf di atas:

  1. Konteksnya berbeda; satu tes dan banyak sampel versus banyak tes dan satu sampel.
  2. Penyebut untuk menghitung probabilitas kesalahan tipe I jelas berbeda dari penyebut untuk menghitung FDR. Pembilangnya serupa, tetapi memiliki konteks yang berbeda.

FDR memberi tahu Anda bahwa, jika Anda melakukan banyak tes pada sampel yang sama dan Anda menemukan 1000 penemuan (yaitu penolakan ) maka dengan FDR 0,38 Anda akan memiliki penemuan palsu.H00.38×1000

Tongkat hijau
sumber
5
The correct interpretation of the p-value is that it is the probability that the test-statistic exceeds the value of the test-statistic derived from a randomly drawn sample under H0Benarkah begitu? Bukankah itu "sama dengan atau melebihi"? Nilai-P adalah probabilitas bahwa di bawah H0 yang benar kita mengamati perbedaan atau hubungan ini atau lebih kuat dari yang sebenarnya diamati.
ttnphns
@ttnphns Untuk statistik uji kontinu tidak ada perbedaan karena ukuran suatu titik adalah nol. Untuk statistik uji diskrit, Anda benar (+1). Saya mengubah teks yang sesuai.
1
Anda menggambar perbedaan yang sangat berguna antara nilai-P dan tingkat kesalahan tipe I, tapi saya pikir Anda harus lebih waspada terhadap kata "terbukti". Menambahkan pengubah "secara statistik" tidak melunakkannya, menurut pendapat saya.
Michael Lew - mengembalikan Monica
1
Anda telah berurusan dengan bukti seolah-olah hanya memiliki status biner: ada dan tidak ada. Dalam pemahaman standar bukti non-statistik, konsep kata memiliki keberadaan bertingkat, dan lebih rumit daripada dimensi kekuatan tunggal yang dapat ditangkap. Kesulitan datang dari ketidakcocokan pertimbangan tingkat kesalahan dengan interpretasi bukti biasa. Saya akan sangat tertarik untuk membaca akun apa pun yang menangkap interpretasi 'bukti' non-biner dalam kerangka FDR. (Saya belum pernah melihatnya.)
Michael Lew - mengembalikan Monica
1
Terima kasih atas koreksinya. Saya membuat perubahan terkait tadi malam dan mengkredit pos Anda.
Antoni Parellada
4

Pernyataan pertama tidak sepenuhnya benar.

Dari sebuah makalah yang bagus tentang kesalahpahaman tentang signifikansi: ( http://myweb.brooklyn.liu.edu/cortiz/PDF%20Files/Misinterpretations%20of%20Significance.pdf )

"[Pernyataan ini] mungkin terlihat mirip dengan definisi kesalahan Tipe I (yaitu, probabilitas menolak H0 meskipun sebenarnya benar), tetapi setelah benar-benar menolak H0, keputusan ini akan salah jika dan hanya jika H0 itu benar. Dengan demikian probabilitas "bahwa Anda membuat keputusan yang salah" adalah p (H0) dan probabilitas ini ... tidak dapat diturunkan dengan pengujian signifikansi nol hipotesis. "

Lebih sederhana, untuk menilai probabilitas bahwa Anda telah menolak H0 secara salah, Anda memerlukan probabilitas bahwa H0 benar yang tidak dapat Anda peroleh dengan menggunakan tes ini.

Henry B
sumber
Terima kasih! Jadi ketika saya membaca bagian pertama dari statistikdonewrong.com/p-value.html , penulis menyimpulkan FDR adalah 38%, jadi karena itu kemungkinan kesalahan tipe I adalah 38%?
rb612
FDR adalah tingkat Penemuan Salah dan sangat berbeda dari kesalahan tipe I, jadi jawaban untuk pertanyaan Anda dalam no. FDR ada hubungannya dengan beberapa pengujian, yaitu ketika Anda melakukan beberapa pengujian pada sampel yang sama, lihat stats.stackexchange.com/questions/164181/… . FDR adalah alternatif untuk Rasio Kesalahan Familywise, tetapi untuk menjelaskan bahwa jumlah karakter dalam komentar terlalu terbatas.
Saya menambahkan bagian kedua dalam jawaban saya untuk menjelaskan FDR.
1
Sama seperti tidak mungkin untuk menentukan probabilitas H0 benar tanpa prior, tidak mungkin untuk menentukan FDR tanpa prior. Berhati-hatilah dengan cara Anda menafsirkan makalah FDR, karena prior yang digunakan di dalamnya mungkin tidak relevan dengan keadaan eksperimental Anda sendiri.
Michael Lew - mengembalikan Monica
1

Interpretasi yang benar dari nilai-p adalah probabilitas kondisional dari hasil yang setidaknya konduktif terhadap hipotesis alternatif seperti nilai yang diamati (setidaknya sebagai "ekstrim"), dengan asumsi hipotesis nol adalah benar . Interpretasi yang salah umumnya melibatkan probabilitas marginal atau pengalihan kondisi:

p-value=P(At least as extreme as observed outcome|H0)P(Type I error).
Pasang kembali Monica
sumber
-1

Nilai-p memungkinkan kita untuk menentukan apakah hipotesis nol (atau hipotesis yang diklaim) dapat ditolak atau tidak. Jika nilai p kurang dari tingkat signifikansi, α, maka ini merupakan hasil yang signifikan secara statistik, dan hipotesis nol harus ditolak. Jika nilai p lebih besar dari tingkat signifikansi, α, maka hipotesis nol tidak dapat ditolak. Ini adalah alasan utama mencari nilai-p jika Anda menggunakan tabel atau menggunakan kalkulator online, seperti ini, kalkulator nilai-p , untuk menemukan nilai-p dari statistik uji.

Sekarang saya tahu bahwa Anda menyebutkan kesalahan tipe I dan tipe II. Ini benar-benar tidak ada hubungannya dengan nilai-p. Ini ada hubungannya dengan data asli, seperti ukuran sampel yang digunakan dan nilai yang diperoleh untuk data. Jika ukuran sampel terlalu kecil, misalnya, ini dapat menyebabkan kesalahan tipe I.

pengguna1445657
sumber
2
-1. Saya menyesal menyambut Anda ke situs kami dengan downvote, tetapi jawaban ini jelas tidak benar: itu tidak berarti bahwa nilai-p adalah probabilitas kebenaran hipotesis nol. Ini banyak dibahas dalam banyak utas tentang nilai-p dan uji hipotesis, seperti stats.stackexchange.com/questions/31 .
whuber
1
Saya memodifikasi sedikit jawaban asli untuk membuatnya lebih tepat.
user1445657