Jadi saya sudah banyak membaca tentang bagaimana menafsirkan nilai-P dengan benar, dan dari apa yang saya baca, nilai-p mengatakan TIDAK ADA tentang kemungkinan bahwa hipotesis nol benar atau salah. Namun, ketika membaca pernyataan berikut:
Nilai p menunjukkan kemungkinan membuat kesalahan tipe I, atau menolak hipotesis nol ketika itu benar. Semakin kecil nilai p, semakin kecil probabilitas bahwa Anda akan salah menolak hipotesis nol.
EDIT: Dan kemudian 5 menit kemudian saya membaca:
Interpretasi yang salah dari nilai P sangat umum. Kesalahan yang paling umum adalah menafsirkan nilai P sebagai probabilitas untuk membuat kesalahan dengan menolak hipotesis nol yang benar (kesalahan Tipe I).
Ini membingungkan saya. Yang mana yang benar? Dan adakah yang bisa menjelaskan bagaimana menginterpretasikan nilai-p dengan benar dan bagaimana hal itu berkaitan dengan probabilitas membuat kesalahan tipe I?
sumber
The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is true
Nilai p menunjukkan probabilitas apriori untuk membuat kesalahan tipe I, yaitu, menolak hipotesis nol dengan asumsi bahwa itu benar.Jawaban:
Karena komentar Anda, saya akan membuat dua bagian terpisah:
nilai-p
Dalam pengujian hipotesis statistik, Anda dapat menemukan 'bukti statistik' untuk hipotesis alternatif ; Seperti yang saya jelaskan dalam Apa yang terjadi jika kita gagal menolak hipotesis nol? , ini mirip dengan 'bukti oleh kontradiksi' dalam matematika.
Jadi jika kita ingin menemukan 'bukti statistik' maka kita mengasumsikan sebaliknya, yang kami tunjukkan dari apa yang kami coba buktikan yang kami sebut . Setelah ini kami mengambil sampel, dan dari sampel kami menghitung apa yang disebut uji statistik (misalnya nilai-t dalam uji-t).H0 H1
Kemudian, ketika kita mengasumsikan bahwa benar dan bahwa sampel kita diambil secara acak dari distribusi di bawah , kita dapat menghitung probabilitas mengamati nilai yang melebihi atau sama dengan nilai yang diperoleh dari sampel (acak) kami. Probabilitas ini disebut nilai-p.H0 H0
Jika nilai ini 'cukup kecil', yaitu lebih kecil dari tingkat signifikansi yang telah kami pilih, maka kami menolak dan kami menganggap adalah 'terbukti secara statistik'.H0 H1
Beberapa hal penting dalam cara melakukan ini:
Jadi apa yang dimaksud dengan kesalahan tipe I: kesalahan tipe I dibuat ketika sampel, yang diambil secara acak dari , mengarah pada kesimpulan bahwa salah sedangkan kenyataannya itu benar.H0 H0
Catatan bahwa ini menyiratkan bahwa p-value tidak probabilitas kesalahan tipe I . Memang, kesalahan tipe I adalah keputusan yang salah oleh tes dan keputusan hanya dapat dibuat dengan membandingkan nilai-p dengan tingkat signifikansi yang dipilih, dengan nilai-p saja orang tidak dapat membuat keputusan, hanya setelah membandingkan nilai p ke tingkat signifikansi yang dipilih bahwa suatu keputusan dibuat , dan selama tidak ada keputusan yang dibuat, kesalahan tipe I bahkan tidak didefinisikan.
Lalu apa nilai-p? Penolakan berpotensi salah adalah karena kita mengambil sampel acak di bawah , jadi bisa jadi kita memiliki 'nasib buruk' dengan menggambar sampel, dan bahwa 'nasib buruk' ini mengarah ke penolakan salah . Jadi nilai-p (meskipun ini tidak sepenuhnya benar) lebih seperti probabilitas menggambar '' sampel buruk ''. Interpretasi yang benar dari nilai-p adalah bahwa itu adalah probabilitas bahwa uji-statistik melebihi atau sama dengan nilai uji-statistik yang berasal dari sampel yang diambil secara acak di bawahH0 H0 H0 H0
Tingkat penemuan palsu (FDR)
Sebagaimana dijelaskan di atas, setiap kali hipotesis nol ditolak, orang menganggap ini sebagai 'bukti statistik' untuk . Jadi kami telah menemukan pengetahuan ilmiah baru, oleh karena itu disebut penemuan . Juga dijelaskan di atas adalah bahwa kita dapat membuat penemuan palsu (yaitu menolak secara salah ) ketika kita membuat kesalahan tipe I. Dalam hal ini kita memiliki kepercayaan salah tentang kebenaran ilmiah. Kami hanya ingin menemukan hal-hal yang benar-benar benar dan oleh karena itu seseorang mencoba untuk menjaga penemuan palsu seminimal mungkin, yaitu seseorang akan mengendalikan kesalahan tipe I. Tidak terlalu sulit untuk melihat bahwa probabilitas kesalahan tipe I adalah tingkat signifikansi yang dipilih . Jadi untuk mengontrol kesalahan tipe I, seseorang memperbaikiH1 H0 α α -level mencerminkan kesediaan Anda untuk menerima '' bukti palsu ''.
Secara intuitif, ini berarti bahwa jika kita menarik sejumlah besar sampel, dan dengan masing-masing sampel kami melakukan tes, kemudian sebagian kecil dari tes ini akan mengarah pada kesimpulan yang salah. Penting untuk dicatat bahwa kami 'rata-rata atas banyak sampel' ; tes yang sama, banyak sampel.α
Jika kami menggunakan sampel yang sama untuk melakukan banyak tes berbeda maka kami memiliki beberapa kesalahan pengujian (lihat server saya tentang batas kesalahan Keluarga-bijaksana: Apakah menggunakan kembali kumpulan data pada studi yang berbeda dari pertanyaan independen menyebabkan beberapa masalah pengujian? ). Dalam hal ini seseorang dapat mengendalikan inflasi menggunakan teknik untuk mengendalikan tingkat kesalahan keluarga-bijaksana (FWER) , seperti misalnya koreksi Bonferroni.α
Pendekatan yang berbeda dari FWER adalah mengendalikan false discovery rate (FDR) . Dalam hal ini seseorang mengontrol jumlah penemuan palsu (FD) di antara semua penemuan (D), jadi ia mengendalikan , D adalah jumlah ditolak .FDD H0
Jadi probabilitas kesalahan tipe I ada hubungannya dengan mengeksekusi tes yang sama pada banyak sampel yang berbeda. Untuk sejumlah besar sampel, probabilitas kesalahan tipe I akan menyatu dengan jumlah sampel yang mengarah ke penolakan palsu dibagi dengan jumlah total sampel yang diambil .
The FDR harus dilakukan dengan banyak tes pada sampel yang sama dan untuk sejumlah besar tes itu akan konvergen ke sejumlah tes di mana kesalahan tipe I dibuat (yaitu jumlah penemuan palsu) dibagi dengan total jumlah penolakan dari (yaitu jumlah total penemuan)H0 .
Perhatikan bahwa, membandingkan dua paragraf di atas:
FDR memberi tahu Anda bahwa, jika Anda melakukan banyak tes pada sampel yang sama dan Anda menemukan 1000 penemuan (yaitu penolakan ) maka dengan FDR 0,38 Anda akan memiliki penemuan palsu.H0 0.38×1000
sumber
The correct interpretation of the p-value is that it is the probability that the test-statistic exceeds the value of the test-statistic derived from a randomly drawn sample under H0
Benarkah begitu? Bukankah itu "sama dengan atau melebihi"? Nilai-P adalah probabilitas bahwa di bawah H0 yang benar kita mengamati perbedaan atau hubungan ini atau lebih kuat dari yang sebenarnya diamati.Pernyataan pertama tidak sepenuhnya benar.
Dari sebuah makalah yang bagus tentang kesalahpahaman tentang signifikansi: ( http://myweb.brooklyn.liu.edu/cortiz/PDF%20Files/Misinterpretations%20of%20Significance.pdf )
Lebih sederhana, untuk menilai probabilitas bahwa Anda telah menolak H0 secara salah, Anda memerlukan probabilitas bahwa H0 benar yang tidak dapat Anda peroleh dengan menggunakan tes ini.
sumber
Interpretasi yang benar dari nilai-p adalah probabilitas kondisional dari hasil yang setidaknya konduktif terhadap hipotesis alternatif seperti nilai yang diamati (setidaknya sebagai "ekstrim"), dengan asumsi hipotesis nol adalah benar . Interpretasi yang salah umumnya melibatkan probabilitas marginal atau pengalihan kondisi:
sumber
Nilai-p memungkinkan kita untuk menentukan apakah hipotesis nol (atau hipotesis yang diklaim) dapat ditolak atau tidak. Jika nilai p kurang dari tingkat signifikansi, α, maka ini merupakan hasil yang signifikan secara statistik, dan hipotesis nol harus ditolak. Jika nilai p lebih besar dari tingkat signifikansi, α, maka hipotesis nol tidak dapat ditolak. Ini adalah alasan utama mencari nilai-p jika Anda menggunakan tabel atau menggunakan kalkulator online, seperti ini, kalkulator nilai-p , untuk menemukan nilai-p dari statistik uji.
Sekarang saya tahu bahwa Anda menyebutkan kesalahan tipe I dan tipe II. Ini benar-benar tidak ada hubungannya dengan nilai-p. Ini ada hubungannya dengan data asli, seperti ukuran sampel yang digunakan dan nilai yang diperoleh untuk data. Jika ukuran sampel terlalu kecil, misalnya, ini dapat menyebabkan kesalahan tipe I.
sumber