Membandingkan dan membandingkan, nilai-p, tingkat signifikansi dan kesalahan tipe I

21

Saya bertanya-tanya apakah ada yang bisa memberikan ikhtisar singkat tentang definisi dan penggunaan nilai-p, tingkat signifikansi dan kesalahan tipe I.

Saya mengerti bahwa nilai-p didefinisikan sebagai "probabilitas untuk memperoleh statistik uji setidaknya sama ekstrimnya dengan yang kami amati", sementara tingkat signifikansi hanyalah nilai batas yang sewenang-wenang untuk mengukur apakah nilai-p signifikan atau tidak. . Kesalahan tipe I adalah kesalahan menolak hipotesis nol yang benar. Namun, saya tidak yakin mengenai perbedaan antara tingkat signifikansi dan kesalahan tipe I, bukankah konsepnya sama?

Misalnya, asumsikan percobaan yang sangat sederhana di mana saya melempar koin 1000 kali dan menghitung berapa kali ia mendarat di 'kepala'. Hipotesis nol saya, H0, adalah bahwa kepala = 500 (koin tidak bias). Saya kemudian menetapkan tingkat signifikansi saya pada alpha = 0,05.

Saya membalik koin 1000 kali dan kemudian saya menghitung nilai-p, jika nilai-p> 0,05 maka saya gagal menolak hipotesis nol dan jika nilai-p <<0,05 maka saya menolak hipotesis nol.

Sekarang jika saya melakukan percobaan ini berulang kali, setiap kali menghitung nilai p dan menolak atau gagal menolak hipotesis nol dan menghitung berapa banyak saya menolak / gagal menolak, maka saya akhirnya akan menolak 5% hipotesis nol yang pada kenyataannya benar, apakah itu benar? Ini adalah definisi kesalahan tipe I. Oleh karena itu, tingkat signifikansi dalam pengujian signifikansi Fisher pada dasarnya adalah kesalahan tipe I dari pengujian hipotesis Neyman-Pearson jika Anda melakukan percobaan berulang.

Sekarang untuk nilai-p, jika saya mendapatkan nilai-p dari 0,06 dari percobaan terakhir saya dan saya melakukan beberapa percobaan dan menghitung semua yang saya dapatkan nilai p dari 0 hingga 0,06, maka saya juga tidak akan memiliki 6% kemungkinan menolak hipotesis nol sejati?

BYS2
sumber

Jawaban:

16

Pertanyaannya terlihat sederhana, tetapi refleksi Anda di sekitarnya menunjukkan bahwa itu tidak sesederhana itu.

Sebenarnya, nilai-p adalah tambahan yang relatif terlambat untuk teori statistik. Menghitung nilai-p tanpa komputer sangat membosankan; Inilah sebabnya mengapa satu-satunya cara untuk melakukan tes statistik hingga saat ini adalah dengan menggunakan tabel tes statistik, seperti yang saya jelaskan dalam posting blog ini . Karena tabel tersebut dihitung untuk tingkat tetap (biasanya 0,05, 0,01 dan 0,001) Anda hanya bisa melakukan tes dengan level tersebut.α

Komputer membuat tabel itu tidak berguna, tetapi logika pengujiannya masih sama. Anda harus:

  1. Merumuskan hipotesis nol.
  2. Merumuskan hipotesis alternatif.
  3. Tentukan kesalahan tipe I maksimum (probabilitas penolakan palsu hipotesis nol) yang siap Anda terima.
  4. Rancang wilayah penolakan. Probabilitas bahwa statistik uji jatuh di wilayah penolakan mengingat bahwa hipotesis nol adalah level Anda . Seperti yang dijelaskan oleh @ MånsT, ini seharusnya tidak lebih kecil dari kesalahan tipe I Anda yang dapat diterima, dan dalam banyak kasus menggunakan perkiraan asimptotik.α
  5. Lakukan eksperimen acak, hitung statistik uji dan lihat apakah itu jatuh di wilayah penolakan.

Secara teori, ada kesetaraan yang ketat antara peristiwa "statistik jatuh di daerah penolakan" dan "p-value kurang dari "α , yang mengapa itu merasa bahwa Anda dapat melaporkan p-nilai sebagai gantinya . Dalam praktiknya, ini memungkinkan Anda untuk melewati langkah 3. dan mengevaluasi kesalahan tipe I setelah tes selesai .

Untuk kembali ke posting Anda, pernyataan hipotesis nol salah. Hipotesis nol adalah bahwa probabilitas membalik kepala adalah (hipotesis nol tidak dapat berkaitan dengan hasil percobaan acak).1/2

Jika Anda mengulangi percobaan lagi dan lagi dengan nilai p ambang batas 0,05, ya, Anda harus memiliki penolakan sekitar 5%. Dan jika Anda menetapkan cut-off nilai-p dari 0,06, Anda harus berakhir dengan penolakan sekitar 6%. Lebih umum, untuk pengujian kontinu, dengan definisi nilaip

Prob(p<x)=x,(0<x<1),

yang hanya kira-kira benar untuk tes diskrit.

Berikut adalah beberapa kode R yang saya harap dapat sedikit memperjelas ini. Tes binomial relatif lambat, jadi saya hanya melakukan 10.000 percobaan acak di mana saya melempar 1000 koin. Saya melakukan tes binomial dan mengumpulkan 10.000 nilai p.

set.seed(123)
# Generate 10,000 random experiments of each 1000 coin flipping
rexperiments <- rbinom(n=10000, size=1000, prob=0.5)
all_p_values <- rep(NA, 10000)
for (i in 1:10000) {
    all_p_values[i] <- binom.test(rexperiments[i], 1000)$p.value
}
# Plot the cumulative density of p-values.
plot(ecdf(all_p_values))
# How many are less than 0.05?
mean(all_p_values < 0.05)
# [1] 0.0425
# How many are less than 0.06?
mean(all_p_values < 0.06)
# 0.0491

Anda dapat melihat bahwa proporsinya tidak tepat, karena ukuran sampel tidak terbatas dan tesnya terpisah, tetapi masih ada peningkatan sekitar 1% di antara keduanya.

gui11aume
sumber
@ MånsT Terima kasih! Memberi +1 kepada Anda untuk perbedaan antara tes kontinu dan diskrit (yang saya harus benar-benar diabaikan).
gui11aume
4
@ gui11aume, terima kasih atas masukan Anda! Namun, pernyataan Anda "nilai-p adalah tambahan yang relatif terlambat untuk teori statistik" adalah aneh. Dari apa yang saya baca, 'pengujian signifikansi' Fisher dengan nilai-p berasal sekitar tahun 1925. Sementara 'pengujian hipotesis' Neyman-Pearson muncul sebagai 'perbaikan' untuk pekerjaan Fisher beberapa tahun kemudian. Meskipun benar bahwa nilai-p sulit untuk dihitung (karenanya mengapa tingkat signifikansi standar digunakan), karyanya bersifat monumental. Bahkan, ia disebut sebagai 'bapak statistik' karena ia membentuk dasar dari banyak statistik modern.
BYS2
2
@ BYS2 Benar sekali (+1). Teori nilai p berawal dari asal statistik. Ini adalah penggunaan luas mereka yang baru-baru ini. Terima kasih telah memperhatikan ;-)
gui11aume
@guillaume terima kasih untuk itu, saya punya pertanyaan cepat lain. Anda mengatakan bahwa hipotesis nol saya Tidak boleh H 0 = 500 tetapi saya telah menggunakan banyak teks misalnya: hipotesis nul l adalah bahwa mean akan 0 atau bahwa perbedaan dalam mean adalah 10 .. Saya tidak pernah punya masalah melakukannya seperti itu: s .. Distribusi t pada dasarnya hanya berskala jika saya menggunakan H0 = 500 bukannya H0 = 0,5
BYS2
1
@ gui11aume: Mungkin menarik untuk melihat jawaban saya: stats.stackexchange.com/questions/166323/…
15

Anda mendapatkan jawaban yang bagus di sini dari @MansT & @ gui11aume (masing-masing +1). Biarkan saya melihat apakah saya bisa mendapatkan sesuatu yang lebih eksplisit di kedua jawaban mereka.

nk

p(k)=n!k!(nk)!pk(1p)nk
α=.05
number of heads:           0    1    2    3    4    5    6    7    8    9   10
individual probability:  .001 .010 .044 .117 .205 .246 .205 .117 .044 .010 .001
type I error rate:       .002 .021 .109 .344 .754   1  .754 .344 .109 .021 .002

α=.05.021αtype I errorα.05probabilitas binomial. Perhatikan lebih lanjut bahwa situasi seperti ini telah mendorong pengembangan nilai tengah-p untuk membantu meminimalkan perbedaan antara nilai-p dan tingkat signifikansi.

Mungkin ada kasus di mana nilai p yang dihitung tidak sama dengan tingkat kesalahan tipe I jangka panjang, selain fakta bahwa tingkat kesalahan tipe I tidak selalu sama dengan tingkat signifikansi. Pertimbangkan tabel kontingensi 2x2 dengan jumlah yang diamati ini:

     col1 col2
row1   2    4   
row2   4    2

χ2χ12=1.3,p=.248χ2χ2p=.5671.5637.5671

Dengan demikian, masalah di sini adalah bahwa, dengan data diskrit:

  • tingkat signifikansi yang Anda inginkan mungkin bukan salah satu dari tingkat kesalahan tipe I yang mungkin, &
  • menggunakan perkiraan (konvensional) untuk statistik kontinu akan menghasilkan nilai p yang dihitung tidak akurat.

N

(Meskipun pertanyaannya tidak menanyakan solusi untuk masalah ini) ada beberapa hal yang mengurangi masalah ini:

  • N
  • sering ada koreksi (seperti koreksi Yates untuk kontinuitas) yang akan membawa nilai yang dihitung lebih dekat ke nilai yang benar,
  • N
  • nilai tengah p menawarkan kemungkinan mendapatkan tingkat kesalahan tipe I Anda lebih dekat ke tingkat kepercayaan yang Anda pilih,
  • Anda dapat secara eksplisit menggunakan salah satu tingkat kesalahan tipe I yang ada (atau perhatikan apa yang akan terjadi).
gung - Reinstate Monica
sumber
Luar biasa bahwa Anda masuk ke detail yang kami tinggalkan di samping (+1).
gui11aume
@ung - dapatkah Anda mengomentari bagaimana Anda mendapatkan tingkat kesalahan tipe I untuk tabel pertama?
stats134711
@ stats134711, ini hanya jumlah dari masing-masing probabilitas untuk opsi yang ekstrem atau lebih ekstrem (2-tailed).
gung - Reinstate Monica
14

Konsep-konsep tersebut memang terkait erat satu sama lain.

P(type I error)=ααP(type I error)ααP(type I error)αα

Nilai-p adalah tingkat signifikansi terendah di mana hipotesis nol akan diterima . Dengan demikian ia memberi tahu kita "seberapa penting" hasilnya.

MånsT
sumber