p-value kehalusan: lebih besar sama dengan lebih besar

11

Ketika saya membaca buku Wassermann, All of Statistics, saya melihat kehalusan dalam definisi nilai-p, yang tidak dapat saya pahami. Secara informal, Wassermann mendefinisikan p-value sebagai

[..] probabilitas (di bawah ) untuk mengamati nilai statistik uji sama atau lebih ekstrim dari apa yang sebenarnya diamati. $H_0$

Penekanan ditambahkan. Hal yang sama secara lebih formal (Teorema 10.12):

Misalkan tes ukuran berbentuk $\alpha$

tolak jika dan hanya jika . $H_0$ $T(X^n) \ge c_\alpha$

Kemudian,

$hal -nilai = sup_{θ \in Θ_{0}} P_{θ_{0}} [T (X^{n}) \geq T (x^{n})]$ $\text{$p$-value} = \sup_{\theta\in\Theta_0} P_{\theta_0}[T(X^n) \ge T (x^n)]$
di mana $x^n$ adalah nilai yang diamati dari $X^n$ . Jika $\Theta_0=\{\theta_0\}$ maka
$hal -nilai = P_{θ_{0}} [T (X^{n}) \geq T (x^{n})]$ $\text{$p$-value} = P_{\theta_0}[T(X^n) \ge T (x^n)]$

Lebih lanjut, Wassermann mendefinisikan nilai-p dari uji Pearson $\chi^2$ (dan tes lain secara analog) sebagai:

hal -nilai = P [χ_{k - 1}^{2} > T] .

$\text{$p$-value} = P[\chi^2_{k-1} > T].$

Bagian yang saya ingin minta klarifikasi adalah tanda lebih besar-sama ( $\ge$ ) di tanda pertama dan lebih besar ( $>$ ) dalam definisi kedua. Mengapa kita tidak menulis $\ge T$ , yang cocok dengan kutipan pertama " sama atau lebih ekstrem?"

Apakah ini semata-mata kenyamanan sehingga kita menghitung nilai-p sebagai ? Saya perhatikan bahwa R juga menggunakan definisi dengan tanda , misalnya, dalam . $1-F(T)$ $>$ chisq.test

hypothesis-testing chi-squared p-value mavam
sumber

5

Apakah Anda sadar bahwa nilai-p sama untuk kedua definisi jika statistik uji kontinu?

mark999

3

Tidak masalah untuk distribusi kontinu, tetapi fakta ini seharusnya tidak menggoda Anda untuk melupakan perbedaan antara dan karena secara matematis itu penting. Ini juga penting dalam aplikasi karena karena "diskresi kehidupan nyata" kita sebenarnya bisa menemukan nilai-p dari persis .

\leq

$\leq$

<

$<$

α

$\alpha$

Horst Grünbusch

11

"As atau lebih ekstrim" benar.

Maka, secara formal, jika distribusinya sedemikian rupa sehingga kemungkinan mendapatkan statistik uji itu sendiri adalah positif, probabilitas itu (dan apa pun yang sama-sama ekstrem, seperti nilai yang sesuai pada ekor lainnya) harus dimasukkan dalam nilai-p.

Tentu saja, dengan statistik kontinu, probabilitas persamaan yang tepat adalah 0. Tidak ada bedanya jika kita mengatakan atau . $>$ $\geq$

Glen_b -Reinstate Monica
sumber

4

Poin pertama adalah bahwa ruang hipotesis ditutup secara topologis dalam seluruh ruang parameter. Tanpa mempertimbangkan keacakan, ini bisa menjadi konvensi yang berguna jika Anda memiliki beberapa penegasan tentang urutan parameter konvergen milik hipotesis karena Anda akan tahu bahwa batas itu tidak tiba-tiba menjadi milik alternatif. $\geq$

Sekarang mempertimbangkan distribusi probabilitas, mereka (biasanya) kontinu-benar. Itu berarti bahwa pemetaan ruang hipotesis tertutup ke interval ditutup lagi. Itu sebabnya interval kepercayaan juga ditutup oleh konvensi. $[0,1]$

Ini meningkatkan matematika. Bayangkan, Anda akan membangun interval kepercayaan untuk parameter lokasi dari distribusi probabilitas asimetris. Di sana, Anda harus memperdagangkan panjang ke ekor atas untuk panjang ke ekor bawah. Probabilitas di kedua ekor harus berjumlah . Agar CI seinformatif mungkin, Anda harus mempersingkat panjang CI sehingga kemungkinan cakupannya masih . Ini adalah set tertutup. Anda dapat menemukan solusi optimal di sana dengan beberapa algoritma iteratif, misalnya teorema titik tetap Banach. Jika itu adalah set terbuka, Anda tidak dapat melakukan ini. $\alpha$ $\geq 1-\alpha$

Horst Grünbusch
sumber

p-value kehalusan: lebih besar sama dengan lebih besar

Jawaban: