Dua definisi nilai-p: bagaimana membuktikan kesetaraannya?

11

Saya membaca buku Larry Wasserman, All of Statistics , dan saat ini tentang nilai-p (halaman 187). Ijinkan saya memperkenalkan beberapa definisi (saya kutip):

Definisi 1 Fungsi daya pengujian dengan wilayah penolakan didefinisikan oleh Ukuran tes didefinisikan sebagai Suatu tes dikatakan memiliki level \ alpha jika ukurannya kurang dari atau sama dengan \ alpha .R

β(θ)=Pθ(XR)
α=supθΘ0β(θ)
αα

Ini pada dasarnya mengatakan bahwa α , ukurannya adalah probabilitas "terbesar" dari kesalahan tipe I. Nilai- p kemudian didefinisikan melalui (saya kutip)

Definisi 2 Misalkan untuk setiap α(0,1) kami memiliki tes ukuran α dengan rejection region Rα . Kemudian,

p-value=inf{α:T(Xn)Rα}
mana Xn=(X1,,Xn) .

Bagi saya ini berarti: diberi \ alpha tertentu αada daerah pengujian dan penolakan Rα sehingga α=supθΘ0(α)Pθ(T(Xn)Rα) . Untuk p -value saya cukup mengambil yang terkecil dari semua ini α .

Pertanyaan 1 Jika ini masalahnya, maka saya dapat dengan jelas memilih α=ϵ untuk ukuran kecil \ epsilon yang sewenang-wenang ϵ. Apa interpretasi saya yang salah dari definisi 2, yaitu apa artinya sebenarnya?

Sekarang Wasserman terus menerus dan menyatakan teorema untuk memiliki definisi "ekuivalen" dari p -nilai yang saya kenal (saya kutip):

Teorema Misalkan ukuran test adalah dari bentuk Kemudian, mana adalah nilai yang diamati dari .α

reject H0T(Xn)cα
p-value=supθΘ0Pθ(T(Xn)T(xn))
xnXn

Jadi inilah pertanyaan kedua saya:

Pertanyaan 2 Bagaimana saya dapat benar-benar membuktikan teorema ini? Mungkin karena kesalahpahaman saya tentang definisi nilai- , tapi saya tidak bisa mengetahuinya.p

matematika
sumber
4
Sangat aneh bahwa Wasserman akan mendefinisikan kekuatan sebagai " ", karena simbol hampir secara universal digunakan untuk tingkat kesalahan tipe II (yaitu power = 1- untuk hampir semua penulis lain yang mendiskusikan kekuatan). Saya merasa sulit untuk membayangkan pilihan notasi yang dapat menimbulkan kebingungan yang lebih buruk kecuali dengan sengaja berangkat untuk menyebabkannya. βββ
Glen_b -Reinstate Monica
1
Saya setuju bahwa itu aneh, Glen - namun, Casella dan Berger melakukan hal yang sama dan teks mereka, menurut pendapat saya, adalah standar emas untuk teori statistik.
Matt Brems

Jawaban:

6

Kami memiliki beberapa data multivarian , diambil dari distribusi dengan beberapa parameter yang tidak diketahui . Perhatikan bahwa adalah hasil sampel.xDθx

Kami ingin menguji beberapa hipotesis tentang parameter yang tidak diketahui , nilai bawah hipotesis nol ada di set .θθθ0

Dalam ruang , kita dapat mendefinisikan daerah penolakan , dan kekuatan wilayah ini kemudian didefinisikan sebagai . Jadi kekuatan dihitung untuk nilai tertentu dari sebagai probabilitas bahwa hasil sampel berada di daerah penolakan ketika nilai adalah . Jelas daya tergantung pada wilayah dan pada .XRRPθ¯R=Pθ¯(xR)θ¯θxR θθ¯Rθ¯

Definisi 1 mendefinisikan ukuran wilayahR sebagai supremum dari semua nilai untuk di , jadi hanya untuk nilai bawah . Jelas ini tergantung pada daerah, sehingga .Pθ¯Rθ¯θ0θ¯H0αR=supθ¯θ0Pθ¯R

Karena tergantung pada kita memiliki nilai lain ketika kawasan berubah, dan ini adalah dasar untuk mendefinisikan nilai-p: mengubah wilayah, tetapi sedemikian rupa sehingga nilai sampel yang diamati masih menjadi milik wilayah, untuk masing-masing daerah tersebut, menghitung sebagaimana didefinisikan di atas dan mengambil infimum yang: . Jadi nilai-p adalah ukuran terkecil dari semua wilayah yang mengandung .αRRαRpv(x)=infR|xRαRx

Teorema ini kemudian hanya merupakan 'terjemahannya', yaitu kasus di mana daerah didefinisikan menggunakan statistik dan untuk nilai Anda mendefinisikan suatu daerah sebagai . Jika Anda menggunakan tipe wilayah dalam alasan di atas, maka teorema berikut.RTcRR={x|T(x)c}R

Sunting karena komentar:

@ user8: untuk teorema; jika Anda mendefinisikan daerah penolakan seperti dalam teorema, maka wilayah penolakan ukuran adalah himpunan yang terlihat seperti untuk beberapa .αRα={X|T(X)cα}cα

Untuk menemukan nilai p dari nilai yang diamati , yaitu Anda harus menemukan wilayah terkecil , yaitu nilai sehingga masih mengandung , yang terakhir (wilayah berisi ) adalah setara (karena cara daerah didefinisikan) untuk mengatakan bahwa , jadi Anda harus menemukan terbesar sehinggaxpv(x)Rc{X|T(X)c} xxcT(x)c{X|T(X)c&cT(x)}

Jelas, terbesar sehingga harus dan kemudian supra set menjadiccT(x)c=T(x){X|T(X)c=T(x)}={X|T(X)T(x)}


sumber
Terima kasih banyak atas jawaban Anda. Untuk pertanyaan tentang validasi teorema: Apakah tidak ada entah bagaimana over hilang? infα
matematika
@ user8: Saya menambahkan paragraf di akhir jawaban saya, Anda mengerti poinnya dengan infinite sekarang?
7

Dalam Definisi 2, nilai dari statistik uji adalah batas bawah terbesar semua sehingga hipotesis ditolak untuk uji ukuran . Ingatlah bahwa semakin kecil kita membuat , semakin sedikit toleransi untuk kesalahan Tipe I yang kami izinkan, sehingga wilayah penolakan juga akan berkurang. Jadi (sangat) berbicara secara informal, -value adalah terkecil yang dapat kita pilih yang masih memungkinkan kita menolak untuk data yang kami amati. Kami tidak dapat secara sewenang-wenang memilih lebih kecil karena pada titik tertentu,pαααRαpαH0αRα akan sangat kecil sehingga akan mengecualikan (yaitu, gagal mengandung) peristiwa yang kami amati.

Sekarang, sehubungan dengan hal di atas, saya mengundang Anda untuk mempertimbangkan kembali teorema.

heropup
sumber
Saya masih sedikit bingung. Jadi pertama, dalam definisi apakah statistik diperbaiki untuk semua ? Saya tidak setuju dengan pernyataan Anda: "... pada titik tertentu, akan sangat kecil sehingga akan mengecualikan (yaitu, gagal mengandung) peristiwa yang kami amati." Baik-baik saja, jika sangat kecil sehingga tidak mengandung sampel yang diamati, kami tidak menolak . Apa masalahnya dengan ini? terima kasih atas bantuan / kesabaran Anda2TαRαRαH0
matematika
Iya. Statistik uji adalah fungsi tetap yang telah ditentukan dari sampel, di mana "tetap" dalam pengertian ini berarti bahwa bentuk fungsi tidak berubah untuk . Nilai yang diambil mungkin (dan harus) tergantung pada sampel. Pernyataan Anda "kami tidak menolak " mengungkapkan mengapa ketidaksetujuan Anda salah: menurut definisi , terdiri dari himpunan semua nilai yang oleh statistik uji mengarah ke penolakan terhadap nol . Itu sebabnya ini diberi label pengeluaran "R". Saya akan mengirim pembaruan ke jawaban saya untuk menjelaskan secara lebih rinci. TαH0RαR
heropup
Terima kasih banyak atas jawaban cepat Anda dan sebelumnya untuk versi terbaru Anda. Yang saya maksudkan adalah sebagai berikut: Kami menolak jika , di mana adalah sampel yang diamati. Katakan saya sangat ekstrim dan pilih sangat kecil, sehingga untuk sampel yang diberikan yang artinya kita TIDAK menolak . Jadi apriori hal yang buruk. Jelas, pada satu titik itu sangat kecil, itu sangat sangat sangat tidak mungkin untuk mengamati sampel milik . Sekali lagi, terima kasih atas kesabaran / bantuan Anda. sangat dihargai! H0T(xn)RαxnRαT(xn)RαH0RαRα
matematika
2
Definisi nilai-p yang diberikan secara eksplisit mengharuskan statistik uji untuk sampel berada di wilayah penolakan . Anda tidak bebas mengubah bagian dari definisi nilai-p.
Glen_b -Reinstate Monica
@Glen_b Terima kasih atas komentarnya. Memang, komentar saya sebelumnya tidak melanggar definisi. Terima kasih telah menunjukkannya.
matematika