Apakah distribusi yang seragam dari banyak nilai-p memberikan bukti statistik bahwa H0 benar?

28

Suatu uji statistik tunggal dapat memberikan bukti bahwa hipotesis nol (H0) salah dan oleh karena itu hipotesis alternatif (H1) adalah benar. Tetapi itu tidak dapat digunakan untuk menunjukkan bahwa H0 benar karena kegagalan untuk menolak H0 tidak berarti bahwa H0 benar.

Tapi mari kita asumsikan Anda memiliki kemungkinan untuk melakukan tes statistik berkali-kali karena Anda memiliki banyak set data, semuanya independen satu sama lain. Semua dataset adalah hasil dari proses yang sama dan Anda ingin membuat beberapa pernyataan (H0 / H1) atas proses itu sendiri dan tidak tertarik pada hasil dari setiap tes tunggal. Anda kemudian mengumpulkan semua nilai-p yang dihasilkan dan kebetulan melihat melalui plot histogram bahwa nilai-p jelas didistribusikan secara seragam.

Alasan saya sekarang adalah bahwa ini hanya dapat terjadi jika H0 benar - jika tidak nilai p akan didistribusikan secara berbeda. Apakah ini bukti yang cukup untuk menyimpulkan bahwa H0 itu benar? Atau apakah saya kehilangan sesuatu yang penting di sini, karena saya butuh banyak kemauan untuk menulis "menyimpulkan bahwa H0 benar" yang hanya terdengar sangat salah di kepala saya.

Leander Moesinger
sumber
1
Anda mungkin tertarik pada jawaban saya untuk pertanyaan stats.stackexchange.com/questions/171742/… yang berbeda yang memiliki beberapa komentar tentang hipotesis di sini.
mdewey
H0 salah dengan definisinya.
Yosua
1
Di samping catatan, alasan mengapa saya memiliki begitu banyak tes (dan tidak hanya menggabungkan semua data menjadi satu) adalah bahwa data saya didistribusikan secara spasial di seluruh dunia dan saya ingin melihat apakah ada pola spasial di nilai-p (tidak ada, tetapi jika ada itu berarti kemerdekaan baik dilanggar atau bahwa H0 / H1 benar di berbagai belahan dunia). Saya belum memasukkan ini dalam teks pertanyaan karena saya ingin tetap umum.
Leander Moesinger

Jawaban:

22

Saya suka pertanyaan Anda, tetapi sayangnya jawaban saya adalah TIDAK, itu tidak membuktikan . Alasannya sangat sederhana. Bagaimana Anda tahu bahwa distribusi nilai-p adalah seragam? Anda mungkin harus menjalankan tes untuk keseragaman yang akan mengembalikan nilai p-nya sendiri, dan Anda berakhir dengan pertanyaan inferensi yang sama dengan yang Anda coba hindari, hanya satu langkah lebih jauh. Alih-alih melihat nilai p dari asli , sekarang Anda melihat nilai p dari lain tentang keseragaman distribusi nilai p asli.H0H0H0

MEMPERBARUI

Ini demonstrasi. Saya menghasilkan 100 sampel dari 100 pengamatan dari distribusi Gaussian dan Poisson, kemudian memperoleh 100 p-nilai untuk uji normalitas masing-masing sampel. Jadi, premis dari pertanyaan adalah bahwa jika nilai-p berasal dari distribusi yang seragam, maka itu membuktikan bahwa hipotesis nol itu benar, yang merupakan pernyataan yang lebih kuat daripada yang biasanya "gagal ditolak" dalam inferensi statistik. Masalahnya adalah bahwa "nilai-p dari seragam" adalah hipotesis itu sendiri, yang harus Anda uji entah bagaimana.

Pada gambar (baris pertama) di bawah ini saya menunjukkan histogram nilai p dari uji normalitas untuk sampel Guassian dan Poisson, dan Anda dapat melihat bahwa sulit untuk mengatakan apakah satu lebih seragam daripada yang lain. Itulah poin utama saya.

Baris kedua menunjukkan salah satu sampel dari setiap distribusi. Sampelnya relatif kecil, sehingga Anda tidak dapat memiliki terlalu banyak tempat sampah. Sebenarnya, sampel Gaussian khusus ini tidak terlihat sebanyak Gaussian pada histogram.

Di baris ketiga, saya menunjukkan sampel gabungan dari 10.000 pengamatan untuk setiap distribusi pada histogram. Di sini, Anda dapat memiliki lebih banyak tempat sampah, dan bentuknya lebih jelas.

Akhirnya, saya menjalankan tes normalitas yang sama dan mendapatkan nilai-p untuk sampel gabungan dan menolak normalitas untuk Poisson, sementara gagal menolak untuk Gaussian. Nilai-p adalah: [0.45348631] [0.]

masukkan deskripsi gambar di sini

Ini bukan bukti, tentu saja, tetapi demonstrasi gagasan bahwa Anda sebaiknya menjalankan tes yang sama pada sampel gabungan, alih-alih mencoba menganalisis distribusi nilai p dari subsamples.

Ini kode Python:

import numpy as np
from scipy import stats
from matplotlib import pyplot as plt

def pvs(x):
    pn = x.shape[1]
    pvals = np.zeros(pn)
    for i in range(pn):
        pvals[i] = stats.jarque_bera(x[:,i])[1]
    return pvals

n = 100
pn = 100
mu, sigma = 1, 2
np.random.seed(0)
x = np.random.normal(mu, sigma, size=(n,pn))
x2 = np.random.poisson(15, size=(n,pn))
print(x[1,1])

pvals = pvs(x)
pvals2 = pvs(x2)

x_f = x.reshape((n*pn,1))
pvals_f = pvs(x_f)

x2_f = x2.reshape((n*pn,1))
pvals2_f = pvs(x2_f)
print(pvals_f,pvals2_f)

print(x_f.shape,x_f[:,0])


#print(pvals)
plt.figure(figsize=(9,9))
plt.subplot(3,2,1)
plt.hist(pvals)
plt.gca().set_title('True Normal')
plt.gca().set_ylabel('p-value')

plt.subplot(3,2,2)
plt.hist(pvals2)
plt.gca().set_title('Poisson')
plt.gca().set_ylabel('p-value')

plt.subplot(3,2,3)
plt.hist(x[:,0])
plt.gca().set_title('a small sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,4)
plt.hist(x2[:,0])
plt.gca().set_title('a small Sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,5)
plt.hist(x_f[:,0],100)
plt.gca().set_title('Full Sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,6)
plt.hist(x2_f[:,0],100)
plt.gca().set_title('Full Sample')
plt.gca().set_ylabel('x')

plt.show()
Aksakal
sumber
2
@LeanderMoesinger Anda akan membuat poin yang lebih kuat dengan mengumpulkan semua tes Anda menjadi satu. Misalkan, Anda memiliki sampel dengan 100 pengamatan, dan mendapatkan nilai-p; kemudian dapatkan 99 sampel tambahan dan berakhir dengan 100 nilai-p. Alih-alih, Anda bisa menjalankan satu 10.000 sampel pengamatan dan mendapatkan nilai-p, tetapi akan lebih meyakinkan.
Aksakal
1
@LeanderMoesinger, kemungkinan tidak kecil
Aksakal
1
Jawaban Anda tidak menjawab pertanyaan, dia tidak bertanya tentang bukti tetapi tentang bukti .
Carlos Cinelli
3
@CarlosCinelli, dia akan memiliki banyak nilai-p, yang menurutnya seragam. Bagaimana ini bukti kecuali dia membuktikan nilainya dari seragam? Itu yang saya bicarakan.
Aksakal
2
@Aksakal ini tentang matematika, peristiwa yang diamati (seperti urutan nilai-p) mungkin bukan merupakan bukti dari sesuatu, tetapi alasannya tidak secara logis mengikuti argumen Anda.
Carlos Cinelli
21

n

H0H0

David Hume dan masalah induksi

H0H0

aA[aB]

  • Selama berabad-abad, setiap angsa yang diamati oleh orang Eropa berkulit putih. Kemudian orang Eropa menemukan Australia dan melihat angsa hitam.

  • Selama berabad-abad, hukum gravitasi Newton setuju dengan pengamatan dan dianggap benar. Namun itu terbalik oleh teori relativitas umum Einstein.

H0

Daftar (tidak lengkap) dari cara maju:

Karl Popper dan pemalsuan

Dalam pandangan Karl Popper , tidak ada hukum ilmiah yang terbukti benar. Kami hanya memiliki hukum ilmiah yang belum terbukti salah.

Popper berargumen bahwa ilmu pengetahuan maju dengan menebak hipotesis dan menundanya dengan cermat. Ia maju ke depan melalui deduksi (teori-teori pembuktian pengamatan salah), bukan induksi (teori-teori pengamatan berulang yang terbukti benar). Banyak statistik frequentist dibangun konsisten dengan filosofi ini.

Pandangan Popper sangat berpengaruh, tetapi seperti yang diperdebatkan Kuhn dan yang lainnya, itu tidak cukup sesuai dengan praktik sains yang berhasil diamati secara empiris.

Bayesian, probabilitas subyektif

Mari kita asumsikan kita tertarik pada parameter .θ

Bagi ahli statistik sering, parameter adalah nilai skalar, angka. Jika Anda malah mengambil Bayesian subjektif sudut pandang (seperti di Leonard Jimmie Savage Yayasan Statistik ), Anda dapat model ketidakpastian Anda sendiri atas menggunakan alat probabilitas. Untuk subjektif Bayesian, adalah variabel acak dan Anda memiliki beberapa sebelumnya . Anda kemudian dapat berbicara tentang subjektif probabilitas dari nilai yang berbeda dari diberikan data . Bagaimana Anda berperilaku dalam berbagai situasi memiliki korespondensi dengan probabilitas subjektif ini.θθ θ P ( θ ) P ( θ X ) θ XθθP(θ)P(θX)θX

Ini adalah cara logis untuk memodelkan kepercayaan subjektif Anda sendiri, tetapi ini bukan cara ajaib untuk menghasilkan probabilitas yang benar dalam hal korespondensi dengan kenyataan. Sebuah pertanyaan rumit untuk interpretasi Bayesian adalah dari mana datangnya prior? Juga, bagaimana jika model tersebut tidak ditentukan spesifikasi?

George P. Box

Sebuah pepatah terkenal dari George EP Box adalah bahwa "semua model itu salah, tetapi beberapa berguna."

Hukum Newton mungkin tidak benar, tetapi masih bermanfaat untuk banyak masalah. Pandangan Box sangat penting dalam konteks data besar modern di mana studi sangat dikuasai sehingga Anda pada dasarnya dapat menolak setiap proposisi yang berarti. Benar-benar versus salah adalah pertanyaan yang buruk: yang penting adalah apakah model membantu Anda memahami data.

Komentar tambahan

Ada perbedaan dalam statistik antara memperkirakan parameter dengan kesalahan standar kecil versus dengan kesalahan standar besar! Jangan pergi berpikir bahwa karena kepastian itu tidak mungkin, melewati pengawasan ketat tidak relevan.θ0

Mungkin juga menarik, yang secara statistik menganalisis hasil beberapa studi disebut meta-analisis .

Seberapa jauh Anda bisa melampaui interpretasi statistik yang sempit adalah pertanyaan yang sulit.

Matthew Gunn
sumber
Ini adalah bacaan yang menarik dan memberikan beberapa hal baik untuk dipikirkan! Saya berharap saya bisa menerima banyak jawaban.
Leander Moesinger
Cukup penjelasan. Prof saya pernah merangkum Kuhn dalam semangat Popper: 'Sains berkembang dari pemakaman ke pemakaman'
skrubber
Kuhn dll terkenal salah menafsirkan Popper ketika mengklaim pengamatannya tidak cocok dengan bagaimana sains dilakukan. Ini dikenal sebagai pemalsuan asli, dan bukan itu yang diajukan Popper. Itu manusia jerami.
Konrad Rudolph
2
Ini jawaban seperti ini saya terus mengunjungi situs StackExchange.
Trilarion
5

Dalam arti tertentu Anda benar (lihat kurva p) dengan beberapa peringatan kecil:

  1. pααH0
  2. H0H0

Dengan aplikasi realistis, Anda cenderung mendapatkan masalah tambahan. Ini sebagian besar muncul, karena tidak ada satu orang / lab / kelompok studi biasanya dapat melakukan semua studi yang diperlukan. Akibatnya, orang cenderung melihat studi dari banyak kelompok, pada titik mana Anda telah meningkatkan kekhawatiran (yaitu jika Anda telah melakukan semua eksperimen yang relevan sendiri, setidaknya Anda akan tahu) tentang pelaporan yang tidak dilaporkan, pelaporan selektif dari temuan signifikan / mengejutkan, p-peretasan, beberapa pengujian / koreksi beberapa pengujian dan sebagainya.

Björn
sumber
1
(+1) Titik daya sangat penting! Teori yang berbeda dapat menghasilkan data yang setara secara observasi, dan bagian penting dari desain eksperimen adalah untuk menghasilkan dan / atau mengumpulkan data yang memungkinkan Anda untuk membedakan.
Matthew Gunn
-2

Hipotesis nol (H0): Gravitasi menyebabkan segala sesuatu di alam semesta jatuh ke permukaan bumi.

Hipotesis alternatif (H1): Tidak ada yang jatuh.

p<0.01

usul
sumber
2
Apakah Anda pikir Galileo melakukan satu juta cobaan? Tak satu pun dari hal ini diperlukan dalam ilmu fisika. Menetapkan hukum alam dengan menerapkan metode ilmiah tidak mengurangi inferensi statistik.
Aksakal
1
-1 Ini tidak akurat secara ilmiah, statistik, dan historis. Orang Yunani pernah percaya bahwa itu adalah afinitas yang menarik benda ke Bumi. Tidak buruk, tetapi tidak menjelaskan masalah 3+ sistem tubuh dengan baik. Hipotesis harus saling melengkapi. Terakhir menyatakan bias yang mungkin dikenal sebagai H_0 dan menunjukkan eksperimen terus mengarah pada kesimpulan yang salah yang sama tidak membuat kesimpulan itu benar. misal, wanita berpenghasilan lebih rendah dari pria tapi mereka kurang digerakkan, sampel semua gaji wanita, H_0 benar!
AdamO
@ AdamO, itulah tepatnya poin saya.
usul
@ AdamO, di negara-negara Barat, penghasilan perempuan lebih sedikit ketika mereka bekerja lebih sedikit karena berbagai alasan termasuk pilihan mereka sendiri, disinsentif dari semua jenis dan lingkungan kerja yang bermusuhan di beberapa tempat. Ketika mereka bekerja sama, mereka menghasilkan hampir sama, misalnya melihat gaji perawat medis di mana perempuan adalah mayoritas: medscape.com/slideshow/… . Mereka semua mendapatkan $ 37 yang sama saat bekerja setiap jam. Benar-benar di luar topik, tentu saja.
Aksakal
2
Jika hipotesis nol Anda Gravity causes everything in the universe to fall toward Earth's surfacebukan hipotesis alternatif There is at least one thing in the universe that does not fall toward the Earth's surfacedan bukan Nothing ever falls?
Eff