Suatu uji statistik tunggal dapat memberikan bukti bahwa hipotesis nol (H0) salah dan oleh karena itu hipotesis alternatif (H1) adalah benar. Tetapi itu tidak dapat digunakan untuk menunjukkan bahwa H0 benar karena kegagalan untuk menolak H0 tidak berarti bahwa H0 benar.
Tapi mari kita asumsikan Anda memiliki kemungkinan untuk melakukan tes statistik berkali-kali karena Anda memiliki banyak set data, semuanya independen satu sama lain. Semua dataset adalah hasil dari proses yang sama dan Anda ingin membuat beberapa pernyataan (H0 / H1) atas proses itu sendiri dan tidak tertarik pada hasil dari setiap tes tunggal. Anda kemudian mengumpulkan semua nilai-p yang dihasilkan dan kebetulan melihat melalui plot histogram bahwa nilai-p jelas didistribusikan secara seragam.
Alasan saya sekarang adalah bahwa ini hanya dapat terjadi jika H0 benar - jika tidak nilai p akan didistribusikan secara berbeda. Apakah ini bukti yang cukup untuk menyimpulkan bahwa H0 itu benar? Atau apakah saya kehilangan sesuatu yang penting di sini, karena saya butuh banyak kemauan untuk menulis "menyimpulkan bahwa H0 benar" yang hanya terdengar sangat salah di kepala saya.
sumber
Jawaban:
Saya suka pertanyaan Anda, tetapi sayangnya jawaban saya adalah TIDAK, itu tidak membuktikan . Alasannya sangat sederhana. Bagaimana Anda tahu bahwa distribusi nilai-p adalah seragam? Anda mungkin harus menjalankan tes untuk keseragaman yang akan mengembalikan nilai p-nya sendiri, dan Anda berakhir dengan pertanyaan inferensi yang sama dengan yang Anda coba hindari, hanya satu langkah lebih jauh. Alih-alih melihat nilai p dari asli , sekarang Anda melihat nilai p dari lain tentang keseragaman distribusi nilai p asli.H0 H0 H′0
MEMPERBARUI
Ini demonstrasi. Saya menghasilkan 100 sampel dari 100 pengamatan dari distribusi Gaussian dan Poisson, kemudian memperoleh 100 p-nilai untuk uji normalitas masing-masing sampel. Jadi, premis dari pertanyaan adalah bahwa jika nilai-p berasal dari distribusi yang seragam, maka itu membuktikan bahwa hipotesis nol itu benar, yang merupakan pernyataan yang lebih kuat daripada yang biasanya "gagal ditolak" dalam inferensi statistik. Masalahnya adalah bahwa "nilai-p dari seragam" adalah hipotesis itu sendiri, yang harus Anda uji entah bagaimana.
Pada gambar (baris pertama) di bawah ini saya menunjukkan histogram nilai p dari uji normalitas untuk sampel Guassian dan Poisson, dan Anda dapat melihat bahwa sulit untuk mengatakan apakah satu lebih seragam daripada yang lain. Itulah poin utama saya.
Baris kedua menunjukkan salah satu sampel dari setiap distribusi. Sampelnya relatif kecil, sehingga Anda tidak dapat memiliki terlalu banyak tempat sampah. Sebenarnya, sampel Gaussian khusus ini tidak terlihat sebanyak Gaussian pada histogram.
Di baris ketiga, saya menunjukkan sampel gabungan dari 10.000 pengamatan untuk setiap distribusi pada histogram. Di sini, Anda dapat memiliki lebih banyak tempat sampah, dan bentuknya lebih jelas.
Akhirnya, saya menjalankan tes normalitas yang sama dan mendapatkan nilai-p untuk sampel gabungan dan menolak normalitas untuk Poisson, sementara gagal menolak untuk Gaussian. Nilai-p adalah: [0.45348631] [0.]
Ini bukan bukti, tentu saja, tetapi demonstrasi gagasan bahwa Anda sebaiknya menjalankan tes yang sama pada sampel gabungan, alih-alih mencoba menganalisis distribusi nilai p dari subsamples.
Ini kode Python:
sumber
David Hume dan masalah induksi
Selama berabad-abad, setiap angsa yang diamati oleh orang Eropa berkulit putih. Kemudian orang Eropa menemukan Australia dan melihat angsa hitam.
Selama berabad-abad, hukum gravitasi Newton setuju dengan pengamatan dan dianggap benar. Namun itu terbalik oleh teori relativitas umum Einstein.
Daftar (tidak lengkap) dari cara maju:
Karl Popper dan pemalsuan
Dalam pandangan Karl Popper , tidak ada hukum ilmiah yang terbukti benar. Kami hanya memiliki hukum ilmiah yang belum terbukti salah.
Popper berargumen bahwa ilmu pengetahuan maju dengan menebak hipotesis dan menundanya dengan cermat. Ia maju ke depan melalui deduksi (teori-teori pembuktian pengamatan salah), bukan induksi (teori-teori pengamatan berulang yang terbukti benar). Banyak statistik frequentist dibangun konsisten dengan filosofi ini.
Pandangan Popper sangat berpengaruh, tetapi seperti yang diperdebatkan Kuhn dan yang lainnya, itu tidak cukup sesuai dengan praktik sains yang berhasil diamati secara empiris.
Bayesian, probabilitas subyektif
Mari kita asumsikan kita tertarik pada parameter .θ
Bagi ahli statistik sering, parameter adalah nilai skalar, angka. Jika Anda malah mengambil Bayesian subjektif sudut pandang (seperti di Leonard Jimmie Savage Yayasan Statistik ), Anda dapat model ketidakpastian Anda sendiri atas menggunakan alat probabilitas. Untuk subjektif Bayesian, adalah variabel acak dan Anda memiliki beberapa sebelumnya . Anda kemudian dapat berbicara tentang subjektif probabilitas dari nilai yang berbeda dari diberikan data . Bagaimana Anda berperilaku dalam berbagai situasi memiliki korespondensi dengan probabilitas subjektif ini.θ θ θ P ( θ ) P ( θ ∣ X ) θ Xθ θ P( θ ) P( θ ∣ X) θ X
Ini adalah cara logis untuk memodelkan kepercayaan subjektif Anda sendiri, tetapi ini bukan cara ajaib untuk menghasilkan probabilitas yang benar dalam hal korespondensi dengan kenyataan. Sebuah pertanyaan rumit untuk interpretasi Bayesian adalah dari mana datangnya prior? Juga, bagaimana jika model tersebut tidak ditentukan spesifikasi?
George P. Box
Sebuah pepatah terkenal dari George EP Box adalah bahwa "semua model itu salah, tetapi beberapa berguna."
Hukum Newton mungkin tidak benar, tetapi masih bermanfaat untuk banyak masalah. Pandangan Box sangat penting dalam konteks data besar modern di mana studi sangat dikuasai sehingga Anda pada dasarnya dapat menolak setiap proposisi yang berarti. Benar-benar versus salah adalah pertanyaan yang buruk: yang penting adalah apakah model membantu Anda memahami data.
Komentar tambahan
Ada perbedaan dalam statistik antara memperkirakan parameter dengan kesalahan standar kecil versus dengan kesalahan standar besar! Jangan pergi berpikir bahwa karena kepastian itu tidak mungkin, melewati pengawasan ketat tidak relevan.θ ≈ 0
Mungkin juga menarik, yang secara statistik menganalisis hasil beberapa studi disebut meta-analisis .
Seberapa jauh Anda bisa melampaui interpretasi statistik yang sempit adalah pertanyaan yang sulit.
sumber
Dalam arti tertentu Anda benar (lihat kurva p) dengan beberapa peringatan kecil:
Dengan aplikasi realistis, Anda cenderung mendapatkan masalah tambahan. Ini sebagian besar muncul, karena tidak ada satu orang / lab / kelompok studi biasanya dapat melakukan semua studi yang diperlukan. Akibatnya, orang cenderung melihat studi dari banyak kelompok, pada titik mana Anda telah meningkatkan kekhawatiran (yaitu jika Anda telah melakukan semua eksperimen yang relevan sendiri, setidaknya Anda akan tahu) tentang pelaporan yang tidak dilaporkan, pelaporan selektif dari temuan signifikan / mengejutkan, p-peretasan, beberapa pengujian / koreksi beberapa pengujian dan sebagainya.
sumber
Hipotesis nol (H0): Gravitasi menyebabkan segala sesuatu di alam semesta jatuh ke permukaan bumi.
Hipotesis alternatif (H1): Tidak ada yang jatuh.
sumber
Gravity causes everything in the universe to fall toward Earth's surface
bukan hipotesis alternatifThere is at least one thing in the universe that does not fall toward the Earth's surface
dan bukanNothing ever falls
?