Setelah mengambil kursus statistik dan kemudian mencoba membantu sesama siswa, saya perhatikan satu mata pelajaran yang menginspirasi banyak banging kepala kantor adalah menafsirkan hasil tes hipotesis statistik. Tampaknya siswa dengan mudah belajar bagaimana melakukan perhitungan yang diperlukan oleh tes yang diberikan tetapi terbiasa menafsirkan hasil. Banyak alat yang terkomputerisasi melaporkan hasil pengujian dalam hal "nilai p" atau "nilai t".
Bagaimana Anda menjelaskan poin-poin berikut kepada mahasiswa yang mengambil kursus statistik pertama:
Apa yang dimaksud dengan "nilai-p" dalam kaitannya dengan hipotesis yang diuji? Apakah ada kasus ketika seseorang harus mencari nilai p tinggi atau nilai p rendah?
Apa hubungan antara nilai-p dan nilai-t?
Jawaban:
Memahami -nilaip
Misalkan, Anda ingin menguji hipotesis bahwa tinggi rata-rata siswa pria di Universitas Anda adalah kaki inci. Anda mengumpulkan ketinggian siswa yang dipilih secara acak dan menghitung mean sampel (katakanlah ternyata kaki inci). Dengan menggunakan formula / statistik rutin yang sesuai Anda menghitung nilai untuk hipotesis Anda dan mengatakan itu ternyata .7 100 5 9 p 0,065 7 100 5 9 p 0.06
Untuk menafsirkan tepat, kita harus mengingat beberapa hal:p=0.06
Langkah pertama di bawah pengujian hipotesis klasik adalah asumsi bahwa hipotesis yang dipertimbangkan adalah benar. (Dalam konteks kami, kami menganggap bahwa tinggi rata-rata sebenarnya adalah kaki inci.)75 7
Bayangkan melakukan perhitungan berikut: Hitung probabilitas bahwa rata-rata sampel lebih besar dari kaki inci dengan asumsi bahwa hipotesis kami sebenarnya benar (lihat poin 1).95 9
Dengan kata lain, kita ingin tahu
Perhitungan pada langkah 2 adalah apa yang disebut nilai- . Oleh karena itu, -nilai dari berarti bahwa jika kita mengulangi percobaan kami banyak, berkali-kali (setiap kali kita memilih mahasiswa secara acak dan menghitung mean sampel) maka kali dari kita dapat mengharapkan untuk melihat sampel berarti lebih besar dari atau sama dengan kaki inci.p 0,06 100 6 100 5 9p p 0.06 100 6 100 5 9
Dengan pemahaman di atas, haruskah kita tetap mempertahankan asumsi bahwa hipotesis kita benar (lihat langkah 1)? Nah, menunjukkan bahwa satu dari dua hal telah terjadi:p=0.06
atau
Cara tradisional untuk memilih antara (A) dan (B) adalah memilih cut-off yang sewenang-wenang untuk . Kami memilih (A) jika dan (B) jika .p > 0,05 p < 0,05p p>0.05 p<0.05
sumber
Dialog Antara Guru dan Siswa yang Bijaksana
Dengan rendah hati disampaikan dengan keyakinan bahwa sejauh ini tidak cukup krayon telah digunakan dalam utas ini. Sinopsis singkat bergambar muncul di bagian akhir.
Siswa : Apa arti nilai p? Banyak orang tampaknya setuju itu adalah kesempatan kita akan "melihat sampel berarti lebih besar dari atau sama dengan" suatu statistik atau itu "probabilitas untuk mengamati hasil ini ... mengingat hipotesis nol itu benar" atau di mana "statistik sampel saya jatuh pada [simulasi] distribusi " dan bahkan " probabilitas mengamati statistik uji setidaknya sebesar yang dihitung dengan asumsi hipotesis nol benar " .
Guru : Dipahami dengan benar, semua pernyataan itu benar dalam banyak keadaan.
Siswa : Saya tidak melihat bagaimana kebanyakan dari mereka relevan. Tidakkah Anda mengajari kami bahwa kami harus menyatakan hipotesis nol dan hipotesis alternatif ? Bagaimana mereka terlibat dalam gagasan "lebih besar atau sama dengan" atau "setidaknya sama besar" atau "sangat ekstrim" yang sangat populer ini?H AH0 HA
Guru : Karena secara umum dapat terlihat rumit, apakah akan membantu bagi kita untuk mengeksplorasi contoh konkret?
Mahasiswa : Tentu. Tapi tolong buat yang realistis tapi sederhana jika Anda bisa.
Guru : Teori pengujian hipotesis ini secara historis dimulai dengan kebutuhan para astronom untuk menganalisis kesalahan pengamatan, jadi bagaimana kalau mulai dari sana. Saya sedang membaca beberapa dokumen lama suatu hari di mana seorang ilmuwan menggambarkan upayanya untuk mengurangi kesalahan pengukuran pada peralatannya. Dia telah melakukan banyak pengukuran bintang dalam posisi yang diketahui dan mencatat perpindahan mereka di depan atau di belakang posisi itu. Untuk memvisualisasikan perpindahan itu, ia menggambar histogram yang - ketika dihaluskan sedikit - tampak seperti ini.
Mahasiswa : Saya ingat bagaimana histogram bekerja: sumbu vertikal diberi label "Kepadatan" untuk mengingatkan saya bahwa frekuensi relatif dari pengukuran diwakili oleh area daripada ketinggian.
Guru : Benar. Nilai "tidak biasa" atau "ekstrem" akan terletak di wilayah dengan wilayah yang cukup kecil. Ini krayon. Apakah Anda pikir Anda bisa mewarnai di wilayah yang luasnya hanya sepersepuluh dari total?
Mahasiswa : Tentu; itu mudah. [Warna pada gambar.]
Guru : Sangat bagus! Itu terlihat seperti sekitar 10% dari area bagi saya. Ingat, bagaimanapun, bahwa satu-satunya area dalam histogram yang penting adalah yang berada di antara garis-garis vertikal: mereka mewakili peluang atau probabilitas bahwa perpindahan akan terletak di antara garis-garis tersebut pada sumbu horizontal. Itu berarti Anda perlu mewarnai sampai ke bawah dan itu akan menjadi lebih dari setengah area, bukan?
Mahasiswa : Oh, begitu. Biarkan saya coba lagi. Saya ingin mewarnai di mana kurva sangat rendah, bukan? Paling rendah di kedua ujungnya. Apakah saya harus mewarnai hanya dalam satu area atau apakah tidak masalah untuk memecahnya menjadi beberapa bagian?
Guru : Menggunakan beberapa bagian adalah ide yang cerdas. Di mana mereka?
Mahasiswa (menunjuk): Di sini dan di sini. Karena krayon ini tidak terlalu tajam, saya menggunakan pena untuk menunjukkan garis yang saya gunakan.
Guru : Bagus sekali! Biarkan saya ceritakan kisah selanjutnya. Ilmuwan melakukan beberapa perbaikan pada perangkatnya dan kemudian dia melakukan pengukuran tambahan. Dia menulis bahwa perpindahan yang pertama hanya , yang menurutnya adalah pertanda baik, tetapi sebagai ilmuwan yang cermat dia melanjutkan untuk mengambil lebih banyak pengukuran sebagai cek. Sayangnya, pengukuran-pengukuran lainnya hilang - manuskrip terputus pada titik ini - dan yang kita miliki hanyalah angka tunggal, .0,10.1 0.1
Mahasiswa : Sayang sekali. Tapi bukankah itu jauh lebih baik daripada penyebaran luas dalam sosok Anda?
Guru : Itulah pertanyaan yang ingin saya jawab. Untuk mulai dengan, apa yang harus kita sebagai ?H0
Mahasiswa : Ya, orang yang skeptis akan bertanya-tanya apakah perbaikan yang dilakukan pada perangkat memiliki efek sama sekali. Beban pembuktian ada pada ilmuwan: dia ingin menunjukkan bahwa yang skeptis itu salah. Itu membuat saya berpikir hipotesis nol agak buruk bagi ilmuwan: itu mengatakan bahwa semua pengukuran baru - termasuk nilai kita ketahui - harus berperilaku seperti yang dijelaskan oleh histogram pertama. Atau mungkin bahkan lebih buruk dari itu: mereka mungkin bahkan lebih tersebar.0.1
Guru : Ayo, kamu baik-baik saja.
Siswa : Jadi alternatifnya adalah bahwa pengukuran baru akan kurang tersebar, bukan?
Guru : Sangat bagus! Bisakah Anda menggambar saya seperti apa histogram dengan penyebaran kurang? Ini salinan histogram pertama; Anda dapat menggambar di atasnya sebagai referensi.
Siswa (menggambar): Saya menggunakan pena untuk menguraikan histogram baru dan saya mewarnai di area di bawahnya. Saya telah membuatnya sehingga sebagian besar kurva mendekati nol pada sumbu horizontal dan sebagian besar wilayahnya mendekati nilai (horizontal) nol: itulah artinya kurang menyebar atau lebih tepat.
Guru : Itu awal yang baik. Tetapi ingat bahwa histogram yang menunjukkan peluang harus memiliki luas total . Total area histogram pertama adalah . Berapa banyak area di dalam histogram baru Anda?11 1
Mahasiswa : Kurang dari setengah, saya kira. Saya melihat itu masalah, tapi saya tidak tahu bagaimana cara memperbaikinya. Apa yang harus saya lakukan?
Guru : Caranya adalah membuat histogram baru lebih tinggi dari yang lama sehingga luas totalnya adalah . Di sini, saya akan menunjukkan kepada Anda versi yang dibuat komputer untuk diilustrasikan.1
Siswa : Saya mengerti: Anda merentangkannya secara vertikal sehingga bentuknya tidak benar-benar berubah tetapi sekarang area merah dan abu-abu (termasuk bagian di bawah merah) adalah jumlah yang sama.
Guru : Benar. Anda melihat gambar hipotesis nol (berwarna biru, menyebar) dan bagian dari hipotesis alternatif (berwarna merah, dengan penyebaran lebih sedikit).
Siswa : Apa yang Anda maksud dengan "bagian" dari alternatif? Bukankah itu yang hipotesis alternatif?
Guru : Ahli statistik dan tata bahasa tampaknya tidak bergaul. :-) Serius, apa yang mereka maksud dengan "hipotesis" biasanya adalah serangkaian kemungkinan besar. Di sini, alternatifnya (seperti yang Anda nyatakan sebelumnya) adalah bahwa pengukurannya "kurang tersebar" dari sebelumnya. Tapi apalagi ? Ada banyak kemungkinan. Di sini, izinkan saya menunjukkan yang lain. Saya menggambarnya dengan garis kuning. Ada di antara dua sebelumnya.
Siswa : Saya mengerti: Anda dapat memiliki jumlah spread berbeda tetapi Anda tidak tahu sebelumnya berapa banyak spread sebenarnya. Tapi mengapa Anda membuat naungan lucu di foto ini?
Guru : Saya ingin menyoroti di mana dan bagaimana perbedaan histogram. Saya menaungi mereka dalam abu-abu di mana histogram alternatif lebih rendah dari nol dan merah di mana alternatif lebih tinggi .
Mahasiswa : Mengapa itu penting?
Guru : Apakah Anda ingat bagaimana Anda mewarnai histogram pertama di kedua ekornya? [Melihat melalui kertas.] Ah, ini dia. Mari mewarnai gambar ini dengan cara yang sama.
Mahasiswa : Saya ingat: itu adalah nilai-nilai ekstrem. Saya menemukan tempat-tempat di mana kepadatan nol adalah sekecil mungkin dan diwarnai 10% dari area di sana.
Guru : Ceritakan tentang alternatif di daerah-daerah ekstrim itu.
Siswa : Sulit dilihat, karena krayon menutupinya, tetapi sepertinya hampir tidak ada peluang untuk alternatif di area yang saya warnai. Histogram mereka benar terhadap sumbu nilai dan tidak ada ruang untuk area di bawahnya.
Guru : Mari kita lanjutkan pemikiran itu. Jika saya memberi tahu Anda, secara hipotetis, bahwa suatu pengukuran memiliki perpindahan , dan meminta Anda untuk memilih yang mana dari ketiga histogram ini yang paling mungkin berasal, yang mana yang akan terjadi?−2
Mahasiswa : Yang pertama - yang biru. Ini yang paling tersebar dan itu satu-satunya di mana tampaknya memiliki peluang untuk terjadi.−2
Guru : Dan bagaimana dengan nilai dalam naskah?0.1
Siswa : Hmmm ... itu cerita yang berbeda. Ketiga histogram cukup tinggi di atas tanah pada .0.1
Guru : Baik, cukup adil. Tapi anggaplah saya katakan nilai nilainya mendekati , seperti antara dan . Apakah itu membantu Anda membaca beberapa probabilitas dari grafik ini?0 0,20.1 0 0.2
Mahasiswa : Tentu, karena saya bisa menggunakan area. Saya hanya perlu memperkirakan area di bawah setiap kurva antara dan . Tapi itu terlihat sangat sulit.0.20 0.2
Guru : Anda tidak perlu sejauh itu. Bisakah Anda memberi tahu area mana yang terbesar?
Mahasiswa : Yang di bawah kurva tertinggi, tentu saja. Ketiga area memiliki basis yang sama, sehingga semakin tinggi kurva, semakin banyak area di bawahnya dan basis. Itu berarti histogram tertinggi - yang saya gambar, dengan garis merah - adalah yang paling mungkin untuk perpindahan . Saya pikir saya melihat ke mana Anda akan pergi dengan ini, tetapi saya sedikit khawatir: bukankah saya harus melihat semua histogram untuk semua alternatif, bukan hanya satu atau dua yang ditampilkan di sini? Bagaimana saya bisa melakukan itu?0.1
Guru : Anda pandai mengambil pola, jadi beri tahu saya: karena alat pengukur dibuat lebih dan lebih tepat, apa yang terjadi pada histogramnya?
Siswa : Semakin sempit - oh, dan itu harus menjadi lebih tinggi juga, jadi total areanya tetap sama. Itu membuatnya sangat sulit untuk membandingkan histogram. Yang alternatif semua lebih tinggi dari nol di , itu sudah jelas. Tetapi pada nilai-nilai lain kadang-kadang alternatif lebih tinggi dan kadang-kadang lebih rendah! Misalnya, [menunjuk pada nilai dekat ], di sini histogram merah saya adalah yang terendah, histogram kuning adalah yang tertinggi, dan histogram nol asli ada di antara mereka. Tapi di sebelah kanan, nol adalah yang tertinggi.3 / 40 3/4
Guru : Secara umum, membandingkan histogram adalah bisnis yang rumit. Untuk membantu kami melakukannya, saya telah meminta komputer untuk membuat plot lain: ia telah membagi masing-masing ketinggian histogram alternatif (atau "kepadatan") dengan tinggi histogram nol, menciptakan nilai yang dikenal sebagai "rasio kemungkinan." Akibatnya, nilai yang lebih besar dari berarti alternatif lebih mungkin, sedangkan nilai kurang dari berarti alternatif lebih kecil. Ini telah menarik satu alternatif lagi: itu lebih tersebar daripada dua lainnya, tetapi masih kurang menyebar daripada peralatan aslinya.11 1
Guru (lanjutan): Bisakah Anda tunjukkan di mana alternatif cenderung lebih mungkin daripada nol?
Mahasiswa (mewarnai): Di sini di tengah, jelas. Dan karena ini bukan histogram lagi, saya kira kita harus melihat ketinggian daripada area, jadi saya hanya menandai rentang nilai pada sumbu horizontal. Tapi bagaimana saya tahu berapa banyak warna di tengah? Di mana saya berhenti mewarnai?
Guru : Tidak ada aturan yang pasti. Itu semua tergantung pada bagaimana kita berencana untuk menggunakan kesimpulan kita dan seberapa sengit skeptisnya. Tapi duduk dan pikirkan apa yang telah Anda capai: Anda sekarang menyadari bahwa hasil dengan rasio kemungkinan besar adalah bukti untuk alternatif dan hasil dengan rasio kemungkinan kecil adalah bukti terhadap alternatif. Apa yang akan saya minta Anda lakukan adalah mewarnai di area yang, sejauh mungkin, memiliki peluang kecil terjadi di bawah hipotesis nol dan peluang yang relatif besar terjadi di bawah alternatif. Kembali ke diagram pertama yang Anda warnai, pada awal percakapan kami, Anda mewarnai kedua ujung nol karena keduanya "ekstrem." Apakah mereka masih melakukan pekerjaan dengan baik?
Mahasiswa : Saya kira tidak. Meskipun mereka cukup ekstrim dan langka di bawah hipotesis nol, mereka praktis mustahil untuk salah satu alternatif. Jika pengukuran baru saya, katakanlah , saya pikir saya akan berpihak pada skeptis dan menyangkal bahwa ada perbaikan telah terjadi, meskipun adalah hasil yang tidak biasa dalam hal apapun. Saya ingin mengubah pewarnaan itu. Sini - biarkan aku punya krayon lain.3.03.0 3.0
Guru : Apa yang diwakilinya?
Siswa : Kami mulai dengan Anda meminta saya untuk menggambar hanya 10% dari area di bawah histogram asli - yang menggambarkan nol. Jadi sekarang saya menarik 10% dari area di mana alternatif tampaknya lebih mungkin terjadi. Saya pikir ketika pengukuran baru di daerah itu, itu memberitahu kita bahwa kita harus percaya alternatifnya.
Guru : Dan bagaimana seharusnya orang yang skeptis bereaksi terhadap itu?
Siswa : Orang yang skeptis tidak pernah mengakui bahwa dia salah, bukan? Tapi saya pikir imannya harus sedikit terguncang. Lagipula, kami mengaturnya sehingga meskipun sebuah pengukuran bisa berada di dalam area yang baru saja saya gambar, itu hanya memiliki peluang 10% untuk berada di sana ketika nolnya benar. Dan itu memiliki peluang lebih besar untuk berada di sana ketika alternatifnya benar. Saya tidak bisa memberi tahu Anda seberapa besar peluang itu, karena itu akan tergantung pada seberapa banyak ilmuwan meningkatkan peralatan. Saya hanya tahu itu lebih besar. Jadi bukti akan melawan skeptis.
Guru : Baiklah. Maukah Anda meringkas pemahaman Anda sehingga kami sangat jelas tentang apa yang telah Anda pelajari?
Siswa : Saya belajar bahwa untuk membandingkan hipotesis alternatif dengan hipotesis nol, kita harus membandingkan histogram mereka. Kami membagi kepadatan alternatif dengan kepadatan nol: itulah yang Anda sebut "rasio kemungkinan." Untuk membuat tes yang baik, saya harus memilih sejumlah kecil seperti 10% atau apa pun yang mungkin cukup untuk mengguncang skeptis. Maka saya harus menemukan nilai di mana rasio kemungkinan setinggi mungkin dan warna sampai 10% (atau apa pun) telah diwarnai.
Guru : Dan bagaimana Anda menggunakan pewarnaan itu?
Siswa : Seperti yang Anda ingatkan saya sebelumnya, pewarnaan harus berada di antara garis-garis vertikal. Nilai-nilai (pada sumbu horizontal) yang terletak di bawah pewarnaan adalah bukti terhadap hipotesis nol. Nilai-nilai lain - yah, sulit untuk mengatakan apa artinya tanpa melihat lebih detail semua histogram yang terlibat.
Guru : Kembali ke nilai dalam naskah, apa yang akan Anda simpulkan?0.1
Siswa : Itu di dalam area warna terakhir saya, jadi saya pikir ilmuwan itu mungkin benar dan peralatannya benar-benar ditingkatkan.
Guru : Satu hal terakhir. Kesimpulan Anda didasarkan pada memilih 10% sebagai kriteria, atau "ukuran" dari tes. Banyak orang lebih suka menggunakan 5% sebagai gantinya. Beberapa lebih suka 1%. Apa yang bisa Anda katakan pada mereka?
Mahasiswa : Saya tidak bisa melakukan semua tes itu sekaligus! Yah, mungkin aku bisa. Saya dapat melihat bahwa berapapun ukuran tes yang seharusnya, saya harus mulai mewarnai dari , yang dalam hal ini nilai "paling ekstrem", dan bekerja ke luar di kedua arah dari sana. Jika saya berhenti tepat di - nilai sebenarnya diamati - saya pikir saya akan berwarna di suatu tempat antara dan , katakan . 5% dan 1% orang dapat langsung tahu bahwa saya terlalu banyak warna: jika mereka ingin hanya warna 5% atau 1%, mereka bisa, tetapi mereka tidak akan mencapai sejauh0,1 0,05 0,1 0,08 0,10 0.1 0.05 0.1 0.08 0.1 . Mereka tidak akan sampai pada kesimpulan yang sama seperti yang saya lakukan: mereka akan mengatakan tidak ada cukup bukti bahwa suatu perubahan benar-benar terjadi.
Guru : Anda baru saja mengatakan kepada saya apa yang semua orang kutipan di awal benar-benar berarti. Seharusnya jelas dari contoh ini bahwa mereka tidak mungkin bermaksud "lebih ekstrim" atau "lebih besar dari atau sama" atau "setidaknya sama besar" dalam arti memiliki nilai yang lebih besar atau bahkan memiliki nilai di mana kepadatan nol kecil. Mereka benar-benar memaksudkan hal-hal ini dalam arti rasio kemungkinan besar yang telah Anda jelaskan. Omong-omong, angka sekitar yang Anda hitung disebut "p-value." Ini hanya dapat dipahami dengan tepat seperti yang telah Anda jelaskan: berkenaan dengan analisis ketinggian histogram relatif - rasio kemungkinan.0.08
Mahasiswa : Terima kasih. Saya tidak yakin saya sepenuhnya memahami semua ini, tetapi Anda telah memberi saya banyak hal untuk dipikirkan.
Guru : Jika Anda ingin melangkah lebih jauh, lihatlah Neyman-Pearson Lemma . Anda mungkin siap untuk memahaminya sekarang.
Ringkasan
Banyak tes yang didasarkan pada statistik tunggal seperti yang ada dalam dialog akan menyebutnya " " atau " ". Ini adalah cara-cara untuk menunjukkan seperti apa histogram nol itu, tetapi itu hanya petunjuk: apa yang kita beri nama nomor ini tidak terlalu penting. Konstruksi yang dirangkum oleh siswa, seperti diilustrasikan di sini, menunjukkan bagaimana hubungannya dengan nilai-p. Nilai p adalah ukuran uji terkecil yang akan menyebabkan pengamatan mengarah pada penolakan hipotesis nol.t t = 0,1z t t=0.1
Dalam gambar ini, yang diperbesar untuk menunjukkan detail, hipotesis nol diplot dalam warna biru solid dan dua alternatif khas diplot dengan garis putus-putus. Wilayah di mana alternatif tersebut cenderung jauh lebih besar daripada nol diarsir. Naungan dimulai di mana kemungkinan relatif dari alternatif terbesar (pada ). Naungan berhenti ketika pengamatan tercapai. Nilai-p adalah area wilayah yang diarsir di bawah histogram nol: ini adalah kesempatan, dengan asumsi nol itu benar, untuk mengamati hasil yang rasio kemungkinannya cenderung besar terlepas dari alternatif mana yang benar. Secara khusus, konstruksi ini sangat tergantung pada hipotesis alternatif. Itu tidak dapat dilakukan tanpa menentukan alternatif yang mungkin.t = 0,10 t=0.1
sumber
Sebelum menyentuh topik ini, saya selalu memastikan bahwa siswa senang bergerak di antara persentase, desimal, peluang dan pecahan. Jika mereka tidak sepenuhnya senang dengan ini maka mereka dapat menjadi sangat bingung.
Saya ingin menjelaskan pengujian hipotesis untuk pertama kalinya (dan karena itu nilai-p dan statistik uji) melalui eksperimen teh klasik Fisher. Saya punya beberapa alasan untuk ini:
(i) Saya pikir bekerja melalui percobaan dan mendefinisikan istilah-istilah saat kita melanjutkan lebih masuk akal bahwa hanya mendefinisikan semua istilah ini untuk memulai. (ii) Anda tidak perlu bergantung secara eksplisit pada distribusi probabilitas, area di bawah kurva, dll untuk mendapatkan poin utama dari pengujian hipotesis. (iii) Ini menjelaskan gagasan konyol tentang "sebagai atau lebih ekstrem daripada yang diamati" dengan cara yang cukup masuk akal (iv) Saya menemukan siswa suka memahami sejarah, asal-usul dan kisah belakang tentang apa yang mereka pelajari karena menjadikannya lebih nyata. dari beberapa teori abstrak. (v) Tidak masalah dari disiplin apa atau subjek siswa berasal, mereka dapat berhubungan dengan contoh teh (NB Beberapa siswa internasional mengalami kesulitan dengan lembaga teh khas Inggris dengan susu.)
[Catatan: Saya awalnya mendapat ide ini dari artikel hebat Dennis Lindley "Analisis Data Eksperimental: Penghargaan Teh & Anggur" di mana ia menunjukkan mengapa metode Bayesian lebih unggul daripada metode klasik.]
Kisah belakang adalah bahwa Muriel Bristol mengunjungi Fisher suatu sore di tahun 1920-an di Rothamsted Experimental Station untuk minum teh. Ketika Fisher memasukkan susu ke dalam, dia mengeluh mengatakan bahwa dia juga bisa tahu apakah susu itu dituangkan pertama (atau yang terakhir) dan bahwa dia lebih suka yang pertama. Untuk mengujinya, ia merancang eksperimen teh klasiknya di mana Muriel disajikan dengan sepasang cangkir teh dan ia harus mengidentifikasi yang mana yang ditambahkan susu terlebih dahulu. Ini diulangi dengan enam pasang cangkir teh. Pilihannya adalah Kanan (R) atau Salah (W) dan hasilnya adalah: RRRRRW.
Misalkan Muriel sebenarnya hanya menebak dan tidak memiliki kemampuan untuk melakukan diskriminasi apa pun. Ini disebut Hipotesis Null . Menurut Fisher tujuan dari percobaan ini adalah untuk mendiskreditkan hipotesis nol ini. Jika Muriel menebak dia akan mengidentifikasi cangkir teh dengan benar dengan probabilitas 0,5 pada setiap belokan dan karena mereka independen hasil yang diamati memiliki 0,5 = 0,016 (atau 1/64). Fisher kemudian berpendapat bahwa:6
(a) hipotesis nol (Muriel menebak) adalah benar dan suatu kejadian dengan probabilitas kecil telah terjadi atau,
(B) hipotesis nol adalah salah dan Muriel memiliki kekuatan diskriminatif.
Nilai-p (atau nilai probabilitas) adalah probabilitas untuk mengamati hasil ini (RRRRRW) mengingat hipotesis nol benar - itu adalah probabilitas kecil yang dimaksud dalam (a), di atas. Dalam hal ini 0,016. Karena peristiwa dengan probabilitas kecil hanya jarang terjadi (menurut definisi) situasi (b) mungkin penjelasan yang lebih disukai tentang apa yang terjadi daripada situasi (a). Ketika kita menolak hipotesis nol kita sebenarnya menerima hipotesis sebaliknya yang kita sebut hipotesis alternatif. Dalam contoh ini, Muriel yang memiliki kekuatan diskriminatif adalah hipotesis alternatif.
Pertimbangan penting adalah apa yang kita kategorikan sebagai probabilitas "kecil"? Apa poin batas di mana kami bersedia untuk mengatakan bahwa suatu peristiwa tidak mungkin? Benchmark standar adalah 5% (0,05) dan ini disebut tingkat signifikansi. Ketika nilai-p lebih kecil dari tingkat signifikansi kami menolak hipotesis nol sebagai salah dan menerima hipotesis alternatif kami. Sudah lazim untuk mengklaim hasil adalah "signifikan" ketika nilai-p lebih kecil dari tingkat signifikansi yaitu ketika probabilitas dari apa yang kami amati terjadi mengingat hipotesis nol benar lebih kecil dari titik cutoff kami. Penting untuk jelas bahwa menggunakan 5% sepenuhnya subjektif (seperti menggunakan tingkat signifikansi umum lainnya 1% dan 10%).
Fisher menyadari bahwa ini tidak berhasil; setiap kemungkinan hasil dengan satu pasangan yang salah sama-sama menunjukkan kekuatan diskriminatif. Probabilitas yang relevan untuk situasi (a), di atas, karena itu adalah 6 (0,5) ^ 6 = 0,094 (atau 6/64) yang sekarang tidak signifikan pada tingkat signifikansi 5%. Untuk mengatasi hal ini Fisher berargumen bahwa jika 1 kesalahan dalam 6 dianggap sebagai bukti kekuatan diskriminatif maka tidak ada kesalahan yaitu hasil yang lebih kuat menunjukkan kekuatan diskriminatif daripada yang diamati harus dimasukkan saat menghitung nilai p. Ini menghasilkan amandemen berikut untuk alasan, baik:
(a) hipotesis nol (Muriel menebak) adalah benar dan probabilitas kejadian sebagai, atau lebih, ekstrem daripada yang diamati adalah kecil, atau
(B) hipotesis nol adalah salah dan Muriel memiliki kekuatan diskriminatif.
Kembali ke eksperimen teh kami dan kami menemukan bahwa nilai p di bawah pengaturan ini adalah 7 (0,5) ^ 6 = 0,109 yang masih tidak signifikan pada ambang 5%.
Saya kemudian meminta siswa untuk bekerja dengan beberapa contoh lain seperti melempar koin untuk mengetahui apakah koin itu adil atau tidak. Ini latihan rumah konsep hipotesis nol / alternatif, nilai p dan tingkat signifikansi. Kami kemudian pindah ke kasus variabel kontinu dan memperkenalkan gagasan tentang uji-statistik. Seperti yang telah kita bahas pada distribusi normal, distribusi normal standar dan transformasi-z secara mendalam, ini hanyalah masalah menggabungkan beberapa konsep.
Selain menghitung statistik uji, nilai-p, dan membuat keputusan (signifikan / tidak signifikan), saya meminta siswa untuk mengerjakan makalah yang dipublikasikan dengan mengisi permainan kosong yang hilang.
sumber
Tidak ada jumlah penjelasan atau perhitungan verbal yang benar-benar membantu saya untuk memahami pada tingkat usus apa nilai-p itu, tetapi itu benar-benar menjadi fokus bagi saya begitu saya mengambil kursus yang melibatkan simulasi. Itu memberi saya kemampuan untuk benar-benar melihat data yang dihasilkan oleh hipotesis nol dan untuk merencanakan cara / dll. sampel simulasi, kemudian lihat di mana statistik sampel saya jatuh pada distribusi itu.
Saya pikir keuntungan utama dari ini adalah memungkinkan siswa melupakan matematika dan distribusi statistik tes selama satu menit dan fokus pada konsep yang ada. Memang, itu mengharuskan saya belajar bagaimana mensimulasikan hal-hal itu, yang akan menimbulkan masalah bagi sekelompok siswa yang sama sekali berbeda. Tapi itu berhasil untuk saya, dan saya telah menggunakan simulasi berkali-kali untuk membantu menjelaskan statistik kepada orang lain dengan sangat sukses (misalnya, "Ini adalah data Anda terlihat; ini adalah apa yang distribusi Poisson terlihat seperti overlay. Apakah Anda YAKIN Anda ingin) untuk melakukan regresi Poisson? ").
Ini tidak persis menjawab pertanyaan yang Anda ajukan, tetapi bagi saya, setidaknya, itu membuat mereka sepele.
sumber
Definisi p-value yang bagus adalah "probabilitas mengamati statistik uji setidaknya sebesar yang dihitung dengan asumsi hipotesis nol benar".
Masalahnya adalah bahwa hal itu membutuhkan pemahaman tentang "statistik uji" dan "hipotesis nol". Tapi, itu mudah ditemui. Jika hipotesis nol itu benar, biasanya sesuatu seperti "parameter dari populasi A sama dengan parameter dari populasi B", dan Anda menghitung statistik untuk memperkirakan parameter tersebut, berapa probabilitas melihat statistik uji yang mengatakan, "mereka ini berbeda"?
Misalnya, jika koin itu adil, berapa probabilitas saya akan melihat 60 kepala dari 100 lemparan? Itu menguji hipotesis nol, "koin itu adil", atau "p = 0,5" di mana p adalah probabilitas kepala.
Statistik uji dalam kasus itu adalah jumlah kepala.
Sekarang, saya berasumsi bahwa apa yang Anda sebut "nilai-t" adalah "statistik uji" umum, bukan nilai dari "distribusi t". Mereka bukan hal yang sama, dan istilah "nilai-t" tidak (harus) digunakan secara luas dan bisa membingungkan.
Apa yang Anda sebut "nilai-t" mungkin adalah apa yang saya sebut "statistik uji". Untuk menghitung nilai-p (ingat, itu hanya probabilitas) Anda perlu distribusi, dan nilai untuk dimasukkan ke distribusi yang akan mengembalikan probabilitas. Setelah Anda melakukannya, probabilitas Anda kembali adalah nilai-p Anda. Anda dapat melihat bahwa mereka terkait karena di bawah distribusi yang sama, statistik uji yang berbeda akan mengembalikan nilai p yang berbeda. Statistik uji yang lebih ekstrim akan mengembalikan nilai-p yang lebih rendah memberikan indikasi lebih besar bahwa hipotesis nol salah.
Saya telah mengabaikan masalah nilai-p satu sisi dan dua sisi di sini.
sumber
Bayangkan Anda memiliki tas berisi 900 kelereng hitam dan 100 putih, yaitu 10% kelereng berwarna putih. Sekarang bayangkan Anda mengambil 1 marmer, lihat dan catat warnanya, ambil yang lain, catat warnanya dll. Dan lakukan ini 100 kali. Pada akhir proses ini, Anda akan memiliki nomor kelereng putih yang, idealnya, kita harapkan menjadi 10, yaitu 10% dari 100, tetapi dalam kenyataannya mungkin 8, atau 13 atau apa pun hanya karena keacakan. Jika Anda mengulangi percobaan penarikan 100 kelereng ini berkali-kali, dan kemudian memplot histogram dari jumlah kelereng putih yang ditarik per percobaan, Anda akan menemukan bahwa Anda akan memiliki Kurva Bell yang berpusat di sekitar 10.
Ini mewakili hipotesis 10% Anda: dengan tas yang berisi 1000 kelereng yang 10% berwarna putih, jika Anda secara acak mengeluarkan 100 kelereng, Anda akan menemukan 10 kelereng putih dalam seleksi, memberi atau menerima 4 atau lebih. Nilai p adalah semua tentang ini "memberi atau menerima 4 atau lebih." Katakanlah dengan merujuk pada Kurva Lonceng yang dibuat sebelumnya, Anda dapat menentukan bahwa kurang dari 5% dari waktu yang Anda dapatkan 5 kelereng putih atau lebih sedikit dan 5% dari waktu menyumbang 15 kelereng putih atau lebih yaitu> 90% dari kali 100 pilihan marmer Anda akan mengandung antara 6 hingga 14 kelereng putih inklusif.
Sekarang dengan asumsi seseorang menjatuhkan sekantong 1000 kelereng dengan jumlah kelereng putih di dalamnya, kami memiliki alat untuk menjawab pertanyaan-pertanyaan ini
i) Apakah ada kurang dari 100 kelereng putih?
ii) Apakah ada lebih dari 100 kelereng putih?
iii) Apakah tas berisi 100 kelereng putih?
Keluarkan 100 kelereng dari tas dan hitung berapa banyak sampel ini berwarna putih.
a) Jika ada 6 hingga 14 putih dalam sampel Anda tidak dapat menolak hipotesis bahwa ada 100 kelereng putih di dalam tas dan nilai-p yang sesuai untuk 6 sampai 14 akan> 0,05.
b) Jika ada 5 atau lebih sedikit putih dalam sampel Anda dapat menolak hipotesis bahwa ada 100 kelereng putih di dalam tas dan nilai-p yang sesuai untuk 5 atau lebih sedikit akan menjadi <0,05. Anda akan mengharapkan tas berisi <10% kelereng putih.
c) Jika ada 15 putih atau lebih dalam sampel Anda dapat menolak hipotesis bahwa ada 100 kelereng putih di dalam tas dan nilai-p yang sesuai untuk 15 atau lebih akan menjadi <0,05. Anda akan mengharapkan tas berisi> 10% kelereng putih.
Menanggapi komentar Baltimark
Mengingat contoh di atas, ada kira-kira: -
4,8% kemungkinan untuk mendapatkan 5 bola putih atau kurang
1,85% kemungkinan 4 atau kurang
0,55% kemungkinan 3 atau kurang
0,1% kemungkinan 2 atau kurang
6,25% kemungkinan 15 atau lebih
3,25% kemungkinan 16 atau lebih
Kemungkinan 1,5% dari 17 atau lebih
Peluang 0,65% dari 18 atau lebih
Peluang 0,25% dari 19 atau lebih
0,1% kemungkinan 20 atau lebih
0,05% kemungkinan 21 atau lebih
Angka-angka ini diperkirakan dari distribusi empiris yang dihasilkan oleh rutin Monte Carlo sederhana yang dijalankan dalam R dan hasil kuantil dari distribusi sampel.
Untuk keperluan menjawab pertanyaan awal, misalkan Anda menggambar 5 bola putih, hanya ada peluang sekitar 4,8% bahwa jika 1000 tas marmer benar-benar berisi 10% bola putih, Anda hanya akan mengeluarkan 5 bola putih dalam sampel 100. Ini sama dengan nilai p <0,05. Anda sekarang harus memilih di antara
i) Benar-benar ada 10% bola putih di dalam tas dan saya baru saja "sial" untuk menggambar begitu sedikit
atau
ii) Saya telah menggambar sangat sedikit bola putih sehingga tidak mungkin benar-benar ada 10% bola putih (tolak hipotesis 10% bola putih)
sumber
Apa nilai p tidak memberi tahu Anda adalah seberapa besar kemungkinan hipotesis nol itu benar. Di bawah kerangka kerja pengujian signifikansi konvensional (Fisher) pertama-tama kita menghitung kemungkinan mengamati data dengan asumsi hipotesis nol benar, ini adalah nilai-p. Tampaknya secara intuitif masuk akal untuk mengasumsikan hipotesis nol mungkin salah jika data tidak cukup untuk diamati di bawah hipotesis nol. Ini sepenuhnya masuk akal. Para ahli statistik secara tradisional menggunakan ambang batas dan "menolak hipotesis nol pada tingkat signifikansi 95%" jika (1 - p)> 0,95; namun ini hanya sebuah konvensi yang telah terbukti masuk akal dalam praktiknya - itu tidak berarti bahwa ada kemungkinan kurang dari 5% bahwa hipotesis nol itu salah (dan karena itu kemungkinan 95% bahwa hipotesis alternatif itu benar).
Pencitraan fungsi f () yang memetakan nilai-p ke probabilitas bahwa hipotesis alternatif itu benar. Akan masuk akal untuk menyatakan bahwa fungsi ini benar-benar menurun (sedemikian rupa sehingga semakin besar kemungkinan pengamatan di bawah hipotesis nol, semakin kecil kemungkinan hipotesis alternatif itu benar), dan bahwa ia memberikan nilai antara 0 dan 1 (karena memberikan perkiraan probabilitas). Namun, hanya itu yang kita ketahui tentang f (), jadi sementara ada hubungan antara p dan probabilitas bahwa hipotesis alternatif itu benar, ia tidak dikalibrasi. Ini berarti kita tidak dapat menggunakan nilai-p untuk membuat pernyataan kuantitatif tentang kemungkinan hipotesis nol dan alternatif.
Peringatan Caveat: Ini tidak benar-benar dalam kerangka sering untuk berbicara tentang probabilitas bahwa hipotesis itu benar, karena itu bukan variabel acak - itu bisa benar atau tidak. Jadi di mana saya telah berbicara tentang kemungkinan kebenaran suatu hipotesis, saya secara implisit telah pindah ke interpretasi Bayesian. Tidaklah tepat untuk mencampur Bayesian dan frequentist, namun selalu ada godaan untuk melakukannya karena apa yang kita inginkan adalah indikasi kuantitatif dari kemungkinan masuk akal / probabilitas hipotesis. Tapi ini bukan apa yang diberikan p-value.
sumber
Dalam statistik Anda tidak pernah bisa mengatakan sesuatu yang benar-benar pasti, jadi ahli statistik menggunakan pendekatan lain untuk mengukur apakah hipotesis itu benar atau tidak. Mereka mencoba menolak semua hipotesis lain yang tidak didukung oleh data.
Untuk melakukan ini, tes statistik memiliki hipotesis nol dan hipotesis alternatif. Nilai p yang dilaporkan dari uji statistik adalah kemungkinan hasil yang diberikan bahwa hipotesis nol itu benar. Itu sebabnya kami ingin nilai-p kecil. Semakin kecil mereka, semakin kecil kemungkinan hasilnya jika hipotesis nol itu benar. Jika nilai-p cukup kecil (yaitu, sangat tidak mungkin untuk hasil terjadi jika hipotesis nol benar), maka hipotesis nol ditolak.
Dengan cara ini, hipotesis nol dapat dirumuskan dan kemudian ditolak. Jika hipotesis nol ditolak, Anda menerima hipotesis alternatif sebagai penjelasan terbaik. Ingat saja bahwa hipotesis alternatif tidak pernah pasti, karena hipotesis nol dapat, secara kebetulan, menghasilkan hasilnya.
sumber
Saya agak malu-malu untuk menghidupkan kembali topik lama, tetapi saya melompat dari sini , jadi saya memposting ini sebagai jawaban atas pertanyaan di tautan.
Nilai-p adalah istilah konkret, seharusnya tidak ada ruang untuk kesalahpahaman. Tetapi, entah bagaimana mistis bahwa terjemahan sehari-hari dari definisi nilai-p mengarah ke banyak salah tafsir yang berbeda. Saya pikir akar masalahnya adalah penggunaan frasa "setidaknya sama merugikannya dengan hipotesis nol" atau "setidaknya sama ekstrimnya dengan yang ada dalam data sampel Anda" dll.
Misalnya, kata Wikipedia
Arti nilai kabur ketika orang pertama kali menemukan "(atau hasil yang lebih ekstrem)" dan mulai berpikir " lebih banyak ekstreeeme ?".p
Saya pikir lebih baik menyerahkan "hasil yang lebih ekstrem" ke sesuatu seperti tindakan ucapan tidak langsung . Jadi, pendapat saya adalah
Untuk membuat ide ini konkret, anggaplah Anda memiliki sampel yangμ0=20 N(20,1)
x
terdiri dari 10 pengamatan dan Anda berhipotesis bahwa rata-rata populasi adalah . Jadi, di dunia Anda yang dihipotesiskan, distribusi populasi adalah .Anda menghitung t-stat sebagai , dan mencari tahu bahwat0=n−−√X¯−μ0s
Jadi, apa probabilitas mengamatisebesar 2,97 ("lebih ekstrem" datang ke sini) di dunia imajiner? Dalam dunia imajiner , dengan demikian, nilai-p harus|t0| t0∼t(9)
Karena nilai-p kecil, sangat kecil kemungkinan sampel
x
diambil di dunia yang dihipotesiskan. Oleh karena itu, kami menyimpulkan bahwa sangat tidak mungkin bahwa dunia yang dihipotesiskan sebenarnya adalah dunia yang sebenarnya.sumber
Saya merasa bermanfaat untuk mengikuti urutan di mana Anda menjelaskan konsep dalam urutan berikut: (1) Skor z dan proporsi di atas dan di bawah skor z dengan asumsi kurva normal. (2) Gagasan distribusi sampling, dan skor z untuk sampel yang diberikan berarti ketika standar deviasi populasi diketahui (dan kemudian uji satu sampel z) (3) Uji satu sampel dan kemungkinan suatu sampel berarti ketika standar deviasi populasi tidak diketahui (penuh dengan cerita tentang identitas rahasia seorang ahli statistik industri tertentu dan mengapa Guinness adalah Good For Statistics). (4) Uji-t dua sampel dan distribusi sampel dari perbedaan rata-rata. Kemudahan yang diterima siswa pengantar pada uji-t banyak berkaitan dengan pekerjaan dasar yang disiapkan untuk topik ini.
/ * instruktur mode siswa yang ketakutan mati * /
sumber
Saya juga menemukan simulasi menjadi berguna dalam mengajar.
Berikut ini adalah simulasi untuk kasus paling mendasar yang dapat kami contoh kali dari (karenanya, dikenal untuk kesederhanaan) dan uji terhadap sisi kiri alternatif-sisi.n N(μ,1) σ2=1 H0:μ=μ0
Kemudian, -statistic adalah bawah , sehingga -value hanya atau dalam R.t N(0,1)H0pΦ(tstat)tstat:=n−−√(X¯−μ0) N(0,1) H0 p Φ(tstat)
pnorm(tstat)
Dalam simulasi, fraksi waktu yang dihasilkan data di bawah nol (di sini, ) menghasilkan sampel berarti disimpan dalam jumlah yang lebih sedikit (yaitu, `` lebih ekstrem '' dalam hal ini tes sisi kiri) daripada yang dihitung dari data yang diamati.μ 0 = 2N(μ0,1) μ0=2
nullMeans
sumber
Dalam pengertian ontologis (apa itu kebenaran?), Itu tidak ada artinya . Setiap pengujian hipotesis didasarkan pada asumsi yang belum diuji . Ini biasanya bagian dari tes itu sendiri, tetapi juga merupakan bagian dari model apa pun yang Anda gunakan (misalnya dalam model regresi). Karena kita hanya mengasumsikan ini, kita tidak bisa tahu apakah alasan mengapa nilai-p di bawah ambang batas kita adalah karena nol adalah salah. Ini adalah non sequitur untuk menyimpulkan tanpa syarat bahwa karena nilai-p rendah kita harus menolak nol. Misalnya, sesuatu dalam model bisa salah.
Dalam arti epistemologis (apa yang bisa kita pelajari?), Itu berarti sesuatu . Anda memperoleh pengetahuan yang tergantung pada premis yang tidak teruji sebagai benar. Karena (setidaknya sampai sekarang) kita tidak dapat membuktikan setiap bangunan realitas, semua pengetahuan kita akan selalu bersyarat. Kami tidak akan pernah sampai ke "kebenaran".
sumber
Saya pikir contoh-contoh yang melibatkan kelereng atau koin atau pengukur ketinggian bisa baik untuk berlatih matematika, tetapi mereka tidak baik untuk membangun intuisi. Mahasiswa suka mempertanyakan masyarakat, bukan? Bagaimana kalau menggunakan contoh politik?
Katakanlah seorang kandidat politik menjalankan kampanye yang menjanjikan bahwa beberapa kebijakan akan membantu perekonomian. Dia terpilih, kebijakannya diberlakukan, dan 2 tahun kemudian, ekonomi sedang booming. Dia siap untuk dipilih kembali, dan mengklaim bahwa kebijakannya adalah alasan untuk kemakmuran semua orang. Haruskah Anda memilihnya kembali?
Warga negara yang bijaksana harus mengatakan "baik, memang benar bahwa ekonomi berjalan baik, tetapi bisakah kita benar-benar mengaitkannya dengan kebijakan Anda?" Untuk benar-benar menjawab ini, kita harus mempertimbangkan pertanyaan "akankah ekonomi berjalan baik dalam 2 tahun terakhir tanpanya?" Jika jawabannya adalah ya (mis. Ekonomi sedang booming karena beberapa perkembangan teknologi baru yang tidak terkait) maka kami menolak penjelasan politisi tentang data tersebut.
Yaitu, untuk menguji satu hipotesis (kebijakan membantu ekonomi), kita harus membangun model dunia di mana hipotesis itu nol (kebijakan tidak pernah diberlakukan). Kami kemudian membuat prediksi di bawah model itu. Kami menyebut probabilitas mengamati data ini di dunia alternatif itu sebagai nilai-p . Jika p-value terlalu tinggi, maka kami tidak yakin dengan hipotesis - kebijakan tidak membuat perbedaan. Jika p-value rendah maka kami memercayai hipotesis - kebijakan itu penting.
sumber
Saya belum membuktikan argumen berikut sehingga mungkin mengandung kesalahan, tapi saya benar-benar ingin memasukkan dua sen saya (Mudah-mudahan, saya akan segera memperbaruinya dengan bukti yang kuat). Cara lain untuk melihat nilai- adalahp
Khususnya, jika memiliki distribusi kontinu dan Anda tidak menggunakan perkiraan, makaX
Anda dapat menganggap ini sebagai deskripsi umum dari nilai- .p
sumber
Nilai-p tidak seisterius yang diperkirakan sebagian besar analis. Ini adalah cara tidak harus menghitung interval kepercayaan untuk uji-t tetapi hanya menentukan tingkat kepercayaan dengan hipotesis nol yang dapat ditolak.
ILUSTRASI. Anda menjalankan tes. Nilai-p muncul sebagai 0,1866 untuk variabel-Q, 0,0023 untuk variabel-R. (Ini dinyatakan dalam%).
Jika Anda menguji pada tingkat kepercayaan 95% untuk menolak null hypo;
untuk Q: 100-18.66 = 81.34%
untuk R: 100-0,23 = 99,77%.
Pada tingkat kepercayaan 95%, Q memberikan kepercayaan 81,34% untuk ditolak. Ini jatuh di bawah 95% dan tidak dapat diterima. MENERIMA NULL.
R memberikan kepercayaan 99,77% untuk menolak nol. Jelas di atas yang diinginkan 95%. Kami dengan demikian menolak nol.
Saya baru saja mengilustrasikan pembacaan nilai-p melalui 'cara sebaliknya' untuk mengukurnya hingga tingkat kepercayaan di mana kita menolak null hypo.
sumber
****** Nilai p dalam pengujian hipotesis mengukur sensitivitas pengujian. Semakin rendah nilai p semakin besar sensitivitasnya. jika tingkat signifikansi ditetapkan pada 0,05 nilai p 0,0001 menunjukkan probabilitas tinggi dari hasil pengujian yang benar ******
sumber