Latar belakang:
Saya harus melakukan analisis data untuk klien (semacam pengacara) yang merupakan pemula mutlak dalam statistik. Dia bertanya kepada saya apa arti istilah "signifikansi statistik" dan saya benar-benar mencoba menjelaskannya ... tetapi karena saya tidak pandai menjelaskan hal-hal yang saya gagal;)
statistical-significance
inference
communication
Daniel Ryback
sumber
sumber
CATATAN: apa yang ingin saya tekankan dalam jawaban ini adalah bahwa signifikansi statistik adalah alat yang berguna, tetapi juga berbeda dari kebenaran.
Ambil sebungkus 52 kartu. Jika klien saya tidak bersalah itu adalah paket kartu yang normal, 13 hati. Jika klien saya berbohong itu paket tetap dan semua 52 kartu adalah hati.
Saya menarik kartu pertama dan itu hati. Aha, bersalah! Yah, jelas akal sehat memberi tahu kita bahwa bukan itu masalahnya: ada satu dari empat kemungkinan ini akan terjadi bahkan jika dia tidak bersalah. Kami tidak memiliki signifikansi statistik hanya dari melihat satu kartu.
Jadi kami menggambar kartu kedua. Hati yang lain. Hhhmmm ... pasti bersalah kalau begitu! Yah, masih ada 12 hati dalam 51 kartu yang tersisa, jadi bukan tidak mungkin. Matematika (13/52 * 12/51 = 0,0588) memberitahu kita ini terjadi sekitar 6% dari waktu bahkan jika tidak bersalah. Bagi sebagian besar ilmuwan, ini masih belum masuk hitungan.
Gambarlah kartu ketiga, hati yang lain! Tiga berturut-turut. Peluang terjadinya ini adalah (13/52 * 12/51 * 11/50 = 0,01294), jadi lebih dari 1% dari waktu ini dapat terjadi secara kebetulan.
Dalam banyak ilmu 5% digunakan sebagai titik batas. Jadi, jika Anda tidak memiliki bukti lain selain ketiga kartu itu, Anda memiliki hasil yang signifikan secara statistik bahwa ia bersalah.
Poin pentingnya adalah semakin banyak kartu yang diizinkan melihat semakin baik rasa percaya diri Anda akan kesalahannya, yang merupakan cara lain untuk mengatakan semakin tinggi signifikansi statistiknya.
CATATAN: Anda tidak pernah memiliki bukti kesalahannya kecuali Anda diizinkan melihat 14 kartu. Dengan satu pak kartu yang normal, secara teoritis mungkin untuk menarik 13 hati berturut-turut, tetapi 14 tidak mungkin. [Selain pedant: mari kita asumsikan angka pada kartu tidak terlihat; semua kartu adalah salah satu dari empat kemungkinan setelan, dan hanya itu.]
CATATAN: Anda memiliki bukti kepolosannya saat Anda menarik kartu apa pun selain hati. Ini karena hanya ada dua paket yang mungkin: normal atau semua hati. Kehidupan nyata lebih rumit, dan matematika menjadi lebih rumit juga.
Ngomong-ngomong, jika klien Anda bukan pemain kartu, coba Monopoli: semua orang menggulung double-enam beberapa kali; tetapi jika seseorang melakukan double-enam setiap kali Anda merasa curiga. Statistik memungkinkan kita untuk memberikan angka pasti seberapa mencurigakannya kita.
sumber
Saran saya sendiri adalah jangan membicarakan hal-hal berikut:
Jangan terlalu keras pada diri sendiri tentang pengacara. Ini adalah orang yang berpendidikan yang menghabiskan setidaknya satu semester di kelas Statistik universitas, dan tidak sedikit yang terjebak dengannya. Ini adalah kisah yang sama untuk hampir setiap non-ilmuwan yang pernah saya tangani - signifikansi statistik tidak sesuai . Itu konsep yang terlalu tidak wajar.
Saya mendorong Anda untuk menjelaskan signifikansi statistik dalam hal bukti . Ahli statistik klasik telah mengkodekan bukti pada skala 0 hingga 1, di mana nilai yang lebih kecil merupakan lebih banyak bukti dan 0,05 adalah di mana garis digambar secara konvensional.
sumber
"Signifikan secara statistik" berarti bahwa sesuatu dapat saja terjadi secara acak, tetapi itu tidak mungkin. Sebaliknya, ada jauh lebih mungkin bahwa ada semacam sebab. Anda harus membuat ini lebih konkret dengan contoh yang relevan dengan klien Anda, karena penjelasan itu sangat abstrak.
Misalnya, jika pengacara Anne memenangkan lebih banyak kasus rata-rata daripada Bill, ini bisa saja terjadi secara acak. Namun, jika Anne memenangkan lebih banyak kasus yang signifikan secara statistik, maka kemungkinan besar ada sesuatu yang dapat membantu menjelaskan mengapa Anne memenangkan lebih banyak kasus daripada Bill. Kami tidak tahu penyebabnya. Mungkin Anne adalah pengacara yang lebih baik atau Bill sengaja memilih kasus-kasus yang lebih sulit.
sumber
Tetap sederhana dan ringkas!
Nilai p didefinisikan sebagai probabilitas untuk mendapatkan hasil yang sama ekstrimnya dengan yang kami amati dengan menganggap nol benar. Jika nilai-p cukup kecil, kemungkinan nol tidak benar. Kami secara sewenang-wenang memilih cut-off untuk apa yang kami anggap sebagai "cukup kecil" (alfa) dan untuk semua nilai p yang berada di bawah alfa, kami menolak nol.
Begitulah cara saya menjelaskannya ke kelas statistik intro saya.
sumber
Saya akan mencoba.
Pertama, Anda menghitung nilai p berdasarkan data rata-rata dan bagaimana variabel data itu. Semakin banyak variabel, semakin kecil kemungkinannya untuk mendapatkan nilai p kecil. Di sisi lain, jika, misalnya, Anda membandingkan dua kelompok, semakin besar perbedaan antara rata-rata mereka, semakin kecil nilai-p.
Juga, variabilitas data dapat agak dibatalkan dengan memiliki lebih banyak data. Imaging dua set data dengan perbedaan yang sama antara dua rata-rata dan jumlah variabilitas yang sama. Dalam hal ini, set dengan ukuran sampel yang lebih besar akan memiliki nilai p yang lebih kecil.
Bagian pengujian hanya melihat apakah nilai-p lebih rendah dari angka tertentu. Biasanya orang menggunakan 0,05, tetapi ini adalah kebiasaan sosial yang sewenang-wenang. Banyak orang berpikir tidak masuk akal untuk menggunakan angka arbitrer, namun itu sangat umum karena alasan historis.
Juga perlu diingat bahwa hanya karena uji signifikansi Anda mengatakan ada perbedaan antara dua kelompok tidak berarti Anda tahu mengapa ada perbedaan itu. Di sisi lain, jika tes mengatakan tidak ada perbedaan yang signifikan, ini bisa saja karena variabilitas Anda terlalu besar dan Anda tidak memiliki cukup data untuk mendapatkan nilai p rendah, itu tidak berarti tidak ada perbedaan yang sebenarnya.
Edit:
Untuk meringkas, nilai p yang lebih rendah berarti lebih banyak bukti terhadap prediksi:
Perbedaan dari hasil prediksi -> Turunkan p-value
Lebih banyak data -> Nilai p turun
Lebih banyak variabilitas -> Nilai p naik
Down p-value berarti lebih banyak bukti yang mengatakan prediksi itu salah. Setiap prediksi dalam sejarah telah terbukti salah untuk beberapa tempat desimal.
sumber
Signifikansi statistik adalah konsep yang digunakan untuk memberikan pembenaran untuk menerima atau menolak hipotesis yang diberikan. Dengan serangkaian data, seorang analis dapat menghitung statistik dan menentukan besarnya berbagai hubungan antara berbagai variabel.
Tugas statistik adalah untuk menentukan apakah data mengandung cukup bukti untuk memungkinkan Anda menyimpulkan bahwa statistik yang dihitung atau hubungan yang diamati antara variabel dapat diartikan sebagai pernyataan yang benar atau jika hasil yang diamati dalam data sampel Anda hanya karena kebetulan. Ini dilakukan dengan menentukan beberapa statistik sampel yang akan menunjukkan karakteristik tertentu jika hipotesis nol benar tetapi tidak jika hipotesis nol salah. Semakin banyak statistik sampel yang relevan muncul untuk menunjukkan karakteristik yang diharapkan di bawah hipotesis nol, semakin kuat bukti statistik bahwa hipotesis nol itu benar. Demikian juga, semakin sedikit statistik sampel tampaknya menunjukkan karakteristik yang diharapkan di bawah hipotesis nol, semakin lemah bukti statistik bahwa hipotesis nol itu benar.
Jumlah yang ditunjukkan oleh sampel statistik karakteristik yang diharapkan dalam nol adalah masalah derajat, tetapi untuk menyimpulkan bahwa hipotesis nol diterima atau ditolak harus ada beberapa cutoff sewenang-wenang. Dengan demikian, nilai cutoff dipilih. Jika statistik sampel berada di dalam atau di satu sisi dari nilai cutoff maka dikatakan sesuai dengan karakteristik yang diharapkan dalam hipotesis nol, dan dengan demikian hasilnya dapat dianggap signifikan secara statistik untuk nilai cutoff yang diberikan (misalnya pada alpha 5% tingkat). Jika statistik sampel yang relevan jatuh di sisi lain dari nilai cutoff maka dikatakan tidak sesuai dengan karakteristik yang diharapkan dalam hipotesis nol, dan dengan demikian hasilnya tidak dianggap signifikan secara statistik untuk nilai cutoff yang diberikan.
sumber