Mengapa ahli statistik mengatakan hasil yang tidak signifikan berarti "Anda tidak dapat menolak nol" sebagai lawan menerima hipotesis nol?

44

Uji statistik tradisional, seperti dua uji-t sampel, fokus pada upaya menghilangkan hipotesis bahwa tidak ada perbedaan antara fungsi dua sampel independen. Kemudian, kita memilih tingkat kepercayaan dan mengatakan bahwa jika perbedaan rata-rata di atas tingkat 95%, kita dapat menolak hipotesis nol. Jika tidak, kami "tidak dapat menolak hipotesis nol". Ini sepertinya mengisyaratkan bahwa kita juga tidak dapat menerimanya. Apakah itu berarti kami tidak yakin apakah hipotesis nol itu benar?

Sekarang, saya ingin merancang tes di mana hipotesis saya adalah bahwa fungsi dua sampel adalah sama (yang merupakan kebalikan dari tes statistik tradisional di mana hipotesisnya adalah bahwa dua sampel berbeda). Jadi, hipotesis nol saya menjadi bahwa dua sampel berbeda. Bagaimana saya harus merancang tes semacam itu? Akankah sesederhana mengatakan bahwa jika nilai-p lebih kecil dari 5% kita dapat menerima hipotesis bahwa tidak ada perbedaan yang signifikan?

hypothesis-testing statistical-significance confidence-interval equivalence tost ryu576
sumber

Sangat terkait: Apakah kegagalan untuk menolak nol dalam pendekatan Neyman-Pearson berarti bahwa seseorang harus "menerimanya"?

Amoeba berkata Reinstate Monica

Perbedaan rata-rata adalah di luar tingkat 95%, kita dapat menolak hipotesis nol. 95% bukan "level" di sini dalam 95 kasus dari 100 kasus (perbandingan), perbedaan dalam sampel-statistik muncul karena fluktuasi sampel. itu berarti nol diterima pada alpha = .05. Mengatakan level 95% bukan istilah yang benar.

Subhash C. Davar

44

Secara tradisional, hipotesis nol adalah nilai poin. (Ini biasanya , tetapi sebenarnya bisa menjadi nilai titik mana pun.) Hipotesis alternatif adalah bahwa nilai sebenarnya adalah nilai selain nilai nol . Karena variabel kontinu (seperti perbedaan rata-rata) dapat mengambil nilai yang dekat dengan nilai nol tanpa batas tetapi masih tidak cukup sama dan dengan demikian membuat hipotesis nol salah, titik nol hipotesis tradisional tidak dapat dibuktikan. $0$

Bayangkan hipotesis nol Anda adalah , dan perbedaan rata-rata yang Anda amati adalah . Apakah masuk akal untuk menganggap hipotesis nol itu benar? Anda belum tahu; akan sangat membantu untuk mengetahui seperti apa interval kepercayaan diri kita . Katakanlah interval kepercayaan 95% Anda adalah . Sekarang, haruskah kita menyimpulkan bahwa nilai sebenarnya adalah ? Saya tidak akan merasa nyaman mengatakan itu, karena CI sangat luas, dan ada banyak, nilai-nilai non-nol besar yang mungkin kami duga cukup konsisten dengan data kami. Jadi katakanlah kita mengumpulkan lebih banyak, lebih banyak data, dan sekarang perbedaan rata-rata yang diamati adalah , tetapi CI 95% adalah $0$ $0.01$ $(-4.99,\ 5.01)$ $0$ $0.01$ $(0.005,\ 0.015)$ . Perbedaan rata-rata yang diamati tetap sama (yang akan luar biasa jika itu benar-benar terjadi), tetapi interval kepercayaan sekarang tidak termasuk nilai nol. Tentu saja, ini hanya eksperimen pikiran, tetapi harus membuat ide-ide dasar menjadi jelas. Kita tidak pernah dapat membuktikan bahwa nilai sebenarnya adalah nilai poin tertentu; kita hanya dapat (mungkin) menyangkal bahwa itu adalah beberapa nilai poin. Dalam pengujian hipotesis statistik, fakta bahwa nilai-p> 0,05 (dan bahwa 95% CI termasuk nol) berarti bahwa kami tidak yakin apakah hipotesis nol itu benar .

Adapun kasus konkret Anda, Anda tidak dapat membuat tes di mana hipotesis alternatif adalah bahwa perbedaan rata-rata adalah dan hipotesis nol adalah apa pun selain nol. Ini melanggar logika pengujian hipotesis. Sangat masuk akal bahwa itu adalah hipotesis ilmiah dan substantif Anda, tetapi itu tidak bisa menjadi hipotesis alternatif Anda dalam situasi pengujian hipotesis. $0$

Jadi apa yang bisa kamu lakukan? Dalam situasi ini, Anda menggunakan pengujian kesetaraan. (Anda mungkin ingin membaca beberapa utas kami tentang topik ini dengan mengeklik tag ekivalensi .) Strategi khasnya adalah menggunakan pendekatan pengujian dua sisi. Secara singkat, Anda memilih interval di mana Anda akan mempertimbangkan bahwa perbedaan rata-rata sebenarnya mungkin $0$ untuk semua yang Anda bisa peduli, maka Anda melakukan tes satu sisi untuk menentukan apakah nilai yang diamati kurang dari batas atas interval itu, dan tes satu sisi lain untuk melihat apakah itu lebih besar dari batas bawah. Jika kedua tes ini signifikan, maka Anda telah menolak hipotesis bahwa nilai sebenarnya di luar interval yang Anda pedulikan. Jika satu (atau keduanya) tidak signifikan, Anda gagal menolak hipotesis bahwa nilai sebenarnya berada di luar interval.

Misalnya, anggap saja apa pun dalam interval sangat dekat dengan nol sehingga Anda pikir itu pada dasarnya sama dengan nol untuk tujuan Anda, jadi Anda menggunakannya sebagai hipotesis substantif Anda. Sekarang bayangkan Anda mendapatkan hasil pertama yang dijelaskan di atas. Meskipun termasuk dalam interval itu, Anda tidak akan dapat menolak hipotesis nol pada salah satu uji t satu sisi, sehingga Anda akan gagal untuk menolak hipotesis nol. Di sisi lain, bayangkan Anda mendapatkan hasil kedua yang dijelaskan di atas. Sekarang Anda menemukan bahwa nilai yang diamati berada dalam interval yang ditentukan, dan dapat ditunjukkan kurang dari batas atas dan lebih besar dari batas bawah, sehingga Anda dapat menolak nol. (Perlu dicatat bahwa Anda dapat menolak keduanya $(-0.02,\ 0.02)$ $0.01$ hipotesis bahwa nilai sebenarnya adalah , dan hipotesis bahwa nilai sebenarnya terletak di luar interval , yang mungkin tampak membingungkan pada awalnya, tetapi sepenuhnya konsisten dengan logika pengujian hipotesis.) $0$ $(-0.02,\ 0.02)$

gung - Reinstate Monica
sumber

1

"Secara tradisional, hipotesis nol adalah nilai titik" - meskipun dalam beberapa kasus kami menulis hipotesis nol seolah-olah itu adalah titik, namun sebenarnya itu adalah senyawa . Saya ingin tahu apa implikasi argumen dalam paragraf pertama Anda karena itu untuk tes satu sisi. (Karena kita tidak melakukan - sejauh yang saya tahu - write "menerima " tes bahkan untuk satu sisi, aku tidak yakin yang menangkap paragraf pertama alasan yang benar kita tidak menulis "menerima .)

H_{0}

$H_0$

H_{0}

$H_0$

Silverfish

1

@Silverfish, paragraf berakhir dengan: " hipotesis nol titik tradisional tidak dapat dibuktikan". Namun, kami juga tidak menulis "terima " untuk pengujian satu sisi karena alasan yang sama. Ketika , true dapat , tetapi ditutup secara sewenang-wenang & karenanya tidak signifikan. Jika Anda benar-benar ingin menunjukkan bahwa itu , maka Anda dapat membalik arah tes satu sisi. Saya tidak melihat masalah di sini.

H_{0}

$H_0$

H_{0} : δ \leq 0

$H_0: \delta\le 0$

δ

$\delta$

> 0

$>0$

< 0

$<0$

gung - Reinstate Monica

1

Saya tidak mengatakan apa yang Anda tulis salah dan saya menduga itu adalah ide yang Anda coba komunikasikan. Jelas alasan Anda telah mengerjakan tes dua sisi dengan hipotesis poin dalam dua paragraf pertama dari jawaban Anda, apakah ini yang menjadi masalah dalam pertanyaan. Tetapi jika jawaban Anda dibaca kembali oleh seseorang yang bertanya-tanya mengapa kami tidak "menerima " secara umum, mungkin tidak jelas bagi mereka bahwa argumen Anda sebenarnya melampaui hipotesis titik nol.

H_{0}

$H_0$

Silverfish

4

Argumen "kita tidak pernah dapat membuktikan bahwa nilai sebenarnya adalah nilai titik tertentu; kita hanya dapat (mungkin) menyangkal bahwa itu adalah beberapa nilai titik" adalah kasus khusus di titik - bagaimana jika CI ternyata (-0.015 , -0,005)? Sejauh apa pun kita telah "membuktikan" (saya tahu Anda tidak menggunakan "membuktikan" dalam pengertian literal, matematis - mungkin "menunjukkan" atau "menyarankan" lebih dekat dengan makna yang dimaksudkan) sepertinya kita memiliki juga "terbukti" , namun kami tidak akan "menerima"

δ \neq 0

$\delta \neq 0$

δ \leq 0

$\delta \leq 0$

H_{0} : δ \leq 0

$H_0:\,\delta \leq 0$

Silverfish

1

@Silverfish Saya pikir komentar terakhir Anda bagus. Saya merasa bahwa, secara filosofis, pengujian satu sisi dengan agak sedikit berbeda dari dua sisi dengan titik null , meskipun secara matematis keduanya hampir sama. Menerima titik nol tidak masuk akal; tetapi pengujian terhadap sebenarnya dapat menyebabkan menerima salah satunya (atau hasil yang tidak meyakinkan). Ditambah pengujian satu sisi lebih masuk akal dari perspektif Bayesian. Ditambah lagi prediksi ilmiah harus memiliki arah. Saya kira saya mulai berpikir bahwa pengujian satu sisi tidak cukup dihargai.

H_{0} : δ < 0

$H_0:\delta<0$

H_{0} : δ = 0

$H_0:\delta=0$

δ > 0

$\delta>0$

δ < 0

$\delta<0$

Amoeba berkata Reinstate Monica

28

Pertimbangkan kasus di mana hipotesis nol adalah bahwa koin berkepala 2, yaitu probabilitas kepala adalah 1. Sekarang data adalah hasil membalik koin satu kali dan melihat kepala. Ini menghasilkan p-value 1,0 yang lebih besar dari setiap alpha yang masuk akal. Apakah ini berarti bahwa koin itu berkepala 2? itu bisa saja, tetapi itu juga bisa menjadi koin yang adil dan kami melihat kepala karena kebetulan (akan terjadi 50% dari waktu dengan koin yang adil). Jadi nilai p tinggi dalam kasus ini mengatakan bahwa data yang diamati sangat konsisten dengan nol, tetapi juga konsisten dengan kemungkinan lain.

Sama seperti putusan "Tidak Bersalah" di pengadilan dapat berarti terdakwa tidak bersalah, itu juga bisa karena terdakwa bersalah tetapi tidak ada cukup bukti. Sama dengan hipotesis nol kita gagal menolak karena nol bisa benar, atau bisa jadi kita tidak punya cukup bukti untuk menolak meskipun itu salah.

Greg Snow
sumber

3

Saya suka contoh "Tidak bersalah". Selangkah lebih maju, membuka kembali kasus-kasus berdasarkan bukti DNA yang kami tidak tahu bagaimana menggunakannya di masa lalu dan memiliki beberapa putusan yang dibatalkan adalah contoh sempurna tentang bagaimana menambahkan lebih banyak data mungkin semua yang diperlukan untuk memiliki cukup bukti.

Thomas Speidel

7

Tidak adanya bukti bukanlah bukti ketidakhadiran (judul Altman, kertas Bland di BMJ). Nilai-P hanya memberi kita bukti ketidakhadiran saat kita menganggapnya penting. Kalau tidak, mereka tidak memberi tahu kami apa-apa. Karenanya, tidak ada bukti. Dengan kata lain: kita tidak tahu dan lebih banyak data dapat membantu.

Thomas Speidel
sumber

5

Hipotesis nol, , biasanya dianggap sebagai hal yang Anda miliki untuk diasumsikan. Seringkali "kondisi pengetahuan saat ini" yang ingin Anda perlihatkan secara statistik tidak mungkin. $H_0$

Pengaturan yang biasa untuk pengujian hipotesis adalah meminimalkan kesalahan tipe I , yaitu meminimalkan kemungkinan kami menolak hipotesis nol demi alternatif meskipun benar. Ini adalah kesalahan yang kita pilih untuk meminimalkan dahulu karena kita tidak ingin membatalkan pengetahuan umum ketika pengetahuan umum itu memang benar. $H_1$ $H_0$

Anda harus selalu merancang pengujian dengan mengingat bahwa harus sesuai dengan yang Anda harapkan. $H_0$

Jika kita memiliki dua sampel, kita berharap untuk didistribusikan secara identik, maka hipotesis nol kita adalah sampelnya sama. Jika kita memiliki dua sampel yang kita harapkan (secara liar) berbeda, hipotesis nol kita adalah bahwa mereka berbeda.

SomeEE
sumber

Dan bagaimana jika kita tidak memiliki harapan .. mungkin saja kita tidak tahu. Juga, bagaimana aturan keputusan akan berfungsi jika kita ingin menolak hipotesis bahwa kedua sampel berbeda?

ryu576

Dalam hal ini Anda tidak memiliki harapan Anda ingin menjaga kedua jenis kesalahan kecil tetapi ini tidak selalu mungkin. Anda perlu variabel tambahan (seperti menambah ukuran sampel) untuk melakukannya.

SomeEE

2

Karena kita dapat menolak nol tetapi tidak membuktikannya benar, nol biasanya merupakan kebalikan dari apa yang ingin kita buktikan atau anggap benar. Jika kami yakin ada perbedaan, maka nol tidak boleh ada perbedaan sehingga Anda dapat membantahnya.

Greg Snow

@ Greg Itu adalah pendekatan yang baik jika Anda tahu mana yang Anda inginkan benar yang mungkin merupakan kasus biasa.

SomeEE

1

"Apa yang Anda harapkan" dan "mereka berbeda" sama sekali tidak dapat berupa hipotesis statistik karena tidak kuantitatif. Yang sampai pada inti masalah: asimetri dalam peran antara nol dan hipotesis alternatif berasal dari kemampuan untuk menentukan distribusi sampling dari statistik uji di bawah nol, dibandingkan dengan kebutuhan untuk parameterisasi distribusi dengan ukuran efek di bawah hipotesis alternatif. Demikian pula halnya kita "meminimalkan kesalahan Tipe I": yang tidak pernah terjadi (minimum selalu 0). Tes mencari keseimbangan antara tingkat kesalahan Tipe I dan II.

whuber

Mengapa ahli statistik mengatakan hasil yang tidak signifikan berarti "Anda tidak dapat menolak nol" sebagai lawan menerima hipotesis nol?

Jawaban: