Tes dua sisi ... Saya tidak yakin. Apa gunanya?

58

Kutipan berikut berasal dari entri, Apa perbedaan antara tes satu-ekor dan dua-ekor? , di situs bantuan statistik UCLA.

... pertimbangkan konsekuensi dari kehilangan efek ke arah lain. Bayangkan Anda telah mengembangkan obat baru yang Anda yakini merupakan peningkatan dibandingkan obat yang sudah ada. Anda ingin memaksimalkan kemampuan Anda untuk mendeteksi peningkatan, sehingga Anda memilih untuk tes satu sisi. Dengan melakukannya, Anda gagal menguji kemungkinan bahwa obat baru kurang efektif daripada obat yang ada.

Setelah mempelajari dasar-dasar absolut pengujian hipotesis dan sampai pada bagian tentang satu vs dua tes berekor ... Saya memahami matematika dasar dan meningkatkan kemampuan deteksi satu tes berekor, dll ... Tapi saya tidak bisa membungkus kepala saya sekitar satu hal ... Apa gunanya? Saya benar-benar gagal memahami mengapa Anda harus membagi alfa Anda di antara dua ekstrem ketika hasil sampel Anda hanya dapat berada di satu atau yang lain, atau tidak sama sekali.

Ambil contoh skenario dari teks yang dikutip di atas. Bagaimana mungkin Anda "gagal menguji" untuk hasil yang berlawanan arah? Anda memiliki mean sampel Anda. Anda memiliki populasi rata-rata. Aritmatika sederhana memberi tahu Anda mana yang lebih tinggi. Apa yang ada untuk menguji, atau gagal untuk menguji, di arah yang berlawanan? Apa yang menghentikan Anda hanya mulai dari awal dengan hipotesis yang berlawanan jika Anda melihat dengan jelas bahwa mean sampel jauh ke arah lain?

Kutipan lain dari halaman yang sama:

Memilih uji satu sisi setelah menjalankan uji dua sisi yang gagal menolak hipotesis nol tidak tepat, tidak peduli seberapa "dekat" dengan signifikansi uji dua sisi itu.

Saya berasumsi ini juga berlaku untuk mengganti polaritas pengujian satu sisi Anda. Tetapi bagaimana hasil "perawatan" ini kurang valid daripada jika Anda hanya memilih tes satu-ekor yang benar di tempat pertama?

Jelas saya kehilangan sebagian besar gambar di sini. Semuanya sepertinya terlalu sewenang-wenang. Yang mana, saya kira, dalam arti bahwa apa yang menandakan "signifikan secara statistik" - 95%, 99%, 99,9% ... Mulai sewenang-wenang.

DariAshes
sumber
18
Ini sepertinya pertanyaan yang sangat bagus untuk saya, +1.
gung - Reinstate Monica
5
Meskipun benar-benar jelas bahwa Anda harus merancang eksperimen dan tes Anda sebelum mengumpulkan data, saya menemukan contohnya pada obat yang agak menarik mengingat fakta bahwa obat baru sering diuji dengan tes 1 sisi tanpa banyak protes .
P-Gn
3
@ user1735003 sebuah artikel ironis untuk ditemui mengingat banyak suasana hati / perilaku yang mengatur uji coba farmasi sedang berada di bawah pengawasan ketat untuk bias pengamat. Cochrane yang menarik tentang Ritalin di sini . "Keunggulan plasebo yang diklaim" adalah apa yang oleh persidangan disebut sebagai "bahaya", jadi saya tidak menemukannya sama sekali. Tetapi dalam uji coba ini, jika penelitian berhenti untuk membahayakan, sinyal berasal dari efek samping.
AdamO
10
"Kamu memiliki sampel rata-rata. Populasi kamu rata-rata ... Apa yang menghentikanmu baru saja memulai dari awal dengan hipotesis yang berlawanan jika kamu melihat dengan jelas bahwa mean sampel jauh di arah lain?" . Tidak, inti keseluruhan dari pengujian hipotesis adalah bahwa Anda tidak memiliki mean populasi, dan Anda menggunakan mean sampel untuk menguji asumsi tentang mean populasi (hipotesis nol). Jadi tidak ada "jelas melihat bahwa mean sampel jauh" , karena itulah yang Anda uji, bukan diberikan.
StAtS
1
masalah yang sering Anda tidak tahu polaritas, jadi Anda harus menjalankan tes dua sisi. bayangkan memasukkan voltmeter ke catu daya DC ketika Anda tidak tahu plug mana yang POSITIF
Aksakal

Jawaban:

45

Pikirkan data sebagai puncak gunung es - yang dapat Anda lihat di atas air adalah puncak gunung es, tetapi pada kenyataannya Anda tertarik untuk mempelajari sesuatu tentang seluruh gunung es.

Para ahli statistik, ilmuwan data, dan lainnya yang bekerja dengan data berhati-hati untuk tidak membiarkan apa yang mereka lihat di atas garis air mempengaruhi dan membiaskan penilaian mereka terhadap apa yang tersembunyi di bawah garis air. Untuk alasan ini, dalam situasi pengujian hipotesis, mereka cenderung untuk merumuskan hipotesis nol dan alternatif sebelum mereka melihat puncak gunung es, berdasarkan pada harapan mereka (atau tidak adanya) tentang apa yang mungkin terjadi jika mereka dapat melihat gunung es secara keseluruhan. .

Melihat data untuk merumuskan hipotesis Anda adalah praktik yang buruk dan harus dihindari - itu seperti meletakkan kereta di depan kuda. Ingat bahwa data berasal dari sampel tunggal yang dipilih (mudah-mudahan menggunakan mekanisme seleksi acak) dari populasi target / semesta yang diminati. Sampel memiliki kekhasan sendiri, yang mungkin atau mungkin tidak mencerminkan populasi yang mendasarinya. Mengapa Anda ingin hipotesis Anda mencerminkan potongan populasi yang sempit daripada seluruh populasi?

Cara lain untuk memikirkan hal ini adalah bahwa, setiap kali Anda memilih sampel dari populasi target Anda (menggunakan mekanisme seleksi acak), sampel akan menghasilkan data yang berbeda. Jika Anda menggunakan data (yang seharusnya tidak !!!) untuk memandu spesifikasi hipotesis nol dan alternatif Anda, hipotesis Anda akan ada di seluruh peta, pada dasarnya didorong oleh fitur istimewa dari masing-masing sampel. Tentu saja, dalam praktiknya kami hanya menggambar satu sampel, tetapi itu akan menjadi pemikiran yang sangat membingungkan untuk mengetahui bahwa jika orang lain melakukan penelitian yang sama dengan sampel yang berbeda dengan ukuran yang sama, mereka harus mengubah hipotesis mereka untuk mencerminkan kenyataan dari sampel mereka.

Salah satu profesor sekolah pascasarjana saya dulunya memiliki ungkapan yang sangat bijak: "Kami tidak peduli dengan sampel, kecuali bahwa itu memberi tahu kami sesuatu tentang populasi" . Kami ingin merumuskan hipotesis kami untuk mempelajari sesuatu tentang populasi target, bukan tentang satu sampel yang kami pilih dari populasi itu.

Isabella Ghement
sumber
1
@ subhashc.davar: Hanya karena Anda tidak melihat relevansi jawaban saya, itu tidak berarti orang lain tidak mau. Harap diingat bahwa jawaban adalah untuk seluruh komunitas, bukan hanya untuk orang yang mengajukan pertanyaan. Saya akan dengan senang hati menghapus jawaban saya jika Anda merasa sangat yakin tentang ini.
Isabella Ghement
7
@ subhashc.davar Contoh dapat membantu: Katakan Anda menguji apakah camilan mempengaruhi kinerja. Anda menjalankan percobaan dan menemukan sedikit skor dalam snacker. Bagus! Jalankan tes satu arah untuk melihat apakah penganan> bukan pengemil. Masalah: apa yang akan Anda lakukan jika Anda mengambil sampel di mana camilan berkinerja lebih buruk? Apakah Anda akan melakukan tes satu sisi untuk camilan <bukan camilan? Jika demikian, Anda melakukan kesalahan dan membiarkan keanehan sampel memandu pengujian Anda.
RM
21
Sebuah anekdot dari profesor saya: "Kami mengunjungi putri seorang teman yang baru lahir di bangsal bersalin. 20 anak-anak dan 18 dari 20 mengenakan topi merah muda. Jadi saya melakukan apa yang akan dilakukan oleh seorang ahli statistik: menghitung nilai p untuk gender sebenarnya adalah 50 / 50. Itu sangat signifikan secara statistik. Jadi siapa yang ingin menulis makalah ini dengan saya? Tidak ada? Mengapa? Anda tidak dapat menggunakan data yang menghasilkan hipotesis untuk menguji hipotesis. "
AdamO
4
@ AdamO Saya menemukan komentar Anda penjelasan yang lebih baik daripada jawabannya sendiri. Saya akan ulang kalimat terakhir menjadi 'Anda tidak boleh menggunakan data yang sama dengan yang Anda hasilkan hipotesis Anda untuk juga menguji hipotesis Anda.'. Implikasi lain yang terkait adalah bahwa Anda boleh mengubah hipotesis Anda berdasarkan hasil tes apa pun yang Anda pilih sebelumnya. Tetapi Anda kemudian harus menguji hipotesis baru Anda dengan data baru.
Kenny Evitt
3
@ KennyEvitt ya benar sekali. Temuan insidental penting dan harus dilaporkan, tetapi tidak boleh dijual sebagai hipotesis yang telah ditentukan sebelumnya.
AdamO
18

Saya pikir ketika mempertimbangkan pertanyaan Anda, ada baiknya jika Anda mencoba mengingat tujuan / nilai jual dari pengujian signifikansi nol-hipotesis (NHST) dalam pikiran; itu hanya satu paradigma (meskipun yang sangat populer) untuk inferensi statistik, dan yang lain memiliki kekuatan mereka sendiri (misalnya, lihat di sini untuk diskusi tentang NHST relatif terhadap inferensi Bayesian). Apa manfaat besar dari NHST ?: Kontrol kesalahan jangka panjang . Jika Anda mengikuti aturan NHST (dan terkadang itu sangat besar jika), maka Anda harus memiliki pemahaman yang baik tentang seberapa besar kemungkinan Anda salah dengan kesimpulan yang Anda buat, dalam jangka panjang.

Salah satu aturan persisten NHST adalah bahwa, tanpa perubahan lebih lanjut pada prosedur pengujian Anda, Anda hanya dapat melihat satu kali pengujian yang Anda minati. Para peneliti dalam praktek sering mengabaikan (atau tidak sadar) aturan ini (lihat Simmons et al., 2012), melakukan beberapa tes setelah menambahkan gelombang data, memeriksa merekap-nilai setelah menambahkan / menghapus variabel ke model mereka, dll. Masalahnya adalah bahwa peneliti jarang netral sehubungan dengan hasil NHST; mereka sangat menyadari bahwa hasil yang signifikan lebih mungkin untuk dipublikasikan daripada hasil yang tidak signifikan (untuk alasan yang keduanya salah arah dan sah; Rosenthal, 1979). Oleh karena itu peneliti sering termotivasi untuk menambahkan data / mengubah model / memilih outlier dan berulang kali menguji sampai mereka "mengungkap" efek yang signifikan (lihat John et al., 2011, pengantar yang baik).

Masalah berlawanan diciptakan oleh praktik di atas, dijelaskan dengan baik dalam Dienes (2008): jika peneliti akan terus menyesuaikan sampel / desain / model mereka sampai signifikansi tercapai, maka tingkat kesalahan jangka panjang yang diinginkan dari temuan positif palsu (sering ) dan temuan false-negative (sering ) masing-masing akan mendekati 1.0 dan 0.0, masing-masing (yaitu, Anda akan selalu menolak , baik ketika itu salah maupun ketika itu benar).α=.05β=.20H0

Dalam konteks pertanyaan spesifik Anda, peneliti menggunakan tes dua sisi sebagai default ketika mereka tidak ingin membuat prediksi tertentu sehubungan dengan arah efeknya. Jika mereka salah dalam menebak mereka, dan menjalankan tes satu arah ke arah efek, jangka panjang mereka akan meningkat. Jika mereka melihat statistik deskriptif dan menjalankan uji satu sisi berdasarkan pengamatan mereka tentang tren, jangka panjang akan meningkat. Anda mungkin berpikir ini bukan masalah besar, dalam prakteknya, bahwa nilai- kehilangan arti jangka panjangnya, tetapi jika mereka tidak mempertahankan artinya, itu menimbulkan pertanyaan mengapa Anda menggunakan pendekatan untuk menyimpulkan bahwa memprioritaskan kontrol kesalahan jangka panjang.α pααp

Terakhir (dan sebagai pilihan pribadi), saya akan memiliki lebih sedikit masalah jika Anda pertama kali melakukan tes dua sisi, menemukan itu tidak signifikan, kemudian melakukan tes satu arah ke arah tes pertama tersirat, dan menemukan itu signifikan jika (dan hanya jika) Anda melakukan replikasi konfirmasi yang ketat dari efek itu dalam sampel lain, dan menerbitkan replikasi dalam kertas yang sama. Analisis data eksplorasi - dengan praktik analisis fleksibel tingkat kesalahan yang berkembang - baik-baik saja, selama Anda dapat mereplikasi efek Anda dalam sampel baru tanpa fleksibilitas analitik yang sama.

Referensi

Dienes, Z. (2008). Memahami psikologi sebagai ilmu: Pengantar inferensi ilmiah dan statistik . Palgrave Macmillan.

John, LK, Loewenstein, G., & Prelec, D. (2012). Mengukur prevalensi praktik penelitian yang dipertanyakan dengan insentif untuk pengungkapan kebenaran. Ilmu psikologi , 23 (5), 524-532.

Rosenthal, R. (1979). Masalah laci file dan toleransi untuk hasil nol. Buletin psikologis , 86 (3), 638.

Simmons, JP, Nelson, LD, & Simonsohn, U. (2011). Psikologi positif-palsu: Fleksibilitas yang tidak diungkapkan dalam pengumpulan dan analisis data memungkinkan penyajian yang penting. Ilmu psikologi , 22 (11), 1359-1366.

jsakaluk
sumber
Jawaban yang sangat bagus Membantu saya menyatukan beberapa kekhawatiran yang saya miliki selama mempelajari makalah penelitian baru-baru ini (sebagai orang awam), yang tampaknya menegaskan gagasan bahwa nilai-p satu-ekor hanya dapat "dipercaya" jika Anda memiliki alasan untuk percaya diri dalam "negatif". "Korelasi" arah salah.
Venryx
10

Sayangnya, contoh pengembangan obat yang memotivasi bukanlah yang baik karena bukan apa yang kita lakukan untuk mengembangkan obat. Kami menggunakan aturan yang berbeda dan lebih ketat untuk menghentikan studi jika tren berada di pihak yang membahayakan. Ini untuk keselamatan pasien dan juga karena obat tersebut tidak mungkin secara ajaib berayun ke arah manfaat yang bermakna.

Jadi mengapa dua tes berekor ? (ketika dalam kebanyakan kasus kami memiliki beberapa gagasan apriori tentang kemungkinan arah efek yang kami coba modelkan)

Hipotesis nol harus menanggung beberapa kemiripan dengan keyakinan dalam arti yang masuk akal, informasi, dan dibenarkan. Dalam kebanyakan kasus, orang setuju "hasil yang tidak menarik" adalah ketika ada 0 efek, sedangkan efek negatif atau positif sama menarik. Sangat sulit untuk mengartikulasikan hipotesis nol komposit, misalnya kasus di mana kita tahu statistiknya bisa sama dengan ataukurang dari jumlah tertentu. Seseorang harus sangat eksplisit tentang hipotesis nol untuk memahami temuan ilmiah mereka. Perlu ditunjukkan bahwa cara seseorang melakukan uji hipotesis gabungan adalah bahwa statistik di bawah hipotesis nol mengasumsikan nilai paling konsisten dalam rentang data yang diamati. Jadi jika efeknya berada dalam arah positif seperti yang diharapkan, nilai nol dianggap 0, dan kami telah memperdebatkan hal yang tidak perlu.

Dua tes berekor sama dengan melakukan dua tes satu sisi dengan kontrol untuk beberapa perbandingan! Tes dua sisi sebenarnya sebagian dihargai karena akhirnya menjadi lebih konservatif dalam jangka panjang. Ketika kita memiliki keyakinan yang baik tentang arah efek, dua tes berekor akan menghasilkan setengah positif palsu sesering dengan keseluruhan efek yang sangat kecil pada daya.

Dalam hal mengevaluasi perawatan dalam uji coba terkontrol secara acak, jika Anda mencoba menjual tes satu sisi kepada saya, saya akan menghentikan Anda untuk bertanya, "Baiklah tunggu, mengapa kita percaya bahwa perawatan itu sebenarnya berbahaya? Apakah sebenarnya ada bukti untuk mendukung ini? Apakah bahkan ada Equoise [kemampuan untuk menunjukkan efek yang menguntungkan]? " Ketidakkonsistenan logis di balik tes satu sisi membuat seluruh penelitian dipertanyakan. Jika benar-benar tidak ada yang diketahui, nilai selain 0 dianggap menarik dan tes dua sisi bukan hanya ide yang bagus, itu perlu.

AdamO
sumber
8

Salah satu cara untuk mendekati itu adalah untuk sementara waktu melupakan pengujian hipotesis dan berpikir tentang interval kepercayaan sebagai gantinya. Tes satu sisi sesuai dengan interval kepercayaan satu sisi dan tes dua sisi sesuai dengan interval kepercayaan dua sisi.

Misalkan Anda ingin memperkirakan rata-rata populasi. Secara alami, Anda mengambil sampel dan menghitung rata-rata sampel. Tidak ada alasan untuk mengambil estimasi titik pada nilai nominal, jadi Anda mengekspresikan jawaban Anda dalam interval yang cukup Anda yakini mengandung mean sebenarnya. Apa jenis interval yang Anda pilih? Interval dua sisi sejauh ini merupakan pilihan yang lebih alami. Interval satu sisi hanya masuk akal ketika Anda tidak peduli untuk menemukan batas atas atau batas bawah perkiraan Anda (karena Anda percaya bahwa Anda sudah tahu batas yang berguna dalam satu arah). Seberapa sering Anda benar - benar yakin tentang situasi ini?

Mungkin mengalihkan pertanyaan ke interval kepercayaan tidak benar-benar berhasil, tetapi secara metodologis tidak konsisten untuk memilih tes satu sisi tetapi interval kepercayaan dua sisi.

John Coleman
sumber
4

Setelah mempelajari dasar-dasar absolut pengujian hipotesis dan sampai pada bagian tentang satu vs dua tes berekor ... Saya memahami matematika dasar dan meningkatkan kemampuan deteksi satu tes berekor, dll ... Tapi saya tidak bisa membungkus kepala saya sekitar satu hal ... Apa gunanya? Saya benar-benar gagal memahami mengapa Anda harus membagi alfa Anda di antara dua ekstrem ketika hasil sampel Anda hanya dapat berada di satu atau yang lain, atau tidak sama sekali.

Masalahnya adalah Anda tidak tahu maksud populasi. Saya tidak pernah mengalami skenario dunia nyata yang saya tahu populasi sebenarnya berarti.

Ambil contoh skenario dari teks yang dikutip di atas. Bagaimana mungkin Anda "gagal menguji" untuk hasil dalam arah yang berlawanan? Anda memiliki mean sampel Anda. Anda memiliki populasi rata-rata. Aritmatika sederhana memberi tahu Anda mana yang lebih tinggi. Apa yang ada untuk menguji, atau gagal untuk menguji, di arah yang berlawanan? Apa yang menghentikan Anda hanya mulai dari awal dengan hipotesis yang berlawanan jika Anda melihat dengan jelas bahwa mean sampel jauh ke arah lain?

Saya membaca paragraf Anda beberapa kali, tetapi saya masih tidak yakin dengan argumen Anda. Apakah Anda ingin mengulanginya? Anda gagal "menguji" jika data Anda tidak mendarat di wilayah kritis yang Anda pilih.

Saya berasumsi ini juga berlaku untuk mengganti polaritas pengujian satu sisi Anda. Tetapi bagaimana hasil "perawatan" ini kurang valid daripada jika Anda hanya memilih tes satu-ekor yang benar di tempat pertama?

Kutipan ini benar karena meretas nilai-p tidak pantas. Berapa banyak yang kita ketahui tentang peretasan "di alam liar"? memiliki detail lebih lanjut.

Jelas saya kehilangan sebagian besar gambar di sini. Semuanya sepertinya terlalu sewenang-wenang. Yang mana, saya kira, dalam arti bahwa apa yang menandakan "signifikan secara statistik" - 95%, 99%, 99,9% ... Mulai sewenang-wenang. Tolong?

Itu sewenang-wenang. Itu sebabnya para ilmuwan data umumnya melaporkan besarnya nilai-p itu sendiri (tidak hanya signifikan atau tidak signifikan), dan juga ukuran efek.

Catur kecil
sumber
Agar lebih jelas, saya tidak mencoba untuk menantang dasar-dasar inferensi statistik. Seperti yang saya nyatakan, saya baru saja mempelajari dasar-dasarnya dan saya mengalami kesulitan memahami bagaimana setiap temuan potensial dapat dilewatkan dengan gagal menggunakan tes yang benar.
FromTheAshes
Katakan buddy Anda, Joe, menciptakan produk baru yang ia klaim sangat meningkatkan pertumbuhan tanaman. Penasaran, Anda menyusun studi yang kuat dengan kelompok kontrol, dan kelompok perlakuan. Null null Anda. adalah bahwa tidak akan ada perubahan dalam pertumbuhan, hip alternatif Anda. adalah bahwa semprotan sihir Joe secara signifikan meningkatkan pertumbuhan - jadi uji satu sisi. 2 minggu kemudian, Anda melakukan pengamatan terakhir dan menganalisis hasilnya. Pertumbuhan rata-rata dari kelompok perlakuan ternyata lebih dari 5 kesalahan standar DI BAWAH kontrol. Bagaimana temuan yang sangat signifikan ini kurang jelas atau valid karena pilihan tes Anda?
FromTheAshes
2
Jika saya meminta Anda untuk memanggil kepala atau ekor untuk melempar koin, kemungkinan Anda memperkirakan hasilnya adalah 50/50 (dengan asumsi koin yang seimbang dan sirip yang jujur). Namun, jika saya membalik koin terlebih dahulu dan membiarkan Anda melihatnya dan kemudian membuat prediksi Anda, itu tidak akan lagi menjadi 50/50. Jika Anda melakukan tes satu sisi dengan tingkat alfa 0,01 tetapi kemudian membalik arah tes setelah melihat hasilnya karena p <0,01 di arah lain, risiko kesalahan Tipe I tidak lama .01 tetapi jauh lebih tinggi. Perhatikan bahwa nilai p yang diamati dan tingkat kesalahan Tipe I bukanlah hal yang sama.
dbwilson
@FromTheAshes tidak ada yang salah dengan mencoba untuk menantang fondasi. Pengujian hipotesis statistik tidak sia-sia, tetapi memang mengandung kelemahan logis yang besar, dan sangat masuk akal untuk menantangnya!
Flounderer
3

Semua perbedaan bergantung pada pertanyaan yang ingin Anda jawab. Jika pertanyaannya adalah: "Apakah satu kelompok nilai lebih besar dari yang lain?" Anda dapat menggunakan tes satu sisi. Untuk menjawab pertanyaan: "Apakah kelompok nilai ini berbeda?" Anda menggunakan tes dua sisi. Mempertimbangkan bahwa satu set data mungkin secara statistik lebih tinggi dari yang lain, tetapi tidak berbeda secara statistik ... dan itu statistik.

Ramon L. Zegpi
sumber
1
'Jika pertanyaannya adalah: "Apakah satu kelompok nilai lebih besar dari yang lain?" Anda dapat menggunakan tes satu arah. ' Lebih tepatnya, jika pertanyaannya adalah "Apakah * kelompok khusus ini lebih besar daripada yang lain", maka Anda harus menggunakan tes dua sisi.
Akumulasi
Perlu dicatat bahwa itu semacam tersirat bahwa jika Anda menanyakan pertanyaan itu bahwa "Dan omong-omong jika kelihatannya kelompok lain sebenarnya lebih besar maka saya tidak peduli". Jika Anda akan melihat kebalikan dari apa yang Anda harapkan dan kemudian membalikkan arah tes hipotesis maka Anda hanya membohongi diri sendiri selama ini dan harus melakukan tes dua sisi untuk memulai.
Dason
2

Tetapi bagaimana hasil "perawatan" ini kurang valid daripada jika Anda hanya memilih tes satu-ekor yang benar di tempat pertama?

Nilai alpha adalah probabilitas bahwa Anda akan menolak nol, mengingat nol itu benar. Misalkan nol Anda adalah rata-rata sampel terdistribusi normal dengan rata-rata nol. Jika P (mean sampel> 1 | H0) = .05, maka aturan "Kumpulkan sampel, dan tolak nol jika rata-rata sampel lebih besar dari 1" memiliki probabilitas, mengingat bahwa nol itu benar, dari 5% dari menolak nol. Aturan "Kumpulkan sampel, dan jika rata-rata sampel positif, maka tolak nol jika rata-rata sampel lebih besar dari 1, dan jika rata-rata sampel negatif, tolak nol jika rata-rata sampel kurang dari 1" memiliki probabilitas, mengingat bahwa nol itu benar, dari 10% menolak nol. Jadi aturan pertama memiliki alpha 5%, dan aturan kedua memiliki alpha 10%. Jika Anda memulai dengan tes dua sisi, dan kemudian mengubahnya menjadi tes satu sisi berdasarkan data, maka Anda mengikuti aturan kedua, sehingga tidak akurat untuk melaporkan alfa Anda sebesar 5%. Nilai alfa tidak hanya tergantung pada data apa, tetapi aturan apa yang Anda ikuti dalam menganalisisnya. Jika Anda bertanya mengapa menggunakan metrik yang memiliki properti ini, alih-alih sesuatu yang hanya bergantung pada data, itu adalah pertanyaan yang lebih rumit.

Akumulasi
sumber
2

Mengenai poin ke-2

Memilih uji satu sisi setelah menjalankan uji dua sisi yang gagal menolak hipotesis nol tidak tepat, tidak peduli seberapa "dekat" dengan signifikansi uji dua sisi itu.

kami memiliki itu, jika nol benar, yang pertama, uji dua sisi, palsu menolak dengan probabilitas , tetapi satu sisi juga dapat menolak di tahap kedua.α

Oleh karena itu, kemungkinan penolakan keseluruhan akan melebihi , dan Anda tidak menguji pada tingkat yang Anda yakini akan diuji lagi - Anda lebih sering mendapatkan penolakan palsu daripada di dari kasus di mana strategi diterapkan untuk hipotesis nol sejati.αα100%

Secara keseluruhan, kami mencari yang dapat kita nyatakan sebagai Kedua peristiwa dalam serikat terpisah, sehingga kita mengejar Untuk istilah kedua, ada massa probabilitas antara kuantil dan (yaitu, titik penolakan dari tes satu sisi dan dua sisi), yang merupakan probabilitas gabungan dari tes dua sisi tidak menolak tetapi satu sisi melakukannya. Karenanya,

P(two-sided rejects or one-sided does, but two sided doesn't)
P(two-sided rejects(one-sided doestwo sided doesn't))
P(two-sided rejects)+P(one-sided doestwo sided doesn't)
α/21α1α/2
P(one-sided doestwo sided doesn't)=α/2
sehingga probabilitas penolakan keseluruhan dari strategi ini adalah Secara efektif, kami hanya menjumlahkan probabilitas bahwa statistik uji mendarat di sebelah kiri kuantil , antara kuantil dan atau di sebelah kanan -quantile.
α+α2>α
α/21α1α/21α/2

Ini adalah ilustrasi numerik kecil:

n <- 100
alpha <- 0.05

two.sided <- function (x, alpha=0.05) (sqrt(n)*abs(mean(x)) > qnorm(1-alpha/2)) # returns one if two-sided test rejects, 0 else
one.sided <- function (x, alpha=0.05) (sqrt(n)*mean(x) > qnorm(1-alpha))        # returns one if one-sided test rejects, 0 else

reps <- 1e8

two.step <- rep(NA,reps)
for (i in 1:reps){
  x <- rnorm(n) # generate data from a N(0,1) distribution, so that the test statistic sqrt(n)*mean(x) is also N(0,1) under H_0: mu=0
  two.step[i] <- ifelse(two.sided(x)==0, one.sided(x), 1) # first conducts two-sided test, then one-sided if two-sided fails to reject
}
> mean(two.step)
[1] 0.07505351
Christoph Hanck
sumber
1

Ini hanyalah satu cara sewenang-wenang untuk melihatnya: Untuk apa tes statistik digunakan? Mungkin alasan paling sering untuk melakukan tes adalah karena Anda ingin meyakinkan orang (yaitu editor, pengulas, pembaca, audiens) bahwa hasil Anda "cukup jauh acak" untuk diperhatikan. Dan entah bagaimana kami menyimpulkan bahwa adalah kebenaran yang arbitrer, namun universal.p<α=0.05

Untuk alasan yang masuk akal lain untuk melakukan tes, Anda tidak akan pernah puas dengan tetap dari , tetapi Anda akan bervariasi Anda dari kasus ke kasus, tergantung pada betapa pentingnya konsekuensi yang, bahwa Anda menarik dari tes.α0.05α

Kembali ke meyakinkan orang, bahwa ada sesuatu yang "cukup jauh dari sekadar acak" untuk memenuhi kriteria universal tentang kepedulian. Kami memiliki kriteria yang masuk akal, namun diterima secara universal, yang kami yakini dianggap "tidak acak" pada untuk pengujian dua sisiα=0.05 . Kriteria yang setara adalah dengan melihat data, memutuskan cara mana untuk menguji dan menggambar garis pada . Yang kedua setara dengan yang pertama, tetapi bukan itu yang secara historis kita setujui.α=0.025

Setelah Anda mulai melakukan tes satu sisi dengan Anda membuat diri Anda curiga terhadap perilaku yang tidak semestinya, memancing signifikansi. Jangan lakukan itu, jika Anda ingin meyakinkan orang!α=0.05


Lalu, tentu saja, ada hal yang disebut peneliti derajat kebebasan . Anda dapat menemukan signifikansi dalam jenis data apa pun, jika Anda memiliki data yang cukup dan bebas untuk mengujinya dalam berbagai cara yang Anda inginkan. Inilah sebabnya mengapa Anda harus memutuskan tes yang Anda lakukan sebelum melihat data. Segala sesuatu yang lain mengarah pada hasil tes yang tidak dapat diproduksi kembali. Saya menyarankan untuk pergi ke youtube dan melihat Andrew Gelmans bicara "Kejahatan pada data untuk lebih lanjut tentang itu.

Bernhard
sumber
1
Hmm, hipotesis nol bukanlah bahwa hasilnya acak. Ini akan membingungkan bagi dokter dan ilmuwan yang sangat melihat hasil pekerjaan mereka sebagai mencapai hasil yang pasti.
AdamO
1
Poin "Sekali Anda mulai melakukan tes satu sisi dengan ..." adalah penting. Alasan begitu umum adalah bahwa pengalaman praktis RA Fisher di Rothamsted adalah bahwa menjadi lebih dari standar deviasi dari nilai yang diharapkan umumnya perlu diselidiki lebih lanjut, dan dari sini ia memilih tes sebagai aturannya. , bukan sebaliknya. Dengan demikian, ekivalen satu-ekor adalahα=0.052 5 % 2,5 %0.0525%2.5%
Henry
1

Pada pandangan pertama, tidak satu pun dari pernyataan ini yang membuat pernyataan bahwa tes dua sisi lebih unggul daripada penelitian satu sisi. Hanya perlu ada hubungan logis dari hipotesis penelitian yang diuji terkait dengan kesimpulan statistik yang diuji.

Misalnya:

... pertimbangkan konsekuensi dari kehilangan efek ke arah lain. Bayangkan Anda telah mengembangkan obat baru yang Anda yakini merupakan peningkatan dibandingkan obat yang sudah ada. Anda ingin memaksimalkan kemampuan untuk mendeteksi peningkatan, sehingga Anda memilih untuk tes satu sisi. Dengan melakukannya, Anda gagal menguji kemungkinan bahwa obat baru kurang efektif daripada obat yang ada.

Pertama-tama ini adalah studi narkoba. Jadi menjadi salah dalam arah yang berlawanan memiliki signifikansi sosial di luar kerangka kerja statistik. Jadi seperti banyak yang mengatakan kesehatan bukanlah yang terbaik untuk membuat generalisasi.

Dalam kutipan di atas, tampaknya tentang pengujian obat ketika yang lain sudah ada. Jadi bagi saya, ini berarti obat Anda dianggap sudah efektif. Pernyataan tersebut berkenaan dengan perbandingan dua obat yang efektif setelahnya. Ketika membandingkan distribusi ini jika Anda mengabaikan satu sisi populasi demi meningkatkan hasil komparatifnya? Ini bukan hanya kesimpulan yang bias tetapi perbandingannya tidak lagi valid untuk dibenarkan: Anda membandingkan apel dengan jeruk.

Demikian pula, mungkin ada perkiraan poin bahwa demi kesimpulan statistik tidak membuat perbedaan pada kesimpulan, tetapi sangat penting secara sosial. Itu karena sampel kami mewakili kehidupan orang: sesuatu yang tidak dapat "terjadi kembali" dan tidak ternilai.

Atau, pernyataan itu menyiratkan bahwa peneliti memiliki insentif: "Anda ingin memaksimalkan kemampuan Anda untuk mendeteksi peningkatan ..." Gagasan ini tidak sepele untuk kasus yang diisolasi sebagai protokol yang buruk.

Memilih uji satu sisi setelah menjalankan uji dua sisi yang gagal menolak hipotesis nol tidak tepat, tidak peduli seberapa "dekat" dengan signifikansi uji dua sisi itu.

Sekali lagi di sini ini menyiratkan bahwa peneliti sedang 'mengalihkan' pengujiannya: dari dua sisi ke satu sisi. Ini tidak pernah tepat. Sangat penting untuk memiliki tujuan penelitian sebelum pengujian. Dengan selalu default pada kenyamanan dari pendekatan dua sisi - para peneliti dengan mudah gagal untuk lebih memahami fenomena tersebut.

Inilah makalah tentang topik ini, pada kenyataannya, membuat kasus bahwa tes dua sisi telah digunakan secara berlebihan.

Ini menyalahkan penggunaan yang berlebihan dari tes dua sisi pada kurangnya:

perbedaan yang jelas dan hubungan logis antara hipotesis penelitian dan hipotesis statistiknya

Dibutuhkan posisi dan sikap yang peneliti:

mungkin tidak menyadari perbedaan antara dua mode ekspresif atau menyadari aliran logis di mana hipotesis penelitian harus diterjemahkan ke dalam hipotesis statistik. Pencampuran yang berorientasi kenyamanan dari penelitian dan hipotesis statistik dapat menjadi penyebab dari penggunaan berlebihan pengujian dua sisi bahkan dalam situasi di mana penggunaan pengujian dua sisi tidak tepat.

yang diperlukan adalah memahami statistik yang tepat dalam menginterpretasikan hasil pengujian statistik. Tidak eksak dengan nama konservatif tidak direkomendasikan. Dalam hal itu, penulis berpikir bahwa hanya melaporkan hasil pengujian seperti "Ditemukan signifikan secara statistik pada tingkat signifikansi 0,05 (yaitu, p <0,05)." Tidak cukup baik.

Meskipun pengujian dua sisi lebih konservatif dalam teori, pengujian ini memisahkan hubungan antara hipotesis penelitian terarah dan hipotesis statistiknya, yang mungkin mengarah pada nilai p yang digandakan ganda.

Para penulis juga telah menunjukkan bahwa argumen untuk menemukan hasil yang signifikan dalam arah yang berlawanan memiliki makna hanya dalam konteks penemuan daripada dalam konteks
pembenaran . Dalam hal menguji hipotesis penelitian dan teori yang mendasarinya, para peneliti seharusnya tidak secara bersamaan membahas konteks penemuan dan pembenaran.

https://www.sciencedirect.com/science/article/pii/S0148296312000550

Aisync
sumber
1

Seringkali tes signifikansi dilakukan untuk hipotesis nol terhadap hipotesis alternatif . Ini adalah ketika satu-ekor versus dua-ekor membuat perbedaan.


  • Untuk nilai-p ini (dua atau satu sisi) tidak masalah! Intinya adalah bahwa Anda memilih criterium yang hanya terjadi sebagian kecil dari waktu ketika hipotesis nol benar. Ini adalah dua bagian kecil dari kedua ekor, atau satu bagian besar dari satu ekor, atau yang lainnya.α

    Tingkat kesalahan tipe I tidak berbeda untuk satu atau dua tes sisi.

  • Di sisi lain, untuk kekuatan itu penting .

    Jika hipotesis alternatif Anda asimetris, maka Anda ingin memfokuskan kriteria untuk menolak hipotesis nol hanya pada ekor / akhir ini; sehingga ketika hipotesis alternatif itu benar maka Anda cenderung untuk tidak menolak ("menerima") hipotesis nol.

    Jika hipotesis alternatif Anda simetris (Anda tidak peduli untuk menempatkan kekuatan lebih atau kurang di satu sisi tertentu), dan defleksi / efek di kedua sisi sama-sama diharapkan (atau hanya tidak diketahui / tidak diinformasikan), maka lebih kuat untuk menggunakan uji dua sisi (Anda tidak kehilangan daya 50% untuk ekor yang tidak Anda uji dan di mana Anda akan membuat banyak kesalahan tipe II).

    Tingkat kesalahan tipe II berbeda untuk tes satu dan dua sisi dan tergantung pada hipotesis alternatif juga.

Itu menjadi lebih mirip konsep Bayesian sekarang ketika kita mulai melibatkan prasangka tentang apakah kita mengharapkan efek jatuh di satu sisi atau di kedua sisi, dan ketika kita ingin menggunakan tes (untuk melihat apakah kita dapat memalsukan suatu null-hipotesis) untuk 'mengkonfirmasi' atau membuat sesuatu yang lebih mungkin seperti efek.

Sextus Empiricus
sumber
0

Jadi satu lagi usaha menjawab:

Saya kira apakah mengambil satu-ekor atau dua-ekor tergantung sepenuhnya pada hipotesis Alternatif .

Pertimbangkan contoh rata-rata pengujian berikut dalam uji-t:

H0:μ=0

Ha:μ0

Sekarang jika Anda mengamati mean sampel yang sangat negatif atau mean sampel yang sangat positif, hipotesis Anda tidak mungkin benar.

Di sisi lain, Anda akan bersedia menerima hipotesis Anda jika rerata sampel Anda mendekati baik negatif atau positif . Sekarang Anda harus memilih interval di mana, jika mean sampel Anda akan jatuh, Anda tidak akan menolak hipotesis nol Anda. Jelas Anda akan memilih interval yang memiliki sisi negatif dan positif sekitar . Jadi Anda memilih tes dua sisi.0 0

Tetapi bagaimana jika Anda tidak ingin menguji , melainkan . Sekarang secara intuitif apa yang ingin kita lakukan di sini adalah jika nilai rata-rata sampel menjadi sangat negatif, maka kita pasti dapat menolak nol kita. Jadi kami ingin menolak nol hanya untuk nilai negatif jauh dari rata-rata sampel.μ=0μ0

Tapi tunggu! Jika itu hipotesis nol saya, bagaimana saya mengatur distribusi nol saya. Distribusi nol dari mean sampel diketahui untuk beberapa nilai yang diasumsikan dari parameter populasi (di sini ). Tetapi di bawah null saat ini dapat mengambil banyak nilai.0

Katakanlah kita dapat melakukan hipotesis nol tanpa batas. Masing-masing untuk mengasumsikan nilai positif . Tapi pikirkan ini: Dalam hipotesis pertama kami dari , jika kita hanya menolak nol pada pengelompokan mean sampel negatif yang sangat jauh, maka setiap hipotesis berikutnya dengan juga akan menolaknya. Karena bagi mereka, mean sampel bahkan lebih jauh dari parameter populasi. Jadi pada dasarnya yang perlu kita lakukan adalah hanya melakukan satu hipotesis tetapi satu arah .μH0:μ=0H0:μ>0

Jadi solusi Anda menjadi:

H0:μ=0

Ha:μ<0

Contoh terbaik adalah tes Dickey-Fuller untuk stasioneritas.

Semoga ini membantu. (Ingin memasukkan diagram tetapi membalas dari seluler).

Dayne
sumber