Jadi saya telah mendengarnya mengatakan bahwa itu bukan ide yang baik untuk memilih satu uji statistik berdasarkan hasil yang lain. Ini tampaknya aneh bagiku. Sebagai contoh, orang sering memilih untuk menggunakan tes non parametrik ketika beberapa tes lain menunjukkan bahwa residu tidak terdistribusi secara normal. Pendekatan ini tampaknya diterima secara luas tetapi tampaknya tidak setuju dengan kalimat pertama dalam paragraf ini. Saya hanya berharap mendapat klarifikasi tentang masalah ini.
hypothesis-testing
Jimj
sumber
sumber
Jawaban:
Mengingat bahwa adalah probabilitas untuk mengamati data yang ekstrem ini atau yang lebih ekstrem jika H 0 benar, lalu apa interpretasi p di mana p diperoleh melalui proses di mana ada keputusan kontingen yang dibuat dalam pemilihan tes yang diproduksi p itu ? Jawabannya tidak diketahui (atau paling tidak hampir tidak diketahui). Dengan membuat keputusan untuk menjalankan tes atau tidak atas dasar beberapa proses probabilistik lain Anda telah membuat interpretasi hasil Anda menjadi lebih berbelit-belit. halp H0 p p p p nilai-nilai dapat ditafsirkan secara maksimal ketika ukuran sampel dan rencana analisis sepenuhnya dipilih sebelumnya. Dalam situasi lain, interpretasi menjadi sulit, itu sebabnya 'bukan ide yang baik'. Yang sedang berkata, itu adalah praktik yang diterima secara luas ... setelah semua, mengapa repot-repot menjalankan tes jika Anda mengetahui bahwa tes yang Anda rencanakan untuk dijalankan tidak valid? Jawaban atas pertanyaan itu jauh lebih tidak pasti. Ini semua bermuara pada fakta sederhana bahwa pengujian signifikansi hipotesis nol (kasus penggunaan utama ) memiliki beberapa masalah yang sulit untuk diatasi.p
sumber
Ya, banyak orang melakukan hal semacam ini, dan mengubah tes kedua mereka menjadi yang dapat mengatasi heteroskedastisitas ketika mereka menolak persamaan varian, dan seterusnya.
Hanya karena sesuatu itu biasa, bukan berarti itu bijak.
Memang, di beberapa tempat (saya tidak akan menyebutkan disiplin yang paling buruk) banyak pengujian hipotesis formal ini bergantung pada pengujian hipotesis formal lainnya yang sebenarnya diajarkan.
Masalah dengan melakukannya adalah prosedur Anda tidak memiliki sifat nominalnya, kadang-kadang bahkan tidak menutup. (Di sisi lain, mengasumsikan hal-hal seperti itu tanpa pertimbangan sama sekali untuk kemungkinan pelanggaran ekstrem bisa jadi lebih buruk.)
Beberapa makalah menyarankan bahwa untuk kasus heteroskedastik, Anda lebih baik hanya bertindak seolah-olah varians tidak sama daripada menguji untuk itu dan hanya melakukan sesuatu tentang hal itu pada penolakan.
Dalam kasus normalitas kurang jelas. Paling tidak dalam sampel besar, dalam banyak kasus, normalitas tidak terlalu penting (tetapi ironisnya, dengan sampel besar, uji normalitas Anda lebih cenderung ditolak), selama non-normalitas tidak terlalu liar. Satu pengecualian adalah untuk interval prediksi, di mana Anda benar-benar membutuhkan asumsi distribusi Anda agar mendekati kanan.
Sebagian, satu masalah adalah bahwa tes hipotesis menjawab pertanyaan yang berbeda dari yang perlu dijawab. Anda tidak benar-benar perlu tahu 'apakah datanya benar-benar normal' (hampir selalu, itu tidak sepenuhnya normal a priori ). Pertanyaannya agak 'seberapa parah tingkat non-normalitas akan mempengaruhi kesimpulan saya'.
Masalah kedua biasanya hanya tentang ukuran sampel independen atau benar-benar menjadi lebih baik dengan meningkatnya ukuran sampel - namun tes hipotesis hampir selalu menolak pada ukuran sampel besar.
Ada banyak situasi di mana ada prosedur yang kuat atau bahkan distribusi gratis yang sangat dekat dengan sepenuhnya efisien bahkan pada normal (dan berpotensi jauh lebih efisien pada beberapa keberangkatan yang cukup sederhana dari itu) - dalam banyak kasus tampaknya konyol untuk tidak mengambil pendekatan bijaksana yang sama.
sumber
Masalah utama telah dijelaskan dengan baik oleh orang lain, tetapi bingung dengan yang mendasarinya atau terkait
Terlalu hormat untuk nilai-P, paling banyak satu jenis bukti dalam statistik.
Keengganan untuk melihat bahwa laporan statistik tidak dapat dihindari didasarkan pada kombinasi pilihan, beberapa berdasarkan bukti kuat, yang lain didasarkan pada campuran analisis sebelumnya, intuisi, dugaan, penilaian, teori, dan sebagainya.
Misalkan saya dan teman saya yang berhati-hati, Test Everything, keduanya memilih transformasi log untuk respons, tetapi saya langsung mengambil kesimpulan itu berdasarkan campuran dari penalaran fisik dan pengalaman sebelumnya dengan data, sedangkan Test Everything memilih skala log berdasarkan pengujian dan estimasi Box-Cox dari suatu parameter.
Sekarang kami berdua menggunakan regresi berganda yang sama. Apakah nilai-P kami memiliki interpretasi yang berbeda? Pada satu interpretasi, nilai-P Test Semuanya tergantung pada kesimpulan sebelumnya. Saya menggunakan inferensi juga, tetapi sebagian besar bersifat informal, berdasarkan serangkaian panjang grafik sebelumnya, perhitungan, dll dalam proyek sebelumnya. Bagaimana cara melaporkannya?
Secara alami, hasil regresi sama persis untuk Tes Semuanya dan saya sendiri.
Campuran yang sama dari saran yang masuk akal dan filosofi yang meragukan berlaku untuk pilihan prediktor dan bentuk fungsional. Ekonom, misalnya, banyak diajarkan untuk menghormati diskusi teoretis sebelumnya dan mewaspadai pengintaian data, dengan alasan yang bagus dalam setiap kasus. Tetapi dalam kasus terlemah teori yang bersangkutan hanyalah saran sementara yang dibuat sebelumnya dalam literatur, sangat mungkin setelah beberapa analisis empiris. Tetapi referensi literatur menguduskan, sementara belajar dari data di tangan adalah tersangka, bagi banyak penulis.
sumber