Saya telah menyelesaikan analisis data saya dan mendapatkan "hasil yang signifikan secara statistik" yang konsisten dengan hipotesis saya. Namun, seorang siswa dalam statistik mengatakan kepada saya bahwa ini adalah kesimpulan prematur. Mengapa? Apakah ada hal lain yang perlu dimasukkan dalam laporan saya?
46
Jawaban:
Pengujian hipotesis versus estimasi parameter
Biasanya, hipotesis dibingkai dengan cara biner. Saya akan meletakkan hipotesis arah ke satu sisi, karena mereka tidak banyak mengubah masalah. Adalah umum, setidaknya dalam psikologi, untuk berbicara tentang hipotesis seperti: perbedaan antara rata-rata kelompok adalah atau tidak nol; korelasinya adalah atau tidak nol; koefisien regresi adalah atau tidak nol; r-square adalah atau tidak nol. Dalam semua kasus ini, ada hipotesis nol tidak berpengaruh, dan hipotesis alternatif efek.
Pemikiran biner ini umumnya bukan hal yang paling menarik bagi kami. Setelah Anda memikirkan pertanyaan penelitian Anda, Anda akan hampir selalu menemukan bahwa Anda sebenarnya tertarik dalam memperkirakan parameter. Anda tertarik pada perbedaan aktual antara rata-rata kelompok, atau ukuran korelasi, atau ukuran koefisien regresi, atau jumlah perbedaan yang dijelaskan.
Tentu saja, ketika kita mendapatkan sampel data, perkiraan sampel suatu parameter tidak sama dengan parameter populasi. Jadi kita perlu cara untuk mengukur ketidakpastian kita tentang apa nilai parameternya. Dari sudut pandang yang sering, interval kepercayaan menyediakan cara untuk melakukan, meskipun puritan Bayesian mungkin berpendapat bahwa mereka tidak secara ketat mengizinkan kesimpulan yang mungkin ingin Anda buat. Dari perspektif Bayesian, interval kredibel pada kepadatan posterior memberikan cara yang lebih langsung untuk mengukur ketidakpastian Anda tentang nilai parameter populasi.
Parameter / ukuran efek
Ada literatur besar dalam bidang psikologi (dan bidang lainnya) yang mengkritik fokus pada nilai-p, pengujian signifikansi nol hipotesis, dan sebagainya (lihat pencarian Google Cendekia ini ). Literatur ini sering merekomendasikan ukuran efek pelaporan dengan interval kepercayaan sebagai resolusi (misalnya, gugus tugas APA oleh Wilkinson, 1999).
Langkah-langkah untuk menjauh dari pengujian hipotesis biner
Jika Anda berpikir untuk mengadopsi pemikiran ini, saya pikir ada pendekatan yang semakin canggih yang dapat Anda ambil:
Di antara banyak referensi yang mungkin, Anda akan melihat Andrew Gelman berbicara banyak tentang masalah ini di blognya dan dalam penelitiannya.
Referensi
sumber
Hanya untuk menambah jawaban yang ada (yang bagus, omong-omong). Penting untuk diketahui bahwa signifikansi statistik adalah fungsi dari ukuran sampel .
Ketika Anda mendapatkan lebih banyak data, Anda dapat menemukan perbedaan yang signifikan secara statistik di mana pun Anda melihat. Ketika jumlah data sangat besar, bahkan efek terkecil dapat menyebabkan signifikansi statistik. Ini tidak menyiratkan bahwa efek kata bermakna dalam cara praktis apa pun.
sumber
Jika ada dasar yang masuk akal untuk mencurigai hipotesis Anda mungkin benar sebelum Anda menjalankan studi Anda; dan Anda menjalankan penelitian yang baik (misalnya, Anda tidak membocorkannya); dan hasil Anda konsisten dengan hipotesis Anda dan signifikan secara statistik; maka saya pikir Anda baik-baik saja, sejauh itu.
Namun, Anda tidak boleh berpikir bahwa signifikansi adalah yang terpenting dalam hasil Anda. Pertama, Anda harus melihat ukuran efek juga (lihat jawaban saya di sini: Ukuran efek sebagai hipotesis untuk pengujian signifikansi ). Anda mungkin juga ingin sedikit mengeksplorasi data Anda dan melihat apakah Anda dapat menemukan kejutan yang berpotensi menarik yang mungkin layak ditindaklanjuti.
sumber
Sebelum melaporkan ini dan ini dan ini dan ini, mulailah dengan merumuskan apa yang ingin Anda pelajari dari data eksperimen Anda. Masalah utama dengan tes hipotesis biasa (tes ini kita pelajari di sekolah ...) bukan binarity: masalah utama adalah bahwa ini adalah tes untuk hipotesis yang bukan merupakan hipotesis yang menarik. Lihat slide 13 di sini (unduh pdf untuk menghargai animasi). Tentang ukuran efek, tidak ada definisi umum tentang gagasan ini . Terus terang saya tidak akan merekomendasikan untuk menggunakan ini untuk ahli statistik non-ahli, ini adalah langkah-langkah "efek" teknis, tidak alami. Hipotesis Anda yang menarik harus dirumuskan dalam istilah yang dapat dimengerti oleh orang awam.
sumber
Saya jauh dari pakar statistik, tetapi satu hal yang ditekankan dalam kursus statistik yang telah saya lakukan hingga saat ini adalah masalah "signifikansi praktis". Saya percaya ini menyinggung apa yang dibicarakan Jeromy dan gung ketika merujuk pada "efek ukuran".
Kami memiliki contoh dalam kelas diet 12 minggu yang memiliki hasil penurunan berat badan yang signifikan secara statistik, tetapi interval kepercayaan 95% menunjukkan penurunan berat badan rata-rata antara 0,2 dan 1,2 kg (OK, data mungkin dibuat tetapi menggambarkan sebuah poin) . Sementara "signifikan secara statistik" "berbeda dari nol, apakah penurunan berat badan 200 gram selama 12 minggu merupakan hasil" yang secara praktis signifikan "bagi orang yang kelebihan berat badan yang berusaha menjadi sehat?
sumber
Ini tidak mungkin dijawab secara akurat tanpa mengetahui lebih detail studi Anda dan kritik orang tersebut. Tetapi ada satu kemungkinan: jika Anda telah menjalankan beberapa tes, dan Anda memilih untuk fokus pada tes yang keluar
p<0.05
dan mengabaikan yang lain, maka "signifikansi" itu telah diencerkan oleh fakta bahwa Anda selektif memperhatikannya. Sebagai pompa intuisi untuk ini, ingat itup=0.05
berarti "hasil ini akan terjadi secara kebetulan (hanya) 5% dari waktu bahkan jika hipotesis nol itu benar". Jadi semakin banyak tes yang Anda jalankan, semakin besar kemungkinan bahwa setidaknya satu dari mereka akan menjadi hasil "signifikan" hanya secara kebetulan — bahkan jika tidak ada efek di sana. Lihat http://en.wikipedia.org/wiki/Multiple_comparisons dan http://en.wikipedia.org/wiki/Post-hoc_analysissumber
Saya sarankan Anda membaca yang berikut:
Anderson, DR, Burnham, KP, Thompson, WL, 2000. Pengujian hipotesis nol: Masalah, prevalensi, dan alternatif. J. Wildl. Mengelola. 64, 912-923. Gigerenzer, G., 2004. Statistik mindless. Jurnal Sosial Ekonomi 33, 587-606. Johnson, DH, 1999. Tidak signifikannya Pengujian Signifikansi Statistik. Jurnal Pengelolaan Margasatwa 63, 763-772.
Hipotesis nol jarang menarik dalam arti bahwa, dari percobaan atau serangkaian pengamatan, ada dua hasil: menolak dengan benar nol atau membuat kesalahan Tipe II. Ukuran efek adalah hal yang mungkin menarik untuk Anda tentukan dan, setelah selesai, Anda harus menghasilkan interval kepercayaan untuk ukuran efek tersebut.
sumber