Mengapa "signifikan secara statistik" tidak cukup?

46

Saya telah menyelesaikan analisis data saya dan mendapatkan "hasil yang signifikan secara statistik" yang konsisten dengan hipotesis saya. Namun, seorang siswa dalam statistik mengatakan kepada saya bahwa ini adalah kesimpulan prematur. Mengapa? Apakah ada hal lain yang perlu dimasukkan dalam laporan saya?

Jim Von
sumber
4
Itu sangat tergantung pada apa yang Anda maksud dengan "mendapat hasil yang signifikan secara statistik konsisten dengan hipotesis". Jika hipotesis Anda adalah bahwa angin dihasilkan oleh pohon dan percobaan Anda menunjukkan bahwa dalam 100% pengamatan ketika pohon memindahkan cabang-cabangnya, ada angin, Anda menganggapnya signifikan secara statistik dan menyuarakan kesimpulan Anda terbukti. Yang jelas salah. Jadi, ini mungkin salah satu dari kasus-kasus itu.
sashkello
1
Anda benar-benar akan membutuhkan studi tindak lanjut untuk secara aman mendeklarasikan "temuan signifikan" dengan kepercayaan - menggunakan pengumpulan data yang dirancang dengan baik, model yang sama, dan tes hipotesis yang sama. Anda juga perlu memastikan bahwa kumpulan data Anda saat ini mewakili "populasi umum" yang Anda klaim dengan temuan yang signifikan (ini adalah masalah utama untuk menyimpulkan dengan "data besar")
probabilityislogic
1
Tentunya jawabannya sesederhana 'korelasi bukan sebab-akibat'?
Pecahan
1
Ini salah satu favorit saya : Orang yang makan lebih banyak nasi melahirkan lebih banyak anak. Memeriksa seluruh populasi dunia, Anda akan mendapatkan hasil yang signifikan secara statistik ...
Karoly Horvath
4
Jawaban yang bagus, tapi saya terkejut tidak ada yang menyarankan solusi yang jelas: Tanyakan padanya. Setiap kali seseorang memberi tahu Anda bahwa Anda salah tentang pekerjaan Anda atau hal lain yang Anda pedulikan, tanyakan saja. Memberitahu seseorang bahwa dia salah karena X, y dan Z itu keren - ini adalah kesempatan belajar. Tapi hanya mengatakan kepada seseorang bahwa dia salah dan gagah adalah langkah yang sulit.
Sylverdrag

Jawaban:

53

Pengujian hipotesis versus estimasi parameter

Biasanya, hipotesis dibingkai dengan cara biner. Saya akan meletakkan hipotesis arah ke satu sisi, karena mereka tidak banyak mengubah masalah. Adalah umum, setidaknya dalam psikologi, untuk berbicara tentang hipotesis seperti: perbedaan antara rata-rata kelompok adalah atau tidak nol; korelasinya adalah atau tidak nol; koefisien regresi adalah atau tidak nol; r-square adalah atau tidak nol. Dalam semua kasus ini, ada hipotesis nol tidak berpengaruh, dan hipotesis alternatif efek.

Pemikiran biner ini umumnya bukan hal yang paling menarik bagi kami. Setelah Anda memikirkan pertanyaan penelitian Anda, Anda akan hampir selalu menemukan bahwa Anda sebenarnya tertarik dalam memperkirakan parameter. Anda tertarik pada perbedaan aktual antara rata-rata kelompok, atau ukuran korelasi, atau ukuran koefisien regresi, atau jumlah perbedaan yang dijelaskan.

Tentu saja, ketika kita mendapatkan sampel data, perkiraan sampel suatu parameter tidak sama dengan parameter populasi. Jadi kita perlu cara untuk mengukur ketidakpastian kita tentang apa nilai parameternya. Dari sudut pandang yang sering, interval kepercayaan menyediakan cara untuk melakukan, meskipun puritan Bayesian mungkin berpendapat bahwa mereka tidak secara ketat mengizinkan kesimpulan yang mungkin ingin Anda buat. Dari perspektif Bayesian, interval kredibel pada kepadatan posterior memberikan cara yang lebih langsung untuk mengukur ketidakpastian Anda tentang nilai parameter populasi.

Parameter / ukuran efek

R2

Ada literatur besar dalam bidang psikologi (dan bidang lainnya) yang mengkritik fokus pada nilai-p, pengujian signifikansi nol hipotesis, dan sebagainya (lihat pencarian Google Cendekia ini ). Literatur ini sering merekomendasikan ukuran efek pelaporan dengan interval kepercayaan sebagai resolusi (misalnya, gugus tugas APA oleh Wilkinson, 1999).

Langkah-langkah untuk menjauh dari pengujian hipotesis biner

Jika Anda berpikir untuk mengadopsi pemikiran ini, saya pikir ada pendekatan yang semakin canggih yang dapat Anda ambil:

  • Pendekatan 1a. Laporkan estimasi titik efek sampel Anda (misalnya, perbedaan rata-rata grup) dalam istilah baku dan standar. Ketika Anda melaporkan hasil Anda, diskusikan apa artinya sebesar itu bagi teori dan praktik.
  • Pendekatan 1b. Tambahkan ke 1a, setidaknya pada tingkat yang sangat dasar, beberapa perasaan ketidakpastian di sekitar estimasi parameter Anda berdasarkan ukuran sampel Anda.
  • Pendekatan 2. Juga laporkan interval kepercayaan pada ukuran efek dan gabungkan ketidakpastian ini ke dalam pemikiran Anda tentang nilai-nilai yang masuk akal dari parameter bunga.
  • Pendekatan 3. Laporkan interval Bayesian yang kredibel, dan periksa implikasi berbagai asumsi pada interval yang kredibel, seperti pilihan sebelumnya, proses pembuatan data yang tersirat oleh model Anda, dan sebagainya.

Di antara banyak referensi yang mungkin, Anda akan melihat Andrew Gelman berbicara banyak tentang masalah ini di blognya dan dalam penelitiannya.

Referensi

  • Nickerson, RS (2000). Pengujian signifikansi hipotesis nol: tinjauan terhadap kontroversi lama dan berkelanjutan. Metode psikologis, 5 (2), 241.
  • Wilkinson, L. (1999). Metode statistik dalam jurnal psikologi: pedoman dan penjelasan. Psikolog Amerika, 54 (8), 594. PDF
Jeromy Anglim
sumber
12
Lebih jauh untuk komentar Jeromy, dapatkah saya merekomendasikan Anda membaca esai Ziliac dan McCloskey tentang sekte penting secara statistik. Ini bukan statistik yang paling mengejutkan, tetapi menyediakan diskusi yang bijaksana - dan menghibur - mengapa ukuran efek, signifikansi praktis, dan fungsi kerugian sangat penting. deirdremccloskey.com/docs/jsm.pdf
Jim
Saya pikir mungkin kadang-kadang p harus ditetapkan lebih rendah dari 0,05. Terima kasih semua: gung, Jeromy dan Jim
Jim Von
1
Tentang Ziliak [NB] dan McCloskey: Jika Anda sibuk, bacalah phil.vt.edu/dmayo/personal_website/… terlebih dahulu. Jika Anda tidak sibuk, tetap baca dulu.
Nick Cox
Sama-sama, @JimVon. FWIW, saya kadang-kadang berpikir p harus ditetapkan lebih tinggi dari 0,05. Itu tergantung.
gung - Reinstate Monica
1
Senang melihat Dr. Gelman dinamai di sini. Tampaknya dia bahkan tidak suka melaporkan nilai-p, apalagi menggunakannya untuk kesimpulan serius. Dia juga membuat kasus yang bagus untuk membakukan semua variabel Anda sebagai hal yang biasa.
shadowtalker
26

Hanya untuk menambah jawaban yang ada (yang bagus, omong-omong). Penting untuk diketahui bahwa signifikansi statistik adalah fungsi dari ukuran sampel .

Ketika Anda mendapatkan lebih banyak data, Anda dapat menemukan perbedaan yang signifikan secara statistik di mana pun Anda melihat. Ketika jumlah data sangat besar, bahkan efek terkecil dapat menyebabkan signifikansi statistik. Ini tidak menyiratkan bahwa efek kata bermakna dalam cara praktis apa pun.

pp

Marc Claesen
sumber
Ini poin yang ditekankan dalam slide 13 saya :)
Stéphane Laurent
6
+1 untuk ini. Orang yang tidak menyadari signifikansi adalah fungsi dari ukuran sampel yang membuat saya gila.
Fomite
12

Jika ada dasar yang masuk akal untuk mencurigai hipotesis Anda mungkin benar sebelum Anda menjalankan studi Anda; dan Anda menjalankan penelitian yang baik (misalnya, Anda tidak membocorkannya); dan hasil Anda konsisten dengan hipotesis Anda dan signifikan secara statistik; maka saya pikir Anda baik-baik saja, sejauh itu.

Namun, Anda tidak boleh berpikir bahwa signifikansi adalah yang terpenting dalam hasil Anda. Pertama, Anda harus melihat ukuran efek juga (lihat jawaban saya di sini: Ukuran efek sebagai hipotesis untuk pengujian signifikansi ). Anda mungkin juga ingin sedikit mengeksplorasi data Anda dan melihat apakah Anda dapat menemukan kejutan yang berpotensi menarik yang mungkin layak ditindaklanjuti.

gung - Reinstate Monica
sumber
Maksud Anda hipotesis harus masuk akal? Dan bagaimana cara menilai apakah hipotesis saya akan menyebabkan analisis data yang tidak berarti? "Kejutan yang berpotensi menarik" harus diungkapkan oleh Post-hoc?
Jim Von
Maksud saya adalah, mungkin ada beberapa alasan yang sah untuk menjalankan studi di tempat pertama. Pengetahuan teoritis saat ini & / atau studi terbaru menunjukkan hipotesis Anda mungkin benar. Hipotesis Anda kemungkinan tidak akan "mengarah pada analisis data yang tidak berarti" kecuali itu tidak koheren. Kejutan / fitur yang berpotensi menarik dari data Anda dapat ditemukan pasca-hoc; fakta bahwa itu adalah kejutan berarti Anda tidak tahu itu akan terjadi ketika Anda merencanakan penelitian. Masalah tentang "post-hoc" adalah apakah percaya kejutan - mereka perlu dikonfirmasi oleh penelitian masa depan.
gung - Reinstate Monica
7

Sebelum melaporkan ini dan ini dan ini dan ini, mulailah dengan merumuskan apa yang ingin Anda pelajari dari data eksperimen Anda. Masalah utama dengan tes hipotesis biasa (tes ini kita pelajari di sekolah ...) bukan binarity: masalah utama adalah bahwa ini adalah tes untuk hipotesis yang bukan merupakan hipotesis yang menarik. Lihat slide 13 di sini (unduh pdf untuk menghargai animasi). Tentang ukuran efek, tidak ada definisi umum tentang gagasan ini . Terus terang saya tidak akan merekomendasikan untuk menggunakan ini untuk ahli statistik non-ahli, ini adalah langkah-langkah "efek" teknis, tidak alami. Hipotesis Anda yang menarik harus dirumuskan dalam istilah yang dapat dimengerti oleh orang awam.

Stéphane Laurent
sumber
1
Satu tambahan kecil - hipotesis nol sebenarnya harus berarti sesuatu di luar konteks analisis data saat ini untuk HT standar untuk diterapkan. Seharusnya tidak "diciptakan" sehingga Anda memiliki sesuatu untuk ditolak demi teori / temuan Anda.
probabilityislogic
2

Saya jauh dari pakar statistik, tetapi satu hal yang ditekankan dalam kursus statistik yang telah saya lakukan hingga saat ini adalah masalah "signifikansi praktis". Saya percaya ini menyinggung apa yang dibicarakan Jeromy dan gung ketika merujuk pada "efek ukuran".

Kami memiliki contoh dalam kelas diet 12 minggu yang memiliki hasil penurunan berat badan yang signifikan secara statistik, tetapi interval kepercayaan 95% menunjukkan penurunan berat badan rata-rata antara 0,2 dan 1,2 kg (OK, data mungkin dibuat tetapi menggambarkan sebuah poin) . Sementara "signifikan secara statistik" "berbeda dari nol, apakah penurunan berat badan 200 gram selama 12 minggu merupakan hasil" yang secara praktis signifikan "bagi orang yang kelebihan berat badan yang berusaha menjadi sehat?

kesahli
sumber
Ini adalah titik setelah slide saya 13 :)
Stéphane Laurent
2
Ini juga merupakan contoh pengujian hipotesis nol "salah". Ini bukan kesimpulan yang menarik bagi Anda. Tes hipotesis yang lebih baik adalah bahwa penurunan berat badan kurang dari 5kg vs lebih besar dari 5kg.
probabilityislogic
1

Ini tidak mungkin dijawab secara akurat tanpa mengetahui lebih detail studi Anda dan kritik orang tersebut. Tetapi ada satu kemungkinan: jika Anda telah menjalankan beberapa tes, dan Anda memilih untuk fokus pada tes yang keluar p<0.05dan mengabaikan yang lain, maka "signifikansi" itu telah diencerkan oleh fakta bahwa Anda selektif memperhatikannya. Sebagai pompa intuisi untuk ini, ingat itu p=0.05berarti "hasil ini akan terjadi secara kebetulan (hanya) 5% dari waktu bahkan jika hipotesis nol itu benar". Jadi semakin banyak tes yang Anda jalankan, semakin besar kemungkinan bahwa setidaknya satu dari mereka akan menjadi hasil "signifikan" hanya secara kebetulan — bahkan jika tidak ada efek di sana. Lihat http://en.wikipedia.org/wiki/Multiple_comparisons dan http://en.wikipedia.org/wiki/Post-hoc_analysis

jez
sumber
0

Saya sarankan Anda membaca yang berikut:

Anderson, DR, Burnham, KP, Thompson, WL, 2000. Pengujian hipotesis nol: Masalah, prevalensi, dan alternatif. J. Wildl. Mengelola. 64, 912-923. Gigerenzer, G., 2004. Statistik mindless. Jurnal Sosial Ekonomi 33, 587-606. Johnson, DH, 1999. Tidak signifikannya Pengujian Signifikansi Statistik. Jurnal Pengelolaan Margasatwa 63, 763-772.

Hipotesis nol jarang menarik dalam arti bahwa, dari percobaan atau serangkaian pengamatan, ada dua hasil: menolak dengan benar nol atau membuat kesalahan Tipe II. Ukuran efek adalah hal yang mungkin menarik untuk Anda tentukan dan, setelah selesai, Anda harus menghasilkan interval kepercayaan untuk ukuran efek tersebut.

Tom
sumber