Apa ukuran efek ... dan mengapa itu bahkan berguna?

18

Saya memiliki latar belakang statistik tingkat pengantar lulusan (anggap saya tahu statistik matematika dan probabilitas pada tingkat sarjana (misalnya, Wackerly et al., Probabilitas Ross), dan memiliki pengetahuan tentang teori ukuran).

Saya baru-baru ini memulai pekerjaan melakukan desain eksperimental dan pelaporan statistik dalam statistik pendidikan, dan telah ditempatkan pada proyek di mana saya pada dasarnya menilai metrik akuntabilitas untuk sekolah dan harus menganalisis data, mengusulkan perubahan, dll. Perhatikan bahwa saya adalah satu-satunya satu di departemen saya dengan latar belakang statistik matematika.

Dalam posisi saya, orang-orang sangat menyarankan menggunakan ukuran efek untuk mengukur efektivitas program. Satu-satunya waktu saya pernah mendengar tentang ukuran efek adalah dari teman saya, yang belajar psikologi. Kesan saya adalah bahwa

Ukuran Efek=Perbedaan SaranaStandar deviasi.

Apa yang sangat berguna tentang metrik ini daripada pengujian hipotesis tradisional, dan mengapa saya harus peduli? Bagi saya, sepertinya tidak lebih dari sebuah statistik uji untuk dua sample -test. Saya tidak melihat ini berguna sama sekali selain dari mungkin meletakkan segala sesuatu pada skala yang sama (itulah sebabnya orang benar-benar "menormalkan" apa pun), tetapi saya pikir statistik uji (yang merupakan ukuran efek bagi saya) sudah ketinggalan zaman , dan nilai- lebih disukai.halthal

Klarinetis
sumber
Saya sedikit bingung dengan "latar belakang statistik tingkat perkenalan lulusan"; dua istilah pertama tampaknya saling bertentangan. Bisakah Anda mengklarifikasi apa itu termasuk? Apakah itu seperti awal statistik tingkat pascasarjana atau yang lainnya?
Glen_b -Reinstate Monica
2
@ Glen_b Ya, ini mulai statistik tingkat pascasarjana. Asumsikan saya tahu statistik matematika dan probabilitas pada tingkat sarjana (misalnya, Wackerly et al., Probabilitas Ross), dan memiliki pengetahuan tentang teori ukuran.
Clarinetist
3
Saya bisa bersimpati, OP. Berasal dari latar belakang matematika / stat, sering membingungkan untuk membahas statistik dengan mereka yang terlatih dalam program sosiologi atau psikologi PhD, karena mereka memiliki istilah yang berbeda untuk semuanya :) dan kadang-kadang memiliki ide-ide kaku tentang bagaimana melakukan sesuatu, terlepas dari apakah itu praktik statistik terbaik, misalnya mencoba meyakinkan peninjau / editor yang keras kepala bahwa pemodelan persamaan struktural bukanlah solusi untuk semua masalah, atau bahwa linearitas tidak selalu merupakan asumsi yang baik! Namun, saya telah belajar menyatu dengan komunitas itu dengan cukup baik, setelah beberapa tahun!
CrockGill

Jawaban:

20

Itu adalah salah satu ukuran ukuran efek, tetapi ada banyak ukuran lainnya. Hal ini tentu tidak dengan statistik uji. Ukuran ukuran efek Anda sering disebut Cohen d (secara tegas itu hanya benar jika SD diperkirakan melalui MLE — yaitu, tanpa koreksi Bessel ); lebih umum, ini disebut 'perbedaan rata-rata terstandarisasi'. Mungkin ini akan memperjelas bahwa t d : dtdtd
Yaitu, "/

d=x¯2-x¯1SDt=x¯2-x¯1SEt=x¯2-x¯1SDN
"hilang dari rumus untuk perbedaan rata-rata terstandarisasi. /N

0NhalN

gung - Reinstate Monica
sumber
15

Saya berharap seseorang dengan latar belakang di bidang yang lebih relevan (psikologi atau pendidikan, katakanlah) akan berpadu dengan jawaban yang lebih baik, tetapi saya akan mencobanya.

" Efek ukuran " adalah istilah dengan lebih dari satu makna - yang bertahun-tahun lalu memimpin beberapa percakapan yang membingungkan sampai akhirnya saya menyadari hal itu. Di sini kita jelas berurusan dengan versi deviasi skala-standar ("berapa banyak deviasi standar yang diubah olehnya?")

Bagian dari alasan untuk melihat "efek ukuran" semacam itu di bidang subjek mereka adalah bahwa mereka sering memiliki variabel yang nilai-nilai khususnya tidak secara inheren bermakna tetapi dibangun untuk mencoba mengukur beberapa hal mendasar yang sulit didapat di.

Misalnya, bayangkan Anda mencoba mengukur kepuasan kerja (mungkin untuk model yang menghubungkannya dengan beberapa variabel independen, mungkin termasuk beberapa perlakuan yang menarik, misalnya). Anda tidak memiliki cara untuk mendapatkannya secara langsung, tetapi Anda dapat (misalnya) mencoba membuat beberapa kuesioner untuk mendapatkan aspek-aspek yang berbeda, mungkin menggunakan sesuatu seperti skala Likert.

Seorang peneliti yang berbeda mungkin memiliki pendekatan yang berbeda untuk mengukur kepuasan kerja, dan dua set pengukuran "Kepuasan" Anda tidak dapat dibandingkan secara langsung - tetapi jika mereka memiliki berbagai bentuk validitas dan seterusnya hal-hal ini diperiksa (sehingga mereka mungkin secara wajar mengukur kepuasan), maka mereka mungkin diharapkan memiliki ukuran efek yang sangat mirip; setidaknya efek ukuran akan menjadi hampir sebanding.

Glen_b -Reinstate Monica
sumber
3
melakukan pekerjaan yang sangat bagus untuk memperkenalkan gagasan 'membangun' tanpa teknis. Tetapi dalam pekerjaan Anda, Clarinetist, Anda perlu memahami ide ini secara mendalam. Saya sangat merekomendasikan sumber asli tentang 'validitas konstruk', artikel Cronbach & Meehl tahun 1955 dalam Buletin Psikologis: psych.colorado.edu/~willcutt/pdfs/Cronbach_1955.pdf
David C. Norris
7

Rumus di atas adalah bagaimana Anda menghitung Cohen d untuk sampel terkait (yang mungkin Anda miliki?), Jika tidak terkait, Anda dapat menggunakan varians yang dikumpulkan. Ada statistik berbeda yang akan memberi tahu Anda tentang ukuran efek, tetapi Cohen d adalah ukuran standar yang dapat bervariasi antara 0 dan 3. Jika Anda memiliki banyak variabel yang berbeda, bisa menyenangkan untuk memiliki ukuran standar ketika Anda berpikir tentang mereka semua bersama. Di sisi lain, banyak orang lebih suka memahami ukuran efek dalam hal unit yang diukur. Mengapa menghitung d ketika Anda sudah memiliki nilai p? Berikut adalah contoh dari dataset yang saat ini saya kerjakan. Saya melihat intervensi perilaku yang dilakukan di sekolah, diukur menggunakan kuesioner psikologis yang divalidasi (menghasilkan data Likert). Hampir semua variabel saya menunjukkan perubahan signifikan secara statistik, mungkin tidak mengejutkan karena saya memiliki sampel besar (n = ~ 250). Namun, untuk beberapa variabel, Cohen dsangat kecil, katakan 0,12 yang menunjukkan bahwa meskipun pasti ada perubahan, itu mungkin bukan perubahan yang penting secara klinis sehingga penting untuk diskusi dan interpretasi tentang apa yang terjadi dalam data. Konsep ini banyak digunakan dalam ilmu psikologi dan kesehatan di mana praktisi (atau sekolah, dalam kasus Anda) perlu mempertimbangkan utilitas klinis perawatan yang sebenarnya (atau apa pun yang mereka coba-coba). Cohen d membantu kami menjawab pertanyaan tentang apakah intervensi itu layak dilakukan (terlepas dari nilai p). Dalam ilmu kedokteran mereka juga suka mempertimbangkan NNT , dan mengevaluasi ini dalam hal tingkat keparahan kondisi tersebut. Lihat sumber hebat ini dari @krstoffr http://rpsychologist.com/d3/cohend/

jUST1N3
sumber
2

tn

hal

Congkak
sumber
2

Bahkan, nilai-p sekarang akhirnya 'ketinggalan zaman' juga: http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 . Pengujian signifikansi nol hipotesis (NHST) menghasilkan sedikit lebih dari deskripsi ukuran sampel Anda. (*) Setiap intervensi eksperimental akan memiliki beberapa efek, yang mengatakan bahwa hipotesis nol sederhana 'tidak ada efek' selalu salah dalam arti yang ketat . Oleh karena itu, tes 'tidak signifikan' hanya berarti bahwa ukuran sampel Anda tidak cukup besar; tes 'signifikan' berarti Anda mengumpulkan cukup data untuk 'menemukan' sesuatu.

'Ukuran efek' mewakili upaya untuk memperbaiki ini, dengan memperkenalkan ukuran pada skala alami masalah. Dalam kedokteran, di mana perawatan selalu memiliki beberapa efek (bahkan jika itu adalah efek plasebo), gagasan tentang 'efek yang bermakna secara klinis' diperkenalkan untuk menjaga terhadap kemungkinan 50% sebelumnya bahwa 'pengobatan' akan ditemukan memiliki 'a ( secara statistik) efek positif yang signifikan '(namun sangat kecil) dalam penelitian besar yang sewenang-wenang.

Jika saya memahami sifat pekerjaan Anda, Clarinetist, maka pada akhirnya, tujuan sahnya adalah untuk menginformasikan tindakan / intervensi yang meningkatkan pendidikan di sekolah-sekolah di bawah lingkup Anda. Dengan demikian, pengaturan Anda adalah teoretikus keputusan , dan metode Bayesian adalah pendekatan yang paling tepat (dan unik [1] ).

Memang, cara terbaik untuk memahami metode yang sering digunakan adalah sebagai pendekatan terhadap metode Bayesian . Perkiraan ukuran efek dapat dipahami sebagai bertujuan pada ukuran sentralitas untuk distribusi posterior Bayesian , sedangkan nilai-p dapat dipahami sebagai bertujuan untuk mengukur satu ekor posterior itu. Jadi, secara bersama - sama kedua kuantitas ini mengandung beberapa inti kasar dari posterior Bayesian yang merupakan input alami untuk pandangan teoretis keputusan tentang masalah Anda. (Atau, interval kepercayaan sering pada ukuran efek dapat dipahami juga sebagai interval kredibel wannabe .)

Di bidang psikologi dan pendidikan, metode Bayesian sebenarnya cukup populer. Salah satu alasannya adalah mudah untuk menginstal 'konstruk' ke dalam model Bayesian, sebagai variabel laten. Anda mungkin ingin melihat 'buku anak anjing' oleh John K. Kruschke , seorang psikolog. Dalam pendidikan (di mana Anda memiliki siswa yang bersarang di ruang kelas, bersarang di sekolah, bersarang di distrik, ...), pemodelan hierarkis tidak dapat dihindari. Dan model Bayesian juga bagus untuk pemodelan hierarkis. Pada akun ini, Anda mungkin ingin memeriksa Gelman & Hill [2].

[1]: Robert, Christian P. The Bayesian Choice: Dari Yayasan Decision-Theoretic hingga Implementasi Komputasi. 2nd ed. Teks Springer dalam Statistik. New York: Springer, 2007.

[2]: Gelman, Andrew, dan Jennifer Hill. Analisis Data Menggunakan Regresi dan Model Bertingkat / hierarkis. Metode Analisis untuk Penelitian Sosial. Cambridge; New York: Cambridge University Press, 2007.


Untuk informasi lebih lanjut tentang 'koherensi' dari perspektif bata-Bayesian yang tidak perlu mengalahkan Anda di kepala , lihat [3].

[3]: Robins, James, dan Larry Wasserman. “Pengkondisian, Kemungkinan, dan Koherensi: Tinjauan atas Beberapa Konsep Dasar.” Jurnal Asosiasi Statistik Amerika 95, no. 452 (1 Desember 2000): 1340–46. doi: 10.1080 / 01621459.2000.10474344.

(*) Dalam [4], Meehl membuat NHST jauh lebih elegan, tetapi tidak kalah abrasif, daripada yang saya lakukan:

Karena hipotesis nol adalah selalu kuasi-selalu salah, tabel yang merangkum penelitian dalam hal pola "perbedaan signifikan" sedikit lebih dari hasil fungsi fungsi statistik yang kompleks dan tidak dapat diinterpretasikan secara kausal.

[4]: Meehl, Paul E. "Risiko Teoritis dan Asterisk Tabular: Sir Karl, Sir Ronald, dan Kemajuan Lambat Psikologi Lunak." Jurnal Konsultasi dan Psikiatri Klinis 46 (1978): 806-34. http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf


Dan inilah kutipan terkait dari Tukey: /stats//a/728/41404

David C. Norris
sumber
1
" Setiap intervensi eksperimental akan memiliki efek" (penekanan saya) adalah pernyataan yang agak kuat, seperti halnya "selalu" berikutnya. Dalam beberapa bidang studi, ini mungkin aturan praktis yang bagus, tetapi saya pikir ada bahaya jika terlalu menyapu. Saya juga menyarankan bahwa "[NHST] menghasilkan sedikit lebih dari deskripsi ukuran sampel Anda" adalah diperdebatkan: p-value muncul dari interaksi antara kedua ukuran sampel dan ukuran efek.
Silverfish
@Silverfish, terima kasih atas balasan Anda. Saya akan mengundang Anda untuk memberikan contoh di mana perspektif saya tentang nilai-p akan 'berbahaya'. (BTW, saya telah membuat beberapa huruf miring, dan menggunakan frasa "dalam arti yang ketat" untuk mengantisipasi keluhan seperti milik Anda. Klaim saya masih berlaku.) Lebih lanjut, meskipun nilai p memang "muncul dari interaksi" dua faktor lain, salah satunya (ukuran sampel) sebagian besar merupakan parameter desain gratis, dipilih secara sewenang-wenang. Pilihan sewenang-wenang itulah yang mencerminkan nilai p karena itu. Dua angka jelas dibutuhkan; mengapa bukan titik akhir dari interval kepercayaan?
David C. Norris
2
Sebagai contoh: contoh apa pun di mana kita mungkin berharap hipotesis nol benar, atau setidaknya di mana kita tidak dapat menyatakan secara langsung bahwa kita yakin itu salah tanpa repot-repot untuk melakukan percobaan atau melihat data. Tidak semua null adalah salah: pertimbangkan penelitian dalam parapsikologi, seperti eksperimen telepati dan prekognisi, tetapi banyak null yang benar dalam bidang yang Anda anggap lebih "valid secara ilmiah" seperti genomik.
Silverfish
5
-1, ada banyak masalah di sini, IMO. Fakta bahwa 1 jurnal psikologi kecil melarang nilai-p tidak berarti bahwa "nilai-p sekarang akhirnya 'ketinggalan zaman'". Larangan itu telah banyak dikritik (termasuk pernyataan sopan oleh ASA & belum diambil oleh jurnal lain dalam beberapa bulan sejak itu. Saya perhatikan bahwa jurnal itu tidak memerlukan peralihan ke metode Bayesian (yang saya kumpulkan adalah pilihan Anda) , tetapi hanya akan mempertimbangkannya berdasarkan kasus per kasus
gung - Reinstate Monica
3
Namun, dalam percobaan yang benar, proses unit pengacakan memecah jalur endogen yang memberikan uji jalur sebab akibat langsung dari X ke Y. Ini adalah klaim metafisik yang aneh untuk menyatakan bahwa semua variabel terhubung secara langsung secara kausal di kedua arah, tetapi jika Anda jangan pegang ini, itu tidak masuk akal untuk mengklaim bahwa "hipotesis nol 'tidak ada efek' selalu salah".
gung - Reinstate Monica