Saya memiliki latar belakang statistik tingkat pengantar lulusan (anggap saya tahu statistik matematika dan probabilitas pada tingkat sarjana (misalnya, Wackerly et al., Probabilitas Ross), dan memiliki pengetahuan tentang teori ukuran).
Saya baru-baru ini memulai pekerjaan melakukan desain eksperimental dan pelaporan statistik dalam statistik pendidikan, dan telah ditempatkan pada proyek di mana saya pada dasarnya menilai metrik akuntabilitas untuk sekolah dan harus menganalisis data, mengusulkan perubahan, dll. Perhatikan bahwa saya adalah satu-satunya satu di departemen saya dengan latar belakang statistik matematika.
Dalam posisi saya, orang-orang sangat menyarankan menggunakan ukuran efek untuk mengukur efektivitas program. Satu-satunya waktu saya pernah mendengar tentang ukuran efek adalah dari teman saya, yang belajar psikologi. Kesan saya adalah bahwa
Apa yang sangat berguna tentang metrik ini daripada pengujian hipotesis tradisional, dan mengapa saya harus peduli? Bagi saya, sepertinya tidak lebih dari sebuah statistik uji untuk dua sample -test. Saya tidak melihat ini berguna sama sekali selain dari mungkin meletakkan segala sesuatu pada skala yang sama (itulah sebabnya orang benar-benar "menormalkan" apa pun), tetapi saya pikir statistik uji (yang merupakan ukuran efek bagi saya) sudah ketinggalan zaman , dan nilai- lebih disukai.hal
sumber
Jawaban:
Itu adalah salah satu ukuran ukuran efek, tetapi ada banyak ukuran lainnya. Hal ini tentu tidak dengan statistik uji. Ukuran ukuran efek Anda sering disebut Cohen d (secara tegas itu hanya benar jika SD diperkirakan melalui MLE — yaitu, tanpa koreksi Bessel ); lebih umum, ini disebut 'perbedaan rata-rata terstandarisasi'. Mungkin ini akan memperjelas bahwa t ≠ d : dt d t ≠ d
Yaitu, "/√
sumber
Saya berharap seseorang dengan latar belakang di bidang yang lebih relevan (psikologi atau pendidikan, katakanlah) akan berpadu dengan jawaban yang lebih baik, tetapi saya akan mencobanya.
" Efek ukuran " adalah istilah dengan lebih dari satu makna - yang bertahun-tahun lalu memimpin beberapa percakapan yang membingungkan sampai akhirnya saya menyadari hal itu. Di sini kita jelas berurusan dengan versi deviasi skala-standar ("berapa banyak deviasi standar yang diubah olehnya?")
Bagian dari alasan untuk melihat "efek ukuran" semacam itu di bidang subjek mereka adalah bahwa mereka sering memiliki variabel yang nilai-nilai khususnya tidak secara inheren bermakna tetapi dibangun untuk mencoba mengukur beberapa hal mendasar yang sulit didapat di.
Misalnya, bayangkan Anda mencoba mengukur kepuasan kerja (mungkin untuk model yang menghubungkannya dengan beberapa variabel independen, mungkin termasuk beberapa perlakuan yang menarik, misalnya). Anda tidak memiliki cara untuk mendapatkannya secara langsung, tetapi Anda dapat (misalnya) mencoba membuat beberapa kuesioner untuk mendapatkan aspek-aspek yang berbeda, mungkin menggunakan sesuatu seperti skala Likert.
Seorang peneliti yang berbeda mungkin memiliki pendekatan yang berbeda untuk mengukur kepuasan kerja, dan dua set pengukuran "Kepuasan" Anda tidak dapat dibandingkan secara langsung - tetapi jika mereka memiliki berbagai bentuk validitas dan seterusnya hal-hal ini diperiksa (sehingga mereka mungkin secara wajar mengukur kepuasan), maka mereka mungkin diharapkan memiliki ukuran efek yang sangat mirip; setidaknya efek ukuran akan menjadi hampir sebanding.
sumber
Rumus di atas adalah bagaimana Anda menghitung Cohen d untuk sampel terkait (yang mungkin Anda miliki?), Jika tidak terkait, Anda dapat menggunakan varians yang dikumpulkan. Ada statistik berbeda yang akan memberi tahu Anda tentang ukuran efek, tetapi Cohen d adalah ukuran standar yang dapat bervariasi antara 0 dan 3. Jika Anda memiliki banyak variabel yang berbeda, bisa menyenangkan untuk memiliki ukuran standar ketika Anda berpikir tentang mereka semua bersama. Di sisi lain, banyak orang lebih suka memahami ukuran efek dalam hal unit yang diukur. Mengapa menghitung d ketika Anda sudah memiliki nilai p? Berikut adalah contoh dari dataset yang saat ini saya kerjakan. Saya melihat intervensi perilaku yang dilakukan di sekolah, diukur menggunakan kuesioner psikologis yang divalidasi (menghasilkan data Likert). Hampir semua variabel saya menunjukkan perubahan signifikan secara statistik, mungkin tidak mengejutkan karena saya memiliki sampel besar (n = ~ 250). Namun, untuk beberapa variabel, Cohen dsangat kecil, katakan 0,12 yang menunjukkan bahwa meskipun pasti ada perubahan, itu mungkin bukan perubahan yang penting secara klinis sehingga penting untuk diskusi dan interpretasi tentang apa yang terjadi dalam data. Konsep ini banyak digunakan dalam ilmu psikologi dan kesehatan di mana praktisi (atau sekolah, dalam kasus Anda) perlu mempertimbangkan utilitas klinis perawatan yang sebenarnya (atau apa pun yang mereka coba-coba). Cohen d membantu kami menjawab pertanyaan tentang apakah intervensi itu layak dilakukan (terlepas dari nilai p). Dalam ilmu kedokteran mereka juga suka mempertimbangkan NNT , dan mengevaluasi ini dalam hal tingkat keparahan kondisi tersebut. Lihat sumber hebat ini dari @krstoffr http://rpsychologist.com/d3/cohend/
sumber
sumber
Bahkan, nilai-p sekarang akhirnya 'ketinggalan zaman' juga: http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 . Pengujian signifikansi nol hipotesis (NHST) menghasilkan sedikit lebih dari deskripsi ukuran sampel Anda. (*) Setiap intervensi eksperimental akan memiliki beberapa efek, yang mengatakan bahwa hipotesis nol sederhana 'tidak ada efek' selalu salah dalam arti yang ketat . Oleh karena itu, tes 'tidak signifikan' hanya berarti bahwa ukuran sampel Anda tidak cukup besar; tes 'signifikan' berarti Anda mengumpulkan cukup data untuk 'menemukan' sesuatu.
'Ukuran efek' mewakili upaya untuk memperbaiki ini, dengan memperkenalkan ukuran pada skala alami masalah. Dalam kedokteran, di mana perawatan selalu memiliki beberapa efek (bahkan jika itu adalah efek plasebo), gagasan tentang 'efek yang bermakna secara klinis' diperkenalkan untuk menjaga terhadap kemungkinan 50% sebelumnya bahwa 'pengobatan' akan ditemukan memiliki 'a ( secara statistik) efek positif yang signifikan '(namun sangat kecil) dalam penelitian besar yang sewenang-wenang.
Jika saya memahami sifat pekerjaan Anda, Clarinetist, maka pada akhirnya, tujuan sahnya adalah untuk menginformasikan tindakan / intervensi yang meningkatkan pendidikan di sekolah-sekolah di bawah lingkup Anda. Dengan demikian, pengaturan Anda adalah teoretikus keputusan , dan metode Bayesian adalah pendekatan yang paling tepat (dan unik [1] ).
Memang, cara terbaik untuk memahami metode yang sering digunakan adalah sebagai pendekatan terhadap metode Bayesian . Perkiraan ukuran efek dapat dipahami sebagai bertujuan pada ukuran sentralitas untuk distribusi posterior Bayesian , sedangkan nilai-p dapat dipahami sebagai bertujuan untuk mengukur satu ekor posterior itu. Jadi, secara bersama - sama kedua kuantitas ini mengandung beberapa inti kasar dari posterior Bayesian yang merupakan input alami untuk pandangan teoretis keputusan tentang masalah Anda. (Atau, interval kepercayaan sering pada ukuran efek dapat dipahami juga sebagai interval kredibel wannabe .)
Di bidang psikologi dan pendidikan, metode Bayesian sebenarnya cukup populer. Salah satu alasannya adalah mudah untuk menginstal 'konstruk' ke dalam model Bayesian, sebagai variabel laten. Anda mungkin ingin melihat 'buku anak anjing' oleh John K. Kruschke , seorang psikolog. Dalam pendidikan (di mana Anda memiliki siswa yang bersarang di ruang kelas, bersarang di sekolah, bersarang di distrik, ...), pemodelan hierarkis tidak dapat dihindari. Dan model Bayesian juga bagus untuk pemodelan hierarkis. Pada akun ini, Anda mungkin ingin memeriksa Gelman & Hill [2].
[1]: Robert, Christian P. The Bayesian Choice: Dari Yayasan Decision-Theoretic hingga Implementasi Komputasi. 2nd ed. Teks Springer dalam Statistik. New York: Springer, 2007.
[2]: Gelman, Andrew, dan Jennifer Hill. Analisis Data Menggunakan Regresi dan Model Bertingkat / hierarkis. Metode Analisis untuk Penelitian Sosial. Cambridge; New York: Cambridge University Press, 2007.
Untuk informasi lebih lanjut tentang 'koherensi' dari perspektif bata-Bayesian yang tidak perlu mengalahkan Anda di kepala , lihat [3].
[3]: Robins, James, dan Larry Wasserman. “Pengkondisian, Kemungkinan, dan Koherensi: Tinjauan atas Beberapa Konsep Dasar.” Jurnal Asosiasi Statistik Amerika 95, no. 452 (1 Desember 2000): 1340–46. doi: 10.1080 / 01621459.2000.10474344.
(*) Dalam [4], Meehl membuat NHST jauh lebih elegan, tetapi tidak kalah abrasif, daripada yang saya lakukan:
[4]: Meehl, Paul E. "Risiko Teoritis dan Asterisk Tabular: Sir Karl, Sir Ronald, dan Kemajuan Lambat Psikologi Lunak." Jurnal Konsultasi dan Psikiatri Klinis 46 (1978): 806-34. http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf
Dan inilah kutipan terkait dari Tukey: /stats//a/728/41404
sumber