Ukuran efek sebagai hipotesis untuk pengujian signifikansi

37

Hari ini, di Cross Validated Journal Club (mengapa Anda tidak ada di sana?), @Mbq bertanya:

Apakah Anda pikir kami (ilmuwan data modern) tahu apa arti pentingnya? Dan bagaimana hubungannya dengan kepercayaan kita pada hasil kita?

@Michelle menjawab karena beberapa (termasuk saya) biasanya melakukan:

Saya menemukan konsep signifikansi (berdasarkan nilai-p) kurang dan kurang membantu ketika saya melanjutkan karir saya. Sebagai contoh, saya dapat menggunakan dataset yang sangat besar sehingga semuanya signifikan secara statistik ( p<.01 )

Ini mungkin pertanyaan bodoh, tetapi bukankah hipotesisnya sedang diuji? Jika Anda menguji hipotesis nol "A sama dengan B" maka Anda tahu jawabannya adalah "Tidak". Kumpulan data yang lebih besar hanya akan membawa Anda lebih dekat ke kesimpulan yang benar tak terhindarkan ini. Saya percaya itu adalah Deming yang pernah memberi contoh dengan hipotesis "jumlah rambut di sisi kanan domba sama dengan jumlah rambut di sisi kiri." Yah, tentu saja tidak.

Hipotesis yang lebih baik adalah "A tidak berbeda dari B lebih dari begitu banyak." Atau, dalam contoh anak domba, "jumlah rambut pada sisi anak domba tidak berbeda lebih dari X%".

Apakah ini masuk akal?

Carlos Accioly
sumber
1) Pengujian kesetaraan rata-rata (dengan asumsi itulah yang Anda inginkan) dalam beberapa kasus dapat disederhanakan menjadi uji signifikansi perbedaan rata-rata mereka. Dengan kesalahan standar untuk perkiraan perbedaan ini, Anda dapat melakukan semua jenis pengujian jenis "tidak berbeda dari B dengan lebih ...". 2) Adapun ukuran sampel - ya, untuk ss besar, pentingnya signifikansi berkurang, tetapi masih penting untuk sampel yang lebih kecil, di mana Anda tidak bisa hanya menghasilkan nilai tambahan.
Ondrej
11
"Tentu saja tidak." Dugaan, seekor domba memiliki urutan rambut di setiap sisi. Jika ada jumlah rambut yang merata dan mereka didistribusikan secara acak dengan peluang yang sama di kedua sisi dan sisi-sisinya jelas digambarkan, maka kemungkinan kedua angka tersebut persis sama adalah 0,178%. Dalam kawanan besar yang terdiri dari beberapa ratus, Anda harus berharap untuk melihat domba yang sangat seimbang lahir setidaknya satu kali setiap dekade (dengan asumsi jumlah rambut rata terjadi sekitar 50% dari waktu). Atau: hampir setiap peternak domba tua memiliki anak domba seperti itu! 105
whuber
1
@whuber ditentukan oleh tujuan analisis. Analogi yang lebih baik adalah berapa ukuran efek minimum yang akan membenarkan investasi lebih lanjut dalam obat setelah percobaan. Keberadaan efek yang signifikan secara statistik tidak cukup, karena mengembangkan obat itu mahal dan mungkin ada efek samping yang perlu dipertimbangkan. Ini bukan pertanyaan statistik, tetapi pertanyaan praktis.
Dikran Marsupial
2
@whuber Saya menduga bahwa di sebagian besar aplikasi di mana tidak ada informasi praktis untuk menentukan ukuran efek minimum yang diminati, maka uji hipotesis standar baik-baik saja, misalnya pengujian normalitas. Sebagai seorang Bayesian saya akan setuju dengan pandangan sebagai masalah optimasi daripada masalah pengujian hipotesis. Bagian dari masalah dengan hasil tes hipotesis dari pendekatan buku resep statistik, di mana tes dilakukan sebagai tradisi tanpa benar mempertimbangkan tujuan latihan, atau makna sebenarnya dari hasilnya (semua IMHO tentu saja).
Dikran Marsupial
1
@DikranMarsupial bukan kuncinya di sana bahwa siswa sedang diajarkan tes dengan hafalan, seperti yang diidentifikasi oleh gung di bawah ini, daripada pentingnya desain studi yang baik? Apakah lebih banyak penekanan pada desain studi membantu memecahkan beberapa masalah - tidak harus dengan set data besar?
Michelle

Jawaban:

25

Sejauh pengujian signifikansi berjalan (atau apa pun yang pada dasarnya melakukan hal yang sama dengan pengujian signifikansi), saya telah lama berpikir bahwa pendekatan terbaik dalam sebagian besar situasi cenderung memperkirakan ukuran efek standar, dengan interval kepercayaan 95% tentang itu ukuran efek. Tidak ada yang benar-benar baru di sana - secara matematis Anda dapat bergerak bolak-balik di antara mereka - jika nilai-p untuk nol 'nol' adalah <0,05, maka 0 akan berada di luar CI 95%, dan sebaliknya. Keuntungannya, menurut saya, adalah psikologis; yaitu membuat informasi penting yang ada tetapi orang tidak bisa melihat ketika hanya nilai-p yang dilaporkan. Sebagai contoh, mudah untuk melihat bahwa efeknya sangat 'signifikan', tetapi sangat kecil; atau 'tidak signifikan', tetapi hanya karena bilah kesalahan besar sedangkan efek diperkirakan lebih atau kurang dari yang Anda harapkan. Ini dapat dipasangkan dengan nilai mentah dan CI mereka.

Sekarang, di banyak bidang, nilai-nilai mentah secara intrinsik bermakna, dan saya menyadari bahwa menimbulkan pertanyaan apakah masih layak untuk menghitung ukuran efek efek mengingat bahwa kita sudah memiliki nilai-nilai seperti sarana dan lereng. Contohnya mungkin melihat pertumbuhan terhambat; kita tahu apa artinya bagi pria kulit putih berusia 20 tahun lebih pendek 6 +/- 2 inci (yaitu 15 +/- 5 cm), daripada yang seharusnya, jadi mengapa menyebutkan ? Saya cenderung berpikir bahwa masih ada nilai dalam melaporkan keduanya, dan fungsi dapat ditulis untuk menghitung ini sehingga sangat sedikit pekerjaan tambahan, tetapi saya menyadari bahwa pendapat akan bervariasi. Bagaimanapun, saya berpendapat bahwa estimasi titik dengan interval kepercayaan menggantikan nilai-p sebagai bagian pertama dari respons saya. d=1.6±.5

Di sisi lain, saya pikir pertanyaan yang lebih besar adalah 'apakah pengujian signifikansi melakukan apa yang kita inginkan?' Saya pikir masalah sebenarnya adalah bahwa bagi kebanyakan orang menganalisis data (yaitu, praktisi bukan ahli statistik), pengujian signifikansi dapat menjadi keseluruhan analisis data. Tampaknya bagi saya bahwa hal yang paling penting adalah memiliki cara berprinsip untuk memikirkan apa yang sedang terjadi dengan data kami, dan pengujian signifikansi nol hipotesis, paling banter, adalah sebagian kecil dari itu. Izinkan saya memberikan contoh imajiner (saya mengakui bahwa ini adalah karikatur, tetapi sayangnya, saya khawatir ini agak masuk akal):

Bob melakukan penelitian, mengumpulkan data tentang sesuatu atau lainnya. Dia berharap data akan terdistribusi normal, mengelompok ketat di sekitar beberapa nilai, dan bermaksud untuk melakukan uji satu sampel untuk melihat apakah datanya 'berbeda secara signifikan' dari beberapa nilai yang ditentukan sebelumnya. Setelah mengumpulkan sampelnya, ia memeriksa untuk melihat apakah datanya terdistribusi normal, dan ternyata tidak. Sebaliknya, mereka tidak memiliki benjolan di tengah tetapi relatif tinggi selama interval yang diberikan dan kemudian jejak dengan ekor kiri yang panjang. Bob khawatir tentang apa yang harus ia lakukan untuk memastikan bahwa tesnya valid. Dia akhirnya melakukan sesuatu (misalnya, transformasi, tes non-parametrik, dll.), Dan kemudian melaporkan statistik uji dan nilai-p.

Saya harap ini tidak menjadi jahat. Saya tidak bermaksud mengejek siapa pun, tetapi saya pikir sesuatu seperti ini kadang-kadang terjadi. Jika skenario ini terjadi, kita semua bisa sepakat bahwa ini adalah analisis data yang buruk. Namun, masalahnya bukan karena statistik pengujian atau nilai-p salah; kita dapat mengandaikan bahwa data ditangani dengan benar dalam hal itu. Saya berpendapat bahwa masalahnya adalah Bob terlibat dalam apa yang disebut Cleveland sebagai "analisis data hafalan". Dia tampaknya percaya bahwa satu-satunya titik adalah untuk mendapatkan nilai-p yang tepat, dan berpikir sangat sedikit tentang datanya di luar mengejar tujuan itu. Dia bahkan bisa beralih ke saran saya di atas dan melaporkan ukuran efek standar dengan interval kepercayaan 95%, dan itu tidak akan mengubah apa yang saya lihat sebagai masalah yang lebih besar (inilah yang saya maksudkan dengan melakukan "pada dasarnya hal yang sama "Dengan cara yang berbeda). Dalam kasus khusus ini, fakta bahwa data tidak terlihat seperti yang diharapkan (yaitu, tidak normal) adalah informasi nyata, ini menarik, dan sangat mungkin penting, tetapi informasi itu pada dasarnya dibuang begitu saja. Bob tidak mengenali ini, karena fokus pada pengujian signifikansi. Bagi saya, itulah masalah sebenarnya dengan pengujian signifikansi.

Izinkan saya membahas beberapa perspektif lain yang telah disebutkan, dan saya ingin menjadi sangat jelas bahwa saya tidak mengkritik siapa pun.

  1. Sering disebutkan bahwa banyak orang yang tidak benar-benar memahami nilai-p (misalnya berpikir bahwa mereka adalah probabilitas nol itu benar), dll. Kadang-kadang dikatakan bahwa, jika hanya orang yang akan menggunakan pendekatan Bayesian, masalah ini akan pergi. Saya percaya bahwa orang dapat mendekati analisis data Bayesian dengan cara yang sama incurious dan mekanis. Namun, saya pikir bahwa kesalahpahaman makna nilai-p akan kurang berbahaya jika tidak ada yang berpikir mendapatkan nilai-p adalah tujuannya.
  2. Keberadaan 'data besar' umumnya tidak terkait dengan masalah ini. Big data hanya memperjelas bahwa mengorganisir analisis data di sekitar 'signifikansi' bukanlah pendekatan yang membantu.
  3. Saya tidak percaya masalahnya adalah dengan hipotesis yang diuji. Jika orang hanya ingin melihat apakah nilai estimasi di luar interval, daripada jika sama dengan nilai poin, banyak masalah yang sama dapat muncul. (Sekali lagi, saya ingin menjadi jelas. Saya tahu Anda bukan 'Bob' .)
  4. Sebagai catatan, saya ingin menyebutkan bahwa saran saya sendiri dari paragraf pertama, tidak membahas masalah ini, seperti yang saya coba tunjukkan.

Bagi saya, ini adalah masalah inti: Apa yang sebenarnya kita inginkan adalah cara berprinsip untuk memikirkan apa yang terjadi . Apa artinya itu dalam situasi tertentu tidak dipotong dan dikeringkan. Bagaimana menyampaikan itu kepada siswa dalam kelas metode tidak jelas dan tidak mudah. Pengujian signifikan memiliki banyak inersia dan tradisi di baliknya. Di kelas statistik, jelas apa yang perlu diajarkan dan bagaimana caranya. Untuk siswa dan praktisi menjadi mungkin untuk mengembangkan skema konseptual untuk memahami materi, dan daftar periksa / diagram alur (saya telah melihat beberapa!) Untuk melakukan analisis. Pengujian signifikan secara alami dapat berkembang menjadi analisis data hafalan tanpa ada yang bodoh atau malas atau buruk. Itu masalahnya.

gung - Reinstate Monica
sumber
Saya suka interval kepercayaan :) Satu pertanyaan: apakah Anda bermaksud mengatakan bahwa perhitungan post hoc ukuran efek tidak masalah?
Michelle
x¯1=10x¯2=14SD=6d=.67
Ya saya pikir kami setuju di sini.
Michelle
+1 Kisah Bob mengingatkan saya akan hal ini: pss.sagepub.com/content/early/2011/10/17/0956797611417632
Carlos Accioly
+1 Saya lebih suka interval yang kredibel. Mengenai poin 1 saya berpendapat bahwa alternatif Bayesian cenderung menghasilkan analisis data hafalan, karena definisi probabilitas tidak begitu kontra-intuitif, yang membuatnya lebih mudah untuk merumuskan pertanyaan yang sebenarnya ingin Anda tanyakan secara statistik . Masalah sebenarnya terletak pada pelaksanaan tes yang membutuhkan intergral, yang terlalu sulit untuk metode seperti itu untuk diadopsi secara luas. Mudah-mudahan perangkat lunak akan berkembang ke titik di mana pengguna dapat berkonsentrasi pada merumuskan pertanyaan dan menyerahkan sisanya ke komputer.
Dikran Marsupial
18

Mengapa kita bersikeras segala bentuk uji hipotesis dalam statistik?

Dalam buku yang luar biasa, Statistics as Principled Argument Robert Abelson berpendapat bahwa analisis statistik adalah bagian dari argumen berprinsip tentang subjek yang dimaksud. Dia mengatakan bahwa, alih-alih dievaluasi sebagai hipotesis untuk ditolak atau tidak ditolak (atau bahkan diterima!?!), Kita harus mengevaluasinya berdasarkan apa yang dia sebut kriteria MAGIC:

Besarnya - seberapa besar itu? Artikulasi - Apakah penuh dengan pengecualian? Apakah sudah jelas? Umum - Seberapa umum penerapannya? Ketertarikan - Apakah kita peduli dengan hasilnya? Kredibilitas - Bisakah kita mempercayainya?

Ulasan saya tentang buku di blog saya

Peter Flom - Pasang kembali Monica
sumber
4
Masalahnya dipicu oleh beberapa profesor. PhD saya adalah di bidang psikometri, yang ada di departemen psikologi. Saya mendengar profesor dari bagian lain dari departemen mengatakan hal-hal seperti "hanya melaporkan nilai-p, itu yang penting". Pekerjaan saya adalah berkonsultasi, kebanyakan dengan mahasiswa pascasarjana dan peneliti di bidang sosial, perilaku, pendidikan, dan medis. Jumlah informasi yang salah yang diberikan oleh komite doktor sangat mencengangkan.
Peter Flom - Reinstate Monica
1
+1 untuk "Kenapa ...", itu adalah bagian besar dari apa yang saya coba sampaikan dalam jawaban saya.
gung - Reinstate Monica
Bagian lain dari apa yang saya coba sampaikan dalam jawaban saya adalah bahwa saya pikir ini terjadi secara alami. Btw, tidak adil mendapatkan dua upvotes ;-), Anda bisa menggabungkan ini.
gung - Reinstate Monica
13

H0:{|μ1μ2|>ϵ}ϵμ1μ2ϵμ1μ2Pr(|X1X2|>ϵ)

Stéphane Laurent
sumber
(+1) Dan, selamat datang di 1000 reputasi. Tepuk tangan.
kardinal
6

Tes hipotesis tradisional memberi tahu Anda apakah ada bukti yang signifikan secara statistik untuk adanya efek, sedangkan yang sering ingin kita ketahui adalah adanya bukti efek signifikan yang praktis.

Sangat mungkin untuk membentuk "tes hipotesis" Bayesian dengan ukuran efek minimum (IIRC ada contohnya dalam buku David MacKay tentang "Teori Informasi, Inferensi, dan Algoritma Pembelajaran", saya akan mencarinya ketika saya memiliki momen. .

Pengujian normalitas adalah contoh lain yang baik, kita biasanya tahu bahwa data tidak benar-benar terdistribusi normal, kita hanya menguji untuk melihat apakah ada bukti bahwa ini bukan perkiraan yang masuk akal. Atau menguji bias koin, kita tahu itu tidak mungkin sepenuhnya bias karena asimetris.

Dikran Marsupial
sumber
6

Banyak dari ini bermuara pada pertanyaan apa yang sebenarnya Anda tanyakan, bagaimana Anda merancang studi Anda, dan bahkan apa yang Anda maksudkan dengan setara.

Saya menjalankan akros sebuah sisipan kecil yang menarik di British Medical Journal sekali yang berbicara tentang apa yang orang mengartikan fase tertentu. Ternyata "selalu" dapat berarti bahwa sesuatu terjadi serendah 91% dari waktu (BMJ VOLUME 333 26 AGUSTUS 2006 halaman 445). Jadi mungkin sama dan setara (atau dalam X% untuk beberapa nilai X) dapat dianggap berarti hal yang sama. Dan mari kita tanyakan pada komputer persamaan sederhana, menggunakan R:

> (1e+5 + 1e-50) == (1e+5 - 1e-50)
[1] TRUE

$$

Ha:μ>μ0H0:μ=μ0H0:μμ0μμ0μ0μμ0μ0 μμμ0μμ0μ0 μ

Banyak dari ini datang untuk menanyakan pertanyaan yang tepat dan merancang studi yang tepat untuk pertanyaan itu. Jika Anda berakhir dengan data yang cukup untuk menunjukkan bahwa perbedaan praktis yang tidak bermakna secara statistik signifikan, maka Anda telah membuang sumber daya untuk mendapatkan data sebanyak itu. Akan lebih baik untuk memutuskan apa perbedaan yang berarti dan merancang penelitian untuk memberi Anda kekuatan yang cukup untuk mendeteksi perbedaan itu tetapi tidak lebih kecil.

Dan jika kita benar-benar ingin membelah rambut, bagaimana kita menentukan bagian domba mana yang di sebelah kanan dan mana yang di sebelah kiri? Jika kita mendefinisikannya dengan garis yang menurut definisi memiliki jumlah rambut yang sama di setiap sisi maka jawaban untuk pertanyaan di atas menjadi "Tentu saja itu".

Greg Snow
sumber
Saya menduga jawaban yang Anda dapatkan dari R hanyalah hasil dari beberapa masalah aritmatika floating point, bukan keputusan sadar untuk mengabaikan perbedaan yang tidak relevan. Pertimbangkan contoh klasik (.1 + .2) == .3 “Ahli matematika murni” akan memberi tahu Anda bahwa keduanya sama, pada tingkat presisi apa pun, namun R mengembalikan FALSE.
Gala
@ GaëlLaurans, maksud saya adalah karena pembulatan (baik oleh manusia, atau dengan komputer) konsep-konsep yang persis sama dan dalam X% untuk X yang cukup kecil praktis sama.
Greg Snow
5

Dari perspektif organisasi, baik itu pemerintah dengan opsi kebijakan atau perusahaan yang ingin meluncurkan proses / produk baru, penggunaan analisis biaya-manfaat yang sederhana juga dapat membantu. Saya telah berpendapat di masa lalu bahwa (mengabaikan alasan politik) mengingat biaya yang diketahui dari inisiatif baru, apa titik impas untuk sejumlah orang yang harus dipengaruhi secara positif oleh inisiatif itu? Misalnya, jika inisiatif baru adalah untuk membuat lebih banyak orang yang menganggur bekerja, dan biaya inisiatif $100,000, apakah itu mencapai pengurangan transfer pengangguran setidaknya $100,000? Jika tidak, maka efek dari inisiatif tersebut secara praktis tidak signifikan.

Untuk hasil kesehatan, nilai kehidupan statistik menjadi penting. Ini karena tunjangan kesehatan bertambah seumur hidup (dan karenanya tunjangan disesuaikan nilainya berdasarkan tingkat diskonto ). Jadi, alih-alih signifikansi statistik, orang mendapat argumen tentang bagaimana memperkirakan nilai kehidupan statistik, dan tingkat diskonto apa yang harus diterapkan.

Michelle
sumber