Ukuran sampel yang tidak sama: Kapan menyebutnya berhenti

14

Saya sedang mereview artikel jurnal akademis dan penulis menulis yang berikut sebagai pembenaran untuk tidak melaporkan statistik inferensial (saya mengidentifikasi sifat kedua kelompok):

Secara total, 25 dari 2349 (1,1%) responden melaporkan X . Kami menahan diri dari menyajikan analisis yang secara statistik membandingkan kelompok X dengan kelompok Y (2.324 peserta lainnya) karena hasil tersebut dapat sangat didorong oleh kebetulan dengan hasil yang jarang terjadi.

Pertanyaan saya adalah apakah penulis penelitian ini dibenarkan melempar handuk sehubungan dengan kelompok pembanding? Jika tidak, apa yang mungkin saya rekomendasikan kepada mereka?

Aaron Duke
sumber

Jawaban:

20

Tes statistik tidak membuat asumsi tentang ukuran sampel. Tentu saja ada asumsi yang berbeda dengan berbagai tes (misalnya, normalitas), tetapi kesetaraan ukuran sampel bukan salah satunya. Kecuali jika tes yang digunakan tidak sesuai dengan cara lain (saya tidak bisa memikirkan masalah sekarang), tingkat kesalahan tipe I tidak akan terpengaruh oleh ukuran grup yang tidak setara secara drastis. Selain itu, ungkapan mereka menyiratkan (ke pikiran saya) bahwa mereka percaya itu akan. Dengan demikian, mereka bingung tentang masalah ini.

Di sisi lain, tipe II tingkat kesalahan sangat banyak akan dipengaruhi oleh sangat tidak setara s. Ini akan menjadi benar, apa pun ujiannya (misalnya, uji- t , uji- U -Whitney , atau uji- z untuk kesetaraan proporsi semua akan terpengaruh dengan cara ini). Untuk contohnya, lihat jawaban saya di sini: Bagaimana seharusnya seseorang menafsirkan perbandingan rata-rata dari ukuran sampel yang berbeda? Dengan demikian, mereka mungkin "dibenarkan untuk menyerah" sehubungan dengan masalah ini . (Khususnya, jika Anda mengharapkan untuk mendapatkan hasil yang tidak signifikan apakah efeknya nyata atau tidak, apa gunanya tes ini?) ntUz

Karena ukuran sampel berbeda, kekuatan statistik akan konvergen ke . Fakta ini sebenarnya mengarah pada saran yang berbeda, yang saya duga hanya sedikit orang yang pernah mendengar dan mungkin akan mengalami kesulitan untuk melewati pengulas (tidak bermaksud menyerang): analisis kekuatan kompromi . Idenya relatif mudah: Dalam analisis kekuatan apa pun, α , β , n 1 , n 2 , dan ukuran efek d , ada dalam hubungan satu sama lain. Setelah menentukan semua kecuali satu, Anda dapat menyelesaikannya untuk yang terakhir. Biasanya, orang melakukan apa yang disebut analisis kekuatan a-priori , di mana Anda menyelesaikannya untuk Nααβn1n2dN(umumnya Anda mengasumsikan ). Di sisi lain, Anda dapat memperbaiki n 1 , n 2 , dan d , dan menyelesaikan untuk α (atau ekuivalen β ), jika Anda menetapkan rasio tingkat kesalahan tipe I ke tipe II yang ingin Anda jalani. Secara konvensional, α = .05 dan β = .20 , jadi Anda mengatakan bahwa kesalahan tipe I empat kali lebih buruk daripada kesalahan tipe I. Tentu saja, peneliti tertentu mungkin tidak setuju dengan itu, tetapi setelah menentukan rasio yang diberikan, Anda dapat memecahkan untuk apa αn1=n2n1n2dαβα=.05β=.20αAnda harus menggunakan agar dapat mempertahankan daya yang memadai. Pendekatan ini adalah pilihan yang secara logis sah bagi para peneliti dalam situasi ini, meskipun saya mengakui eksotisme dari pendekatan ini dapat membuatnya menjadi penjualan yang sulit di komunitas penelitian yang lebih besar yang mungkin belum pernah mendengar hal seperti itu.

gung - Pasang kembali Monica
sumber
Ini sangat membantu. Saya juga menemukan tanggapan Anda terhadap Bagaimana orang harus mengartikan perbandingan cara dari ukuran sampel yang berbeda? berguna dalam pemahaman saya sendiri tentang masalah ini. Setelah membaca jawaban Anda, saya akan mengemukakan kemungkinan analisis kekuatan kompromi kepada penulis (sepertinya itu adalah taruhan yang aman bahwa mereka tidak terbiasa dengannya) dan mungkin menyarankan untuk lebih spesifik dalam komentar mereka sehubungan dengan kekhawatiran tentang kekuasaan.
Aaron Duke
2
Sama-sama, @ AaronD. Menurut pendapat saya, Anda harus mendorong mereka untuk mengubah ungkapan mereka seminimal mungkin karena menyesatkan, atau menyiratkan mereka salah memahami topik. Saya akan memprediksi bahwa mereka tidak akan mencoba analisis kekuatan kompromi, tetapi mereka juga bisa melaporkan statistik deskriptif (rata-rata & SD) & ukuran efek dengan interval kepercayaan yang sesuai.
gung - Reinstate Monica
6

Sementara jawaban dari @gung sangat bagus, saya pikir ada satu masalah penting yang harus dipertimbangkan ketika melihat ukuran grup yang sangat berbeda. Secara umum, selama semua persyaratan tes terpenuhi, perbedaan ukuran kelompok tidak penting.

Namun, dalam beberapa kasus ukuran kelompok yang berbeda akan memiliki efek dramatis pada ketahanan pengujian terhadap pelanggaran terhadap asumsi ini. T-test dua sampel klasik tidak berpasangan misalnya mengasumsikan varians homongenity dan kuat terhadap pelanggaran hanya jika kedua kelompok berukuran sama (dalam urutan besarnya). Jika tidak varians yang lebih tinggi di grup yang lebih kecil akan menyebabkan kesalahan Tipe I. Sekarang dengan uji-t, ini tidak banyak masalah karena umumnya uji-Welch digunakan sebagai gantinya dan tidak menganggap homogenitas varians. Namun, efek serupa dapat muncul dalam model linier.

Singkatnya, saya akan mengatakan bahwa ini sama sekali bukan halangan untuk analisis statistik, tetapi harus diingat ketika memutuskan bagaimana untuk melanjutkan.

Erik
sumber
8
Saya percaya inti masalah di sini bukan penerapan tes tetapi lebih bermakna dan interpretasi mereka. Pertanyaannya mengacu pada "responden." Ini sangat menunjukkan kemungkinan tingkat non-respons nol. Bahkan tingkat non-respons kecil (sebagian kecil dari satu persen) relatif terhadap ukuran studi akan berjumlah tingkat non-respons yang sangat besar relatif terhadap subkelompok kecil. Itu mempertanyakan keterwakilan setiap subkelompok kecil ini. Akibatnya, ini merupakan penghalang besar bagi analisis statistik apa pun.
Whuber