SD lebih besar dari rata-rata, skala non-negatif

9

Saya diberi artikel yang melaporkan penelitian yang sangat mirip dengan yang ingin dijalankan oleh lab saya. Tapi, saya perhatikan bahwa untuk variabel yang diminati, Durasi, SD lebih besar daripada rata-rata ... karena ini adalah durasi yang diukur dalam hitungan menit, itu tidak pernah bisa negatif dan ini tampaknya sangat aneh bagi saya. Ini terjadi dalam 2 penelitian yang dilaporkan, di bawah ini adalah satu.

Selain itu, ini adalah desain campuran. Kontrol v Perawatan (antar kelompok), dan Time1, Time2, Time3 (tindakan berulang). Berikut ini cara (SD), N> 200

                       Time1                Time2                  Time3 
Control               15.1 (14.6)          14.4 (14.8)            13.3 (15.7)
Treatment             14.8 (13.2)          10.0 (12.2)            8.2 (9.9)

... mereka menjalankan ANOVA dan melaporkan p <0,001.

Saya diminta untuk menggunakan ini sebagai dasar untuk analisis kekuatan untuk menentukan ukuran sampel untuk penelitian kami. Saya cukup yakin ini menunjukkan bahwa data tersebut tidak normal atau memiliki outlier dan saya tidak merasa nyaman menentukan ukuran sampel berdasarkan ini. Apakah saya hanya jauh dari basis?

Ingin tahu
sumber
Apakah Anda yakin itu adalah SD dan bukan interval kepercayaan 95% yang mungkin lebih seperti 3 * SD. Sepertinya SD-nya hampir sama ukurannya dengan sarana. Sangat sulit untuk mengatakan apa ukuran sampel karena kita tidak tahu efek apa yang termasuk dalam kesalahan itu atau bahkan apa statistiknya. Kalau saja menghitung statistik, yaitu distribusi Poisson, termasuk rata-rata di atas SD harus seperti 1 / Sqrt (N). Namun itu berarti N = 1 (atau paling banyak). Bisakah Anda memberi kami informasi lebih lanjut tentang statistik ini?
Dave31415
Juga, distribusi normal memiliki mean dan SD yang sepenuhnya independen satu sama lain. Saya pikir mungkin Anda maksud distribusi Poisson.
Dave31415
2
Dengan jangka waktu yang tidak negatif, saya biasanya mengharapkan distribusi yang miring. SD yang sebanding dengan rata-rata sangat mungkin dan tidak mengejutkan. Distribusi apa yang dianggap paling baik untuk perhitungan lain tidak dapat disarankan tanpa informasi lebih lanjut, tetapi saya tidak akan memilih Poisson sebagai tebakan pertama saya, melainkan gamma atau lognormal.
Nick Cox
Sebagai catatan @NickCox, w / durasi saya akan terkejut jika SD tidak lebih besar dari rata-rata (jika tidak ada sensor). Anda mungkin juga mempertimbangkan distribusi Weibull. Analisis daya mungkin harus berbasis simulasi. Pada catatan yang berbeda, saya kira ANOVA tidak valid dengan data seperti itu.
gung - Reinstate Monica
1
nHAI(n)0

Jawaban:

5

Sangat mudah untuk standar deviasi melebihi rata-rata dengan data yang tidak negatif atau sangat positif

Saya akan menggambarkan kasus untuk data Anda sebagai standar deviasi yang dekat dengan rata-rata (tidak setiap nilai lebih besar dan yang lebih besar umumnya dekat). Untuk data non-negatif, itu cukup jelas menunjukkan bahwa data condong (misalnya, distribusi gamma dengan koefisien variasi = 1 akan menjadi distribusi eksponensial, jadi jika datanya gamma, mereka akan melihat suatu tempat di dekat eksponensial)

Namun, dengan ukuran sampel semacam itu, ANOVA mungkin tidak terlalu terpengaruh oleh hal itu; ketidakpastian dalam estimasi varian gabungan akan cukup kecil, jadi kami dapat mempertimbangkan bahwa antara CLT (untuk sarana) dan teorema Slutsky (untuk estimasi varians pada penyebut), sebuah ANOVA mungkin akan bekerja dengan cukup baik, karena Anda ' Saya akan memiliki chi-square asimptotik, di mana ANOVA-F dengan derajat derajat kebebasannya yang besar akan menjadi perkiraan yang baik. (Yaitu harus memiliki tingkat-ketahanan yang wajar, dan karena sarana tidak begitu jauh dari konstan, daya seharusnya tidak terlalu terpengaruh oleh heteroskedastisitas)

Yang mengatakan, jika penelitian Anda akan memiliki ukuran sampel yang lebih kecil, Anda mungkin lebih baik melihat menggunakan tes yang berbeda (mungkin tes permutasi, atau yang lebih cocok untuk data yang miring mungkin satu berdasarkan pada GLM). Perubahan dalam tes mungkin memerlukan ukuran sampel yang agak lebih besar daripada yang akan Anda dapatkan untuk ANOVA langsung.

Dengan data asli Anda dapat melakukan analisis daya di bawah model / analisis yang sesuai. Bahkan tanpa adanya data asli, seseorang dapat membuat asumsi yang lebih masuk akal tentang distribusi (mungkin beragam dari mereka) dan menyelidiki seluruh kurva daya (atau, lebih sederhana, hanya tingkat kesalahan tipe I dan kekuatan pada ukuran efek apa pun) menarik). Berbagai asumsi yang masuk akal dapat digunakan, yang memberikan beberapa gagasan tentang kekuatan apa yang dapat dicapai dalam keadaan yang masuk akal, dan seberapa besar ukuran sampel yang diperlukan.

Glen_b -Reinstate Monica
sumber
4

Anda benar dalam menyimpulkan bahwa data tersebut tidak normal. Jika data normal maka kita akan mengharapkan sekitar 16% dari pengamatan menjadi kurang dari rata-rata minus standar deviasi. Dengan SD yang lebih besar dari rata-rata angka ini negatif dan Anda menyatakan bahwa tidak mungkin ada angka negatif, jadi apa yang Anda lihat tidak konsisten dengan data yang didistribusikan secara normal. Nilai-nilai SD dimungkinkan, tetapi hanya jika distribusinya sangat miring (yang umum dalam jangka waktu).

Saya setuju bahwa memilih ukuran sampel berdasarkan asumsi data akan normal bukan ide yang baik, tetapi jika Anda dapat mengetahui lebih lanjut tentang proses dan menemukan distribusi miring yang tepat (distribusi gamma sebagai satu kemungkinan) itu adalah asumsi yang masuk akal, maka Anda bisa menggunakannya untuk membantu menentukan ukuran sampel.

Greg Snow
sumber