Saya akan menghilangkan semua detail biologis dan eksperimen dan hanya mengutip masalah yang ada dan apa yang telah saya lakukan secara statistik. Saya ingin tahu apakah itu benar, dan jika tidak, bagaimana melanjutkan. Jika data (atau penjelasan saya) tidak cukup jelas, saya akan mencoba menjelaskan lebih baik dengan mengedit.
Misalkan saya memiliki dua kelompok / pengamatan, X dan Y, dengan ukuran dan . Saya ingin tahu apakah cara kedua pengamatan ini sama. Pertanyaan pertama saya adalah:N y = 40
Jika asumsi puas, apakah relevan untuk menggunakan uji t dua sampel parametrik di sini? Saya bertanya ini karena dari pemahaman saya biasanya diterapkan ketika ukurannya kecil?
Saya merencanakan histogram baik X dan Y dan mereka tidak terdistribusi secara normal, salah satu asumsi dari uji-t dua sampel. Kebingungan saya adalah, saya menganggap mereka sebagai dua populasi dan itu sebabnya saya memeriksa distribusi normal. Tapi kemudian saya akan melakukan uji-dua SAMPEL ... Apakah ini benar?
Dari teorema limit pusat, saya mengerti bahwa jika Anda melakukan pengambilan sampel (dengan / tanpa pengulangan tergantung pada ukuran populasi Anda) beberapa kali dan menghitung rata-rata sampel setiap kali, maka itu akan didistribusikan secara normal. Dan, rata-rata dari variabel acak ini akan menjadi estimasi yang baik dari rata-rata populasi. Jadi, saya memutuskan untuk melakukan ini pada X dan Y, 1000 kali, dan memperoleh sampel, dan saya menetapkan variabel acak ke rata-rata setiap sampel. Plotnya terdistribusi normal. Rerata X dan Y adalah 4.2 dan 15.8 (yang sama dengan populasi + - 0.15) dan variansnya adalah 0.95 dan 12.11.
Saya melakukan uji-t pada dua pengamatan ini (masing-masing 1000 poin data) dengan varians yang tidak sama, karena mereka sangat berbeda (0,95 dan 12,11). Dan hipotesis nol ditolak.
Apakah ini masuk akal? Apakah pendekatan ini benar / bermakna atau uji-dua sampel cukup atau benar-benar salah?Saya juga melakukan tes Wilcoxon non-parametrik hanya untuk memastikan (pada X asli dan Y) dan hipotesis nol ditolak dengan meyakinkan di sana juga. Jika metode saya sebelumnya benar-benar salah, saya kira melakukan tes non-parametrik baik, kecuali kekuatan statistik mungkin?
Dalam kedua kasus tersebut, rata-rata berbeda nyata. Namun, saya ingin tahu apakah salah satu atau kedua pendekatan tersebut salah / benar-benar salah dan jika demikian, apa alternatifnya?
sumber
Satu tambahan untuk jawaban Greg sudah sangat komprehensif.
Jika saya memahami Anda dengan cara yang benar, poin 3 Anda menyatakan prosedur berikut:
Sekarang asumsi Anda adalah, bahwa untuk ini berarti teorema limit pusat berlaku dan variabel acak yang sesuai akan terdistribusi secara normal.
Mungkin mari kita lihat matematika di balik perhitungan Anda untuk mengidentifikasi kesalahan:
Kami akan memanggil sampel dari , atau, dalam terminologi statistik, Anda memiliki . Sekarang, kita menggambar sampel ukuran dan menghitung rata-rata mereka. Huruf dari sarana tersebut terlihat seperti ini:X 1 , ... , X n X 1 , ... , X n ∼ X m kX X1,…,Xn X1,…,Xn∼X m k
di mana menunjukkan nilai antara 1 dan yang telah ditarik pada saat menggambar . Menghitung nilai rata-rata dari semua nilai tersebut akan menghasilkan n iμki n i
Untuk menyisakan Anda terminologi matematika yang tepat, lihat saja jumlah ini. Yang terjadi adalah bahwa baru saja ditambahkan beberapa kali ke penjumlahan. Semua dalam semua, Anda menambahkan hingga angka dan membaginya dengan . Bahkan, Anda menghitung rata-rata tertimbang dari dengan bobot acak. 1000 m 1000 m X iXi 1000m 1000m Xi
Namun, sekarang, Teorema Limit Sentral menyatakan bahwa jumlah dari banyak variabel acak independen adalah mendekati normal. (Yang menghasilkan juga kira-kira rata-rata normal).
Jumlah Anda di atas tidak menghasilkan sampel independen. Anda mungkin memiliki bobot acak, tetapi itu tidak membuat sampel Anda independen sama sekali. Dengan demikian, prosedur yang ditulis dalam 3 ini tidak sah.
Namun, seperti yang sudah dinyatakan Greg, menggunakan uji- pada data asli Anda mungkin kira-kira benar - jika Anda benar-benar tertarik pada nilai rata-rata.t
sumber