Saya memiliki tabel dengan empat kelompok (4 kelompok BMI) sebagai variabel independen (faktor). Saya memiliki variabel dependen yaitu "persen ibu merokok dalam kehamilan".
Apakah boleh menggunakan ANOVA untuk ini atau saya harus menggunakan chi-square atau tes lain?
Itu tergantung pada seberapa dekat tanggapan dalam kelompok yang berbeda dengan 0 atau 100%. Jika ada banyak nilai ekstrem (yaitu banyak nilai bertumpuk pada 0 atau 100%) ini akan sulit. (Jika Anda tidak tahu "penyebut", yaitu jumlah mata pelajaran dari mana persentase dihitung, maka Anda tidak dapat menggunakan pendekatan tabel kontingensi.) Jika nilai dalam kelompok lebih masuk akal, maka Anda dapat mengubah variabel respons (mis. arcsine-square-root klasik atau mungkin transformasi logit). Ada berbagai pendekatan grafis (lebih disukai) dan pengujian hipotesis nol (kurang disukai) untuk memutuskan apakah data Anda yang diubah memenuhi asumsi ANOVA secara memadai (homogenitas varian dan normalitas, yang sebelumnya lebih penting daripada yang terakhir). Tes grafis: boxplots (homogenitas varians) dan plot QQ (normalitas) [yang terakhir harus dilakukan dalam kelompok, atau pada residu]. Tes hipotesis nol: misalnya uji Bartlett atau Fligner (homogenitas varians), Shapiro-Wilk, Jarque-Bera, dll.
sumber
Anda harus memiliki data mentah, sehingga variabel responsnya adalah 0/1 (bukan merokok, merokok). Kemudian Anda dapat menggunakan regresi logistik biner. Itu tidak benar untuk mengelompokkan BMI ke dalam interval. Titik potong tidak benar, mungkin tidak ada, dan Anda tidak secara resmi menguji apakah BMI dikaitkan dengan merokok. Anda saat ini sedang menguji apakah BMI dengan banyak informasi yang dibuangnya terkait dengan merokok. Anda akan menemukan bahwa terutama interval BMI luar cukup heterogen.
sumber
Jika Anda memilih untuk melakukan ANOVA biasa pada data proporsional, penting untuk memverifikasi asumsi varian kesalahan homogen. Jika (seperti halnya dengan data persentase), varians kesalahan tidak konstan, alternatif yang lebih realistis adalah dengan mencoba regresi beta, yang dapat menjelaskan heteroskedastisitas dalam model ini. Berikut ini makalah yang membahas berbagai cara alternatif untuk berurusan dengan variabel respons yang berupa persentase atau proporsi: http://www.ime.usp.br/~sferrari/beta.pdf
Jika Anda menggunakan R, paket betareg mungkin berguna.
sumber