Menggunakan ANOVA dalam persentase?

13

Saya memiliki tabel dengan empat kelompok (4 kelompok BMI) sebagai variabel independen (faktor). Saya memiliki variabel dependen yaitu "persen ibu merokok dalam kehamilan".

Apakah boleh menggunakan ANOVA untuk ini atau saya harus menggunakan chi-square atau tes lain?

menggambar
sumber

Jawaban:

21

Ada perbedaan antara memiliki variabel biner sebagai variabel dependen Anda dan memiliki proporsi sebagai variabel dependen Anda.

  • Variabel tergantung biner :

    • Ini terdengar seperti apa yang Anda miliki. (Yaitu, setiap ibu merokok atau dia tidak merokok)
    • Dalam hal ini saya tidak akan menggunakan ANOVA. Regresi logistik dengan beberapa bentuk pengkodean (mungkin pengkodean dummy) untuk variabel prediktor kategoris adalah pilihan yang jelas jika Anda mengonseptualisasikan variabel biner sebagai variabel dependen (jika tidak, Anda bisa melakukan chi-square).
  • Proporsi sebagai variabel dependen :

    • Ini tidak terdengar seperti apa yang Anda miliki. (yaitu, Anda tidak memiliki data tentang proporsi total waktu bangun seorang ibu merokok selama kehamilan dalam sampel wanita hamil yang merokok).
    • Dalam hal ini, pendekatan ANOVA dan model linier standar secara umum mungkin atau mungkin tidak masuk akal untuk tujuan Anda. Lihat jawaban @Ben Bolker untuk diskusi tentang masalah tersebut.
Jeromy Anglim
sumber
Untuk variabel dependen biner, dalam hal saya hanya memiliki data ringkasan untuk proporsi biner (yaitu # dalam grup A, B, dan C, dan # keberhasilan dalam grup A, B, dan C), dan tidak data mentah yang sebenarnya, bagaimana kita bisa menggunakan regresi logistik? Saya hanya terbiasa menggunakannya dengan data mentah.
Bryan
15

Itu tergantung pada seberapa dekat tanggapan dalam kelompok yang berbeda dengan 0 atau 100%. Jika ada banyak nilai ekstrem (yaitu banyak nilai bertumpuk pada 0 atau 100%) ini akan sulit. (Jika Anda tidak tahu "penyebut", yaitu jumlah mata pelajaran dari mana persentase dihitung, maka Anda tidak dapat menggunakan pendekatan tabel kontingensi.) Jika nilai dalam kelompok lebih masuk akal, maka Anda dapat mengubah variabel respons (mis. arcsine-square-root klasik atau mungkin transformasi logit). Ada berbagai pendekatan grafis (lebih disukai) dan pengujian hipotesis nol (kurang disukai) untuk memutuskan apakah data Anda yang diubah memenuhi asumsi ANOVA secara memadai (homogenitas varian dan normalitas, yang sebelumnya lebih penting daripada yang terakhir). Tes grafis: boxplots (homogenitas varians) dan plot QQ (normalitas) [yang terakhir harus dilakukan dalam kelompok, atau pada residu]. Tes hipotesis nol: misalnya uji Bartlett atau Fligner (homogenitas varians), Shapiro-Wilk, Jarque-Bera, dll.

Ben Bolker
sumber
11

Anda harus memiliki data mentah, sehingga variabel responsnya adalah 0/1 (bukan merokok, merokok). Kemudian Anda dapat menggunakan regresi logistik biner. Itu tidak benar untuk mengelompokkan BMI ke dalam interval. Titik potong tidak benar, mungkin tidak ada, dan Anda tidak secara resmi menguji apakah BMI dikaitkan dengan merokok. Anda saat ini sedang menguji apakah BMI dengan banyak informasi yang dibuangnya terkait dengan merokok. Anda akan menemukan bahwa terutama interval BMI luar cukup heterogen.

Frank Harrell
sumber
2
@ Jujur - mengapa "tidak benar" ke grup BMI? ini tampaknya sangat masuk akal, asalkan hasilnya ditafsirkan dengan tepat. Anda bisa menguji, misalnya, apakah "berat badan kurang" "" berat badan sehat "" kelebihan berat badan "dan" obesitas "berhubungan dengan merokok, di mana istilah ini ditentukan oleh rentang BMI. Saya tidak melihat "salah" di sini.
probabilityislogic
Saya percaya bahwa OP bekerja dengan kumpulan data pengajaran umum dan mungkin tidak memiliki BMI mentah. Meskipun pada umumnya tidak ideal untuk melanggarnya para pembuat regresi yang berkelanjutan, itu bukanlah "salah". Bahkan dapat membantu untuk menggunakan ini ketika kami menduga pengukurannya berisik dan tidak ada jalan lain. Memang, hipotesis nyata yang ingin kami uji adalah apakah obesitas terkait dengan merokok; BMI hanyalah salah satu cara untuk mengukur obesitas (dan memiliki masalah dari apa yang saya mengerti).
JMS
4
Bahkan ketika pengukuran berisik, menganalisis variabel sebagai kontinu lebih unggul. Mengkategorisasi BMI menciptakan lebih banyak masalah daripada yang dapat diperbaiki oleh berbagai pilihan analisis. Faktanya, perkiraan atas kategorisasi tidak lagi memiliki interpretasi ilmiah. Kuantitas ilmiah adalah yang memiliki makna di luar eksperimen saat ini. Anda akan menemukan bahwa perkiraan grup (mis., Peluang log yang Y = 1 untuk interval X tinggi vs rendah) adalah fungsi dari seluruh set BMI yang diamati. Misalnya, jika Anda menambahkan BMI yang lebih tinggi atau sangat rendah ke sampel, "efek" akan semakin kuat.
Frank Harrell
Bagi mereka yang telah menginstal R dan RStudio, demonstrasi interaktif dapat ditemukan di biostat.mc.vanderbilt.edu/BioMod - lihat tanda NEW hijau. Anda harus memuat skrip ke RStudio dan juga menginstal paket Hmisc.
Frank Harrell
"Bahkan ketika pengukuran berisik, menganalisis variabel sebagai kontinu lebih unggul" Ini hanya salah (umumnya, yaitu - biasanya itu benar). Bayangkan Anda memiliki kovariat kontinu di mana kesalahan dalam pengukurannya meningkat dengan besarnya, misalnya. Tentu saja hal terbaik untuk dilakukan adalah memodelkan kesalahan, atau mendapatkan pengukuran yang lebih baik, dll. Tetapi mengatakan bahwa itu tidak benar adalah pernyataan yang terlalu kuat untuk dibuat.
JMS
3

Jika Anda memilih untuk melakukan ANOVA biasa pada data proporsional, penting untuk memverifikasi asumsi varian kesalahan homogen. Jika (seperti halnya dengan data persentase), varians kesalahan tidak konstan, alternatif yang lebih realistis adalah dengan mencoba regresi beta, yang dapat menjelaskan heteroskedastisitas dalam model ini. Berikut ini makalah yang membahas berbagai cara alternatif untuk berurusan dengan variabel respons yang berupa persentase atau proporsi: http://www.ime.usp.br/~sferrari/beta.pdf

Jika Anda menggunakan R, paket betareg mungkin berguna.

Will Townes
sumber