Saya memiliki dataset yang berisi banyak proporsi yang menambahkan hingga 1. Saya tertarik pada perubahan proporsi ini sepanjang gradien (lihat di bawah untuk contoh data).
gradient <- 1:99
A1 <- gradient * 0.005
A2 <- gradient * 0.004
A3 <- 1 - (A1 + A2)
df <- data.frame(gradient = gradient,
A1 = A1,
A2 = A2,
A3 = A3)
require(ggplot2)
require(reshape2)
dfm <- melt(df, id = "gradient")
ggplot(dfm, aes(x = gradient, y = value, fill = variable)) +
geom_area()
Informasi tambahan: Tidak perlu linier, saya melakukan ini hanya untuk kemudahan contoh. Hitungan asli dari mana proporsi ini dihitung juga tersedia. Dataset nyata berisi lebih banyak variabel yang ditambahkan hingga 1 (misalnya B1, B2 & B3, C1 ke C4, dll) - jadi petunjuk untuk solusi multivarian juga akan sangat membantu ... Tapi untuk saat ini saya akan tetap menggunakan univariat sisi statistik.
Pertanyaan: Bagaimana kita bisa menganalisis data seperti itu? Saya sudah membaca sedikit di sekitar, dan mungkin model multinomial atau glm cocok? - Jika saya menjalankan 3 (atau 2) glms, bagaimana saya bisa memasukkan batasan yang nilainya diprediksi berjumlah 1? Saya tidak ingin hanya memplot data seperti itu, saya juga ingin melakukan regresi yang lebih dalam seperti analisis. Saya lebih suka ingin menggunakan R - bagaimana saya bisa melakukan ini di R?
sumber
proprcspline
dalam Stata mungkin adalah apa yang Anda cari (saya tahu Anda ingin menggunakanR
, tetapi mungkin ini bisa menjadi titik awal): proprcspline menghitung spline kubik terbatas halus dari proporsi pengamatan di setiap kategori yvar diberikan xvar, dan grafik mereka sebagai plot area bertumpuk. Secara opsional, proporsi yang dihaluskan ini dapat disesuaikan untuk satu set variabel kontrol (cvars).Jawaban:
Dalam satu dimensi, ini terdengar seperti pekerjaan untuk regresi beta (dengan atau tanpa dispersi variabel). Ini adalah model regresi dengan variabel dependen terdistribusi beta, secara alami 0-1 dibatasi. Paket R adalah betareg dan kertas yang menjelaskan penggunaannya ada di sini .
Untuk lebih dari dua proporsi, perpanjangan biasa distribusi Beta mengarah ke regresi Dirichlet. Paket R DirichletReg tersedia, dijelaskan misalnya di sini .
Ada beberapa alasan untuk tidak menggunakan tautan logit dan regresi logistik multinomial untuk data komposisi yang benar, sebagian besar berkaitan dengan asumsi kuat apa yang mereka maksudkan untuk varian. Namun, jika data Anda semua benar - benar dinormalkan hitungan (kelimpahan?), Asumsi-asumsi itu mungkin benar dan saran Peter mungkin akan menjadi cara untuk pergi.
sumber
Saya tidak yakin persis apa yang ingin Anda cari tahu, tetapi bagaimana dengan regresi logistik multinomial dengan gradien sebagai variabel independen?
Di R, salah satu cara untuk melakukan ini adalah fungsi mlogit di perpustakaan mlogit. Lihat sketsa ini
sumber