Bagaimana melakukan regresi logistik pada R ketika hasilnya fraksional (rasio dua hitungan)?

24

Saya meninjau makalah yang memiliki eksperimen biologis berikut. Alat digunakan untuk mengekspos sel pada berbagai jumlah tegangan geser cairan. Saat tegangan geser yang lebih besar diterapkan ke sel, lebih banyak sel mulai terlepas dari substrat. Pada setiap tingkat tegangan geser, mereka menghitung sel-sel yang tetap melekat, dan karena mereka tahu jumlah total sel yang terpasang di awal, mereka dapat menghitung perlekatan fraksional (atau detasemen).

Jika Anda memplot fraksi patuh vs tegangan geser, hasilnya adalah kurva logistik. Secara teori, setiap sel individu adalah pengamatan tunggal, tetapi jelas ada ribuan atau puluhan ribu sel, sehingga kumpulan data akan menjadi raksasa, jika itu diatur dengan cara biasa (dengan setiap baris menjadi pengamatan).

Jadi, tentu saja, pertanyaan saya (sebagaimana dinyatakan dalam judul) harus masuk akal sekarang. Bagaimana kita melakukan regresi logistik menggunakan hasil fraksional sebagai DV? Apakah ada transformasi otomatis yang dapat dilakukan di glm?

Sejalan dengan hal yang sama, jika ada potensi pengukuran 3 (atau lebih), bagaimana seseorang melakukan ini untuk regresi logistik multinomial?

thecity2
sumber
Berikut adalah beberapa contoh mengenai regresi logistik hasil multivariat:http://www.ats.ucla.edu/stat/r/dae/mlogit.htm
marbel
1
Apa yang Anda gambarkan tidak terdengar seperti Anda akan memiliki pengamatan independen (karena sel mungkin tidak melampirkan kembali ketika geser meningkat, jumlah yang masih terpasang pada setiap pengaturan stres yang lebih tinggi harus tidak lebih dari angka sebelumnya); Ketergantungan ini harus diperhitungkan. (Ini mengingatkan situasi dengan kurva pertumbuhan.) --- Anda tidak bisa hanya memasukkan angka ke GLM seolah-olah mereka independen ... dan tidak ada jawaban yang tampaknya mengatasi masalah ini.
Glen_b -Reinstate Monica
2
@ Glen_b Setiap percobaan akan dilakukan dengan sel yang berbeda, yaitu dimulai dengan lampiran "100%" dan menerapkan nilai tegangan geser yang berbeda.
thecity2
Ah, baiklah. Itu akan memberikan hasil yang independen.
Glen_b -Reinstate Monica
Terkait: stats.stackexchange.com/questions/29038 .
Amoeba berkata Reinstate Monica

Jawaban:

37

The glmfungsi dalam Rmemungkinkan 3 cara untuk menentukan formula untuk model regresi logistik.

Yang paling umum adalah bahwa setiap baris bingkai data mewakili pengamatan tunggal dan variabel responsnya adalah 0 atau 1 (atau faktor dengan 2 level, atau varibale lainnya dengan hanya 2 nilai unik).

Pilihan lain adalah dengan menggunakan matriks 2 kolom sebagai variabel respon dengan kolom pertama menjadi jumlah 'keberhasilan' dan kolom kedua adalah jumlah 'kegagalan'.

Anda juga dapat menentukan respons sebagai proporsi antara 0 dan 1, lalu tentukan kolom lain sebagai 'bobot' yang memberikan jumlah total dari mana proporsinya (jadi respons 0,3 dan bobot 10 sama dengan 3 ' sukses 'dan 7' kegagalan ').

Salah satu dari 2 cara terakhir akan sesuai dengan apa yang Anda coba lakukan, yang terakhir tampaknya paling langsung untuk bagaimana Anda menggambarkan data Anda.

Greg Snow
sumber
9

Sebagai permulaan, jika Anda memiliki variabel dependen yang proporsional, Anda dapat menggunakan Regresi Beta. Ini tidak meluas (dengan pengetahuan saya yang terbatas) hingga beberapa proporsi.

Untuk ikhtisar Regresi Beta dan implementasi R, periksa betareg .

B_Miner
sumber
Terima kasih! Sepertinya itu yang saya butuhkan untuk kasus binomial.
thecity2
2

Saya sudah menggunakan nnet::multinom(paket nnet adalah bagian dari MASS) untuk tujuan yang sama, ia menerima input kontinu dalam [0, 1].

Jika Anda memerlukan referensi: C. Beleites et.al .: Raman penilaian spektroskopi jaringan astrositoma: menggunakan informasi referensi lunak. Anal Bioanal Chem, 2011, Vol. 400 (9), hlm. 2801-2816

Cbeleites mendukung Monica
sumber
Besar! Saya memiliki paket itu, dan tidak menyadari bahwa ia memiliki kemampuan ini.
thecity2
@cbeleites: Apakah ini mengizinkan dependensi menjadi [0,1]? Saya
pikir
@ B_Miner: ya, ketergantungan bisa dalam [0, 1]. Fungsi ini cocok dengan jaringan saraf tiruan tanpa lapisan tersembunyi dan dengan sigmoid logistik. Dan ya, disarankan untuk mengukur prediktor secara kasar menjadi [0, 1] juga untuk konvergensi yang lebih baik.
cbeleites mendukung Monica