Memperluas regresi logistik untuk hasil dalam kisaran antara 0 dan 1

9

Saya memiliki masalah regresi di mana hasilnya tidak sepenuhnya 0, 1 melainkan dalam kisaran semua bilangan real dari 0 hingga 1 termasuk .Y=[0,0.12,0.31,...,1]

Masalah ini sudah dibahas di utas ini , meskipun pertanyaan saya sedikit berbeda.

Saya tidak dapat menggunakan regresi linier untuk alasan yang sama dengan regresi logistik yang biasanya digunakan. Dalam regresi linier A) nilai-nilai IV yang sangat besar akan condongkan hasil yang diprediksi menjadi 1 dan B) hasil regresi linier tidak dibatasi ke batas 0,1.

Melihat fungsi biaya logistik ini dari buku teks saya Saya mengetahui bahwa persamaan ini dirancang untuk menghitung biaya lebih besar dari 0 hanya ketika dan tidak memiliki nilai yang sama 0 atau 1.

Cost=ylog(h(x))(1y)log(1h(x))
yx

Apakah mungkin untuk menggunakan regresi logistik dengan memodifikasi fungsi biaya untuk mengukur semua kesalahan hipotesis?

Robert Kubrick
sumber

Jawaban:

9

Anda memiliki beberapa opsi. Dua dari mereka mungkin:

  1. Ylog(y1y)
  2. Y

Y

Peter Ellis
sumber
2
(+1) Opsi 2: Biasanya Anda kemudian akan memperkirakan dispersi berlebih & menggunakannya untuk menghitung kesalahan standar - model "kuasi-binomial" di mana hubungan antara varians & mean Y adalah proporsional daripada sama dengan variabel binomial.
Scortchi
@Scortchi: Inikah glm()fungsi yang dilakukan R saat diberi respons kontinu dan family=quasibinomial? Apakah itu akan memperkirakan koefisien dengan family=binomialdan kemudian, dalam langkah tambahan, menghitung kesalahan standar dengan mengambil-dispersi ke dalam akun? Jika ya, apakah ini sama dengan komputasi "kesalahan standar yang kuat"? Saya memiliki beberapa data yang sesuai dan saya mencoba kedua keluarga dengan glm; Saya mendapatkan koefisien identik tetapi berbeda kesalahan standar. Terima kasih.
amoeba
1
@amoeba: Ya itu saja. Tetapi "kesalahan standar yang kuat" biasanya berarti menggunakan penaksir sandwich atau sejenisnya.
Scortchi
8

Ketika Y dibatasi, beta-regresi sering kali masuk akal; lihat kertas "Pemeras Lemon Lebih Baik"

Ini memungkinkan efek lantai dan langit-langit; itu juga memungkinkan untuk memodelkan varians serta mean.

Peter Flom
sumber
0

Karena y tidak sepenuhnya nol atau satu (seperti yang Anda katakan) biaya harus selalu lebih besar dari nol. Jadi, saya rasa Anda tidak perlu modifikasi dalam model.

Metrik
sumber
0

Saya menyarankan dua model alternatif:

Jika hasil Anda (variabel y) dipesan, cobalah model Probit Dipesan.

Jika hasil Anda (variabel y) tidak dipesan, coba model Multinomial Logit.

kekuasaan
sumber