Estimasi model eksponensial

10

Model eksponensial adalah model yang dijelaskan dengan persamaan berikut:

yi^=β0eβ1x1i++βkxki

Pendekatan yang paling umum digunakan untuk memperkirakan model tersebut adalah linierisasi, yang dapat dilakukan dengan mudah dengan menghitung logaritma dari kedua belah pihak. Apa pendekatan lainnya? Saya terutama tertarik pada mereka yang dapat menangani yi=0 dalam beberapa pengamatan.

Pembaruan 31.01.2011
Saya menyadari fakta bahwa model ini tidak dapat menghasilkan nol. Saya akan menguraikan sedikit apa yang saya modelkan dan mengapa saya memilih model ini. Katakanlah kita ingin memprediksi berapa banyak uang yang dihabiskan klien di toko. Tentu saja banyak klien hanya melihat dan mereka tidak membeli apa-apa, itu sebabnya ada 0. Saya tidak ingin menggunakan model linier karena menghasilkan banyak nilai negatif, yang tidak masuk akal. Alasan lainnya adalah bahwa model ini berfungsi sangat baik, jauh lebih baik daripada linier. Saya telah menggunakan algoritma genetika untuk memperkirakan parameter-parameter itu jadi itu bukan pendekatan 'ilmiah'. Sekarang saya ingin tahu bagaimana menangani masalah menggunakan metode yang lebih ilmiah. Dapat juga diasumsikan bahwa sebagian besar, atau bahkan semua, variabel adalah variabel biner.

Tomek Tarczynski
sumber
1
jika ada nol dalam data Anda, regresi eksponensial mungkin tidak sesuai, karena model seperti yang Anda nyatakan tidak dapat membiarkan nilai nol diamati.
mpiktas

Jawaban:

11

Ada beberapa masalah di sini.

(1) Model perlu secara eksplisit probabilistik . Dalam hampir semua kasus tidak akan ada set parameter yang lhs cocok dengan rhs untuk semua data Anda: akan ada residu. Anda perlu membuat asumsi tentang residu tersebut. Apakah Anda mengharapkan rata-rata nol? Untuk didistribusikan secara simetris? Untuk kira-kira terdistribusi normal?

ϵi

A: yi=β0exp(β1x1i++βkxki+ϵi)
B: yi=β0exp(β1x1i++βkxki)+ϵi.

yiyi^

(2) Kebutuhan untuk menangani nilai nol untuk y menyiratkan model yang dinyatakan (A) adalah salah dan tidak memadai , karena tidak dapat menghasilkan nilai nol tidak peduli apa kesalahan acaknya. Model kedua di atas (B) memungkinkan untuk nilai nol (atau bahkan negatif) dari y. Namun, seseorang tidak boleh memilih model semata-mata atas dasar seperti itu. Untuk mengulangi # 1: penting untuk memodelkan kesalahan dengan cukup baik.

(3) Linierisasi mengubah model . Biasanya, ini menghasilkan model seperti (A) tetapi tidak suka (B). Ini digunakan oleh orang-orang yang telah menganalisis data mereka cukup untuk mengetahui perubahan ini tidak akan mempengaruhi estimasi parameter dan oleh orang-orang yang tidak tahu apa yang terjadi. (Sulit, berkali-kali, untuk membedakannya.)

y

f(yi)F(θ);θj=βj0+βj1x1i++βjkxki

PrFθ[f(Y)=0]=θj+1>0θFθ1,,θjfyPrFθ[f(Y)t](1θj+1)Fθ(t)t0

(5) Masalah membangun model dan pemasangannya terkait tetapi berbeda . Sebagai contoh sederhana, bahkan model regresi biasa dapat dicocokkan dengan banyak cara dengan menggunakan kuadrat terkecil (yang memberikan estimasi parameter yang sama seperti Kemungkinan Maksimum dan hampir kesalahan standar yang hampir sama), kuadrat terkecil yang berulang secara berulang , berbagai bentuk lain dari " kuadrat paling kuat ," dll. Pilihan pemasangan seringkali didasarkan pada kenyamanan, kemudahan ( misalnya , ketersediaan perangkat lunak), keakraban, kebiasaan, atau konvensi, tetapi setidaknya beberapa pemikiran harus diberikan untuk apa yang sesuai untuk asumsi distribusi istilah kesalahan , untuk apaY=β0+β1X+ϵϵifungsi kerugian untuk masalah mungkin masuk akal, dan kemungkinan mengeksploitasi informasi tambahan (seperti distribusi sebelumnya untuk parameter).

whuber
sumber
10

Ini adalah model linier umum (GLM) dengan fungsi tautan log .

Setiap distribusi probabilitas pada dengan kepadatan non-nol pada nol akan menangani dalam beberapa pengamatan; yang paling umum adalah distribusi Poisson, menghasilkan regresi Poisson , alias pemodelan log-linear. Pilihan lain adalah distribusi binomial negatif .[0,)yi=0

Jika Anda tidak memiliki data jumlah, atau jika yi mengambil nilai non-integer, Anda masih dapat menggunakan kerangka kerja model linear umum tanpa sepenuhnya menentukan distribusi untuk tetapi sebagai gantinya hanya menentukan hubungan antara mean dan varians menggunakan kuasi-kemungkinan .P(yi|x)

onestop
sumber
Malu saya belum pernah diajarkan tentang hal itu di universitas: / Tampaknya hal ini akan sangat membantu dalam kasus ini, tetapi saya perlu waktu untuk menjelaskan lebih jauh. Terima kasih!
Tomek Tarczynski
Perhatikan bahwa selalu dapat diubah kembali ke nilai integer ketika rasional, misalnya mengukur pence / sen daripada pound / dolar. Meskipun Anda mungkin ingin membulatkan ke pound / dolar terdekat karena distribusi bagian pence / sen dari harga barang kemungkinan akan sangat tidak merata (yaitu sebagian besar 99). yi
James
3

Anda selalu dapat menggunakan kuadrat terkecil non-linear . Maka model Anda akan:

yi=β0exp(β1x1i+...+βkxki)+εi

Angka nol di kemudian akan diperlakukan sebagai penyimpangan dari tren non-linear.yi

mpiktas
sumber
Bagaimana dengan nilai awal dari parameter? Apa cara yang baik untuk memilih mereka? Seperti yang saya nyatakan dalam pembaruan, dapat diasumsikan tidak ada variabel kontinu.
Tomek Tarczynski
@ Tomek, saya pikir tidak ada cara yang baik untuk memilih mereka. Biasanya itu tergantung data. Saya menyarankan mean untuk mencegat dan nol untuk koefisien lainnya.
mpiktas