Keuntungan relatif dari imputasi ganda dan maksimalisasi harapan (EM)

Saya punya masalah di mana

y = a + b

$y = a + b$

Saya amati, tetapi bukan atau . Saya ingin memperkirakan $a$ $b$

b = f (x) + ϵ

$b = f(x) + \epsilon$

Aku bisa memperkirakan , menggunakan semacam model regresi. Ini memberi saya . Saya kemudian bisa memperkirakan $a$ $\hat b$

\hat{b} = f (x) + ϵ

$\hat b = f(x) + \epsilon$

Masalah pertama: model regresi untuk memprediksi dapat menyebabkan menjadi negatif, yang tidak masuk akal. Tidak yakin bagaimana menyiasati ini (bukan masalah yang sering saya tangani) tapi sepertinya jenis hal yang orang lain tangani secara rutin. Semacam GLM non-gaussian? $a$ $\hat b$

Masalah utama adalah bagaimana menjelaskan ketidakpastian dalam model utama yang berasal dari memperkirakan . Saya telah menggunakan beberapa imputasi sebelumnya untuk kovariat yang hilang. Tetapi ini adalah "parameter laten" yang hilang. Atau, itu adalah data hasil, yang tampaknya OK untuk menyalahkan . Namun saya sering mendengar EM digunakan untuk parameter "laten". Saya tidak yakin mengapa, saya juga tidak tahu apakah EM lebih baik dalam konteks ini. MI intuitif untuk memahami, mengimplementasikan, dan berkomunikasi. EM intuitif untuk dipahami, tetapi tampaknya lebih sulit untuk diterapkan (dan saya belum melakukannya). $\hat b$

Apakah EM lebih unggul untuk jenis masalah yang saya dapatkan di atas? Jika demikian, mengapa? Kedua, bagaimana seseorang mengimplementasikannya dalam R untuk model linier, atau untuk model semiparametrik (GAM)?

missing-data multiple-imputation expectation-maximization generic_user
sumber

Satu ide adalah menggunakan distribusi beta untuk memodelkan dan kemudian mengatur

c = \frac{a}{y}

$c=\frac{a}{y}$

\hat{b} = y (1 - \hat{c})

$\hat{b}=y(1-\hat{c})$

probabilityislogic

Jawaban:

Masuk akal atau tidak menggunakan GLM tergantung pada distribusi . Saya akan cenderung menggunakan model kuadrat terkecil nonlinear untuk semuanya. $y$

Jadi, jika model regresi Anda adalah mana adalah prediktor dan adalah parameter dalam model regresi untuk , dan model Anda untuk adalah tetapi di mana dibatasi menjadi non-negatif, Anda dapat menulis dan cocok dengan model seperti ini: $a = Z\alpha+\nu$ $Z$ $\alpha$ $a$ $b$ $b = f(x)+\epsilon$ $f(x)$ $f(x) = \exp(\psi(x))$

y = Z α + \exp (ψ (x)) + η

$y = Z\alpha+\exp(\psi(x))+\eta$

di mana adalah jumlah dari dua istilah kebisingan individu. (Jika Anda benar-benar berniat bahwa tanpa kesalahan sama sekali, Anda harus melakukannya secara berbeda; itu bukan masalah statistik sebanyak masalah perkiraan dan Anda mungkin ingin melihat norma-norma tak terhingga). $\eta$ $y=a+b$

Jika Anda mengatakan spline regresi kubik untuk itu akan menjadi salah satu cara mudah untuk mendapatkan beberapa fungsi kelancaran umum. Model itu dapat dipasang oleh kuadrat terkecil nonlinear. (Memang, beberapa algoritma bisa mengambil keuntungan dari linearitas dari untuk mempermudah dan mempercepat perhitungan.) $\psi$ $a$

Bergantung pada apa yang Anda asumsikan tentang atau , ada beberapa hal lain yang mungkin Anda lakukan. $y$ $f$

Itu belum benar-benar mengatasi masalah imputasi. Namun, kerangka kerja model semacam ini dapat dimasukkan ke dalam sesuatu seperti saran Anda untuk menggunakan EM.

Glen_b -Reinstate Monica
sumber

Terima kasih atas komentarnya. Memang, y = a + b tanpa kesalahan (atau lebih tepatnya, kesalahan diabaikan dan diabaikan). Bahkan lebih tepatnya, y, a, dan b semuanya tidak terdefinisi di bawah nol. Jadi regresi saya di mana saya model tidak dapat memberikan yang memiliki unsur kurang dari nol. Saya telah menyiasatinya dengan melakukan pengkodean bawah pada nilai yang dipasang (dan pengkodean atas sehingga tidak mengemudi b -> <0), tetapi ini adalah peretasan dan mungkin ada solusi yang lebih elegan.

\hat{a}

$\hat a$

generic_user

Itu banyak informasi terkait yang harus dijabarkan dalam pertanyaan Anda, saya pikir.

Glen_b -Reinstate Monica