Cara menggunakan splines kubik terbatas dengan paket imputasi tikus R

8

Saya bertanya-tanya bagaimana cara mengintegrasikan splines kubik terbatas (seperti dalam paket rms) dalam model imputasi dalam paket imputasi tikus.

Konteks : Saya sedang melakukan penelitian biomedis dan memiliki akses ke dataset yang terdiri dari karakteristik pasien dan data tentang perkembangan penyakit pasien, di samping hasil setelah perawatan medis (misalnya kelangsungan hidup satu tahun). Tujuannya adalah untuk membangun model prediksi berdasarkan karakteristik pasien dan perkembangan penyakit untuk memprediksi terjadinya hasil tertentu. Sayangnya, beberapa pasien tidak memiliki informasi lengkap tentang semua variabel. Karena itu saya telah memutuskan untuk menggunakan beberapa teknik imputasi untuk memperkirakan (beberapa kali) apa nilai-nilai yang hilang tersebut.

Masalah : Saat menggunakan beberapa imputasi ada 'aturan' ini yang disebut pengertian. Ini berarti imputasi memerlukan model statistik yang digunakan untuk analisis akhir (yaitu model prediksi yang ingin saya pelajari) juga harus dimasukkan dalam model imputasi (lebih disukai dengan informasi tambahan ditambahkan ke dalamnya). Ini juga berarti mempertimbangkan kemungkinan asosiasi non-linear. Karena saya tidak tahu apakah prediktor tertentu memiliki asosiasi non-linear dengan yang lain, saya ingin model imputasi dapat disesuaikan dengan splines kubik terbatas. Namun, saya tidak begitu mengerti bagaimana melakukan ini pada tikus. Karena itu saya ingin membantu dalam membuat model imputasi yang memungkinkan untuk rcs, cocok untuk tikus.


Pada sidenote ke moderator: Saya pikir pertanyaan ini cocok untuk Crossvalidated karena imputasi dan splines adalah subjek 'statistik' yang spesifik. Namun, karena fokus pada sifat pemrograman dari pertanyaan 'bagaimana untuk' ini, saya tidak akan keberatan jika pertanyaan tersebut dimigrasi jika Anda pikir itu lebih cocok di tempat lain. Setelah keraguan ini, saya juga memposting pertanyaan ini di StackOverflow ( /programming/45674088/how-to-use-restricted-cubic-splines-with-r-mice-imputation-package )

IWS
sumber
2
Jika Anda tidak mendapatkan tanggapan yang membantu, saya akan mencoba mengirim email ke pengelola paket dan kemudian mengirim jawaban untuk pertanyaan Anda di sini. Saya tidak berpikir Anda akan mendapatkan banyak bantuan tambahan pada R-help karena mereka mungkin menganggapnya terlalu statistik.
mdewey
1
@mewy terima kasih atas tipnya; Saya akan mencoba dan kembali jika ada sesuatu untuk ditampilkan
IWS
2
Saya menambahkan hadiah; tetapi, seperti yang saya perhatikan, saya pikir ini tidak perlu dibatasi. Artinya, pertanyaan yang lebih besar adalah bagaimana menangani data yang hilang dengan splines. Mungkin paket perturb itu bagus.
Peter Flom
1
@PeterFlom Terima kasih telah menempatkan karunia. Saya akan mengakui meminta fungsionalitas tertentu dalam paket mouse terbatas. Saya akan melihat ke paket perturbing untuk melihat apa yang bisa saya pelajari darinya. Seperti yang Anda sarankan dalam teks hadiah, dan dalam pertanyaan Anda di sini: stats.stackexchange.com/questions/301017/… , memiliki jawaban umum apakah asosiasi non-linear selama imputasi menambah penanganan data yang hilang, adalah hal yang sangat menarik.
IWS

Jawaban:

4

Anda benar bahwa model imputasi harus sekaya atau lebih kaya daripada model hasil. Fakta bahwa imputasi berdasarkan estimasi kemungkinan maksimum penuh dan imputasi yang dilakukan dengan micemengasumsikan linearitas di mana-mana adalah alasan utama saya menulis fungsi Hmiscpaket R aregImpute, yang membuat model imputasi secara otomatis menggunakan model spline kubik kaya aditif terbatas kaya. Jadi linearitas tidak diasumsikan untuk imputasi berganda. Pendekatan default dalam aregImputeadalah pencocokan rata-rata prediktif, yang umumnya saya lebih suka daripada pendekatan yang lebih parametrik (splines masih digunakan; PMM kurang parametrik di sisi kiri model).

Seperti mice, aregImputemenggunakan persamaan dirantai. Tidak seperti miceitu, ia menggunakan imbang bootstrap alih-alih perkiraan (dengan asumsi multivarian normality) Bayesian posterior draws.

Frank Harrell
sumber
1
Saya telah menerima jawaban ini karena @ frank-harrel dengan tepat menangani penanganan asosiasi non-linear yang mungkin selama imputasi dalam pengaturan umum. Bagi mereka yang tertarik, saya sudah bekerja pada model imputasi (misalnya PMM, regresi linier, regresi logistik) yang kompatibel dengan paket tikus R dan memungkinkan splines kubik terbatas. Saya akan memposting ini sebagai jawaban di sini demi kelengkapan nanti, tetapi model ini tidak akan diuji. Jadi, bagi mereka yang memiliki masalah serupa, lihat dan gunakan aregImpute.
IWS
1
@IWS yang akan menjadi kontribusi yang bagus, dan Anda dapat terus mengujinya (termasuk menunjukkan hasil yang identik dengan miceketika nol knot (linearitas) digunakan) yang akan menjadi bagian yang baik dari paket R. Saat melakukan ini, Anda dapat membandingkan micedan aregImputekode untuk melihat di mana miceagak lambat dan dapat dipercepat.
Frank Harrell