Bagaimana data yang hilang dapat ditangani saat menggunakan splines atau polinomial pecahan?

12

Saya membaca Multivariable Model Building: Pendekatan Pragmatis untuk Analisis Regresi Berdasarkan Polinomial Fraksional untuk Pemodelan Variabel Berkelanjutan oleh Patrick Royston dan Willie Sauerbrei. Sejauh ini, saya terkesan dan ini pendekatan yang menarik yang belum saya pertimbangkan sebelumnya.

Tetapi penulis tidak berurusan dengan data yang hilang. Memang, pada hal. 17 mereka mengatakan bahwa data yang hilang "menimbulkan banyak masalah tambahan. Tidak dipertimbangkan di sini."

Apakah imputasi ganda bekerja dengan polinomial pecahan>

FP, dalam beberapa hal (tetapi tidak semua) merupakan alternatif untuk splines. Apakah lebih mudah untuk menangani data yang hilang untuk regresi spline?

Peter Flom - Pasang kembali Monica
sumber
Apakah Anda berurusan dengan x yang hilang atau hilang y atau keduanya?
Glen_b -Reinstate Monica
2
+1 (!) Saya sangat senang melihat orang lain mengajukan pertanyaan serupa. Baru-baru ini saya memposting pertanyaan ini: stats.stackexchange.com/questions/295977/… tentang cara menggunakan splines kubik terbatas pada tikus R's. Saya secara khusus akan memilih splines karena mereka tidak memerlukan menentukan polinomial pecahan sementara splines cukup fleksibel untuk banyak bentuk fungsional. Saya tidak tahu apakah ini menjawab pertanyaan Anda (karenanya komentar ini).
IWS
2
Ini adalah pertanyaan yang menarik, membuka (sebagai satu dimensi dari jawaban yang mungkin) kemungkinan mempengaruhi kritik terhadap beberapa teknik pemulusan / interpolasi ini dengan membandingkan kemampuan mereka untuk mengakomodasi data yang hilang. (Sampai batas tertentu, kerapuhan untuk menghilang adalah 'memalukan' untuk metode modern.) Saya perhatikan hanya dengan melewati poin yang jelas bahwa implementasi Bayesian akan membuat Anda tuduhan Anda 'gratis'.
David C. Norris
2
@ DavidC.Norris Komentar Anda membuat saya penasaran! Bisakah Anda menguraikan bagaimana metode Bayesian mengakomodasi hilang 'gratis' (yang saya asumsikan maksud Anda ditangani oleh metode analisis secara tepat, 'secara otomatis' dan sebagai standar)? (Atau arahkan saya ke referensi)
IWS
2
Bagian bebas-bebas dari "bebas" di sini adalah Anda harus menuliskan model Bayesian, yang menyiratkan pemikiran secara eksplisit tentang proses menghasilkan data ( DGP ). Setelah Anda selesai melakukannya, Anda memperlakukan nilai yang hilang sebagai parameter [gangguan]. (Dalam Bayesian, "semuanya adalah parameter". Lihat juga variabel laten .) MCMC Anda kemudian pada dasarnya mengeksploitasi DGP yang telah Anda tentukan untuk 'menyalahkan' nilai-nilai yang hilang "secara gratis" sembari terus berjalan.
David C. Norris

Jawaban:

1

f(x)f(x)=x+x.5fm()M1MmMfm(x)

Dengan asumsi perangkat lunak yang Anda gunakan untuk dapat memberikan estimasi kesalahan standar untuk setiap nilai unik x, Anda dapat menggunakan rumus Rubin (Multiple imputasi untuk nonresponse dalam survei; 1987) untuk menghitung kesalahan standar. Ada formula sampel kecil dan besar untuk derajat kebebasan dengan imputasi ganda. Rumus sampel besar (juga di Rubin) hanya mengambil input yang sama dengan kesalahan standar, jadi juga dapat digunakan. Kasing sampel kecil mengambil derajat kebebasan model sebagai input; tidak jelas bagi saya jika formula ini dapat diterapkan di sini.

Tim
sumber