Konteks : Regresi hierarkis dengan beberapa data yang hilang.
Pertanyaan : Bagaimana cara saya menggunakan estimasi kemungkinan maksimum informasi penuh (FIML) untuk mengatasi data yang hilang dalam R? Apakah ada paket yang akan Anda rekomendasikan, dan apa langkah-langkah khasnya? Sumber dan contoh online akan sangat membantu juga.
PS : Saya seorang ilmuwan sosial yang baru-baru ini mulai menggunakan R. Beberapa imputasi adalah sebuah pilihan, tapi saya sangat suka betapa elegannya program-program seperti Mplus menangani data yang hilang menggunakan FIML. Sayangnya Mplus tampaknya tidak membandingkan model dalam konteks regresi hierarkis saat ini (tolong beri tahu saya jika Anda tahu cara melakukannya!). Saya bertanya-tanya apakah ada yang serupa di R? Terimakasih banyak!
sumber
Jawaban:
Penghargaan untuk jawaban ini diberikan kepada @ Yosua yang memberikan jawaban yang bagus ketika saya memposting pertanyaan ini ke komunitas R dan Statistik di Google+. Saya hanya menempelkan jawabannya di bawah.
Untuk menjalankan regresi (tanpa pemodelan variabel laten), harap baca catatan saya yang diketik setelah teks yang dikutip.
Ini berarti bahwa jika semua variabel dengan yang hilang adalah kontinu, lavaan , paket pemodelan persamaan struktural (SEM) adalah paket yang bagus untuk digunakan untuk FIML di R.
Sekarang kembali ke pertanyaan awal saya. Niat saya adalah memiliki perbaikan ajaib untuk hilangnya ketika menjalankan regresi linier. Semua variabel saya dengan yang hilang bagus dan berkelanjutan. Jadi saya melanjutkan untuk menjalankan analisis saya dalam dua gaya:
Saya kehilangan banyak hal dengan melakukan regresi dalam gaya SEM. Kedua gaya memberikan koefisien yang sama dan kuadrat R, tetapi dalam gaya SEM saya tidak mendapatkan pengujian signifikansi regresi (nilai-nilai F khas dengan df), sebaliknya saya mendapatkan indeks kecocokan yang tidak membantu karena saya telah menggunakan semua gelar saya. kebebasan. Juga ketika satu model memiliki R2 lebih besar dari yang lain, saya tidak bisa menemukan cara untuk membandingkan apakah perbedaannya signifikan. Selain itu, melakukan regresi dengan cara biasa memberikan akses ke sekelompok pengujian untuk asumsi regresi yang sangat berharga. Untuk jawaban yang lebih terperinci tentang masalah ini, lihat pertanyaan saya yang lain yang dijawab dengan baik oleh @StasK .
Jadi kesimpulannya sepertinya lavaan adalah paket yang layak untuk FIML dalam R, namun penggunaan FIML tergantung pada asumsi statistik dan jenis analisis yang dilakukan. Sejauh regresi (tanpa pemodelan variabel laten) berjalan, menjaganya agar tidak keluar dari program SEM dan menggunakan beberapa imputasi mungkin merupakan langkah yang bijaksana.
sumber
Sehubungan dengan pertanyaan FIML Anda, saya pikir saya akan membagikan makalah SAS yang luar biasa ini oleh Paul Allison http://www.statributionhorizons.com/wp-content/uploads/MissingDataByML.pdf
Mengingat komentar yang dibuat oleh Paul Allison, orang dapat dengan mudah menerapkan prosedur yang sama dalam R menggunakan lme atau nlmer.
sumber
ada 2 cara utama menangani data / catatan yang hilang. Anda dapat menghapus seluruh baris pengamatan yang memiliki nilai yang hilang, atau Anda menemukan cara untuk menghasilkan nilai yang hilang ini. Jika Anda mengambil pendekatan pertama, maka Anda mungkin akan kehilangan banyak data. Dalam pendekatan kedua, Anda harus menemukan cara "pintar" untuk menghasilkan data yang hilang ini, sedemikian rupa sehingga perkiraan parameter dari kumpulan data baru, tidak jauh berbeda dari perkiraan paramaters dari kumpulan data yang diamati.
Pendekatan kedua ini disebut Data imputasi, dan ada beberapa paket R yang melakukan itu. Salah satunya disebut mclust, dan fungsi yang Anda butuhkan disebut imputeData. Fungsi ini menggunakan algoritma EM (ekspektasi maksimisasi) untuk memperkirakan parameter dari bagian data yang tidak teramati, mengingat bagian yang diamati. Setelah parameter ditemukan, titik data baru dihasilkan. Asumsi distribusi dari data yang hilang, data yang diamati, dan seluruh set data diasumsikan Gaussian.
Semoga penjelasan ini membantu Anda mencapai apa yang Anda coba lakukan
sumber