Pertimbangkan masalah statistik di mana Anda memiliki response
variabel yang ingin Anda jelaskan kondisional pada explanatory
variabel dan nested
variabel, di mana variabel bersarang hanya muncul sebagai variabel yang bermakna untuk nilai-nilai tertentu dari variabel penjelas . Dalam kasus di mana variabel penjelas tidak mengakui variabel bertingkat yang berarti, yang terakhir biasanya dikodekan baik seperti NA
dalam kumpulan data, atau jika dikodekan dengan nilai, nilai itu hanyalah pengganti yang tidak memiliki interpretasi yang berarti.
Situasi ini cenderung muncul setiap kali Anda memiliki variabel penjelas yang menunjukkan keberadaan sesuatu, dan satu atau lebih variabel bertingkat yang menggambarkan karakteristik benda itu. Beberapa contoh situasi semacam ini dalam masalah statistik adalah sebagai berikut:
Variabel penjelas adalah indikator apakah seorang peserta survei
married
, dan variabel bertingkat adalah beberapacharacteristic of the spouse
(misalnya, pendidikan, usia, dll.);Variabel penjelas adalah indikator
presence of an item
dalam ruang, dan variabel bersarang adalah ukuran dari beberapacharacteristic of the item
(misalnya, ukuran, jarak, dll.);Variabel penjelas adalah indikator terjadinya suatu
event
dan variabel bertingkat adalah deskripsi dari beberapacharacteristic of the event
(misalnya, durasi, besarnya, dll.).
Dalam situasi seperti ini, kita sering ingin membangun model tipe regresi (dalam arti luas yang mencakup GLM, GLMM, dll.) Yang menggambarkan hubungan antara variabel respons dan variabel lainnya. Tidak jelas bagaimana menangani variabel bersarang dalam tipe model ini.
Pertanyaan: Bagaimana kita menangani nested
variabel dalam model jenis ini?
Catatan: Pertanyaan ini dirancang untuk memberikan jawaban umum untuk pertanyaan berulang pada CV.SE mengenai variabel bersarang dalam regresi (lihat misalnya, di sini , di sini , di sini dan di sini ). Pertanyaan ini dirancang untuk memberikan contoh umum-independen dari masalah ini.
sumber
Jawaban:
Nilai yang tidak berarti dari variabel bersarang tidak boleh memengaruhi model Anda: Desideratum penting dengan jenis analisis data ini adalah bahwa
nested
variabel tersebut tidak boleh memengaruhi model jikaexplanatory
variabel asli tidak mengakuinya sebagai variabel bermakna. Dengan kata lain, model harus berupa bentuk yang mengabaikan nilai yang tidak berarti dari variabel bersarang . Ini adalah persyaratan penting untuk model yang valid dengan variabel bersarang, karena memastikan bahwa output model tidak terpengaruh oleh pilihan pengkodean sewenang-wenang.Pemodelan dengan variabel bersarang: Persyaratan ini dicapai dengan menempatkan
nested
variabel ke dalam model hanya sebagai interaksi denganexplanatory
variabel asli , tanpa memasukkannya sebagai efek utama. (Lebih khusus, variabel bertingkat harus berinteraksi dengan pernyataan logis pada variabel penjelas yang menunjukkan bahwa itu adalah variabel yang bermakna.) Perhatikan bahwa ini merupakan pengecualian terhadap aturan umum bahwa istilah tidak boleh dimasukkan sebagai interaksi tanpa istilah efek utama .Pertimbangkan kasus umum di mana
nested
variabel hanya bermakna ketikaexplanatory
variabel dalam beberapa set nilaiA
. Dalam hal ini, Anda akan menggunakan formulir model seperti ini:response ~ 1 + explanatory + (explanatory %in% A):nested + ...
Dalam kasus umum di mana
explanatory
variabel Anda adalah variabel indikator (dengan nilai satu menimbulkan variabel bersarang bermakna), bentuk model ini menyederhanakan ini:response ~ 1 + explanatory + explanatory:nested + ...
Perhatikan bahwa dalam pernyataan model ini tidak ada istilah efek utama untuk
nested
variabel. Ini dengan desain --- variabel bertingkat seharusnya tidak memiliki istilah efek utama, karena itu bukan variabel yang berarti tanpa adanya kondisi pada variabel penjelas. Dengan bentuk model seperti ini, Anda akan mendapatkan perkiraan untuk pengaruh variabel penjelas dan perkiraan lain untuk pengaruh variabel bersarang.Mengkode variabel bersarang dalam data Anda: Ketika berhadapan dengan frame data yang mencantumkan variabel untuk regresi, praktik yang baik untuk nilai-nilai
nested
variabel yang akan dikodekan sepertiNA
dalam kasus-kasus di mana ia tidak bermakna muncul dari variabel penjelas. Ini memberitahu pembaca bahwa tidak ada variabel yang berarti di sini. Beberapa analis mengkode variabel-variabel ini dengan nilai-nilai lain, seperti nol, tetapi itu umumnya merupakan praktik buruk, karena dapat disalahartikan sebagai kuantitas yang bermakna.Secara matematis, jika Anda mengalikan bilangan real dengan nol, Anda mendapatkan nol. Namun, jika Anda coding di
R
Anda harus berhati-hati di sini karena mengalikan Program0:NA
untuk memberikanNA
bukannya0
. Ini berarti bahwa Anda mungkin perlu mengkode ulangNA
nilai - nilai ke nol untuk keperluan pemasangan model, atau membangun matriks desain untuk model sehingga nilai-nilai ini diatur ke nol.Kasus di mana variabel dasar adalah fungsi dari variabel bersarang: Satu situasi yang kadang-kadang muncul dalam analisis regresi yang melibatkan variabel bersarang adalah kasus di mana variabel bersarang memiliki jumlah detail yang cukup sehingga sepenuhnya menentukan variabel penjelas awal yang muncul dari - - Yaitu, variabel penjelas asli adalah fungsi dari variabel bersarang. Contoh dari ini terjadi dalam pertanyaan ini , di mana analis memiliki variabel indikator
DrugA
untuk apakah obat telah diambil, dan variabel bersarangDrugA_Conc
untuk konsentrasi obat. Dalam contoh ini, variabel terakhir memungkinkan nilai konsentrasi nol, yang setara dengan obat yang tidak diminum, danDrugA
juga setara denganDrugA_Conc != 0
.Dalam jenis kasus ini, istilah interaksi antara variabel penjelas dan variabel bersarang secara fungsional setara dengan variabel bersarang, dan dengan demikian dimungkinkan (dan biasanya diinginkan) untuk menghapus variabel penjelas awal dari model secara keseluruhan, dan cukup menggunakan variabel bersarang sendiri. Ini sah dalam hal ini, karena nilai-nilai dalam variabel bersarang menentukan nilai variabel penjelas awal. Kami telah mencatat di atas bahwa sering kali tepat untuk membuat kode variabel bertingkat
NA
ketika kondisi mereka tidak berlaku. Jika kondisi muncul dari variabel penjelas yang merupakan indikator, dan indikator tersebut sesuai dengan penggunaan variabel bersarang, maka kejadiannested != NA
tersebut setara denganexplanatory
. Dalam kasus seperti itu, dimungkinkan untuk mengkode ulang variabel bersarang sehingga variabel penjelas awal tidak diperlukan dalam model sama sekali.Perhatikan bahwa perhatian harus diberikan ketika melihat situasi ini. Bahkan dalam kasus di mana Anda menggunakan variabel penjelas awal yang merupakan variabel indikator, mungkin berguna untuk tujuan interpretatif untuk tidak menggabungkan variabel penjelas dan variabel bertingkat. Selain itu, dalam kasus di mana variabel penjelas bukan merupakan variabel indikator, biasanya akan berisi informasi yang tidak terkandung dalam variabel bersarang, sehingga tidak dapat dihapus.
sumber
R
), tidak jelas bagi saya mengapaNA
nilai tidak dapat diterima. Di dalamR
Anda tentu saja dapat memilikiNA
nilai dalam bingkai data Anda.NA
nilai - nilai terjadi dalam bingkai data untuk variabel, tetapi mereka tidak muncul dalam matriks desain , karena variabel bersarang hanya memasuki model melalui interaksi.