Saya tertarik pada interaksi perlakuan-kovariat dalam konteks eksperimen / percobaan terkontrol acak, dengan perawatan tugas indikator biner .
Bergantung pada metode / sumber spesifik, saya telah melihat masing-masing dan masing-masing untuk subjek yang dirawat dan yang tidak diobati.
Apakah ada aturan praktis kapan harus menggunakan atau ?
Apa perbedaan penafsirannya?
binary-data
categorical-encoding
cecefuss
sumber
sumber
Jawaban:
Interpretasi penaksir variabel indikator dan intersep berbeda. Mari kita mulai dengan :{1,0}
Katakanlah Anda memiliki model berikut
dimana
Jika demikian, Anda berakhir dengan rumus berikut untuk :yi
Jadi interpretasi adalah efek dari plasebo dan interpretasi adalah perbedaan antara efek plasebo dan efek obat. Akibatnya, Anda dapat menafsirkan sebagai peningkatan yang ditawarkan obat.β0 β1 β1
Sekarang mari kita lihat :{−1,1}
Anda kemudian memiliki model berikut (lagi):
tetapi dimana
Jika demikian, Anda berakhir dengan rumus berikut untuk :yi
Interpretasi di sini adalah bahwa adalah rata-rata dari efek placebo dan efek obat, dan adalah perbedaan dari dua perawatan dengan rata-rata itu.β0 β1
Jadi, yang mana yang Anda gunakan?
Interpretasi dalam pada dasarnya adalah garis dasar. Anda menetapkan beberapa perawatan standar dan semua perawatan lainnya (mungkin ada beberapa) dibandingkan dengan standar / baseline tersebut. Terutama ketika Anda mulai menambahkan dalam kovariat lain, ini tetap mudah untuk ditafsirkan sehubungan dengan pertanyaan medis standar: bagaimana obat ini dibandingkan dengan plasebo atau obat yang sudah ada?β0 {0,1}
Tetapi pada akhirnya itu semua masalah interpretasi, yang saya jelaskan di atas. Jadi, Anda harus mengevaluasi hipotesis Anda dan memeriksa interpretasi mana yang membuat gambar kesimpulan yang paling mudah.
sumber
Dalam konteks regresi linier, adalah metode yang lebih alami (dan standar) untuk mengkodekan variabel biner (apakah menempatkannya di sisi kiri dari sisi kanan dari regresi). Seperti @Jarko Dubbeldam menjelaskan, Anda tentu saja dapat menggunakan interpretasi lain dan arti dari koefisien akan berbeda.xi∈{0,1}
Untuk memberikan contoh dengan cara lain, pengkodean variabel keluaran adalah standar ketika memprogram atau menurunkan matematika yang mendasari mesin vektor dukungan . (Saat memanggil pustaka, Anda ingin meneruskan data dalam format yang diharapkan pustaka, yang mungkin merupakan formulasi 0, 1.)yi∈{−1,1}
Cobalah untuk menggunakan notasi yang merupakan standar untuk apa pun yang Anda lakukan / gunakan.
Untuk segala jenis model linier dengan istilah intersep, kedua metode akan setara dalam arti bahwa mereka terkait oleh transformasi linear sederhana. Secara matematis, tidak masalah apakah Anda menggunakan matriks data atau matriks data mana adalah peringkat penuh. Dalam model linier umum, koefisien estimasi Anda bagaimanapun akan terkait dengan transformasi linear dan nilai-nilai yang dipasang akan sama.X X~=XA A A y^
sumber
Ini lebih abstrak (dan mungkin tidak berguna), tetapi saya akan perhatikan bahwa dua representasi ini, dalam arti matematika, sebenarnya representasi kelompok, dan ada isomorfisme di antara mereka.
Arti dari variabel indikator , pada dasarnya boolean, adalah "faktor benar" atau "faktor salah". Dengan dua kejadian dan , Anda mungkin bertanya "apakah faktor-faktor dari kedua peristiwa ini setara, misalnya apakah keduanya benar atau keduanya salah?" Dalam logika boolean, ini adalah . Ini mendefinisikan struktur grup . Sekarang, dan keduanya merupakan representasi dari grup ini, dengan operasi grup dan , masing-masing. Isomorfisme dari representasi pertama ke yang kedua diberikan olehT T1 T2 T1⇔T2 Z2 1,0 1,−1 a⇔b=1−(a+b) a⇔b=ab ϕ(a)=2∗a−1 .
Representasi ini juga meluas ke variabel indikator berkelanjutan, yaitu probabilitas. Jika adalah probabilitas untuk untuk menjadi benar, maka probabilitas untuk menjadi benar adalah . Di bawah isomorfisme , ini adalah . Kuantitas adalah indikator yang ditandatangani antara -1 dan 1. Jadi, perhitungan tentang probabilitas operasi boolean seringkali lebih sederhana dalam basis ini.T T ⇔ T ′ p ′ ⇔ p = p p ′ + ( 1 - p ) ( 1 - p ′ ) t ( p ) = 2 p - 1 t ⇔ t ′ = t t ′ tp T T⇔T′ p′⇔p=pp′+(1−p)(1−p′) t(p)=2p−1 t⇔t′=tt′ t
sumber