Variabel indikator untuk data biner: {-1,1} vs {0,1}

10

Saya tertarik pada interaksi perlakuan-kovariat dalam konteks eksperimen / percobaan terkontrol acak, dengan perawatan tugas indikator biner .T

Bergantung pada metode / sumber spesifik, saya telah melihat masing-masing dan masing-masing untuk subjek yang dirawat dan yang tidak diobati.T={1,0}T={1,1}

Apakah ada aturan praktis kapan harus menggunakan atau ?{1,0}{1,1}

Apa perbedaan penafsirannya?

cecefuss
sumber
FWIW ... Tautan pertama ini memberikan ikhtisar yang cukup komprehensif dari berbagai skema pengkodean ... ats.ucla.edu/stat/r/library/contrast_coding.htm Tautan kedua ini membahas indikator (dummy) indikator, dummy, efek dan ortogonal (kontras) pengkodean ... fakultas.cas.usf.edu/mbrannick/regress/anova1.html
Mike Hunter

Jawaban:

10

Interpretasi penaksir variabel indikator dan intersep berbeda. Mari kita mulai dengan :{1,0}

Katakanlah Anda memiliki model berikut

yi=β0+treatmentβ1

dimana

treatment={0if placebo1if drug

Jika demikian, Anda berakhir dengan rumus berikut untuk :yi

yi={β0+0β1=β0if placeboβ0+1β1=β0+β1if drug

Jadi interpretasi adalah efek dari plasebo dan interpretasi adalah perbedaan antara efek plasebo dan efek obat. Akibatnya, Anda dapat menafsirkan sebagai peningkatan yang ditawarkan obat.β0β1β1


Sekarang mari kita lihat :{1,1}

Anda kemudian memiliki model berikut (lagi):

yi=β0+treatmentβ1

tetapi dimana

treatment={1if placebo1if drug

Jika demikian, Anda berakhir dengan rumus berikut untuk :yi

yi={β0+1β1=β0β1if placeboβ0+1β1=β0+β1if drug

Interpretasi di sini adalah bahwa adalah rata-rata dari efek placebo dan efek obat, dan adalah perbedaan dari dua perawatan dengan rata-rata itu.β0β1


Jadi, yang mana yang Anda gunakan?

Interpretasi dalam pada dasarnya adalah garis dasar. Anda menetapkan beberapa perawatan standar dan semua perawatan lainnya (mungkin ada beberapa) dibandingkan dengan standar / baseline tersebut. Terutama ketika Anda mulai menambahkan dalam kovariat lain, ini tetap mudah untuk ditafsirkan sehubungan dengan pertanyaan medis standar: bagaimana obat ini dibandingkan dengan plasebo atau obat yang sudah ada?β0{0,1}

Tetapi pada akhirnya itu semua masalah interpretasi, yang saya jelaskan di atas. Jadi, Anda harus mengevaluasi hipotesis Anda dan memeriksa interpretasi mana yang membuat gambar kesimpulan yang paling mudah.

JAD
sumber
6
Konstanta ketika menggunakan -1, 1 pengkodean adalah rata-rata jika jumlah responden dalam kelompok perlakuan sama dengan jumlah responden dalam kelompok kontrol.
Maarten Buis
@ MaartenBuis Ini adalah rata-rata dari jika desainnya seimbang, tetapi selain itu masih berarti rata-rata dari dua kelompok, yang adalah apa yang saya maksud. Saya mengubah kata-kata untuk mencerminkan hal ini. y
JAD
9
Bermanfaat. Saya selalu berusaha mendorong penggunaan indikator kata daripada dummy (seperti pada pertanyaan awal!) Untuk setidaknya dua alasan. Pertama, saya telah mendengar terlalu banyak cerita di mana presentasi turun dengan sangat buruk karena istilah-istilah seperti "boneka gender" secara liar disalahartikan sebagai meremehkan atau menyinggung oleh orang-orang yang kurang teknis. Kedua, istilah dummy membuat seluruh perangkat tampak sedikit seperti fudge atau dodge, sedangkan itu adalah metode yang sangat bersih dan elegan. Saya tidak punya banyak kesempatan untuk mengubah praktik yang sudah berurat berakar di beberapa bidang, tapi inilah yang coba.
Nick Cox
Setuju, itu terdengar lebih profesional juga. Plus itu adalah deskripsi yang lebih baik tentang apa yang sebenarnya dilakukannya.
JAD
2
Senang kamu setuju. Berikut adalah cara sederhana untuk menjelaskan: ini disebut indikator karena ini menunjukkan!
Nick Cox
6

Dalam konteks regresi linier, adalah metode yang lebih alami (dan standar) untuk mengkodekan variabel biner (apakah menempatkannya di sisi kiri dari sisi kanan dari regresi). Seperti @Jarko Dubbeldam menjelaskan, Anda tentu saja dapat menggunakan interpretasi lain dan arti dari koefisien akan berbeda.xi{0,1}

Untuk memberikan contoh dengan cara lain, pengkodean variabel keluaran adalah standar ketika memprogram atau menurunkan matematika yang mendasari mesin vektor dukungan . (Saat memanggil pustaka, Anda ingin meneruskan data dalam format yang diharapkan pustaka, yang mungkin merupakan formulasi 0, 1.)yi{1,1}

Cobalah untuk menggunakan notasi yang merupakan standar untuk apa pun yang Anda lakukan / gunakan.


Untuk segala jenis model linier dengan istilah intersep, kedua metode akan setara dalam arti bahwa mereka terkait oleh transformasi linear sederhana. Secara matematis, tidak masalah apakah Anda menggunakan matriks data atau matriks data mana adalah peringkat penuh. Dalam model linier umum, koefisien estimasi Anda bagaimanapun akan terkait dengan transformasi linear dan nilai-nilai yang dipasang akan sama.XX~=XAAAy^

Matthew Gunn
sumber
+1, saya tidak dapat memikirkan pengaturan tempat digunakan. {1,1}
JAD
AdaBoost adalah contoh lain yang menggunakanyi{1,1}
Francis
5
Secara umum, Anda bisa mengatakan bahwa digunakan terutama dalam klasifikasi, karena itu membuat menerapkan fungsi tanda cara yang layak untuk mengklasifikasikan. {1,1}
JAD
@matthewgunn Penulis sedang membicarakan kovariat, yaitu input bukan output. {-1, 1} masuk akal untuk vektor dukungan untuk output tetapi tidak masalah untuk input. Lihat di sini: en.wikipedia.org/wiki/Support_vector_machine#Linear_SVM
Francisco Arceo
@FranciscoArceo Point diambil; Saya telah mengeditnya agar lebih tepat.
Matthew Gunn
2

Ini lebih abstrak (dan mungkin tidak berguna), tetapi saya akan perhatikan bahwa dua representasi ini, dalam arti matematika, sebenarnya representasi kelompok, dan ada isomorfisme di antara mereka.

Arti dari variabel indikator , pada dasarnya boolean, adalah "faktor benar" atau "faktor salah". Dengan dua kejadian dan , Anda mungkin bertanya "apakah faktor-faktor dari kedua peristiwa ini setara, misalnya apakah keduanya benar atau keduanya salah?" Dalam logika boolean, ini adalah . Ini mendefinisikan struktur grup . Sekarang, dan keduanya merupakan representasi dari grup ini, dengan operasi grup dan , masing-masing. Isomorfisme dari representasi pertama ke yang kedua diberikan olehTT1T2T1T2Z21,01,1ab=1(a+b)ab=abϕ(a)=2a1.

Representasi ini juga meluas ke variabel indikator berkelanjutan, yaitu probabilitas. Jika adalah probabilitas untuk untuk menjadi benar, maka probabilitas untuk menjadi benar adalah . Di bawah isomorfisme , ini adalah . Kuantitas adalah indikator yang ditandatangani antara -1 dan 1. Jadi, perhitungan tentang probabilitas operasi boolean seringkali lebih sederhana dalam basis ini.T T T p p = p p + ( 1 - p ) ( 1 - p ) t ( p ) = 2 p - 1 t t = t t tpTTTpp=pp+(1p)(1p)t(p)=2p1tt=ttt

jwimberley
sumber
Ini mengesankan, tetapi saya merasa cukup untuk berkomentar bahwa setiap korespondensi yang valid antara {-1, 1} dan {0, 1} harus satu banding satu: tidak perlu untuk meminta apapun selain matematika SMA. Kami tentu berbicara tentang informasi yang sama, hanya kode yang berbeda.
Nick Cox