Apa efek dari variabel dikotomisasi?

14
  • Ketika variabel dikotomi, informasi apa yang hilang dalam proses?
  • Bagaimana dikotomisasi membantu dalam analisis?
Mimi
sumber
Gelman dan Park memiliki artikel yang membandingkan praktik membuat tiga kategori dari variabel berkelanjutan, yang bertentangan dengan dua. Biasanya yang terbaik adalah membiarkan variabel kontinu karena alasan yang dijelaskan oleh orang lain di bawah ini.
Michael Bishop

Jawaban:

10

Informasi apa yang hilang: Itu tergantung pada variabel. Secara umum, dengan dikotomisasi, Anda menegaskan bahwa ada garis lurus efek antara satu variabel dan lainnya. Misalnya, pertimbangkan pengukuran paparan polutan secara terus-menerus dalam penelitian tentang kanker. Jika Anda membagi dua ke "Tinggi" dan "Rendah", Anda menyatakan bahwa hanya dua nilai yang penting. Ada risiko kanker yang tinggi, dan ada yang rendah. Tetapi bagaimana jika risikonya naik terus untuk sementara waktu, lalu rata, lalu naik lagi sebelum akhirnya mencapai nilai yang tinggi? Semua itu hilang.

Apa yang Anda dapatkan: Lebih mudah. Variabel dikotomis seringkali lebih mudah ditangani secara statistik. Ada alasan untuk melakukannya - jika variabel kontinu jatuh ke dalam dua kelompok yang jelas pula , tapi saya cenderung untuk menghindari dikotomi kecuali bentuk alami dari variabel di tempat pertama. Seringkali juga bermanfaat jika bidang Anda mendikotomasi hal-hal untuk memiliki bentuk variabel dikotomisasi. Sebagai contoh, banyak yang menganggap jumlah CD4 kurang dari 400 sebagai ambang kritis untuk HIV. Karena itu, saya sering memiliki variabel 0/1 untuk Di Atas / Di Bawah 400, meskipun saya juga akan mempertahankan variabel jumlah CD4 terus menerus. Ini membantu menyelaraskan pelajaran Anda dengan orang lain.

Saya akan sedikit tidak setuju dengan Peter. Sementara membagi variabel kontinu ke dalam kategori sering jauh lebih masuk akal daripada dikotomisasi mentah, saya agak menentang kategorisasi kuantil. Kategorisasi semacam itu sangat sulit untuk memberikan interpretasi yang bermakna. Saya pikir langkah pertama Anda harus melihat apakah ada kategorisasi yang didukung secara biologis atau klinis yang dapat digunakan, dan hanya sekali opsi-opsi tersebut habis, sebaiknya Anda menggunakan kuantil.

Fomite
sumber
Hai @epigrad. Saya pikir regresi kuantil memiliki interpretasi yang cukup mudah; ini sangat mirip dengan regresi OLS biasa, kecuali untuk menggantikan "XXX persentil" untuk "rata-rata".
Peter Flom - Reinstate Monica
@PeterFlom Maaf, saya seharusnya lebih jelas. Saya menemukan mereka sulit untuk disusun sebagai interpretasi yang relevan secara klinis / biologis, bila dibandingkan dengan kategori yang dibangun dari bukti klinis / biologis. Ini memang bias khusus bidang saya.
Fomite
Oh, oke, @epigrad, itu masuk akal. Dan saya akan mengedit jawaban saya untuk memasukkan kasus ini.
Peter Flom - Reinstate Monica
1
Tampaknya EpiGrad dan @PeterFlom menafsirkan "regresi kuantil" secara berbeda. EpiGrad berbicara tentang membagi variabel X ke dalam kelompok-kelompok yang ditentukan oleh kuantil, sementara Peter Flom berbicara tentang pemodelan, katakanlah, kuantil ke-90 dari respons alih-alih rata-ratanya.
Aniko
@ Aniko Itu mungkin juga. Saya berasumsi (mungkin salah) bahwa Peter berarti mengelompokkan data menjadi kuantil dan menggunakannya dalam model regresi. Kecenderungan umum (dan menjengkelkan) di bidang saya. Mungkin bukan itu masalahnya.
Fomite
9

Dikotimisasi menambah pemikiran ajaib pada analisis data. Ini jarang merupakan ide yang bagus.

Ini sebuah artikel oleh Royston, Altman dan Sauerbrei tentang beberapa alasan mengapa itu adalah ide yang buruk.

Pikiran saya sendiri: jika Anda mendikotomi variabel dependen, katakanlah, berat lahir 2,5 kg (ini dilakukan setiap saat) maka Anda memperlakukan bayi yang lahir 2,49 kg sama seperti bayi yang lahir 1,5 kg, dan bayi yang lahir 2,51 kg seperti mereka yang 3,5 kg. Ini tidak masuk akal.

Alternatif yang lebih baik adalah regresi kuantil. Saya menulis tentang ini untuk NESUG baru-baru ini. Makalah itu ada di sini

Satu pengecualian untuk yang di atas adalah ketika kategori-kategori tersebut secara substansial termotivasi; misalnya, jika Anda bekerja dengan perilaku mengemudi, masuk akal untuk dikategorikan berdasarkan usia legal untuk mengemudi.

Peter Flom - Pasang kembali Monica
sumber
5
Kata Peter dengan indah. Saya tidak bisa membayangkan situasi di mana dikotomisasi dalam analisis adalah ide yang bagus.
Frank Harrell
5

Saya suka dan mendukung jawaban @ Epigrad dan @ Peter. Saya hanya ingin menambahkan, bahwa, variabel interval binning ke dalam biner membuat (mungkin) variabel metrik hanya satu ordinal. Dengan variabel biner tidak tepat untuk menghitung mean atau varians (meskipun beberapa orang melakukannya), dan, seperti yang telah saya catat di tempat lain , beberapa analisis multivariat menjadi tidak dapat diterapkan secara teoritis atau logis. Sebagai contoh, saya pikir itu tidak benar untuk menggunakan centroid / Ward hierarchical clustering atau analisis faktor dengan variabel biner.

Klien investigasi sering memaksa kita untuk mendikotomikan variabel pada output karena berpikir dalam beberapa kelas daripada satu sifat kontinu lebih sederhana, informasi tampaknya kurang berkabut dan (salah) lebih besar.

Namun, ada kasus-kasus ketika dikotomisasi dapat dibenarkan. Misalnya di mana ada bimodality kuat atau ketika analisis (misalnya MAMBAC atau lainnya) menunjukkan adanya 2 kelas laten.

ttnphns
sumber
Saya kesulitan memahami argumen Anda. Dan jika klien ingin kami melakukan praktik statistik yang buruk, kami harus berpikir dua kali. Catatan: trikotomi bukan kata. Dikotomisasi = dicho (dua) + tomous (dipotong), sehingga akan tritomize / tritomise jika digunakan.
Frank Harrell
Passage on client adalah ratapan, bukan argumen. Adapun bahasa Yunani, Anda benar; Saya menghapus kata itu.
ttnphns
1
Terima kasih. Saya mencoba, sebanyak mungkin secara manusiawi, untuk menerjemahkan keluhan statistik ke dalam tindakan korektif, melalui proses pendidikan intensif dengan klien.
Frank Harrell