Apakah beralih dari data kontinu ke kategorikal selalu salah?

14

Ketika saya membaca tentang cara mengatur data Anda, satu hal yang sering saya temui adalah bahwa mengubah beberapa data kontinu menjadi data kategorikal bukan ide yang baik, karena Anda mungkin membuat kesimpulan yang salah jika ambang batas tidak ditentukan dengan baik.

Namun, saat ini saya memiliki beberapa data (nilai PSA untuk pasien kanker prostat), di mana saya pikir konsensus umum adalah bahwa jika Anda di bawah 4 Anda mungkin tidak memilikinya, jika Anda di atas Anda berisiko, dan kemudian sesuatu seperti di atas 10 dan 20, Anda mungkin memilikinya. Sesuatu seperti itu. Dalam hal itu, apakah masih salah untuk mengkategorikan nilai PSA kontinu saya menjadi kelompok katakanlah 0-4, 4-10, dan> 10? Atau apakah itu benar-benar baik-baik saja karena ambang batas "ditentukan dengan baik" sehingga untuk berbicara.

Denver Dang
sumber
5
Itu tergantung (seperti biasa). Misalnya, jika Anda mempelajari bagaimana dokter akan membuat keputusan, dan mereka membuat keputusan berdasarkan kategori ini, maka Anda perlu menggunakan kategori yang sama. Jika Anda mempelajari konsekuensi biologis yang terkait dengan peningkatan PSA, maka kemungkinan besar Anda tidak ingin mengategorikan PSA sama sekali. Dengan demikian, tidak ada jawaban pasti untuk pertanyaan umum Anda "apakah itu baik-baik saja."
whuber
Apa yang Anda coba lakukan dengan data? Bukankah batas-batas seperti itu biasanya terkait dengan apa yang ingin Anda pahami, sehingga menempatkannya dengan tangan adalah pertanyaan yang memohon?
RemcoGerlich
Saya mengatur data untuk model regresi logistik. Jadi pertanyaan utama sebenarnya adalah apakah hanya menggunakan data kontinu, atau memiliki data diskrit sebagai gantinya.
Denver Dang
1
Bagi saya tidak jelas apa itu data 'kontinu'. Itu bukan sesuatu yang ada dalam kenyataan. Tidak ada yang namanya pengukuran / statistik dengan ketepatan tak terbatas.
JimmyJames
1
@ BillHorvath Ya, saya bukan dokter, jadi saya tidak sepenuhnya yakin bagaimana ini telah ditentukan. Jika Anda hanya melihat halaman Wiki itu menyatakan satu tempat: "Kadar PSA antara 4 dan 10 ng / mL (nanogram per mililiter) dianggap mencurigakan dan pertimbangan harus diberikan untuk mengkonfirmasi PSA abnormal dengan tes ulang. " dan kemudian tempat lain: "Risiko rendah: PSA <10, Skor Gleason ≤ 6, DAN stadium klinis ≤ T2a Risiko menengah: PSA 10-20, Skor Gleason 7, ATAU stadium klinis T2b / c Risiko tinggi: PSA> 20 , Skor Gleason ≥ 8, ATAU tahap klinis ≥ T3 "
Denver Dang

Jawaban:

23

Apakah ada diskontinuitas yang tajam di ambang Anda?

Misalnya, Anda memiliki dua pasien A dan B dengan nilai 3,9 dan 4,1, dan dua pasien C dan D lainnya dengan nilai 6,7 dan 6,9. Apakah perbedaan dalam kemungkinan kanker antara A dan B jauh lebih besar daripada perbedaan yang sesuai antara C dan D?

Jika ya, maka diskritisasi masuk akal.

Jika tidak, maka ambang Anda mungkin masuk akal dalam memahami data Anda, tetapi mereka tidak "ditentukan dengan baik" dalam arti yang bermakna secara statistik. Jangan diskritkan. Alih-alih, gunakan nilai tes Anda "apa adanya", dan jika Anda mencurigai adanya semacam nonlinier, gunakan .

Ini sangat direkomendasikan.

Stephan Kolassa
sumber
2
Tautan di bawah ini penuh dengan poin-poin hebat. Pembaca masa depan dari jawaban ini harus memeriksanya.
eric_kernfeld
Saya pikir diskritisasi tidak masuk akal kecuali ada lompatan besar dalam hasil pada istirahat yang diusulkan DAN jika hasilnya relatif homogen dalam kelompok-kelompok tersebut. Kalau tidak, ada cara yang lebih baik untuk mendekati "lompatan" dalam fungsi @Stephan Kolassa
LSC
1

Saya pikir jawaban standarnya adalah selalu buruk karena Anda kehilangan informasi dalam proses. Sulit dipercaya ada kasus di mana Anda akan mendapatkan apa pun dari mengambil data interval alami dan membuatnya kategorikal.

pengguna54285
sumber
Situasi yang sesuai adalah ketika ada diskontinuitas sejati dalam hubungan x tertentu dengan DV dan bahwa dalam "kategori" hasilnya relatif homogen.
LSC