Ketika saya membaca tentang cara mengatur data Anda, satu hal yang sering saya temui adalah bahwa mengubah beberapa data kontinu menjadi data kategorikal bukan ide yang baik, karena Anda mungkin membuat kesimpulan yang salah jika ambang batas tidak ditentukan dengan baik.
Namun, saat ini saya memiliki beberapa data (nilai PSA untuk pasien kanker prostat), di mana saya pikir konsensus umum adalah bahwa jika Anda di bawah 4 Anda mungkin tidak memilikinya, jika Anda di atas Anda berisiko, dan kemudian sesuatu seperti di atas 10 dan 20, Anda mungkin memilikinya. Sesuatu seperti itu. Dalam hal itu, apakah masih salah untuk mengkategorikan nilai PSA kontinu saya menjadi kelompok katakanlah 0-4, 4-10, dan> 10? Atau apakah itu benar-benar baik-baik saja karena ambang batas "ditentukan dengan baik" sehingga untuk berbicara.
sumber
Jawaban:
Apakah ada diskontinuitas yang tajam di ambang Anda?
Misalnya, Anda memiliki dua pasien A dan B dengan nilai 3,9 dan 4,1, dan dua pasien C dan D lainnya dengan nilai 6,7 dan 6,9. Apakah perbedaan dalam kemungkinan kanker antara A dan B jauh lebih besar daripada perbedaan yang sesuai antara C dan D?
Jika ya, maka diskritisasi masuk akal.
Jika tidak, maka ambang Anda mungkin masuk akal dalam memahami data Anda, tetapi mereka tidak "ditentukan dengan baik" dalam arti yang bermakna secara statistik. Jangan diskritkan. Alih-alih, gunakan nilai tes Anda "apa adanya", dan jika Anda mencurigai adanya semacam nonlinier, gunakan spline .
Ini sangat direkomendasikan.
sumber
Saya pikir jawaban standarnya adalah selalu buruk karena Anda kehilangan informasi dalam proses. Sulit dipercaya ada kasus di mana Anda akan mendapatkan apa pun dari mengambil data interval alami dan membuatnya kategorikal.
sumber