Saya sedang mengerjakan data infeksi penyakit, dan saya bingung apakah akan menangani data sebagai "kategorikal" atau "berkelanjutan".
- "Hitungan Infeksi"
- jumlah kasus infeksi yang ditemukan dalam periode waktu tertentu, jumlah tersebut dihasilkan dari data kategorikal (yaitu jumlah pasien yang ditandai "terinfeksi")
"Hari Ranjang Pasien"
- jumlah total jumlah hari tinggal di bangsal oleh semua pasien di bangsal itu, sekali lagi, hitungan dihasilkan dari data kategorikal (yaitu jumlah pasien yang ditandai sebagai "tinggal di bangsal tertentu")
"infeksi per hari di tempat tidur pasien"
- "jumlah infeksi" / "hari di tempat tidur pasien" keduanya awalnya menghitung data, tetapi sekarang menjadi angka
Pertanyaan:
- Dapatkah saya menggunakan Chi-Square di sini untuk menilai apakah perbedaan "infeksi per hari pasien" signifikan secara statistik atau tidak?
Pembaruan
Saya telah menemukan bahwa saya dapat membandingkan tingkat kejadian (atau menyebutnya tingkat infeksi), tetapi melakukan sesuatu seperti "perbedaan tingkat kejadian" (IRD) atau "rasio tingkat kejadian" (IRR). (Saya menemukannya dari sini )
- Apa perbedaan antara IRD dan uji-t?
- Apakah ada uji statistik komplementer untuk IRR?
categorical-data
count-data
lokheart
sumber
sumber
Jawaban:
Bagi saya itu sama sekali tidak terdengar cocok untuk menggunakan uji chi-square di sini.
Saya kira yang ingin Anda lakukan adalah sebagai berikut: Anda memiliki lingkungan atau perawatan yang berbeda atau variabel variabel apa pun (yaitu, kelompok) yang membagi data Anda. Untuk masing-masing kelompok Anda mengumpulkan Hitungan Infeksi dan Hari Ranjang Pasien untuk menghitung infeksi per hari tempat tidur pasien . Tahu Anda ingin memeriksa perbedaan antar grup, bukan?
Jika demikian, analisis varians (ANOVA, dalam kasus lebih dari dua kelompok) atau uji-t (dalam kasus dua kelompok) mungkin sesuai diberikan oleh alasan dalam posting Srikant Vadali (dan jika asumsi homogenitas varian dan ukuran grup yang sebanding juga terpenuhi) dan
beginner
tag harus ditambahkan.sumber
Saya tidak begitu yakin seperti apa data Anda, atau apa masalah Anda sebenarnya, tetapi saya berasumsi Anda memiliki tabel dengan judul dan jenis berikut:
dan Anda ingin tahu apakah tingkat infeksi secara statistik berbeda untuk bangsal yang berbeda?
Salah satu cara untuk melakukan ini adalah dengan menggunakan model Poisson:
Ini dapat dicapai dengan menggunakan Poisson glm, dengan fungsi log link dan log pasien-tidur-hari dalam offset. Di R, kode akan terlihat seperti:
sumber
Jika Anda mempertimbangkan untuk melakukan Poisson atau regresi terkait pada data ini (dengan variabel hasil Anda sebagai tingkat), ingatlah untuk memasukkan istilah offset untuk hari-hari tempat tidur pasien karena secara teknis menjadi "paparan" pada jumlah Anda.
Namun, dalam kasus itu, Anda mungkin juga ingin mempertimbangkan untuk menggunakan hanya jumlah infeksi (bukan tingkat) sebagai variabel dependen Anda, dan memasukkan hari pasien sebagai kovariat. Saya sedang mengerjakan kumpulan data dengan jumlah yang sama vs keputusan tingkat dan sepertinya mengubah variabel dependen Anda ke tingkat mengarah ke penurunan variabilitas, peningkatan kemiringan dan standar deviasi yang lebih besar secara proporsional. Ini membuatnya lebih sulit untuk mendeteksi efek yang signifikan.
Juga hati-hati jika data Anda terpotong nol atau nol, dan lakukan penyesuaian yang sesuai.
sumber
Dari sudut pandang purist teknis, Anda tidak bisa karena rasio Anda "infeksi per hari pasien tidur" bukan variabel kontinu. Misalnya, nilai irasional tidak akan pernah muncul di dataset Anda. Namun, Anda dapat mengabaikan masalah teknis ini dan melakukan tes apa pun yang mungkin sesuai untuk konteks Anda. Sebagai analogi, tingkat pendapatan berbeda, tetapi hampir semua orang memperlakukannya sebagai kontinu.
Ngomong-ngomong, tidak sepenuhnya jelas mengapa Anda ingin melakukan chi-square tetapi saya berasumsi ada beberapa konteks latar belakang mengapa itu masuk akal bagi Anda.
sumber
Tes chi-square sepertinya tidak tepat. Seperti yang dikatakan orang lain, asalkan ada jumlah yang berbeda dari tingkat yang berbeda, Anda dapat memperlakukan data sebagai kontinu dan melakukan regresi atau ANOVA. Anda kemudian ingin melihat distribusi residu.
sumber
Salah satu cara untuk melanjutkan adalah dengan membangun berbagai model nol yang masing-masingnya mengasumsikan faktor independen satu sama lain. Asumsi independensi sering membuat ini mudah dibangun. Kemudian diprediksi kepadatan bersama adalah produk dari kepadatan marginal. Sejauh data aktual konsisten dengan ini, Anda tahu faktor independen. Jika mereka lebih besar atau lebih kecil dari prediksi bersama, Anda mungkin dapat menyimpulkan bahwa keduanya berbeda secara positif atau negatif. Berhati-hatilah untuk mempertimbangkan jumlah pengamatan dalam setiap kasus, dan Anda mungkin dapat melakukannya secara formal dengan memperlakukan populasi sebagai hipergeometrik yang diperluas. Ini semua dalam semangat dari Fisher Exact Test, tetapi Fisher benar-benar merumuskannya sehingga situasi yang lebih umum dapat dimodelkan. Lihat, misalnya, Analisis Multivariat Diskrit: Teori dan Praktek, oleh Yvonne M. Bishop,
sumber