Apakah sensitivitas atau spesifisitas merupakan fungsi dari prevalensi?

10

Pengajaran standar mengatakan bahwa sensitivitas dan spesifisitas adalah sifat dari tes ini dan tidak tergantung pada prevalensi. Tapi bukankah ini hanya asumsi?

Prinsip Harrison tentang penyakit dalam 19 ed mengatakan

Telah lama dinyatakan bahwa sensitivitas dan spesifisitas merupakan parameter yang tidak tergantung pada prevalensi dari akurasi tes, dan banyak teks masih membuat pernyataan ini. Asumsi yang berguna secara statistik ini, bagaimanapun, secara klinis sederhana. ... sensitivitas tes kemungkinan akan lebih tinggi pada pasien rawat inap, dan spesifisitas tes lebih tinggi pada pasien rawat jalan.

(Prevalensi biasanya lebih tinggi di rawat inap daripada di rawat jalan)

Apakah ada hubungan matematika atau perkiraan grafis antara parameter ini?

Bahkan tautan ini menyebutnya 'penyederhanaan'. Mengapa?

Sunting: Saya tahu bagaimana sensitivitas didefinisikan. Tidak ada istilah prevalensi yang terlibat, sebagaimana disebutkan dalam jawaban. Saya sendiri telah menyatakan bahwa ini adalah sifat-sifat pengujian yang tidak terpengaruh oleh populasi yang digunakan, sampai saya menemukan pernyataan ini, maka pertanyaannya. Tetapi saya berasumsi, kebingungan ini timbul bukan karena definisi tetapi perhitungan praktis dari nilai-nilai ini. Spesifisitas dan sensitivitas dihitung menggunakan tabel 2x2, apakah prevalensi populasi referensi di sini penting? Apakah itu yang mereka maksudkan? Jika ya, apa fungsinya?

Polisetty
sumber

Jawaban:

4

Meskipun jawaban @ Tim ♦ dan @ gung ♦ cukup banyak mencakup semuanya, saya akan mencoba untuk menyatukan keduanya menjadi satu dan memberikan klarifikasi lebih lanjut.

Konteks dari baris yang dikutip sebagian besar mungkin merujuk pada tes klinis dalam bentuk Ambang Batas tertentu, seperti yang paling umum. Bayangkan suatu penyakit , dan segala sesuatu selain termasuk keadaan sehat yang disebut . Kami, untuk pengujian kami, ingin menemukan beberapa pengukuran proksi yang memungkinkan kami mendapatkan prediksi yang baik untuk (1) Alasan kami tidak mendapatkan spesifisitas / sensitivitas absolut adalah bahwa nilai-nilai kuantitas proxy kami tidak berkorelasi sempurna dengan keadaan penyakit tetapi umumnya hanya terkait dengan itu, dan karenanya, dalam pengukuran individu, kita mungkin memiliki peluang jumlah itu melewati ambang batas kita untukD D c D D cDDDcDDcindividu dan sebaliknya. Demi kejelasan, mari kita asumsikan Model Gaussian untuk variabilitas.

Katakanlah kita menggunakan sebagai jumlah proxy. Jika telah dipilih dengan baik, maka harus lebih tinggi dari ( adalah operator nilai yang diharapkan). Sekarang masalah muncul ketika kita menyadari bahwa adalah situasi gabungan (demikian juga ), sebenarnya terbuat dari 3 tingkat keparahan , , , masing-masing dengan nilai ekspektasi yang semakin meningkat untuk . Untuk satu individu, dipilih dari kategori atau darix E [ x D ] E [ x D c ] E D D c D 1 D 2 D 3 x D D c x T D D c x T D x D cxxE[xD]E[xDc]EDDcD1D2D3xDDckategori, probabilitas 'tes' positif atau tidak akan tergantung pada nilai ambang yang kita pilih. Katakanlah kita memilih berdasarkan mempelajari sampel yang benar-benar acak yang memiliki individu dan . kami akan menyebabkan beberapa positif dan negatif palsu. Jika kita memilih orang secara acak, probabilitas yang mengatur / nya nilai jika diberikan oleh grafik hijau, dan bahwa dari yang dipilih secara acak orang dengan grafik merah.xTDDcxTDxDcmasukkan deskripsi gambar di sini

Angka aktual yang diperoleh akan tergantung pada jumlah aktual dan individu tetapi spesifisitas dan sensitivitas yang dihasilkan tidak akan. Biarkan menjadi fungsi probabilitas kumulatif. Kemudian, untuk prevalensi dari penyakit , inilah tabel 2x2 seperti yang diharapkan dari kasus umum, ketika kami mencoba untuk benar-benar melihat bagaimana kinerja pengujian kami dalam populasi gabungan.D c F ( ) p DDDcF()pD

(D,+)=p(1FD(xT))
(Dc,)=(1p)(1FDc(xT))
(D,)=p(FD(xT))
(Dc,+)=(1p)FDc(xT)

Angka aktual tergantung , tetapi sensitivitas dan spesifisitas independen. Namun, keduanya tergantung pada dan . Karenanya, semua faktor yang memengaruhi ini, pasti akan mengubah metrik ini. Jika kita misalnya, bekerja di ICU, kita akan diganti oleh , dan jika kita berbicara tentang pasien rawat jalan, digantikan oleh . Itu adalah masalah terpisah bahwa di rumah sakit, prevalensinya juga berbeda,p F D F D c F D F D 3 F D 1 D c D c x D D c F D F D c D F FppFDFDcFDFD3FD1tetapi bukan prevalensi yang berbeda yang menyebabkan sensitivitas dan spesifisitas berbeda, tetapi distribusi yang berbeda, karena model yang menentukan ambang tidak berlaku untuk populasi yang muncul sebagai pasien rawat jalan, atau rawat inap . Anda dapat melanjutkan dan memecah dalam beberapa subpopulasi, karena sub bagian rawat inap juga akan mengalami peningkatan karena alasan lain (karena sebagian besar proxy juga 'meningkat' dalam kondisi serius lainnya). Memecah populasi menjadi subpopulasi menjelaskan perubahan sensitivitas, sedangkan populasi menjelaskan perubahan dalam spesifisitas (dengan perubahan yang sesuai dalam danDcDcxDDcFDFDc ). Ini adalah apa yang sebenarnya terdiri dari grafik komposit . Setiap warna sebenarnya akan memiliki mereka sendiri , dan karenanya, selama ini berbeda dari di mana sensitivitas dan spesifisitas asli dihitung, metrik ini akan berubah.DFF

masukkan deskripsi gambar di sini

Contoh

Asumsikan populasi 11550 dengan 10.000 Dc, 500.750.300 D1, D2, D3 masing-masing. Bagian yang dikomentari adalah kode yang digunakan untuk grafik di atas.

set.seed(12345)
dc<-rnorm(10000,mean = 9, sd = 3)
d1<-rnorm(500,mean = 15,sd=2)
d2<-rnorm(750,mean=17,sd=2)
d3<-rnorm(300,mean=20,sd=2)
d<-cbind(c(d1,d2,d3),c(rep('1',500),rep('2',750),rep('3',300)))
library(ggplot2)
#ggplot(data.frame(dc))+geom_density(aes(x=dc),alpha=0.5,fill='green')+geom_density(data=data.frame(c(d1,d2,d3)),aes(x=c(d1,d2,d3)),alpha=0.5, fill='red')+geom_vline(xintercept = 13.5,color='black',size=2)+scale_x_continuous(name='Values for x',breaks=c(mean(dc),mean(as.numeric(d[,1])),13.5),labels=c('x_dc','x_d','x_T'))

#ggplot(data.frame(d))+geom_density(aes(x=as.numeric(d[,1]),..count..,fill=d[,2]),position='stack',alpha=0.5)+xlab('x-values')

Kita dapat dengan mudah menghitung x-means untuk berbagai populasi, termasuk Dc, D1, D2, D3 dan komposit D.

mean(dc) 
mean(d1) 
mean(d2) 
mean(d3) 
mean(as.numeric(d[,1]))

> mean(dc) [1] 8.997931
> mean(d1) [1] 14.95559
> mean(d2) [1] 17.01523
> mean(d3) [1] 19.76903
> mean(as.numeric(d[,1])) [1] 16.88382

Untuk mendapatkan tabel 2x2 untuk kasus uji asli kami, pertama-tama kami menetapkan ambang, berdasarkan data (yang dalam kasus nyata akan ditetapkan setelah menjalankan tes seperti yang ditunjukkan @gung). Lagi pula, dengan asumsi ambang 13,5, kami mendapatkan sensitivitas dan spesifisitas berikut ketika dihitung pada seluruh populasi.

sdc<-sample(dc,0.1*length(dc)) 
sdcomposite<-sample(c(d1,d2,d3),0.1*length(c(d1,d2,d3))) 
threshold<-13.5 
truepositive<-sum(sdcomposite>13.5) 
truenegative<-sum(sdc<=13.5) 
falsepositive<-sum(sdc>13.5) 
falsenegative<-sum(sdcomposite<=13.5) 
print(c(truepositive,truenegative,falsepositive,falsenegative)) 
sensitivity<-truepositive/length(sdcomposite) 
specificity<-truenegative/length(sdc) 
print(c(sensitivity,specificity))

> print(c(truepositive,truenegative,falsepositive,falsenegative)) [1]139 928  72  16
> print(c(sensitivity,specificity)) [1] 0.8967742 0.9280000

Mari kita asumsikan kita bekerja dengan pasien rawat jalan, dan kita mendapatkan pasien yang sakit hanya dari proporsi D1, atau kita bekerja di ICU di mana kita hanya mendapatkan D3. (untuk kasus yang lebih umum, kita perlu membagi komponen Dc juga) Bagaimana sensitivitas dan spesifisitas kita berubah? Dengan mengubah prevalensi (yaitu dengan mengubah proporsi relatif pasien yang termasuk dalam kedua kasus, kami tidak mengubah spesifisitas dan sensitivitas sama sekali. Kebetulan prevalensi ini juga berubah dengan mengubah distribusi)

sdc<-sample(dc,0.1*length(dc)) 
sd1<-sample(d1,0.1*length(d1)) 
truepositive<-sum(sd1>13.5) 
truenegative<-sum(sdc<=13.5) 
falsepositive<-sum(sdc>13.5) 
falsenegative<-sum(sd1<=13.5) 
print(c(truepositive,truenegative,falsepositive,falsenegative)) 
sensitivity1<-truepositive/length(sd1) 
specificity1<-truenegative/length(sdc) 
print(c(sensitivity1,specificity1)) 
sdc<-sample(dc,0.1*length(dc)) 
sd3<-sample(d3,0.1*length(d3)) 
truepositive<-sum(sd3>13.5) 
truenegative<-sum(sdc<=13.5) 
falsepositive<-sum(sdc>13.5) 
falsenegative<-sum(sd3<=13.5) 
print(c(truepositive,truenegative,falsepositive,falsenegative)) 
sensitivity3<-truepositive/length(sd3) 
specificity3<-truenegative/length(sdc) 
print(c(sensitivity3,specificity3))

> print(c(truepositive,truenegative,falsepositive,falsenegative)) [1]  38 931  69  12
> print(c(sensitivity1,specificity1)) [1] 0.760 0.931
> print(c(truepositive,truenegative,falsepositive,falsenegative)) [1]  30 944  56   0
> print(c(sensitivity3,specificity3)) [1] 1.000 0.944

Untuk meringkas, plot untuk menunjukkan perubahan sensitivitas (spesifisitas akan mengikuti tren yang sama seandainya kami juga menyusun populasi Dc dari subpopulasi) dengan beragam rata-rata x untuk populasi, inilah grafik

df<-data.frame(V1=c(sensitivity,sensitivity1,sensitivity3),V2=c(mean(c(d1,d2,d3)),mean(d1),mean(d3))) 
ggplot(df)+geom_point(aes(x=V2,y=V1),size=2)+geom_line(aes(x=V2,y=V1))

masukkan deskripsi gambar di sini

  1. Jika bukan proxy, maka secara teknis kami akan memiliki spesifisitas dan sensitivitas 100%. Katakanlah misalnya kita mendefinisikan sebagai memiliki gambaran patologis tertentu yang didefinisikan secara objektif pada katakanlah Biopsi Hati, maka tes Biopsi Hati akan menjadi standar emas dan sensitivitas kita akan diukur terhadap dirinya sendiri dan karenanya menghasilkan 100%D
Satwik Pasani
sumber
9

Pertama, perlu diketahui bahwa Anda biasanya tidak dapat mengubah sensitivitas secara terpisah dari spesifisitas, dan sebaliknya. Ini adalah titik dari kurva ROC. Mengingat sifat dari proses pembuatan data, dan data serta model spesifik Anda, Anda akan selalu terjebak dengan pertukaran antara sensitivitas dan spesifisitas. Anda tentu saja lebih suka memiliki sensitivitas 100% dan spesifisitas 100% pada saat yang sama, tetapi biasanya Anda tidak bisa. Anda bisa mendapatkan sensitivitas yang lebih baik, tetapi dengan mengorbankan spesifisitas yang lebih buruk, atau spesifisitas yang lebih baik, tetapi dengan mengorbankan sensitivitas terburuk. Kurva ROC menunjukkan kepada Anda sekumpulan tradeoff yang terpaksa Anda pilih. (Beberapa catatan: 1. Anda kadang-kadang tampak mendapatkan pada satu dimensi tanpa kehilangan apa pun pada yang lain karena ada celah dalam dataset Anda, tetapi ini sebagian besar ilusi; 2.Kurva ROC adalah sensitivitas sebagai fungsi dari 1-spesifisitas, merencanakan sensitivitas vs spesifisitas itu sendiri akan menjadi kurva ROC yang direfleksikan.)

masukkan deskripsi gambar di sini

Bagaimanapun, bagaimana sensitivitas dan spesifisitas yang tampak dapat berubah dengan prevalensi? Ini adalah masalah di mana itu membantu untuk mensimulasikan dan bermain dengan beberapa data untuk melihat bagaimana ini bisa berjalan dalam praktek. Mari kita bayangkan bahwa suatu model cocok dengan dataset yang cukup besar yang memiliki prevalensi tertentu, dan ambang batas ditetapkan pada sumbu x 1 . Kemudian, kinerja tes ini dihitung dengan sampel yang memiliki prevalensi yang sangat berbeda (dan dengan demikian nilai x yang berbeda). Hasilnya adalah bahwa model yang sama, menggunakan ambang yang sama akan tampil berbeda ketika diterapkan pada dataset dengan prevalensi yang berbeda.

library(caret)  # we'll use these packages
library(binom)
  # we'll use this function to convert log odds to probabilities
lo2p = function(lo){ exp(lo)/(1+exp(lo)) }

##### training dataset for original model
set.seed(734)                     # these make the examples exactly reproducible
Nt = 1000
xt = rnorm(Nt, mean=5, sd=1)      # this is the distribution of X
lo = -1.386 + .308*xt             # this is the data generating process
pt = lo2p(lo)
yt = rbinom(Nt, size=1, prob=pt)
mt = glm(yt~xt, family=binomial)
summary(mt)
# ...
# Coefficients:
#             Estimate Std. Error z value Pr(>|z|)    
# (Intercept) -1.16736    0.32794  -3.560 0.000371 ***
# xt           0.24980    0.06429   3.886 0.000102 ***
# ...
#     Null deviance: 1384.5  on 999  degrees of freedom
# Residual deviance: 1369.1  on 998  degrees of freedom
# AIC: 1373.1

## determine threshold
# prob(Y) = 50%, where log odds = 0, so:
-coef(mt)[1]/coef(mt)[2]  # 4.673159
threshold = 4.7  # a simple round number
classt    = ifelse(xt>threshold, 1, 0)
tabt      = table(classt, yt)[2:1,2:1]

confusionMatrix(tabt)
#       yt
# classt   1   0
#      1 346 279
#      0 175 200
#                                           
#                Accuracy : 0.546           
#                     ...                                          
#             Sensitivity : 0.6641          
#             Specificity : 0.4175          
#          Pos Pred Value : 0.5536          
#          Neg Pred Value : 0.5333          
#              Prevalence : 0.5210          


##### high prevalence dataset from hospital
set.seed(4528)
Nh = 500
xh = rnorm(Nh, mean=6, sd=1)  # a different distribution of X
lo = -1.386 + .308*xh         # but the same data generating process
ph = lo2p(lo)
yh = rbinom(Nh, size=1, prob=ph)
classh = ifelse(xh>threshold, 1, 0)  # the same threshold is used
tabh   = table(classh, yh)[2:1,2:1]

confusionMatrix(tabh)
#       yh
# classh   1   0
#      1 284 163
#      0  20  33
#                                           
#                Accuracy : 0.634           
#                     ...
#             Sensitivity : 0.9342          
#             Specificity : 0.1684          
#          Pos Pred Value : 0.6353          
#          Neg Pred Value : 0.6226          
#              Prevalence : 0.6080          


##### low prevalence dataset from outpatients
set.seed(1027)
Nl = 500
xl = rnorm(Nl, mean=3, sd=1)
lo = -1.386 + .308*xl
pl = lo2p(lo)
yl = rbinom(Nl, size=1, prob=pl)
classl = ifelse(xl>threshold, 1, 0)
tabl   = table(classl, yl)[2:1,2:1]

confusionMatrix(tabl)
#       yl
# classl   1   0
#      1   9  14
#      0 190 287
#                                           
#                Accuracy : 0.592           
#                     ...
#             Sensitivity : 0.04523         
#             Specificity : 0.95349         
#          Pos Pred Value : 0.39130         
#          Neg Pred Value : 0.60168         
#              Prevalence : 0.39800         


##### sensitivities
binom.confint(346, 521, method="e")
#   method   x   n      mean     lower    upper
# 1  exact 346 521 0.6641075 0.6217484 0.704592
binom.confint(284, 304, method="e")
#   method   x   n      mean   lower     upper
# 1  exact 284 304 0.9342105 0.90022 0.9593543
binom.confint(  9, 199, method="e")
#   method x   n       mean      lower      upper
# 1  exact 9 199 0.04522613 0.02088589 0.08411464

##### specificities
binom.confint(200, 479, method="e")
#   method   x   n      mean     lower     upper
# 1  exact 200 479 0.4175365 0.3729575 0.4631398
binom.confint( 33, 196, method="e")
#   method  x   n      mean     lower     upper
# 1  exact 33 196 0.1683673 0.1188206 0.2282441
binom.confint(287, 301, method="e")
#   method   x   n      mean     lower     upper
# 1  exact 287 301 0.9534884 0.9231921 0.9743417

Berikut adalah sensitivitas dan spesifisitas sebagai fungsi dari prevalensi, dengan interval kepercayaan 95% yang tepat:

masukkan deskripsi gambar di sini

Jadi apa yang terjadi di sini? Pertimbangkan bahwa regresi logistik prototipikal mungkin terlihat seperti gambar di bawah ini. Perhatikan bahwa semua 'aksi' berlangsung dalam interval [4, 6] pada sumbu x. Data di bawah ini akan memiliki prevalensi yang sangat rendah, dan model ini akan menunjukkan diskriminasi dan sensitivitas yang buruk. Data di atas interval itu akan memiliki prevalensi yang sangat tinggi, tetapi model itu lagi tidak akan membedakan dengan baik dan akan memiliki spesifisitas yang buruk.

masukkan deskripsi gambar di sini

Untuk membantu memahami bagaimana ini bisa terjadi, pertimbangkan pengujian Alanine transaminase untuk menentukan apakah hati pasien gagal 2. Idenya adalah bahwa hati biasanya menggunakan ALT, tetapi jika hati telah berhenti berfungsi, ALT akan dibuang ke aliran darah. Jadi, jika tingkat ALT dalam aliran darah pasien di atas ambang tertentu, itu berarti hati gagal. Jika Anda mengambil sampel dengan prevalensi gagal hati yang tinggi, Anda akan menggambar sampel dengan tingkat ALT yang tinggi dalam darah. Dengan demikian, Anda akan memiliki lebih banyak pasien di atas ambang batas. Tidak semua orang dengan kadar ALT dalam darah tinggi akan mengalami gagal hati - untuk beberapa pasien akan ada penyebab lain. Tetapi mereka yang gagal hati harus ditangkap. Ini mengarah pada sensitivitas yang lebih tinggi. Demikian juga, tidak semua pasien dengan tingkat ALT normal memiliki hati yang sehat, tetapi sampel dengan prevalensi rendah akan memiliki tingkat ALT yang lebih rendah, dan lebih banyak pasien akan lulus tes. Mereka yang hatinya tidak t gagal, tetapi yang memiliki level ALT normal akan terlewatkan. Ini mengarah ke sensitivitas yang lebih rendah, tetapi spesifisitas lebih tinggi.

Secara umum, seluruh gagasan tes medis adalah bahwa sesuatu atau yang lain berkorelasi dengan keadaan penyakit yang mungkin Anda sukai, tetapi tidak bisa. Mendapatkan ukuran yang berkorelasi memberi Anda wawasan tentang keadaan penyakit. Tes (potensial) yang tidak benar tidak akan bernilai dan tidak akan digunakan. Dengan demikian dalam praktiknya, sampel dengan prevalensi yang lebih tinggi harus memiliki distribusi yang berkorelasi dengan lebih banyak nilai abnormal yang mengarah ke sensitivitas yang lebih tinggi, dan sebaliknya. (Perhatikan bahwa yang berkorelasi tidak harus menjadi penyebab penyakit; dalam contoh ALT, ini merupakan efek, dalam contoh lain, baik penyakit dan yang berkorelasi dapat menjadi efek dari penyebab umum, dll.)

1. Ini sebenarnya sangat umum dalam pengobatan. Pertimbangkan bahwa kolesterol harus <200, tekanan darah sistolik harus <140, dll. Itu tidak benar-benar 'tes' per se, tetapi ada banyak tes yang bekerja begitu saja. Untuk beberapa diskusi (mungkin jauh) terkait ambang, mungkin membantu untuk membaca jawaban saya untuk Apakah ambang 0-1 selalu setara dengan ambang sumbu x? , dan Mengapa jumlah false positive tidak tergantung pada ukuran sampel, jika kita menggunakan nilai-p untuk membandingkan dua dataset independen?
2. Perlu diketahui bahwa saya bukan seorang dokter, dan contoh ini mungkin rusak parah. Tanyakan kepada dokter yang sebenarnya jika Anda menginginkan informasi yang akurat tentang fungsi hati, tes-tesnya, dan hal-hal terkait.

gung - Pasang kembali Monica
sumber
Terima kasih! Untuk menunjukkan bahwa itu benar-benar berubah. Tapi bagaimana cara mempertimbangkan jawaban @Tim? Bukankah itu bertentangan?
Polisetty
1
@Polisetty, Tim menyatakan bahwa, "rawat inap dan rawat jalan mungkin berbeda dalam banyak aspek, tidak hanya dalam prevalensi saja, sehingga beberapa faktor lain dapat mempengaruhi sensitivitas". Jika tes adalah fungsi dari beberapa properti pasien (katakanlah, kolesterol), & penyakit ini berkorelasi kuat dengan properti itu juga (yang umumnya merupakan keseluruhan poin), maka "faktor-faktor lain" harus bergerak bersamaan jika prevalensi. Jadi, ketika prevalensi berubah, yang lain berkorelasi berubah, & tes memiliki sensitivitas lebih atau kurang dengan kelompok tertentu.
gung - Reinstate Monica
7

Seperti yang sudah dikatakan oleh orang lain, sensitivitas dan spesifisitas tidak tergantung pada prevalensi. Sensitivitas adalah proporsi positif sejati di antara semua positif dan spesifisitas adalah proporsi negatif sejati di antara semua negatif. Jadi jika sensitivitas 90%, maka tes akan benar untuk 90% kasus yang positif. Jelas 90% dari sesuatu yang lebih kecil dan 90% dari sesuatu yang lebih besar masih 90% ...

Jadi diberi data tabular yang Anda sebutkan,

positiveconditionnegativeconditionpositivetestacnegativetestbd

aa+b+c+d/a+ba+b+c+d=aa+b p(YX)=p(YX)p(X)da+b+c+d/c+da+b+c+d=dc+d

Tapi kutipan itu sepertinya juga mengatakan sesuatu yang lain

sensitivitas tes kemungkinan akan lebih tinggi pada pasien rawat inap, dan spesifisitas tes lebih tinggi pada pasien rawat jalan

jadi penulis mengatakan sensitivitas berbeda dalam kelompok yang berbeda. Saya kira pasien rawat inap dan rawat jalan mungkin berbeda dalam banyak aspek, tidak hanya dalam prevalensi saja, sehingga beberapa faktor lain dapat mempengaruhi sensitivitas. Jadi saya setuju bahwa mereka mungkin berubah di antara dataset yang berbeda, yang berbeda dalam prevalensi, tetapi perubahan itu tidak akan menjadi fungsi dari prevalensi itu sendiri (seperti yang ditunjukkan oleh @gung dalam jawabannya).

p(positive testcondition)

p(conditionpositive test)p(positive testcondition)×p(condition)

dan dalam banyak kasus ini adalah probabilitas orang tertarik ("seberapa besar kemungkinan pasien dengan hasil tes positif benar-benar memiliki penyakit?") dan itu tergantung pada prevalensi. Perhatikan bahwa tautan Anda juga membahas dampak prevalensi pada Nilai Prediktif Positif, yaitu probabilitas posterior, bukan pada sensitivitas.

Tim
sumber
Seperti yang saya sebutkan di salah satu jawaban sebelumnya, saya cukup yakin bahwa authours tidak membingungkan dengan probabilitas posterior, karena mereka secara eksplisit menyebutkan bahwa "banyak teks masih membuat pernyataan ini". Dan saya juga mengutip sumber lain, meskipun tidak seandal Harris, yang mengatakan bahwa itu adalah 'asumsi' yang aman. Yang ingin saya tanyakan adalah, apa 'asumsi' itu?
Polisetty
2
@Polisetty Saya tidak bisa mengatakan untuk penulis, tetapi dari kutipan, mereka tampaknya menyebut independensi pada prevalensi "asumsi", tetapi ini lebih merupakan fakta matematika daripada asumsi. Jika tidak berlaku, itu berarti bahwa teori probabilitas rusak dan tidak.
Tim
Sensitivitas dan spesifisitas dapat dianggap sebagai sifat tetap dari tes diagnostik. [Ini sedikit penyederhanaan, tapi cukup bagus untuk tujuan kita]. - begitulah katanya
Polisetty
3

Lihat jawaban saya di sini pada nilai true / false positif / negatif.

Sensitivitas hanyalah nama lain untuk tingkat positif sejati, dan spesifisitas sama dengan tingkat negatif sejati. Baik sensitivitas dan spesifisitas adalah probabilitas bersyarat; mereka mengkondisikan pada status penyakit pasien. Dengan demikian prevalensi penyakit (yaitu probabilitas a priori bahwa seorang pasien memiliki penyakit) tidak relevan, karena Anda mengasumsikan keadaan penyakit tertentu.

Saya tidak dapat mengomentari mengapa penulis buku teks mengklaim bahwa sensitivitas dan spesifisitas tergantung pada konteks klinis. Apakah ini pengamatan empiris?

tddevlin
sumber
Persis. Karena itu pertanyaannya. Sensitivitas tes tergantung pada populasi di mana digunakan. Asumsi bahwa itu independen tidak selalu benar. Saya bertanya bagaimana dan mengapa. Buku itu kemudian mengutip nilai juga
Polisetty
Mungkin ada faktor spesifik populasi yang memengaruhi sensitivitas dan spesifisitas. Tetapi dari definisi matematika tentang sensitivitas dan spesifisitas, prevalensi tidak dapat menjadi salah satu dari faktor-faktor ini, setidaknya tidak secara langsung. (Omong-omong, jangan ragu untuk menerima jawaban saya jika Anda puas dengan penjelasan saya tentang definisi matematika.)
tddevlin
Maaf, kurasa itu tidak jelas. Saya ingin tahu hubungan antara sensitivitas dan prevalensi secara matematis. Saya tahu bagaimana mereka didefinisikan. Saya kira relasinya masuk karena cara mereka dihitung. Sensitivitas adalah tp / (tp + fn) sedangkan prevalensi adalah tp + fn / (tp + fn + fp + tn)
Polisetty
P(Disease)P(+|disease)
Harrison tidak akan salah. Bahkan tautan ini menyebutnya penyederhanaan. med.uottawa.ca/sim/data/Sensitivity_and_Prevalence_e.htm
Polisetty
1

Tentu saja saya tidak bisa berbicara dengan niat penulis, tetapi inilah alasan saya untuk pernyataan itu:

Pertimbangkan konteks klinis sebagai tes diagnostik itu sendiri. Satu dengan sensitivitas dan spesifisitas sangat buruk, tetapi sebuah tes tidak kurang. Jika Anda di rumah sakit, kemungkinan besar Anda sakit. Jika Anda tidak di rumah sakit, kemungkinan besar Anda tidak sakit.

Dari perspektif ini, tes diagnostik aktual yang Anda lakukan sebenarnya adalah bagian kedua dari dua tes yang dilakukan secara seri.

Fomite
sumber
Dalam penjelasan Anda, apriori berubah mengarah ke probabilitas posterior yang lebih besar. Itu benar. Tetapi bagaimana sensitivitas itu sendiri berubah adalah pertanyaannya.
Polisetty
@Polisetty Bagaimana jika Anda menyebut posterior tinggi sebagai tes positif? "Konteks Klinis itu sendiri adalah ujian." Saya pikir setiap tes yang diputuskan secara sewenang-wenang dapat dibuat untuk bergantung pada prevalensi dengan cara ini, sehingga "tes" harus didefinisikan secara lebih spesifik. Saya pikir pernyataan itu berlaku untuk berbagai tes biasa berdasarkan ambang beberapa pengukuran proksi.
Satwik Pasani
1

Ini pasti sebuah kesalahan. Saya pikir mungkin penulis mencoba untuk menyarankan bahwa nilai prediktif positif dan negatif (PPV dan NPV) tergantung pada prevalensi (serta sensitivitas dan spesifisitas). Ini sering dibahas dengan tes diagnostik dan, bagi dokter, mungkin lebih berharga daripada interpretasi murni sensitivitas dan spesifisitas.

Grafik ini menunjukkan hubungan antara PPV dan NPV dengan prevalensi, untuk tes dengan sensitivitas 95% dan spesifisitas 85%.

Dari Mausner JS, Kramer S: Mausner dan Bahn Epidemiologi: Sebuah Teks Pengantar.  Philadelphia, WB Saunders, 1985, hlm.  221.

Dari Mausner JS, Kramer S: Mausner dan Bahn Epidemiologi: Sebuah Teks Pengantar. Philadelphia, WB Saunders, 1985, hlm. 221.

prince_of_pears
sumber
1

@Satwik, @gung dan @Tim telah memberikan banyak detail, tetapi saya akan mencoba dan menambahkan contoh kecil bagaimana kasus faktor yang mendasari dapat menyebabkan efek seperti itu.

Prinsip Utama: Bias

Sensitivitas / Spesifisitas dan SEMUA uji statistik memiliki peringatan yang sama: hanya berlaku untuk mengulang prosedur pengambilan sampel yang sama seperti sebelumnya dengan cara yang tidak bias.

Rumah sakit adalah organisasi yang berfungsi dirancang untuk melakukan pengambilan sampel yang bias, menggunakan kebijakan penerimaan untuk menyaring populasi umum ke dalam mereka yang membutuhkan penerimaan dan perawatan. Ini sangat berlawanan dengan prosedur ilmiah. Jika Anda ingin tahu bagaimana suatu tes dilakukan dalam populasi yang berbeda maka perlu diuji dalam populasi yang berbeda.

Efek laten: Korelasi

Jarang (atau tidak mungkin di dunia nyata jika Anda ingin ketat) untuk diagnostik menjadi independen / ortogonal terhadap semua faktor risiko lain untuk suatu penyakit, sehingga ada beberapa derajat korelasi.

Jika skrining untuk masuk ke rumah sakit berkorelasi positif dengan diagnostik, maka yang akan Anda temukan adalah bahwa orang yang lulus tes penerimaan cenderung memiliki hasil positif oleh diagnostik, sebanding dengan korelasinya. Dengan demikian positif sejati diperkaya dan negatif palsu dikurangi dengan jumlah yang sebanding dengan korelasi.

Ini kemudian membuat sensitivitas tampak lebih besar.

Penjelasan fenomena tersebut

Pengamatan bahwa sensitivitas mungkin lebih tinggi dalam konteks berbasis rumah sakit tidak realistis. Bahkan jika kebijakan penerimaan dipikirkan dengan baik dan sesuai untuk tujuan orang akan mengharapkan ini terjadi.

Itu bukan bukti gangguan dalam asumsi bahwa sensitivitas dan spesifisitas adalah prevalensi independen, melainkan bukti bias sampel berdasarkan kebijakan penerimaan rumah sakit.

Yang, mengingat rumah sakit ada di sana untuk merawat orang dan tidak melakukan eksperimen ilmiah, jelas merupakan hal yang baik.

Tapi itu membuat para ilmuwan sakit kepala.

ReneBt
sumber