Metode statistik untuk data di mana hanya nilai minimum / maksimum yang diketahui

29

Apakah ada cabang statistik yang berkaitan dengan data yang nilai pastinya tidak diketahui , tetapi untuk setiap individu, kita tahu batas maksimum atau minimum pada nilai tersebut ?

Saya menduga bahwa masalah saya sebagian besar berasal dari kenyataan bahwa saya berjuang untuk mengartikulasikannya dalam istilah statistik, tetapi mudah-mudahan sebuah contoh akan membantu memperjelas:

Katakanlah ada dua populasi yang terhubung dan sehingga, pada titik tertentu, anggota dapat "bertransisi" ke , tetapi sebaliknya tidak mungkin. Waktu transisi adalah variabel, tetapi non-acak. Misalnya, bisa menjadi "individu tanpa keturunan" dan "individu dengan setidaknya satu keturunan". Saya tertarik pada usia perkembangan ini terjadi tetapi saya hanya memiliki data cross-sectional. Untuk setiap diberikan individu, saya bisa mengetahui apakah mereka milik atau . Saya juga tahu usia orang-orang ini. Untuk setiap individu dalam populasiB A B A B A B A BABABABABA, Saya tahu bahwa usia saat transisi akan LEBIH BESAR dari usia mereka saat ini. Demikian juga, untuk anggota , saya tahu bahwa usia saat transisi adalah KURANG DARI usia mereka saat ini. Tapi saya tidak tahu nilai pastinya.B

Katakanlah saya memiliki beberapa faktor lain yang ingin saya bandingkan dengan usia transisi. Sebagai contoh, saya ingin tahu apakah subspesies atau ukuran tubuh seseorang memengaruhi usia anak pertama. Saya pasti memiliki beberapa informasi berguna yang harus menginformasikan pertanyaan-pertanyaan itu: rata-rata, dari individu dalam , individu yang lebih tua akan memiliki transisi kemudian. Tetapi informasinya tidak sempurna , terutama untuk individu yang lebih muda. Dan sebaliknya untuk populasi .AB

Apakah ada metode yang telah ditetapkan untuk menangani data semacam ini ? Saya tidak perlu memerlukan metode lengkap bagaimana melakukan analisis seperti itu, hanya beberapa istilah pencarian atau sumber daya yang berguna untuk memulai saya di tempat yang tepat!

Peringatan: Saya membuat asumsi penyederhanaan bahwa transisi dari ke adalah instan. Saya juga siap untuk berasumsi bahwa sebagian besar individu pada suatu titik akan maju ke , dengan asumsi mereka hidup cukup lama. Dan saya menyadari bahwa data longitutinal akan sangat membantu, tetapi anggap tidak tersedia dalam kasus ini.ABB

Permintaan maaf jika ini adalah duplikat, seperti yang saya katakan, bagian dari masalah saya adalah bahwa saya tidak tahu apa yang harus saya cari. Untuk alasan yang sama, tambahkan tag lain jika sesuai.

Sampel dataset: SSP menunjukkan salah satu dari dua subspesies, atau . Keturunan menunjukkan apakah tidak ada keturunan ( ) atau setidaknya satu keturunan ( )XYAB

 age ssp offsp
  21   Y     A
  20   Y     B
  26   X     B
  33   X     B
  33   X     A
  24   X     B
  34   Y     B
  22   Y     B
  10   Y     B
  20   Y     A
  44   X     B
  18   Y     A
  11   Y     B
  27   X     A
  31   X     B
  14   Y     B
  41   X     B
  15   Y     A
  33   X     B
  24   X     B
  11   Y     A
  28   X     A
  22   X     B
  16   Y     A
  16   Y     B
  24   Y     B
  20   Y     B
  18   X     B
  21   Y     B
  16   Y     B
  24   Y     A
  39   X     B
  13   Y     A
  10   Y     B
  18   Y     A
  16   Y     A
  21   X     A
  26   X     B
  11   Y     A
  40   X     B
   8   Y     A
  41   X     B
  29   X     B
  53   X     B
  34   X     B
  34   X     B
  15   Y     A
  40   X     B
  30   X     A
  40   X     B

Sunting: contoh dataset berubah karena tidak terlalu representatif

pengguna2390246
sumber
2
Ini adalah situasi yang menarik. Bisakah Anda memberikan data Anda?
gung - Reinstate Monica
1
Saya tidak akan bisa memposting dataset lengkap tetapi bisa memberikan contoh set.
user2390246

Jawaban:

26

Ini disebut sebagai data status saat ini . Anda mendapatkan satu pandangan penampang data, dan mengenai responsnya, yang Anda tahu adalah bahwa pada usia yang diamati dari setiap subjek, peristiwa (dalam kasus Anda: transisi dari A ke B) telah terjadi atau tidak. Ini adalah kasus khusus sensor interval .

Untuk mendefinisikannya secara formal, biarkan menjadi waktu kejadian sebenarnya (tidak teramati) untuk subjek . Biarkan waktu inspeksi untuk subjek (dalam kasus Anda: usia saat inspeksi). Jika , data disensor dengan benar . Jika tidak, data akan disensor . Kami menarik dalam pemodelan distribusi T . Untuk model regresi, kita tertarik dalam pemodelan bagaimana distribusi yang berubah dengan satu set kovariat X .TiiCiiCi<TiTX

Untuk menganalisis ini menggunakan metode sensor interval, Anda ingin memasukkan data Anda ke dalam format sensor interval umum. Yaitu, untuk setiap subjek, kami memiliki interval , yang mewakili interval di mana kami tahu bahwa T i akan terkandung. Jadi jika subjek saya disensor dengan benar pada waktu inspeksi c i , kami akan menulis ( c i , ) . Jika dibiarkan disensor di c i , kami akan menyatakannya sebagai ( 0 , c i ) .(li,ri)Tiici(ci,)ci(0,ci)

Steker Shameless: jika Anda ingin menggunakan model regresi untuk menganalisis data Anda, ini dapat dilakukan di R menggunakan icenReg (saya penulis). Bahkan, dalam pertanyaan serupa tentang data status saat ini , OP memasang demo bagus menggunakan icenReg . Dia mulai dengan menunjukkan bahwa mengabaikan bagian sensor dan menggunakan regresi logistik mengarah pada bias (catatan penting: dia merujuk menggunakan regresi logistik tanpa menyesuaikan usia . Lebih lanjut tentang ini nanti.)

Paket hebat lainnya adalah interval, yang berisi uji statistik log-rank, di antara alat-alat lainnya.

EDIT:

@ EDM disarankan menggunakan regresi logistik untuk menjawab masalah. Saya tidak adil menolak ini, mengatakan bahwa Anda harus khawatir tentang bentuk waktu fungsional. Sementara saya berdiri di belakang pernyataan bahwa Anda harus khawatir tentang bentuk waktu fungsional, saya menyadari bahwa ada transformasi yang sangat masuk akal yang mengarah ke penduga parametrik yang masuk akal.

Secara khusus, jika kita menggunakan log (waktu) sebagai kovariat dalam model kita dengan regresi logistik, kita berakhir dengan model odds proporsional dengan garis dasar log-logistik.

Untuk melihat ini, pertama pertimbangkan bahwa model regresi odds proporsional didefinisikan sebagai

Odds(t|X,β)=eXTβOddso(t)

PeluangHai(t)t

Sekarang pertimbangkan regresi logistik dengan log (Waktu) sebagai kovariat. Kami kemudian punya

P(Y=1|T=t)=exp(β0+β1log(t))1+exp(β0+β1log(t))

Dengan sedikit kerja, Anda dapat melihat ini sebagai CDF dari model log-logistik (dengan transformasi parameter non-linear).

R menunjukkan bahwa kecocokannya setara:

> library(icenReg)
> data(miceData)
> 
> ## miceData contains current status data about presence 
> ## of tumors at sacrifice in two groups
> ## in interval censored format: 
> ## l = lower end of interval, u = upper end
> ## first three mice all left censored
> 
> head(miceData, 3)
  l   u grp
1 0 381  ce
2 0 477  ce
3 0 485  ce
> 
> ## To fit this with logistic regression, 
> ## we need to extract age at sacrifice
> ## if the observation is left censored, 
> ## this is the upper end of the interval
> ## if right censored, is the lower end of interval
> 
> age <- numeric()
> isLeftCensored <- miceData$l == 0
> age[isLeftCensored] <- miceData$u[isLeftCensored]
> age[!isLeftCensored] <- miceData$l[!isLeftCensored]
> 
> log_age <- log(age)
> resp <- !isLeftCensored
> 
> 
> ## Fitting logistic regression model
> logReg_fit <- glm(resp ~ log_age + grp, 
+                     data = miceData, family = binomial)
> 
> ## Fitting proportional odds regression model with log-logistic baseline
> ## interval censored model
> ic_fit <- ic_par(cbind(l,u) ~ grp, 
+            model = 'po', dist = 'loglogistic', data = miceData)
> 
> summary(logReg_fit)

Call:
glm(formula = resp ~ log_age + grp, family = binomial, data = miceData)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.1413  -0.8052   0.5712   0.8778   1.8767  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)   
(Intercept)  18.3526     6.7149   2.733  0.00627 **
log_age      -2.7203     1.0414  -2.612  0.00900 **
grpge        -1.1721     0.4713  -2.487  0.01288 * 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 196.84  on 143  degrees of freedom
Residual deviance: 160.61  on 141  degrees of freedom
AIC: 166.61

Number of Fisher Scoring iterations: 5

> summary(ic_fit)

Model:  Proportional Odds
Baseline:  loglogistic 
Call: ic_par(formula = cbind(l, u) ~ grp, data = miceData, model = "po", 
    dist = "loglogistic")

          Estimate Exp(Est) Std.Error z-value        p
log_alpha    6.603 737.2000   0.07747  85.240 0.000000
log_beta     1.001   2.7200   0.38280   2.614 0.008943
grpge       -1.172   0.3097   0.47130  -2.487 0.012880

final llk =  -80.30575 
Iterations =  10 
> 
> ## Comparing loglikelihoods
> logReg_fit$deviance/(-2) - ic_fit$llk
[1] 2.643219e-12

Perhatikan bahwa efeknya grpsama di setiap model, dan kemungkinan log-akhir hanya berbeda dengan kesalahan numerik. Parameter dasar (yaitu intersep dan log_age untuk regresi logistik, alfa dan beta untuk model interval yang disensor) adalah parameterisasi yang berbeda sehingga tidak sama.

Jadi begitulah: menggunakan regresi logistik setara dengan menyesuaikan peluang proporsional dengan distribusi baseline log-logistik. Jika Anda setuju dengan model parametrik ini, regresi logistik cukup masuk akal. Saya mengingatkan bahwa dengan data interval sensor, model semi-parametrik biasanya disukai karena kesulitan menilai kecocokan model, tetapi jika saya benar-benar berpikir tidak ada tempat untuk model parametrik penuh saya tidak akan memasukkannya icenReg.

Cliff AB
sumber
Ini terlihat sangat membantu. Saya akan melihat sumber daya yang Anda tuju dan bermain dengan paket icenReg. Saya mencoba mencari tahu mengapa regresi logistik kurang cocok - saran @EdM terlihat di permukaan seolah-olah harus bekerja. Apakah bias muncul karena "peristiwa" - di sini, memiliki keturunan - mungkin memiliki efek pada kelangsungan hidup? Jadi, jika menurunkan kelangsungan hidup, kita akan menemukan bahwa di antara individu pada usia tertentu, mereka yang belum bereproduksi akan lebih terwakili?
user2390246
1
@ user2390246: Anda bisa menggunakan regresi logistik untuk data status saat ini. Tetapi kemudian Anda harus melakukan banyak pekerjaan untuk mendapatkan bentuk fungsional dari usia, dan interaksinya dengan variabel lain, benar. Ini sangat tidak sepele. Dengan model berbasis survival, Anda dapat menggunakan baseline semi-parametrik ( ic_spdalam icenReg) dan tidak khawatir sama sekali tentang itu. Selain itu, melihat kurva survival untuk kedua kelompok menjawab pertanyaan Anda dengan benar. Mencoba menciptakan ini dari pas logistik dapat dilakukan, tetapi sekali lagi, lebih banyak pekerjaan daripada menggunakan model bertahan hidup.
Cliff AB
Saya setuju dengan @CliffAB tentang ini. Saya ragu-ragu untuk merekomendasikan regresi logistik secara khusus karena kesulitan mendapatkan bentuk fungsional yang tepat untuk ketergantungan pada usia. Saya belum punya pengalaman dengan analisis data status saat ini; tidak harus mencari tahu bahwa bentuk ketergantungan pada usia adalah keuntungan besar dari teknik itu. Meskipun demikian, saya akan menjaga jawaban saya agar mereka yang kemudian memeriksa utas ini akan mengerti bagaimana ini terjadi.
EdM
Sepertinya saya bahwa komentar Anda di sini adalah inti dari masalah ini. Akan membantu jika Anda bisa mengembangkannya dalam jawaban Anda. Misalnya, jika Anda dapat menggunakan contoh data OP untuk membangun model LR & model survival yang disensor interval, & tunjukkan bagaimana yang terakhir lebih mudah menjawab pertanyaan penelitian OP.
gung - Reinstate Monica
1
@ung: sebenarnya, saya telah mengambil sikap yang lebih lunak tentang regresi logistik. Saya mengedit jawaban saya untuk mencerminkan ini.
Cliff AB
4

f(x)F(x)xsayasayaf(xsaya)ysaya1-F(ysaya)zsayaF(zsaya)(ysaya,zsaya]F(zsaya)-F(ysaya)

Björn
sumber
1
f(x)F(ysaya)F(ysaya+)
4

Masalah ini sepertinya ditangani dengan regresi logistik.

Anda memiliki dua status, A dan B, dan ingin menguji probabilitas apakah seseorang tertentu telah beralih secara tidak dapat diubah dari keadaan A ke keadaan B. Satu variabel prediktor fundamental adalah usia pada saat pengamatan. Faktor atau faktor lain yang menarik adalah variabel prediktor tambahan.

Model logistik Anda kemudian akan menggunakan pengamatan aktual dari keadaan A / B, usia, dan faktor-faktor lain untuk memperkirakan kemungkinan berada di negara B sebagai fungsi dari para prediktor tersebut. Usia di mana probabilitas melewati 0,5 dapat digunakan sebagai perkiraan waktu transisi, dan Anda akan kemudian memeriksa pengaruh faktor-faktor lain pada waktu transisi yang diprediksi.

Ditambahkan dalam menanggapi diskusi:

Seperti halnya model linear, Anda perlu memastikan bahwa prediktor Anda ditransformasikan sedemikian rupa sehingga mereka menghasilkan hubungan linier dengan variabel hasil, dalam hal ini log-odds dari probabilitas pindah ke negara B. Itu belum tentu masalah sepele. Jawaban oleh @CliffAB menunjukkan bagaimana transformasi log dari variabel umur dapat digunakan.

EdM
sumber