Sensor kanan dan sensor kiri

10

Wikipedia memberikan definisi berikut:

Penyensoran benar : titik data berada di atas nilai tertentu tetapi tidak diketahui seberapa banyak.
Sensor kiri : titik data di bawah nilai tertentu tetapi tidak diketahui seberapa banyak.

Dalam definisi ini, apa yang dimaksud dengan:

  • "titik data"
  • "nilai tertentu", dan
  • "berapa banyak"

Secara umum, Apa sensor kanan dan kiri?

Apakah pernyataan di bawah ini benar:

"Dalam sensor kanan, kita hanya memiliki batas bawah untuk nilai yang disensor."

Apa yang akan menjadi pernyataan analog untuk sensor kiri?

ABC
sumber
Periksa juga stats.stackexchange.com/questions/197628/… untuk mempelajari lebih lanjut tentang penyensoran.
Tim

Jawaban:

14

Sebagai tag survival digunakan saya akan menambahkan jawaban menawarkan beberapa contoh dengan rasa analisis survival.

Titik data

Dengan titik data, kami hanya bermaksud beberapa pengamatan, yaitu hasil dari satu atau lebih variabel. Sebagai contoh, kita mungkin memiliki yang berikut ini dalam kumpulan data: orang 1 dalam penelitian kami adalah laki-laki dan meninggal pada usia 58. Kita bisa menganggap itu sebagai titik data. Tetapi dalam contoh Anda jelas bahwa titik data hanya terdiri dari hasil dari satu variabel, misalnya 58.

Penyensoran benar

Jika kita memodelkan waktu untuk gagal, ada alasan yang jelas untuk menyensor, yaitu, bahwa kita tidak perlu punya waktu untuk menunggu semua subjek gagal. Katakanlah kita sedang menguji efek vaksin anak-anak. Jika kita melakukan uji coba secara acak, subjek terakhir kita akan mati seratus tahun atau lebih dari sekarang. Ini secara alami memperkenalkan penyensoran, dalam hal ini penyensoran benar, seperti yang pada suatu saat kita harus katakan "kita tidak tahu berapa lama lagi orang ini akan hidup, kita hanya tahu bahwa dia masih hidup". Penyensoran benar juga dapat terjadi jika orang-orang dalam uji coba secara acak hilang untuk ditindaklanjuti, misalnya mereka mungkin ingin menghentikan partisipasi mereka dalam penelitian atau pindah. Ini adalah contoh penyensoran benar, pada dasarnya kami Kami tertarik pada umur panjang subyek kami, tetapi karena keadaan praktis kami hanya memiliki pengamatan yang disensor, yang berarti bahwa untuk beberapa subjek kami tidak akan pernah tahu kapan mereka mati, hanya saja pada titik waktu tertentu (waktu sensor) mereka masih hidup. Dengan demikian, kita tahu bahwa untuk individu yang disensor, titik data (waktu kematian) lebih besar dari nilai tertentu (waktu sensor).

Sensor kiri

Sebagai contoh sensor kiri, pertimbangkan hal berikut. Katakanlah beberapa pasukan babun selalu tidur di pohon. Kami ingin memperkirakan pada jam berapa mereka turun dari pohon, dan mari kita asumsikan bahwa mereka turun setiap hari. Kami mengikuti mereka selama beberapa hari, namun, kami suka tidur, yang berarti bahwa beberapa hari mereka turun sebelum kami tiba di tempat kejadian. Jika kita tiba jam 9 pagixdan babon sudah turun, kami memiliki data yang disensor kiri. Kami ingin tahu kapan mereka turun, tetapi yang kami miliki hanyalah batas atas (jam 9 pagi), karena kami tahu bahwa pada saat kedatangan kami, mereka sudah turun. Secara analog, kita sekarang tahu bahwa titik data (waktu turun pada hari itux) lebih kecil dari nilai tertentu (9. pagi).

Contoh ini diambil dari

Andersen, PK, Borgan, Ø., Gill, RD, dan Keiding, N. (1993), Model Statistik berdasarkan Proses Penghitungan , Seri Springer dalam Statistik, Springer-Verlag, New York.

Buku ini memberikan definisi matematis tentang sensor dan mungkin bukan buku pertama tentang analisis survival yang harus diperoleh. Namun, ia juga memiliki beberapa contoh intuitif, seperti di atas.

swmo
sumber
Tapi, katakanlah, satu babon belum turun ketika kita tiba di tempat (9 pagi, nilai tertentu). Jadi kami mulai mengamati kapan itu akan turun. Lalu bukankah kita memiliki titik data (waktu turun) di atas nilai tertentu (9 pagi)? Tapi tetap saja data itu disensor kiri. Apakah wikipedia memberikan definisi lebih umum?
ABC
1
Saya mengasumsikan seluruh pasukan turun pada satu waktu, bersama-sama. Tapi itu tidak membuat banyak perbedaan. Jika kita tiba setelah turun kita hanya tahu batas atas pada saat turun (yaitu waktu kedatangan kita), dengan demikian titik data ini (waktu turun pada hari tertentu) disensor kiri. Jika kita tiba sebelum turun, titik data itu tidak akan disensor (kecuali kita bosan menunggu dan pergi sebelum turun, dalam hal itu kita memiliki data yang disensor dengan benar, dengan asumsi mereka turun setiap hari).
Berenang
Contoh lain dari data yang disensor benar adalah data interval waktu di mana kita tidak tahu itu dimulai. Ini sering disalahartikan sebagai data yang disensor benar (ada beberapa contoh di forum dan milis dengan kesalahpahaman ini).
drevicko
4

Misalkan saya memiliki bar tempat saya bermain band. Bilahnya cukup kecil, jadi hanya 150 orang yang dapat melihat pertunjukan pada satu waktu (ini kuncinya). Saya menjual tiket ke pertunjukan, sehingga data akuntansi saya akan terlihat seperti ini:

date     band               price   tickets_sold
10/01/14 Texas Instruments  $20     2
10/02/14 Unkind Donuts      $30     150
...
03/02/15 The Capybaras      $15     120

Titik data hanyalah satu baris dalam tabel ini.

Misalkan variabel yang ingin saya pertimbangkan adalah permintaan tiket. Permintaan untuk pertunjukan pertama tidak disensor. Hanya dua orang yang ingin melihat Texas Instruments di $ 20 dan 148 tiket tidak terjual. Saya tahu persis permintaan $ 20: 2 tiket yang terjual.

Namun, variabel permintaan disensor di baris kedua karena acara terjual habis. Saya tahu bahwa setidaknya 150 orang ingin melihat Donk Unkind dengan harga $ 30 per tiket, tetapi berapa banyak orang yang ditolak tanpa tiket tidak diketahui oleh saya, jadi saya tidak tahu persis permintaan. Yang saya tahu adalah batas bawah 150.

Sekarang anggaplah saya ingin mengukur kehadiran di pertunjukan ketiga sebagai gantinya. Kita dapat menghitung orang di pintu, tetapi demi contoh ini mari kita asumsikan bahwa penjaga saya buruk dalam aritmatika. Kita tahu bahwa beberapa orang akan membeli tiket dan kemudian tidak datang. Ini berarti bahwa kehadirannya paling banyak 120 karena itu adalah berapa banyak tiket yang terjual. Itu adalah batas atas kehadiran untuk The Capybaras, yang disensor kiri.

Dimitriy V. Masterov
sumber
1

Kesalahpahaman umum dengan sensor kiri adalah klasifikasi titik data interval waktu di mana Anda tidak tahu itu dimulai. Banyak yang berpikir ini disensor kiri, tetapi sebenarnya disensor benar karena kita memiliki batas bawah pada panjang interval.

Contoh konkret dapat berupa data klinis tentang durasi "foo-pox", biasanya penyakit yang tidak terminal, dan kami tertarik pada lamanya waktu yang dibutuhkan orang untuk pulih. Gejala-gejala foo-cacar mudah diamati (misalnya: gigi Anda menjadi hijau). Kebanyakan orang dalam penelitian kami tahu persis kapan itu dimulai dan kapan itu berakhir.

Contoh klasik dari data yang disensor benar dalam jenis penelitian ini adalah subjek yang masih menderita foo-pox di akhir penelitian atau masih memiliki foo-pox ketika mereka menghilang ("mangkir") selama penelitian (mari kita asumsikan kita tahu tanggal mulai penyakit untuk orang-orang ini). Untuk orang-orang ini kita memiliki batas yang lebih rendah pada durasi, maka data mereka disensor dengan benar . Ini secara intuitif "disensor benar" karena kita tidak tahu ujung kanan periode waktu.

Masalahnya adalah ketika kita tidak tahu tanggal mulai periode waktu (orang yang hidup sendiri dan tidak memiliki cermin, jadi tidak tahu kapan gigi mereka berubah hijau). Apakah ini disensor kiri atau kanan? Banyak yang keliru berpikir bahwa ujung kiri periode waktu tidak diketahui, oleh karena itu kiri disensor. Ini adalah hasil yang disayangkan dari terminologi, yang saya kira berkembang dengan tidak adanya sensor semacam ini. Untuk orang-orang ini, kita memiliki batas yang lebih rendah pada periode waktu (kita tahu mereka memiliki cacar air setidaknya sejak tetangga mereka menyebutkan gigi hijau mereka sampai mereka menjadi lebih baik atau penelitian berakhir dan mereka masih sakit), sehingga data mereka adalah disensor benar .

drevicko
sumber
2
Saya pikir jawaban Anda agak membingungkan. Pada awalnya, Anda berbicara tentang menyensor interval waktu, kemudian tentang menyensor periode waktu (satu nomor). Dalam paragraf terakhir, Anda mungkin juga menyatakan bahwa data adalah interval dari waktu onset foo-pox hingga kematian. Dalam hal ini Anda akan memiliki interval disensor kiri dalam contoh Anda, karena Anda tidak perlu tahu waktu onset yang tepat, hanya batas atas. Sama baiknya, Anda bisa (seperti yang Anda lakukan) melihat durasi foo-cacar, dalam hal ini Anda bisa mendapatkan batas yang lebih rendah pada durasi, sehingga memiliki sensor yang tepat.
Berenang
Bagaimana Anda kode ini dalam data itu, misalnya dalam objek R Surv? Apakah peristiwa dari catatan yang disensor kanan-kanan adalah "remisi" atau "kejadian kejadian", sedangkan kejadian dari catatan yang disensor kanan-kanan adalah "disensor kanan / tidak ada kejadian / tidak ada remisi"? Selain itu, nampaknya tingkat bahaya harus berbeda antara kedua jenis peristiwa terpotong-kanan, karena ini harus dimodelkan sebagai fungsi dari awal penyakit? Jenis model apa yang akan menangani ini?
Allen Wang
@ AllenWang Takut saya tidak terlalu familliar dengan objek R Surv, tapi saya berharap terminologinya konsisten, jadi jika Anda berhati-hati untuk memahami dan mengikutinya, Anda harus baik-baik saja. Adapun tingkat bahaya, tidak ada perbedaan, dalam kedua kasus, Anda hanya memiliki batas bawah pada durasi acara.
drevicko