Apa sebenarnya data yang disensor?

14

Saya telah membaca berbagai deskripsi data yang disensor:

A) Sebagaimana dijelaskan dalam utas ini , data yang tidak dikuantifikasi di bawah atau di atas ambang tertentu disensor. Tidak dikenali berarti data di atas atau di bawah ambang tertentu tetapi kami tidak tahu nilai pastinya. Data kemudian ditandai pada nilai ambang batas rendah atau tinggi dalam model regresi. Ini cocok dengan deskripsi dalam presentasi ini , yang saya temukan sangat jelas (slide ke-2 di halaman pertama). Dengan kata lain $Y$ dibatasi hingga minimum, nilai maksimum, atau keduanya karena kita tidak tahu nilai sebenarnya di luar rentang itu.

B) Seorang teman mengatakan kepada saya bahwa kita dapat menerapkan model data yang disensor ke pengamatan sebagian tidak diketahui , asalkan kita memiliki setidaknya beberapa informasi batas tentang hasil tidak diketahui . Misalnya, kami ingin memperkirakan harga akhir untuk campuran lelang diam-diam dan terbuka berdasarkan beberapa kriteria kualitatif (jenis barang, negara, kekayaan penawar, dll.). Sedangkan untuk pelelangan terbuka kita tahu semua harga final , untuk pelelangan diam kita hanya tahu tawaran pertama (katakanlah, $ 1.000) tetapi bukan harga akhir. Saya diberitahu bahwa dalam hal ini data disensor dari atas dan model regresi yang disensor harus diterapkan. $Y$ $Y_i$ $Y_i$

C) Akhirnya ada definisi yang diberikan oleh Wikipedia di mana hilang sama sekali tetapi prediktor tersedia. Saya tidak yakin bagaimana contoh ini berbeda dari data terpotong. $Y$

Jadi apa sebenarnya data yang disensor?

regression terminology censoring Robert Kubrick
sumber

6

Artikel Wikipedia yang lebih relevan ada di en.wikipedia.org/wiki/Censoring_%28statistics%29 . Meskipun tidak komprehensif, setidaknya menggambarkan sensor Tipe I dan Tipe II dan mengakui sensor interval bersama dengan sensor kiri dan kanan.

whuber

8

Pertimbangkan data berikut pada hasil dan kovariat : $y$ $x$

user y       x   
1    10      2 
2   (-∞,5]   3 
3   [4,+∞)   5   
4   [8,9]    7
5     .      .

Untuk pengguna 1, kami memiliki data lengkap. Untuk semua orang, kami memiliki data yang tidak lengkap. Pengguna 2, 3 dan 4 semuanya disensor: hasil yang sesuai dengan nilai-nilai kovariat yang diketahui tidak diamati atau tidak diamati secara tepat (disensor kiri, kanan, dan interval). Terkadang ini adalah artefak pertimbangan privasi dalam desain survei. Di lain waktu, itu terjadi karena alasan lain. Sebagai contoh, kami tidak mengamati upah di bawah upah minimum atau permintaan aktual untuk tiket konser di atas kapasitas arena.

Pengguna 5 terpotong: hasil dan kovariat tidak ada. Ini biasanya terjadi karena kami hanya mengumpulkan data pada orang yang melakukan sesuatu. Misalnya, kami hanya mensurvei orang-orang yang membeli sesuatu ( ), jadi kami mengecualikan siapa pun dengan bersama dengan s mereka. Kami bahkan mungkin tidak memiliki baris untuk tipe data keluar pengguna ini, meskipun kami tahu mereka ada karena kami tahu aturan yang digunakan untuk menghasilkan sampel kami. Contoh lain adalah pemotongan insidental : kami hanya mengamati tawaran upah untuk orang-orang yang berada dalam angkatan kerja, karena kami menganggap bahwa tawaran upah adalah upah ketika Anda bekerja. Pemotongan bersifat insidental karena tidak tergantung pada $y>0$ $y=0$ $x$ $y$ , tetapi pada variabel lain.

Singkatnya, pemotongan menyiratkan kehilangan informasi yang lebih besar daripada menyensor (poin A & B). Kedua jenis "ketiadaan" ini sistematis.

Bekerja dengan tipe data ini biasanya melibatkan membuat asumsi distribusi yang kuat tentang kesalahan, dan memodifikasi kemungkinan untuk memperhitungkannya. Pendekatan semi parametrik yang lebih fleksibel juga dimungkinkan. Ini tersirat dalam poin Anda B.

Dimitriy V. Masterov
sumber

2

Dua aspek dari jawaban ini membingungkan saya. Pertama, nilai murni yang hilang tidak mencerminkan pemotongan. Kedua, cara menyensor ("acak" vs. "informatif") seringkali sama pentingnya dengan fakta penyensoran, yang menunjukkan bahwa ada lebih banyak penyensoran daripada sekadar pencatatan data bernilai interval.

whuber

Ini adalah contoh yang sangat bagus. Apakah ini berarti bahwa "batas sensor" yang berbeda dapat diterapkan untuk masing-masing

? Bagaimana kita merumuskan model dalam kasus ini? Ini akan memvalidasi pernyataan teman saya di B).

y

$y$

Robert Kubrick

1

Jika Anda bersedia untuk mengasumsikan kesalahan homoskedastik, yang terdistribusi normal, kemungkinannya dapat ditulis seperti ini dan Anda dapat menggunakan MLE dengan ambang sensor penyidikan khusus.

Dimitriy V. Masterov

3

@ Peter Bukankah itu sensor (kanan)? Pemotongan akan terjadi ketika semua orang tersebut dikeluarkan dari dan tidak dihitung dalam sampel sama sekali. Lihat en.wikipedia.org/wiki/Truncation_(statistics) .

whuber

1

@ Peter Apa yang membingungkan adalah Anda menulis "maka kita tahu bahwa BMI orang itu lebih dari 30": bagaimana Anda bisa merujuk ke seseorang yang bahkan tidak ada dalam sampel Anda ("tidak dihitung")? Pengamatan dari bentuk "BMI> 30" adalah menyensor sedangkan pengecualian lengkap dari semua pengamatan tersebut dari analisis Anda, bahkan ketika mereka mungkin ada dalam populasi, adalah pemotongan. Dalam kasus terakhir yang bisa Anda katakan adalah "orang dengan BMI di atas 30 telah dikeluarkan dari sampel."

Whuber

9

Secara deskriptif, saya akan menawarkan "sampel data disensor jika beberapa pengamatan di dalamnya mengambil, atau merupakan, nilai ekstrim sampel tetapi nilai sebenarnya berada di luar rentang sampel yang diamati". Tapi ini sangat mudah.

Jadi pertama mari kita bahas bagaimana kita dapat menyimpulkan bahwa set data disensor, yang secara alami akan mengarahkan kita untuk membahas kasus-kasus yang disajikan dalam pertanyaan.

Misalkan kita diberi set data berikut dari variabel acak diskrit , yang hanya kita ketahui adalah bahwa itu non-negatif: $X$

{0, 1, 1, 2, 2, 2, 2, 2, 2, 2}

$\{0,1,1,2,2,2,2,2,2,2\}$

Bisakah kita mengatakan bahwa kumpulan data disensor? Kita berhak berpikir bahwa itu mungkin, tetapi tidak harus demikian:

1) mungkin memiliki rentang dan distribusi probabilitas . Jika memang demikian, tampaknya tidak ada sensor di sini, hanya sampel "yang diantisipasi" dari variabel acak seperti itu, dengan dukungan terikat dan distribusi sangat asimetris. $X$ $\{0,1,2\}$ $\{0.1,0.1,0.8\}$

2) Tapi mungkin kasus yang memiliki rentang dengan distribusi probabilitas seragam $X$ $\{0,1,...,9\}$ $\{0.1,0.1,...0.1\}$ , dalam hal ini sampel data kami kemungkinan besar disensor.

Bagaimana kita tahu? Kami tidak dapat, kecuali jika kami memiliki pengetahuan atau informasi sebelumnya , yang akan memungkinkan kami untuk berdebat mendukung satu atau kasus lainnya. Apakah ketiga kasus yang disajikan dalam pertanyaan mewakili pengetahuan sebelumnya tentang efek penyensoran? Ayo lihat:

Kasus A) menggambarkan situasi di mana untuk beberapa pengamatan kami hanya memiliki informasi kualitatif seperti "sangat besar", "sangat kecil" dll, yang mengarahkan kami untuk memberikan nilai ekstrim pada pengamatan. Perhatikan bahwa tidak mengetahui nilai realisasi yang sebenarnya tidak membenarkan pemberian nilai ekstrem. Jadi kita harus memiliki beberapa informasi yang menyatakan bahwa untuk pengamatan ini, nilainya melebihi atau di bawah semua yang diamati. Dalam hal ini, kisaran aktual dari variabel acak tidak diketahui, tetapi informasi kualitatif kami memungkinkan kami untuk membuat sampel yang disensor (ini adalah diskusi lain mengapa kami tidak hanya meninggalkan pengamatan yang kami tidak memiliki nilai realisasi aktual) ).

Kasus B) adalah bukan kasus menyensor, jika saya mengerti benar, melainkan kasus sampel terkontaminasi: kami apriori informasi memberitahu kita bahwa nilai maksimum dari variabel acak tidak dapat melebihi (karena katakanlah kepada hukum fisik atau hukum sosial - anggap ini adalah nilai data dari sistem penilaian yang hanya menggunakan nilai ). Tetapi kami telah mengamati juga nilai dan nilai . Bagaimana ini bisa terjadi? Kesalahan dalam pencatatan data. Tetapi dalam kasus seperti itu, kita tidak tahu pasti bahwa angka dan harus semuanya $3$ $1,2,3$ $4$ $5$ $4$ $5$ $3$ (sebenarnya, melihat keyboard samping dari komputer, lebih mungkin bahwa adalah dan adalah !). Dengan "mengoreksi" dengan cara apa pun sampel, kami tidak membuatnya menjadi yang disensor, karena variabel acak tidak seharusnya berkisar dalam rentang yang direkam di tempat pertama (sehingga tidak ada probabilitas benar ditugaskan untuk nilai dan ). $4$ $1$ $5$ $2$ $4$ $5$

Kasus C) mengacu pada sampel bersama, di mana kami memiliki variabel dependen dan prediktor. Di sini, kita dapat memiliki sampel di mana nilai-nilai variabel dependen terkonsentrasi pada satu atau kedua ekstrem, karena struktur fenomena yang diteliti: Dalam contoh biasa "jam kerja", orang yang menganggur tidak bekerja tetapi mereka akan memiliki berhasil (pikirkan baik-baik: apakah kasus ini benar-benar berada di bawah "definisi" deskriptif di awal jawaban ini?). Jadi termasuk mereka dalam regresi dengan jam yang dicatat "nol" membuat bias. Untuk ekstrem lainnya, jumlah jam maksimum yang bekerja mungkin dianggap dapat mencapai, katakanlah $16$ / hari, dan mungkin ada karyawan yang mau bekerja begitu banyak untuk upah yang diberikan. Tetapi kerangka hukum tidak mengizinkannya dan karenanya kami tidak mengamati "jam kerja" tersebut. Di sini, kami mencoba untuk memperkirakan " fungsi pasokan tenaga kerja yang dimaksudkan " - dan sehubungan dengan variabel ini sampel dicirikan sebagai tersensor.
Tetapi jika kita menyatakan bahwa apa yang ingin kita lakukan adalah memperkirakan "fungsi pasokan tenaga kerja diberikan fenomena pengangguran dan kerangka kerja hukum", sampel tidak akan disensor, karena itu akan mencerminkan efek dari dua aspek ini, sesuatu yang kita inginkan itu harus dilakukan.

Jadi kita melihat bahwa mengkarakterisasi sampel data sebagai yang disensor
a) dapat berasal dari situasi yang berbeda dan
b) memerlukan beberapa perawatan -
biarkan saja fakta bahwa hal itu dapat dikacaukan dengan kasus pemotongan .

Alecos Papadopoulos
sumber

6

Ini tampaknya menjadi perspektif ekonometrik. Catat bahwa adalah umum dalam penelitian biomedis untuk memiliki durasi (mungkin secara harfiah kelangsungan hidup) sebagai tanggapan, & meminta pasien disensor dengan tidak mengalami peristiwa tersebut pada akhir periode pengamatan. Tetapi juga untuk memiliki pasien yang keluar atau hilang untuk menindaklanjuti selama periode observasi. (Mungkin mereka pindah & kontak hilang.) Kita bisa tahu bahwa waktu bertahan hidup adalah kontak terakhir, tetapi bisa lebih pendek dari akhir periode pengamatan.

gung - Reinstate Monica

Kasus B bukan untuk data yang salah atau terkontaminasi. Misalkan kita ingin memperkirakan harga akhir dari campuran lelang diam dan terbuka berdasarkan beberapa kriteria kualitatif (jenis barang, negara, kekayaan penawar, ...). Untuk pelelangan bisu, kami hanya tahu tawaran pertama (katakanlah, $ 1.000) tetapi bukan harga akhirnya. Saya diberitahu bahwa kita dapat menggunakan data lelang diam dengan menggunakan beberapa bentuk pemodelan yang disensor.

Robert Kubrick

1

@ung ini tentu saja merupakan pendekatan ekonometrik, mengingat siapa yang menulis jawabannya!

Alecos Papadopoulos

1

@RobertKunrick Apa yang Anda gambarkan tidak cocok dengan kasus B. Cara Case B dijelaskan, kami mengamati serangkaian nilai, dan kemudian kami diberitahu bahwa beberapa nilai yang diamati pada kenyataannya tidak mungkin. Bagaimana itu cocok dengan contoh lelang?

Alecos Papadopoulos

Tolong jangan menganggapnya sebagai kritik, @AlecosPapadopoulos. Saya rasa tidak ada yang salah. Saya hanya ingin menunjukkan bahwa istilah digunakan secara berbeda di bidang yang berbeda, & ini bukan konvensi stat / biostat.

gung - Reinstate Monica

2

$Z_i$ $Z_i = z_i$ $Z_i \in a_i$ $a_i$ $A_i$ $\mathcal A_i$ $\mathcal Z$ $Z_i$ $A_i \in \mathcal A_i$ $Z_i \in A_i$ $I(Z_i \in A)$ $A \in \mathcal A_i$ $Z_i$ $\mathcal A_i$ $Z_i$ .

$[Z_i \mid Z_i \in a_i]$ $Z_i$ $Z_i = (X_i, Y_i)$ $Y_i$ $a_i = \{x\} \times \mathcal Y$ $\mathcal Y$ $Y$ $Z_i$ $a_i = \mathcal Z$ $Z_i$ $Z_i$

orang
sumber

1

Sangat penting untuk membedakan data yang disensor versus terpotong serta data yang hilang .

Penyensoran berlaku khusus untuk masalah analisis kelangsungan hidup dan hasil waktu-ke-peristiwa di mana peristiwa yang dihadapi diasumsikan telah terjadi pada beberapa waktu melewati titik di mana Anda berhenti mengamati individu itu . Contohnya adalah laki-laki yang berhubungan seks dengan laki-laki (LSL) dan risiko insiden HIV dalam penelitian prospektif yang memindahkan dan menghentikan kontak dengan koordinator penelitian.

Pemotongan berlaku untuk variabel kontinu yang mengevaluasi ke titik tertentu di mana nilai aktual diketahui lebih besar dari atau kurang dari titik itu. Contohnya adalah pemantauan subyek dengan HIV dan pengembangan AIDS, jumlah CD4 yang turun di bawah 300 dievaluasi hingga 300 yang lebih rendah dari deteksi.

Terakhir, data yang hilang adalah data yang memiliki nilai aktual yang tidak diamati dalam arti apa pun. Data yang disensor tidak hilang data waktu-ke-acara juga tidak terpotong.

AdamO
sumber

1

Ada kegunaan lain dari "pemotongan": untuk menggambarkan proses menghasilkan data di mana pengamatan di atas / di bawah cut-off tidak dapat diperoleh. Contoh klasik melibatkan penghitungan jumlah telur yang ditemukan di dalam sarang spesies burung tertentu, di mana spesies hanya dapat diidentifikasi dari telur; sarang kosong bisa dari spesies apa pun jadi tidak. nol tidak diketahui. Jika tidak. telur mengikuti distribusi Poisson, jumlah telur dari sarang yang tidak kosong mengikuti Poisson yang terpotong. Jadi pemotongan menghasilkan data yang hilang sesuai dengan mekanisme spesifik yang didefinisikan dengan baik.

Scortchi

1

... Data jumlah sel Anda memang disensor menurut pemahaman banyak orang tentang istilah tersebut, yang tidak terbatas pada pengukuran waktu-ke-peristiwa, karena Anda tahu segalanya tentang setiap subjek kecuali seberapa jauh di bawah 300 jumlah selnya; "pemotongan" di sini (atau "Winsorisasi") menjelaskan metode analisis, yaitu perlakuan nilai di bawah 300 seolah-olah sama dengan 300.

Scortchi - Reinstate Monica

Referensi yang jelas tentang konsep analisis survival dari sensor: itl.nist.gov/div898/handbook/apr/section1/apr131.htm .

Eric O Lebigot

-1

Disensor: Ini adalah istilah yang digunakan untuk menunjukkan bahwa periode pengamatan terputus sebelum peristiwa yang menarik terjadi. Jadi '' data yang disensor '' menunjukkan bahwa periode peristiwa tertentu tidak atau tidak pernah terjadi

Abdulfatah Lawal
sumber

3

Selamat datang di situs ini. Jika ini disalin dari beberapa sumber, harap sebutkan sumbernya.

gung - Reinstate Monica

3

Sensor berlaku untuk lebih dari pengamatan tergantung waktu. Misalnya, pengukuran konsentrasi kimia yang di bawah batas deteksi juga disensor.

whuber

@whuber: Bolehkah saya menawarkan amandemen yang ramah untuk pengamatan itu. Konsentrasi kimia yang jatuh di bawah batas deteksi memang disensor, tetapi karena tidak mungkin negatif, analisis harus menganggapnya terpotong nol. Pemahaman saya sendiri tentang perbedaan sensor pemotongan adalah pemotongan yang berlaku untuk berbagai parameter yang mungkin untuk distribusi yang mendasarinya.

DWin

@DWin Terima kasih atas klarifikasi yang bijaksana. Saya hanya bisa setuju dengan poin pertama. Namun, dalam sebagian besar set data yang saya analisis, perlu untuk menyatakan kembali konsentrasi sebagai logaritma - dan di sana perbedaannya menghilang. Dalam dataset lain di mana latar belakang telah dikurangi (seperti pengukuran radiologis), tidak ada titik akhir kiri yang pasti. Poin kedua Anda menganggap saya tidak biasa: Saya belum pernah melihat "pemotongan" yang digunakan untuk merujuk pada membuat subset dari keluarga distribusi.

whuber

Apa sebenarnya data yang disensor?

Jawaban: