Mengapa waktu bertahan hidup diasumsikan terdistribusi secara eksponensial?

36

Saya belajar analisis bertahan hidup dari pos ini pada UCLA IDRE dan tersandung di bagian 1.2.1. Tutorial mengatakan:

... jika waktu bertahan hidup diketahui terdistribusi secara eksponensial , maka kemungkinan mengamati waktu bertahan hidup ...

Mengapa waktu bertahan hidup diasumsikan terdistribusi secara eksponensial? Sepertinya sangat tidak alami bagi saya.

Mengapa tidak didistribusikan secara normal? Katakanlah seandainya kita sedang menyelidiki rentang hidup beberapa makhluk dalam kondisi tertentu (katakanlah jumlah hari), haruskah itu lebih terpusat di sekitar sejumlah angka dengan beberapa variasi (misalkan 100 hari dengan varian 3 hari)?

Jika kita ingin waktu menjadi sangat positif, mengapa tidak membuat distribusi normal dengan rata-rata yang lebih tinggi dan varians yang sangat kecil (hampir tidak akan memiliki peluang untuk mendapatkan angka negatif).

Haitao Du
sumber
9
Secara heuristik, saya tidak dapat menganggap distribusi normal sebagai cara intuitif untuk memodelkan waktu kegagalan. Tidak pernah terpotong di salah satu karya terapan saya. Mereka selalu condong ke kanan sangat jauh. Saya pikir distribusi normal heuristik muncul sebagai masalah rata-rata, sedangkan waktu bertahan hidup heuristik muncul sebagai masalah ekstrema seperti efek bahaya konstan yang diterapkan pada urutan komponen paralel atau seri.
AdamO
6
Saya setuju dengan @AdamO tentang distribusi ekstrim yang melekat pada kelangsungan hidup dan waktu kegagalan. Seperti yang telah dicatat oleh orang lain, asumsi eksponensial memiliki keuntungan sebagai penurut. Masalah terbesar dengan mereka adalah asumsi implisit dari tingkat pembusukan yang konstan. Bentuk fungsional lain dimungkinkan dan tersedia sebagai opsi standar tergantung pada perangkat lunak, misalnya, gamma umum. Tes Goodness of fit dapat digunakan untuk menguji berbagai bentuk dan asumsi fungsional. Teks terbaik tentang pemodelan survival adalah Analisis Survival Paul Allison Menggunakan SAS, edisi ke-2. Lupakan SAS-ini ulasan yang sangat bagus
Mike Hunter
8
Saya akan mencatat bahwa kata pertama dalam kutipan Anda adalah " jika "
Fomite

Jawaban:

41

Distribusi eksponensial sering digunakan untuk memodelkan waktu bertahan hidup karena mereka adalah distribusi paling sederhana yang dapat digunakan untuk mengkarakterisasi data survival / reliabilitas. Ini karena mereka tanpa memori, dan dengan demikian fungsi bahaya adalah konstan w / r / t waktu, yang membuat analisis sangat sederhana. Asumsi semacam ini mungkin berlaku, misalnya, untuk beberapa jenis komponen elektronik seperti sirkuit terpadu berkualitas tinggi. Saya yakin Anda dapat memikirkan lebih banyak contoh di mana efek waktu terhadap bahaya dapat dengan aman dianggap diabaikan.

Namun, Anda benar untuk mengamati bahwa ini tidak akan menjadi asumsi yang tepat untuk dibuat dalam banyak kasus. Distribusi normal dapat baik-baik saja dalam beberapa situasi, meskipun waktu kelangsungan hidup yang negatif tidak berarti. Untuk alasan ini, distribusi lognormal sering dipertimbangkan. Pilihan umum lainnya termasuk Weibull, Nilai Ekstrem Terkecil, Nilai Ekstrem Terbesar, Logistik, dll. Pilihan yang masuk akal untuk model akan diinformasikan oleh pengalaman bidang subjek dan kemungkinan plot . Anda juga dapat, tentu saja, mempertimbangkan pemodelan non-parametrik.

Referensi yang baik untuk pemodelan parametrik klasik dalam analisis survival adalah: William Q. Meeker dan Luis A. Escobar (1998). Metode Statistik untuk Data Keandalan , Wiley

klumbard
sumber
Bisakah Anda menguraikan lebih lanjut tentang "fungsi bahaya adalah konstan w / r / t waktu"?
Haitao Du
4
@ hxd1011: Agaknya dengan "fungsi bahaya" penulis mengacu pada fungsi diberikan oleh r X ( t ) = f X ( t ) / ˉ F X ( t )rXrX(t)=fX(t)/F¯X(t) , di mana adalah pdf dari X dan ˉ F X adalah ekor X ( ˉ F X ( t ) = 1 - F X ( t ) = tfXXF¯XX ). Ini juga disebut tingkatkegagalan. Pengamatan adalah untuk Exp ( λ ) , tingkat kegagalan adalah r ( t ) = ( λ e - λ t ) / ( e - λ t ) = λ , yang konstan. Selain itu, tidak sulit untuk menunjukkan bahwahanyadistribusi eksponensial yang memiliki sifat ini. F¯X(t)=1-FX(t)=tfX(x)dxExp(λ)r(t)=(λe-λt)/(e-λt)=λ
wchargin
22

Untuk menambahkan sedikit intuisi matematis di balik bagaimana eksponen muncul dalam distribusi survival:

Kepadatan probabilitas dari variabel survival adalah , di mana h ( t ) adalah bahaya saat ini (risiko bagi seseorang untuk "mati" hari ini) dan S ( t ) adalah probabilitas bahwa seseorang selamat sampai t . S ( t ) dapat diperluas sebagai probabilitas bahwa seseorang selamat hari 1, dan selamat hari 2, ... hingga hari t . Lalu: P ( s u r v if(t)=h(t)S(t)h(t)S(t)tS(t)tP ( s u r v i v e d d a y s 1 , 2 , . . . , t ) = ( 1 - h ( t ) ) t Dengan bahaya konstan dan kecil λ , kita dapat menggunakan: e - λ1 -

P(skamurvsayaved dSebuahy t)=1-h(t)
P(survived days 1,2,...,t)=(1h(t))t
λ mendekati S ( t ) sederhananya ( 1 - λ ) te - λ t , dan densitas probabilitas kemudian f ( t ) = h ( t ) S ( t ) = λ e - λ t
eλ1λ
S(t)
(1λ)teλt
f(t)=h(t)S(t)=λe-λt

Penafian: ini sama sekali bukan suatu upaya pada derivasi yang tepat dari pdf - Saya baru saja membayangkan ini adalah kebetulan yang rapi, dan menyambut setiap komentar tentang mengapa ini benar / salah.

EDIT: mengubah perkiraan per saran oleh @SamT, lihat komentar untuk diskusi.

anak muda
sumber
1
+1 ini membantu saya untuk lebih memahami properti distribusi eksponensial.
Haitao Du
1
S(t)=...tλt(1+x/n)n exx=Hai(n)limt(1-λt/t)t=e-λtt
tλ
1
λλt
(1+x/n)nex
λ
e-λt=(e-λ)t(1-λ)t.
λ=λt/t
e-λt(1-λt/t)t.
Diterapkan, Anda mungkin merasa ini agak pilih-pilih, tetapi intinya adalah bahwa alasannya tidak valid; langkah tidak valid yang serupa mungkin tidak benar. Tentu saja, ketika seseorang melamar, Anda mungkin senang membuat langkah ini, menemukannya berlaku di sebagian besar kasus dan tidak khawatir tentang spesifik! Sebagai seseorang yang mengerjakan matematika murni, ini tidak mungkin bagi saya, tetapi saya mengerti bahwa kita membutuhkan murni dan terapan! (Dan khususnya dalam statistik, bagus untuk tidak terjebak dalam masalah teknis murni.)
Sam T
11

Anda hampir pasti ingin melihat teknik reliabilitas dan prediksi untuk analisis menyeluruh waktu bertahan hidup. Dalam hal itu, ada beberapa distribusi yang sering digunakan:

Distribusi Weibull (atau "bathtub") adalah yang paling kompleks. Ini menjelaskan tiga jenis mode kegagalan, yang mendominasi pada usia yang berbeda: kematian bayi (di mana bagian yang rusak pecah sejak dini), kegagalan yang diinduksi (di mana bagian pecah secara acak sepanjang umur sistem), dan aus (di mana bagian rusak dari menggunakan). Seperti yang digunakan, ia memiliki PDF yang terlihat seperti "\ __ /". Untuk beberapa elektronik khususnya, Anda mungkin mendengar tentang "burn in" kali, yang berarti bagian-bagian itu telah dioperasikan melalui bagian "\" dari kurva, dan kegagalan awal telah disaring (idealnya). Sayangnya, analisis Weibull cepat rusakjika bagian Anda tidak homogen (termasuk lingkungan penggunaan!) atau jika Anda menggunakannya pada skala waktu yang berbeda (misalnya jika beberapa bagian langsung digunakan, dan bagian lain masuk ke penyimpanan terlebih dahulu, tingkat "kegagalan acak" akan berbeda secara signifikan, karena memadukan dua pengukuran waktu (jam operasi vs. jam penggunaan).

Distribusi normal hampir selalu salah. Setiap distribusi normal memiliki nilai negatif, tidak ada distribusi reliabilitas yang melakukannya. Kadang-kadang mereka bisa menjadi perkiraan yang berguna, tetapi saat-saat ketika itu benar, Anda hampir selalu melihat log-normal, jadi Anda mungkin juga menggunakan distribusi yang tepat. Distribusi log-normal benar digunakan ketika Anda memiliki semacam kegagalan acak aus dan diabaikan, dan dalam keadaan lain! Seperti distribusi Normal, mereka cukup fleksibel sehingga Anda dapat memaksa mereka agar sesuai dengan sebagian besar data; Anda perlu menahan dorongan itu dan memeriksa apakah situasinya masuk akal.

Akhirnya, distribusi eksponensial adalah pekerja keras yang sebenarnya. Anda sering tidak tahu berapa lama komponen itu (misalnya, ketika bagian-bagian tidak bersambung dan memiliki waktu yang berbeda ketika mereka masuk ke layanan), sehingga distribusi berbasis memori keluar. Selain itu, banyak bagian memiliki waktu habis yang begitu lama sehingga bisa didominasi oleh kegagalan yang disebabkan atau di luar kerangka waktu analisis yang berguna. Jadi, meskipun mungkin bukan model yang sempurna seperti distribusi lain, itu hanya tidak peduli tentang hal-hal yang membuat mereka tersandung. Jika Anda memiliki MTTF (waktu populasi / jumlah kegagalan), Anda memiliki distribusi eksponensial. Selain itu, Anda tidak memerlukan pemahaman fisik tentang sistem Anda. Anda dapat melakukan perkiraan eksponensial sajaberdasarkan pada MTTF bagian yang diamati (dengan asumsi sampel yang cukup besar), dan mereka keluar cukup dekat. Ini juga ulet untuk penyebab: jika setiap bulan, seseorang bosan dan bermain kroket dengan beberapa bagian sampai rusak, akun eksponensial untuk itu (itu masuk ke MTTF). Eksponensial juga cukup sederhana sehingga Anda dapat melakukan perhitungan back-of-the-envelope untuk ketersediaan sistem yang berlebihan dan semacamnya, yang secara signifikan meningkatkan kegunaannya.

fectin - membebaskan Monica
sumber
3
Ini adalah jawaban yang baik, tetapi perhatikan bahwa distribusi Weibull bukan distribusi parametrik "paling kompleks" untuk model survival. Saya tidak yakin apakah mungkin ada hal seperti itu, tetapi tentu saja relatif terhadap Weibull ada distribusi Gamma umum , & distribusi F umum , yang keduanya dapat mengambil Weibull sebagai kasus khusus dengan mengatur parameter ke 0.
gung - Reinstate Monica
Ini yang paling kompleks yang biasa digunakan dalam rekayasa reliabilitas (paragraf pertama :) Saya tidak setuju dengan poin Anda, tetapi saya juga belum pernah melihat keduanya benar-benar digunakan (tulisan tentang bagaimana mereka dapat digunakan, ya. Implementasi yang sebenarnya, tidak ada )
fectin - gratis Monica
9

Untuk menjawab pertanyaan eksplisit Anda, Anda tidak dapat menggunakan distribusi normal untuk bertahan hidup karena distribusi normal pergi ke infinity negatif, dan kelangsungan hidup benar-benar non-negatif. Selain itu, saya tidak berpikir itu benar bahwa "masa hidup diasumsikan didistribusikan secara eksponensial" oleh siapa pun dalam kenyataan.

zt

Distribusi eksponensial mengasumsikan bahwa bahayanya selalu persis sama, tidak peduli berapa lama unit telah selamat (perhatikan gambar di @ CaffeineConnoisseur's >1<1

Paling umum, distribusi survival kompleks dan tidak cocok dengan distribusi bernama apa pun. Orang-orang biasanya tidak mau repot-repot mencari tahu distribusi apa itu. Itulah yang membuat model bahaya proporsional Cox begitu populer: itu adalah semi parametrik karena bahaya baseline dapat dibiarkan sepenuhnya tidak ditentukan tetapi sisa model dapat parametrik dalam hal hubungannya dengan baseline yang tidak ditentukan.

gung - Reinstate Monica
sumber
4
"Selain itu, saya tidak berpikir itu benar bahwa" waktu bertahan hidup diasumsikan didistribusikan secara eksponensial "oleh siapa pun dalam kenyataan." Saya benar-benar menemukan itu sangat umum dalam epidemiologi, biasanya secara implisit.
Fomite
1
@ung, dapatkah Anda menjelaskannya dengan baik - ini semi parametrik karena bahaya dasar dapat dibiarkan sepenuhnya tidak ditentukan tetapi sisa model dapat parametrik dalam hal hubungannya dengan baseline yang tidak ditentukan
Gaurav Singhal
7

Beberapa ekologi mungkin membantu menjawab "Mengapa" di balik pertanyaan ini.

Alasan mengapa distribusi eksponensial digunakan untuk pemodelan kelangsungan hidup adalah karena strategi kehidupan yang terlibat dalam organisme yang hidup di alam. Pada dasarnya ada dua ekstrem berkaitan dengan strategi bertahan hidup dengan ruang untuk jalan tengah.

Berikut adalah gambar yang menggambarkan apa yang saya maksud (milik Khan Academy):

https://www.khanacademy.org/science/biology/ecology/population-ecology/a/life-tables-survivorship-age-sex-structure

Grafik ini memplot individu yang bertahan hidup pada sumbu Y, dan "persentase harapan hidup maksimum" (alias perkiraan usia individu) pada sumbu X.

Tipe I adalah manusia, yang memodelkan organisme yang memiliki tingkat perawatan ekstrim terhadap keturunannya yang memastikan kematian bayi yang sangat rendah. Seringkali spesies ini memiliki keturunan yang sangat sedikit karena masing-masing mengambil sejumlah besar waktu dan usaha orang tua. Mayoritas yang membunuh organisme Tipe I adalah jenis komplikasi yang muncul di usia tua. Strateginya di sini adalah investasi tinggi untuk hasil tinggi dalam kehidupan panjang dan produktif, jika dengan mengorbankan jumlah yang banyak.

Sebaliknya, Tipe III dimodelkan dengan pohon (tetapi bisa juga plankton, karang, ikan pemijahan, banyak jenis serangga, dll) di mana induknya berinvestasi relatif sedikit di setiap keturunan, tetapi menghasilkan satu ton dari mereka dengan harapan bahwa beberapa akan bertahan. Strategi di sini adalah "semprotkan dan berdoa" berharap bahwa sementara sebagian besar keturunan akan dihancurkan relatif cepat oleh predator mengambil keuntungan dari hasil yang mudah, beberapa yang bertahan hidup cukup lama untuk tumbuh akan menjadi semakin sulit untuk dibunuh, akhirnya menjadi (praktis) tidak mungkin untuk menjadi dimakan. Sementara itu individu-individu ini menghasilkan sejumlah besar keturunan berharap bahwa beberapa juga akan bertahan hidup dengan usia mereka sendiri.

Tipe II adalah strategi menengah dengan investasi orang tua yang moderat untuk kemampuan bertahan yang moderat pada semua usia.

Saya memiliki seorang profesor ekologi yang menyatakannya demikian:

"Tipe III (pohon) adalah 'Kurva Harapan', karena semakin lama seorang individu bertahan, semakin besar kemungkinannya bahwa ia akan terus bertahan. Sementara Tipe I (manusia) adalah 'Kurva Keputusasaan', karena semakin lama Anda hidup, semakin besar kemungkinan Anda akan mati. "

CaffeineConnoisseur
sumber
Ini menarik, tetapi perhatikan bahwa untuk manusia, sebelum pengobatan modern (& masih di beberapa tempat di dunia saat ini), kematian bayi sangat tinggi. Kelangsungan hidup dasar manusia sering dimodelkan dengan " bahaya bak mandi ".
gung - Reinstate Monica
@ Gung Tentu saja, ini adalah generalisasi yang luas dan ada variasi dalam manusia dari berbagai daerah dan periode waktu. Perbedaan utama lebih jelas ketika Anda membandingkan ekstrem, yaitu keluarga manusia Barat (~ 2,5 anak per pasang, kebanyakan tidak mati saat masih bayi) vs karang atau ikan pemijahan (jutaan telur dilepaskan per siklus kawin, sebagian besar mati karena dimakan, kelaparan, kimia air berbahaya, atau hanya gagal melayang ke tujuan yang dapat ditinggali)
CaffeineConnoisseur
1
Sementara saya semua untuk penjelasan dari ekologi, saya akan mencatat asumsi seperti ini juga dibuat untuk hal-hal seperti hard drive dan mesin pesawat.
Fomite
6

Ini tidak langsung menjawab pertanyaan, tetapi saya pikir ini sangat penting untuk dicatat, dan tidak cocok dengan satu komentar.

Sementara distribusi eksponensial memiliki derivasi teoretis yang sangat bagus, dan dengan demikian dengan asumsi data yang dihasilkan mengikuti mekanisme yang diasumsikan dalam distribusi eksponensial, secara teoretis harus memberikan perkiraan yang optimal, dalam praktiknya saya belum menjalankan ke dalam dataset di mana distribusi eksponensial menghasilkan bahkan dekat dengan hasil yang dapat diterima (tentu saja, ini tergantung pada tipe data yang saya analisis, hampir semua data biologis). Sebagai contoh, saya hanya melihat pemasangan model dengan berbagai distribusi menggunakan set data pertama yang bisa saya temukan di paket-R saya. Untuk pengecekan model distribusi dasar, kami biasanya membandingkan dengan model semi-parametrik. Lihatlah hasilnya.

Kurva Kelangsungan Hidup

Dari distribusi Weibull, log-logistik dan log-normal, tidak ada pemenang yang jelas mutlak dalam hal kesesuaian yang tepat. Tapi ada yang kalah jelas: distribusi eksponensial! Sudah pengalaman saya bahwa besarnya kesalahan pemasangan ini tidak luar biasa, melainkan norma untuk distribusi eksponensial.

Mengapa? Karena distribusi eksponensial adalah keluarga parameter tunggal. Jadi, jika saya menentukan rata-rata distribusi ini, saya telah menentukan semua momen distribusi lainnya. Keluarga-keluarga lain ini adalah dua keluarga parameter. Dengan demikian, ada lebih banyak fleksibilitas dalam keluarga-keluarga itu untuk beradaptasi dengan data itu sendiri.

Sekarang perlu diingat bahwa distribusi Weibull memiliki distribusi eksponensial sebagai kasus khusus (yaitu ketika parameter bentuk = 1). Jadi, bahkan jika data benar-benar eksponensial, kami hanya menambahkan sedikit lebih banyak noise ke perkiraan kami dengan menggunakan distribusi Weibull atas distribusi eksponensial. Karena itu, saya hampir tidak akan merekomendasikan menggunakan distribusi eksponensial untuk memodelkan data nyata (dan saya ingin tahu jika ada pembaca yang memiliki contoh kapan itu sebenarnya ide yang bagus).

Cliff AB
sumber
1
Saya tidak yakin dengan jawaban ini: 1) "menggunakan set data pertama yang dapat saya temukan dalam paket-R saya" ... Benarkah? ... di stats.stackexchange? Satu sampel acak dan kami menarik kesimpulan umum? 1b) Untuk model di mana waktu kegagalan cenderung didistribusikan di sekitar nilai tertentu (seperti kehidupan manusia), jelas distribusi seperti Gamma, Weibull, dll lebih cocok; ketika peristiwa sama-sama memungkinkan, distribusi eksponensial lebih cocok. Saya yakin "set data pertama" Anda di atas adalah jenis pertama. 2) Semua model lain memiliki 2 parameter, yang harus digunakan misalnya faktor Bayes untuk membandingkan model.
Luca Citi
2
@LucaCiti: "set data pertama dalam paket-R saya" berarti set data pertama dalam paket-R yang saya publikasikan (icenReg). Dan saya mencatat bahwa pengalaman saya dengan distribusi eksponensial yang selalu kurang pas tergantung pada tipe data yang saya analisis; hampir secara eksklusif data biologis. Akhirnya, seperti yang saya nyatakan pada akhirnya, saya sangat ingin mendengar contoh nyata yang diterapkan di mana ada alasan yang meyakinkan untuk menggunakan distribusi eksponensial, jadi jika Anda memilikinya, silakan berbagi.
Cliff AB
1
Skenario ketika Anda mungkin ingin menggunakan distribusi eksponensial adalah ketika (a) Anda memiliki banyak data historis yang menunjukkan bahwa data benar-benar didekati dengan baik dengan distribusi eksponensial dan (b) Anda perlu membuat kesimpulan dengan sampel kecil ( yaitu n <10). Tapi saya tidak tahu ada aplikasi nyata seperti ini. Mungkin dalam beberapa jenis masalah kontrol kualitas manufaktur?
Cliff AB
1
Hai Cliff, terima kasih telah meluangkan waktu untuk membalas komentar saya. Saya kira kira-kira berbicara distribusi seperti Weibull cocok dengan situasi yang lebih baik sesuai dengan pertanyaan seperti "apa waktu hidup individu x dalam sampel saya" atau "kapan neuron x akan menembak lagi" atau "ketika kunang-kunang x akan berkedip lagi ". Sebaliknya, model distribusi eksponensial mempertanyakan seperti "kapan kematian berikutnya diperkirakan akan terjadi dalam populasi saya", "kapan neuron berikutnya akan ditembakkan" atau "kapan kunang-kunang di kawanan akan muncul"
Luca Citi
@LucaCiti; ha, baru diketahui bahwa poke Anda sebelumnya adalah lelucon tentang membuat kesimpulan dengan n = 1. Tidak tahu bagaimana saya melewatkannya pertama kali. Dalam pembelaan saya, jika kita memiliki teori yang mengatakan bahwa estimator harus normal asimptotik namun 4+ standar deviasi dari estimasi normal asimptotik lainnya, maka kita dapat! Tetapi dalam semua keseriusan, bukan satu plot yang meyakinkan saya, tetapi melihat tingkat penyimpangan yang sama secara konsisten. Saya mungkin diblokir jika saya spam 20+ plot cocok eksponensial buruk.
Cliff AB
4

Alasan lain mengapa distribusi eksponensial sering muncul untuk memodelkan interval antara peristiwa adalah sebagai berikut.

Telah diketahui dengan baik bahwa, di bawah beberapa asumsi, jumlah dari sejumlah besar variabel acak independen akan mendekati distribusi Gaussian. Teorema yang sama berlaku untuk proses pembaruan , yaitu model stokastik untuk peristiwa yang terjadi secara acak dalam waktu dengan interval antar-peristiwa IID. Faktanya, teorema Palm-Khintchine menyatakan bahwa superposisi dari sejumlah besar proses pembaruan (belum tentu Poissonian) berperilaku asimtotik seperti proses Poisson . Interval antar peristiwa proses Poisson didistribusikan secara eksponensial.

Luca Citi
sumber
3

tl; dr - Distribusi ekspontensial sama dengan mengasumsikan bahwa individu-individu cenderung meninggal pada saat tertentu seperti yang lain.

Penurunan

  1. Asumsikan bahwa individu yang hidup kemungkinan besar akan mati pada saat tertentu seperti pada saat lainnya.

  2. Jadi, tingkat kematiannya -dPdt sebanding dengan populasi, P.

-dPdt  P
  1. Solving on WolframAlpha menunjukkan:

P(t)=c1e-t

Jadi, populasi mengikuti distribusi eksponensial.

Catatan matematika

Matematika di atas adalah pengurangan dari persamaan diferensial biasa orde satu (ODE) . Biasanya, kami juga akan menyelesaikannyac0dengan memperhatikan kondisi batas bahwa populasi mulai pada nilai tertentu,P(t0), pada waktu mulai t0.

Maka persamaannya menjadi:

P(t)=e-tP(t0).

Pengecekan kenyataan

Distribusi eksponensial mengasumsikan bahwa orang-orang dalam populasi cenderung mati pada tingkat yang sama dari waktu ke waktu. Pada kenyataannya, tingkat kematian akan cenderung bervariasi untuk populasi terbatas.

Menghasilkan distribusi yang lebih baik melibatkan persamaan diferensial stokastik . Kemudian, kita tidak bisa mengatakan bahwa ada kemungkinan kematian yang konstan; alih-alih, kita harus membuat distribusi untuk peluang masing-masing individu meninggal pada waktu tertentu, kemudian menggabungkan berbagai pohon kemungkinan bersama-sama untuk seluruh populasi, kemudian menyelesaikan persamaan diferensial itu dari waktu ke waktu.

Saya tidak ingat pernah melihat ini dilakukan dalam hal apa pun secara online sebelumnya, jadi Anda mungkin tidak akan mengalami hal itu; tetapi, itulah langkah pemodelan berikutnya jika Anda ingin meningkatkan distribusi eksponensial.

Nat
sumber
3

(Perhatikan bahwa pada bagian yang Anda kutip, pernyataan itu bersyarat; kalimat itu sendiri tidak menganggap kelangsungan hidup secara eksponensial, itu menjelaskan konsekuensi dari melakukan hal itu. Namun demikian asumsi kelangsungan hidup eksponensial adalah umum, jadi ada baiknya berurusan dengan pertanyaan "mengapa eksponensial "dan" mengapa tidak normal "- karena yang pertama cukup baik sudah saya akan lebih fokus pada hal kedua)

Waktu survival yang terdistribusi secara normal tidak masuk akal karena mereka memiliki probabilitas non-nol waktu survival menjadi negatif.

Jika Anda kemudian membatasi pertimbangan untuk distribusi normal yang hampir tidak memiliki peluang mendekati nol, Anda tidak dapat memodelkan data survival yang memiliki probabilitas masuk akal untuk waktu survival yang pendek:

distribusi waktu survival - rata-rata normal 100 sd 10 vs distribusi tertentu dengan rata-rata 100 dan sd 42 yang memiliki lebih dari 20% kemungkinan waktu bertahan hidup antara 0 dan 50

Mungkin sesekali waktu bertahan hidup yang hampir tidak memiliki peluang waktu bertahan hidup pendek adalah masuk akal, tetapi Anda memerlukan distribusi yang masuk akal dalam praktiknya - biasanya Anda mengamati waktu bertahan hidup yang pendek dan panjang (dan apa pun di antaranya), dengan kecenderungan miring distribusi waktu bertahan hidup). Distribusi normal yang tidak dimodifikasi jarang berguna dalam praktik.

[ Normal terpotong mungkin lebih sering merupakan perkiraan kasar yang wajar daripada normal, tetapi distribusi lainnya sering lebih baik.]

Bahaya konstan dari eksponensial kadang-kadang merupakan perkiraan yang masuk akal untuk masa survival .. Sebagai contoh, jika "kejadian acak" seperti kecelakaan merupakan kontributor utama angka kematian, survival eksponensial akan bekerja dengan cukup baik. (Di antara populasi hewan misalnya, kadang-kadang predasi dan penyakit dapat bertindak setidaknya secara kasar seperti proses kebetulan, meninggalkan sesuatu seperti eksponensial sebagai perkiraan pertama yang masuk akal untuk masa hidup.)


Satu pertanyaan tambahan terkait terpotong normal: jika normal tidak tepat mengapa tidak normal kuadrat (chi sq dengan df 1)?

Memang itu mungkin sedikit lebih baik ... tetapi perhatikan bahwa itu akan sesuai dengan bahaya tak terbatas pada 0, jadi itu hanya sesekali akan berguna. Meskipun dapat memodelkan kasus dengan proporsi yang sangat tinggi dalam waktu yang sangat singkat, ia memiliki masalah sebaliknya hanya mampu memodelkan kasus dengan tipikal yang jauh lebih pendek daripada rata-rata kelangsungan hidup (25% dari waktu bertahan hidup di bawah 10,15% dari waktu kelangsungan hidup rata-rata dan setengah dari waktu bertahan hidup kurang dari 45,5% dari rata-rata; yaitu rata-rata kelangsungan hidup kurang dari setengah rata-rata.)

Mari kita lihat skala χ12 (Yaitu gamma dengan parameter bentuk 12):

Mirip plot sebelumnya, tetapi juga dengan kepadatan varian yang 100 kali chi-squared (1);  itu punya puncak tinggi pada 0 dan ekor yang sangat berat - rata-rata adalah 100 tetapi sd adalah sekitar 141 dan median adalah sekitar 45.

[Mungkin jika kamu menjumlahkan dua dari itu χ12 variates ... atau mungkin jika Anda dianggap noncentral χ2Anda akan mendapatkan beberapa kemungkinan yang sesuai. Di luar eksponensial, pilihan umum dari distribusi parametrik untuk waktu bertahan hidup termasuk Weibull, lognormal, gamma, log-logistik di antara banyak lainnya ... perhatikan bahwa Weibull dan gamma memasukkan eksponensial sebagai kasus khusus]

Glen_b -Reinstate Monica
sumber
terima kasih, saya telah menunggu jawaban Anda sejak kemarin :). Satu pertanyaan tambahan terkait terpotong normal: jika normal tidak sesuai mengapa tidak normal kuadrat (chi sq dengan df 1)?
Haitao Du
Memang itu mungkin sedikit lebih baik ... tetapi perhatikan bahwa itu akan sesuai dengan bahaya tak terbatas pada 0 - jadi itu hanya akan sesekali berguna. Ini memiliki masalah sebaliknya dari hanya memodelkan kasus dengan tipikal jauh lebih pendek daripada rata-rata kelangsungan hidup (25% dari waktu bertahan hidup di bawah 10,15% dari rata-rata waktu bertahan hidup dan setengah dari waktu bertahan hidup kurang dari 45,5% dari rata-rata) Mungkin jika Anda menjumlahkan dua di antaranyaχ12Variasi Anda bisa mendapatkan fungsi bahaya yang tidak terlalu mengejutkan. . .; P
Glen_b -Reinstate Monica
sekali lagi terima kasih atas pendidikan saya intuisi di balik hal-hal. Saya telah melihat terlalu banyak tutorial tingkat resep dan orang melakukan hal-hal tanpa tahu mengapa. CV adalah tempat yang tepat untuk belajar.
Haitao Du
1

Jika kita ingin waktu menjadi sangat positif, mengapa tidak membuat distribusi normal dengan rata-rata yang lebih tinggi dan varians yang sangat kecil (hampir tidak akan memiliki peluang untuk mendapatkan angka negatif).

Karena

  1. yang masih memiliki probabilitas nol untuk menjadi negatif, sehingga tidak sepenuhnya positif;

  2. mean dan varians adalah sesuatu yang dapat Anda ukur dari populasi yang Anda coba modelkan. Jika populasi Anda memiliki mean 2 dan varians 1, dan Anda memodelkannya dengan distribusi normal, distribusi normal itu akan memiliki massa substansial di bawah nol; jika Anda memodelkannya dengan distribusi normal dengan rata-rata 5 dan varians 0,1, model Anda jelas memiliki sifat yang sangat berbeda dengan benda yang seharusnya dimodelkan.

Distribusi normal memiliki bentuk tertentu, dan bentuk itu simetris tentang mean. Satu-satunya cara untuk menyesuaikan bentuk adalah dengan menggerakkannya ke kanan dan ke kiri (menambah atau mengurangi rata-rata) atau membuatnya lebih atau kurang menyebar (menambah atau mengurangi varians). Ini berarti bahwa satu-satunya cara untuk mendapatkan distribusi normal di mana sebagian besar massa adalah antara dua dan sepuluh dan hanya sejumlah kecil massa berada di bawah nol, Anda harus meletakkan nilai rata-rata Anda pada, katakanlah, enam (tengah kisaran) ) dan atur varians yang cukup kecil sehingga hanya sebagian kecil sampel yang negatif. Tetapi kemudian Anda mungkin akan menemukan bahwa sebagian besar sampel Anda adalah 5, 6 atau 7, sedangkan Anda seharusnya memiliki cukup banyak 2s, 3s, 4s, 8s, 9s dan 10s.

David Richerby
sumber