Saya belajar analisis bertahan hidup dari pos ini pada UCLA IDRE dan tersandung di bagian 1.2.1. Tutorial mengatakan:
... jika waktu bertahan hidup diketahui terdistribusi secara eksponensial , maka kemungkinan mengamati waktu bertahan hidup ...
Mengapa waktu bertahan hidup diasumsikan terdistribusi secara eksponensial? Sepertinya sangat tidak alami bagi saya.
Mengapa tidak didistribusikan secara normal? Katakanlah seandainya kita sedang menyelidiki rentang hidup beberapa makhluk dalam kondisi tertentu (katakanlah jumlah hari), haruskah itu lebih terpusat di sekitar sejumlah angka dengan beberapa variasi (misalkan 100 hari dengan varian 3 hari)?
Jika kita ingin waktu menjadi sangat positif, mengapa tidak membuat distribusi normal dengan rata-rata yang lebih tinggi dan varians yang sangat kecil (hampir tidak akan memiliki peluang untuk mendapatkan angka negatif).
sumber
Jawaban:
Distribusi eksponensial sering digunakan untuk memodelkan waktu bertahan hidup karena mereka adalah distribusi paling sederhana yang dapat digunakan untuk mengkarakterisasi data survival / reliabilitas. Ini karena mereka tanpa memori, dan dengan demikian fungsi bahaya adalah konstan w / r / t waktu, yang membuat analisis sangat sederhana. Asumsi semacam ini mungkin berlaku, misalnya, untuk beberapa jenis komponen elektronik seperti sirkuit terpadu berkualitas tinggi. Saya yakin Anda dapat memikirkan lebih banyak contoh di mana efek waktu terhadap bahaya dapat dengan aman dianggap diabaikan.
Namun, Anda benar untuk mengamati bahwa ini tidak akan menjadi asumsi yang tepat untuk dibuat dalam banyak kasus. Distribusi normal dapat baik-baik saja dalam beberapa situasi, meskipun waktu kelangsungan hidup yang negatif tidak berarti. Untuk alasan ini, distribusi lognormal sering dipertimbangkan. Pilihan umum lainnya termasuk Weibull, Nilai Ekstrem Terkecil, Nilai Ekstrem Terbesar, Logistik, dll. Pilihan yang masuk akal untuk model akan diinformasikan oleh pengalaman bidang subjek dan kemungkinan plot . Anda juga dapat, tentu saja, mempertimbangkan pemodelan non-parametrik.
Referensi yang baik untuk pemodelan parametrik klasik dalam analisis survival adalah: William Q. Meeker dan Luis A. Escobar (1998). Metode Statistik untuk Data Keandalan , Wiley
sumber
Untuk menambahkan sedikit intuisi matematis di balik bagaimana eksponen muncul dalam distribusi survival:
Kepadatan probabilitas dari variabel survival adalah , di mana h ( t ) adalah bahaya saat ini (risiko bagi seseorang untuk "mati" hari ini) dan S ( t ) adalah probabilitas bahwa seseorang selamat sampai t . S ( t ) dapat diperluas sebagai probabilitas bahwa seseorang selamat hari 1, dan selamat hari 2, ... hingga hari t . Lalu: P ( s u r v if( t ) = h ( t ) S( t ) h ( t ) S( t ) t S( t ) t P ( s u r v i v e d d a y s 1 , 2 , . . . , t ) = ( 1 - h ( t ) ) t
Dengan bahaya konstan dan kecil λ , kita dapat menggunakan:
e - λ ≈ 1 -
Penafian: ini sama sekali bukan suatu upaya pada derivasi yang tepat dari pdf - Saya baru saja membayangkan ini adalah kebetulan yang rapi, dan menyambut setiap komentar tentang mengapa ini benar / salah.
EDIT: mengubah perkiraan per saran oleh @SamT, lihat komentar untuk diskusi.
sumber
Anda hampir pasti ingin melihat teknik reliabilitas dan prediksi untuk analisis menyeluruh waktu bertahan hidup. Dalam hal itu, ada beberapa distribusi yang sering digunakan:
Distribusi Weibull (atau "bathtub") adalah yang paling kompleks. Ini menjelaskan tiga jenis mode kegagalan, yang mendominasi pada usia yang berbeda: kematian bayi (di mana bagian yang rusak pecah sejak dini), kegagalan yang diinduksi (di mana bagian pecah secara acak sepanjang umur sistem), dan aus (di mana bagian rusak dari menggunakan). Seperti yang digunakan, ia memiliki PDF yang terlihat seperti "\ __ /". Untuk beberapa elektronik khususnya, Anda mungkin mendengar tentang "burn in" kali, yang berarti bagian-bagian itu telah dioperasikan melalui bagian "\" dari kurva, dan kegagalan awal telah disaring (idealnya). Sayangnya, analisis Weibull cepat rusakjika bagian Anda tidak homogen (termasuk lingkungan penggunaan!) atau jika Anda menggunakannya pada skala waktu yang berbeda (misalnya jika beberapa bagian langsung digunakan, dan bagian lain masuk ke penyimpanan terlebih dahulu, tingkat "kegagalan acak" akan berbeda secara signifikan, karena memadukan dua pengukuran waktu (jam operasi vs. jam penggunaan).
Distribusi normal hampir selalu salah. Setiap distribusi normal memiliki nilai negatif, tidak ada distribusi reliabilitas yang melakukannya. Kadang-kadang mereka bisa menjadi perkiraan yang berguna, tetapi saat-saat ketika itu benar, Anda hampir selalu melihat log-normal, jadi Anda mungkin juga menggunakan distribusi yang tepat. Distribusi log-normal benar digunakan ketika Anda memiliki semacam kegagalan acak aus dan diabaikan, dan dalam keadaan lain! Seperti distribusi Normal, mereka cukup fleksibel sehingga Anda dapat memaksa mereka agar sesuai dengan sebagian besar data; Anda perlu menahan dorongan itu dan memeriksa apakah situasinya masuk akal.
Akhirnya, distribusi eksponensial adalah pekerja keras yang sebenarnya. Anda sering tidak tahu berapa lama komponen itu (misalnya, ketika bagian-bagian tidak bersambung dan memiliki waktu yang berbeda ketika mereka masuk ke layanan), sehingga distribusi berbasis memori keluar. Selain itu, banyak bagian memiliki waktu habis yang begitu lama sehingga bisa didominasi oleh kegagalan yang disebabkan atau di luar kerangka waktu analisis yang berguna. Jadi, meskipun mungkin bukan model yang sempurna seperti distribusi lain, itu hanya tidak peduli tentang hal-hal yang membuat mereka tersandung. Jika Anda memiliki MTTF (waktu populasi / jumlah kegagalan), Anda memiliki distribusi eksponensial. Selain itu, Anda tidak memerlukan pemahaman fisik tentang sistem Anda. Anda dapat melakukan perkiraan eksponensial sajaberdasarkan pada MTTF bagian yang diamati (dengan asumsi sampel yang cukup besar), dan mereka keluar cukup dekat. Ini juga ulet untuk penyebab: jika setiap bulan, seseorang bosan dan bermain kroket dengan beberapa bagian sampai rusak, akun eksponensial untuk itu (itu masuk ke MTTF). Eksponensial juga cukup sederhana sehingga Anda dapat melakukan perhitungan back-of-the-envelope untuk ketersediaan sistem yang berlebihan dan semacamnya, yang secara signifikan meningkatkan kegunaannya.
sumber
Untuk menjawab pertanyaan eksplisit Anda, Anda tidak dapat menggunakan distribusi normal untuk bertahan hidup karena distribusi normal pergi ke infinity negatif, dan kelangsungan hidup benar-benar non-negatif. Selain itu, saya tidak berpikir itu benar bahwa "masa hidup diasumsikan didistribusikan secara eksponensial" oleh siapa pun dalam kenyataan.
Distribusi eksponensial mengasumsikan bahwa bahayanya selalu persis sama, tidak peduli berapa lama unit telah selamat (perhatikan gambar di @ CaffeineConnoisseur's> 1 < 1
Paling umum, distribusi survival kompleks dan tidak cocok dengan distribusi bernama apa pun. Orang-orang biasanya tidak mau repot-repot mencari tahu distribusi apa itu. Itulah yang membuat model bahaya proporsional Cox begitu populer: itu adalah semi parametrik karena bahaya baseline dapat dibiarkan sepenuhnya tidak ditentukan tetapi sisa model dapat parametrik dalam hal hubungannya dengan baseline yang tidak ditentukan.
sumber
Beberapa ekologi mungkin membantu menjawab "Mengapa" di balik pertanyaan ini.
Alasan mengapa distribusi eksponensial digunakan untuk pemodelan kelangsungan hidup adalah karena strategi kehidupan yang terlibat dalam organisme yang hidup di alam. Pada dasarnya ada dua ekstrem berkaitan dengan strategi bertahan hidup dengan ruang untuk jalan tengah.
Berikut adalah gambar yang menggambarkan apa yang saya maksud (milik Khan Academy):
Grafik ini memplot individu yang bertahan hidup pada sumbu Y, dan "persentase harapan hidup maksimum" (alias perkiraan usia individu) pada sumbu X.
Tipe I adalah manusia, yang memodelkan organisme yang memiliki tingkat perawatan ekstrim terhadap keturunannya yang memastikan kematian bayi yang sangat rendah. Seringkali spesies ini memiliki keturunan yang sangat sedikit karena masing-masing mengambil sejumlah besar waktu dan usaha orang tua. Mayoritas yang membunuh organisme Tipe I adalah jenis komplikasi yang muncul di usia tua. Strateginya di sini adalah investasi tinggi untuk hasil tinggi dalam kehidupan panjang dan produktif, jika dengan mengorbankan jumlah yang banyak.
Sebaliknya, Tipe III dimodelkan dengan pohon (tetapi bisa juga plankton, karang, ikan pemijahan, banyak jenis serangga, dll) di mana induknya berinvestasi relatif sedikit di setiap keturunan, tetapi menghasilkan satu ton dari mereka dengan harapan bahwa beberapa akan bertahan. Strategi di sini adalah "semprotkan dan berdoa" berharap bahwa sementara sebagian besar keturunan akan dihancurkan relatif cepat oleh predator mengambil keuntungan dari hasil yang mudah, beberapa yang bertahan hidup cukup lama untuk tumbuh akan menjadi semakin sulit untuk dibunuh, akhirnya menjadi (praktis) tidak mungkin untuk menjadi dimakan. Sementara itu individu-individu ini menghasilkan sejumlah besar keturunan berharap bahwa beberapa juga akan bertahan hidup dengan usia mereka sendiri.
Tipe II adalah strategi menengah dengan investasi orang tua yang moderat untuk kemampuan bertahan yang moderat pada semua usia.
Saya memiliki seorang profesor ekologi yang menyatakannya demikian:
"Tipe III (pohon) adalah 'Kurva Harapan', karena semakin lama seorang individu bertahan, semakin besar kemungkinannya bahwa ia akan terus bertahan. Sementara Tipe I (manusia) adalah 'Kurva Keputusasaan', karena semakin lama Anda hidup, semakin besar kemungkinan Anda akan mati. "
sumber
Ini tidak langsung menjawab pertanyaan, tetapi saya pikir ini sangat penting untuk dicatat, dan tidak cocok dengan satu komentar.
Sementara distribusi eksponensial memiliki derivasi teoretis yang sangat bagus, dan dengan demikian dengan asumsi data yang dihasilkan mengikuti mekanisme yang diasumsikan dalam distribusi eksponensial, secara teoretis harus memberikan perkiraan yang optimal, dalam praktiknya saya belum menjalankan ke dalam dataset di mana distribusi eksponensial menghasilkan bahkan dekat dengan hasil yang dapat diterima (tentu saja, ini tergantung pada tipe data yang saya analisis, hampir semua data biologis). Sebagai contoh, saya hanya melihat pemasangan model dengan berbagai distribusi menggunakan set data pertama yang bisa saya temukan di paket-R saya. Untuk pengecekan model distribusi dasar, kami biasanya membandingkan dengan model semi-parametrik. Lihatlah hasilnya.
Dari distribusi Weibull, log-logistik dan log-normal, tidak ada pemenang yang jelas mutlak dalam hal kesesuaian yang tepat. Tapi ada yang kalah jelas: distribusi eksponensial! Sudah pengalaman saya bahwa besarnya kesalahan pemasangan ini tidak luar biasa, melainkan norma untuk distribusi eksponensial.
Mengapa? Karena distribusi eksponensial adalah keluarga parameter tunggal. Jadi, jika saya menentukan rata-rata distribusi ini, saya telah menentukan semua momen distribusi lainnya. Keluarga-keluarga lain ini adalah dua keluarga parameter. Dengan demikian, ada lebih banyak fleksibilitas dalam keluarga-keluarga itu untuk beradaptasi dengan data itu sendiri.
Sekarang perlu diingat bahwa distribusi Weibull memiliki distribusi eksponensial sebagai kasus khusus (yaitu ketika parameter bentuk = 1). Jadi, bahkan jika data benar-benar eksponensial, kami hanya menambahkan sedikit lebih banyak noise ke perkiraan kami dengan menggunakan distribusi Weibull atas distribusi eksponensial. Karena itu, saya hampir tidak akan merekomendasikan menggunakan distribusi eksponensial untuk memodelkan data nyata (dan saya ingin tahu jika ada pembaca yang memiliki contoh kapan itu sebenarnya ide yang bagus).
sumber
Alasan lain mengapa distribusi eksponensial sering muncul untuk memodelkan interval antara peristiwa adalah sebagai berikut.
Telah diketahui dengan baik bahwa, di bawah beberapa asumsi, jumlah dari sejumlah besar variabel acak independen akan mendekati distribusi Gaussian. Teorema yang sama berlaku untuk proses pembaruan , yaitu model stokastik untuk peristiwa yang terjadi secara acak dalam waktu dengan interval antar-peristiwa IID. Faktanya, teorema Palm-Khintchine menyatakan bahwa superposisi dari sejumlah besar proses pembaruan (belum tentu Poissonian) berperilaku asimtotik seperti proses Poisson . Interval antar peristiwa proses Poisson didistribusikan secara eksponensial.
sumber
tl; dr - Distribusi ekspontensial sama dengan mengasumsikan bahwa individu-individu cenderung meninggal pada saat tertentu seperti yang lain.
Penurunan
Asumsikan bahwa individu yang hidup kemungkinan besar akan mati pada saat tertentu seperti pada saat lainnya.
Jadi, tingkat kematiannya- d Pd t sebanding dengan populasi, P .
Jadi, populasi mengikuti distribusi eksponensial.
Catatan matematika
Matematika di atas adalah pengurangan dari persamaan diferensial biasa orde satu (ODE) . Biasanya, kami juga akan menyelesaikannyac0 dengan memperhatikan kondisi batas bahwa populasi mulai pada nilai tertentu,P( t0) , pada waktu mulai t0 .
Maka persamaannya menjadi:
Pengecekan kenyataan
Distribusi eksponensial mengasumsikan bahwa orang-orang dalam populasi cenderung mati pada tingkat yang sama dari waktu ke waktu. Pada kenyataannya, tingkat kematian akan cenderung bervariasi untuk populasi terbatas.
Menghasilkan distribusi yang lebih baik melibatkan persamaan diferensial stokastik . Kemudian, kita tidak bisa mengatakan bahwa ada kemungkinan kematian yang konstan; alih-alih, kita harus membuat distribusi untuk peluang masing-masing individu meninggal pada waktu tertentu, kemudian menggabungkan berbagai pohon kemungkinan bersama-sama untuk seluruh populasi, kemudian menyelesaikan persamaan diferensial itu dari waktu ke waktu.
Saya tidak ingat pernah melihat ini dilakukan dalam hal apa pun secara online sebelumnya, jadi Anda mungkin tidak akan mengalami hal itu; tetapi, itulah langkah pemodelan berikutnya jika Anda ingin meningkatkan distribusi eksponensial.
sumber
(Perhatikan bahwa pada bagian yang Anda kutip, pernyataan itu bersyarat; kalimat itu sendiri tidak menganggap kelangsungan hidup secara eksponensial, itu menjelaskan konsekuensi dari melakukan hal itu. Namun demikian asumsi kelangsungan hidup eksponensial adalah umum, jadi ada baiknya berurusan dengan pertanyaan "mengapa eksponensial "dan" mengapa tidak normal "- karena yang pertama cukup baik sudah saya akan lebih fokus pada hal kedua)
Waktu survival yang terdistribusi secara normal tidak masuk akal karena mereka memiliki probabilitas non-nol waktu survival menjadi negatif.
Jika Anda kemudian membatasi pertimbangan untuk distribusi normal yang hampir tidak memiliki peluang mendekati nol, Anda tidak dapat memodelkan data survival yang memiliki probabilitas masuk akal untuk waktu survival yang pendek:
Mungkin sesekali waktu bertahan hidup yang hampir tidak memiliki peluang waktu bertahan hidup pendek adalah masuk akal, tetapi Anda memerlukan distribusi yang masuk akal dalam praktiknya - biasanya Anda mengamati waktu bertahan hidup yang pendek dan panjang (dan apa pun di antaranya), dengan kecenderungan miring distribusi waktu bertahan hidup). Distribusi normal yang tidak dimodifikasi jarang berguna dalam praktik.
[ Normal terpotong mungkin lebih sering merupakan perkiraan kasar yang wajar daripada normal, tetapi distribusi lainnya sering lebih baik.]
Bahaya konstan dari eksponensial kadang-kadang merupakan perkiraan yang masuk akal untuk masa survival .. Sebagai contoh, jika "kejadian acak" seperti kecelakaan merupakan kontributor utama angka kematian, survival eksponensial akan bekerja dengan cukup baik. (Di antara populasi hewan misalnya, kadang-kadang predasi dan penyakit dapat bertindak setidaknya secara kasar seperti proses kebetulan, meninggalkan sesuatu seperti eksponensial sebagai perkiraan pertama yang masuk akal untuk masa hidup.)
Memang itu mungkin sedikit lebih baik ... tetapi perhatikan bahwa itu akan sesuai dengan bahaya tak terbatas pada 0, jadi itu hanya sesekali akan berguna. Meskipun dapat memodelkan kasus dengan proporsi yang sangat tinggi dalam waktu yang sangat singkat, ia memiliki masalah sebaliknya hanya mampu memodelkan kasus dengan tipikal yang jauh lebih pendek daripada rata-rata kelangsungan hidup (25% dari waktu bertahan hidup di bawah 10,15% dari waktu kelangsungan hidup rata-rata dan setengah dari waktu bertahan hidup kurang dari 45,5% dari rata-rata; yaitu rata-rata kelangsungan hidup kurang dari setengah rata-rata.)
Mari kita lihat skalaχ21 (Yaitu gamma dengan parameter bentuk 12 ):
[Mungkin jika kamu menjumlahkan dua dari ituχ21 variates ... atau mungkin jika Anda dianggap noncentral χ2 Anda akan mendapatkan beberapa kemungkinan yang sesuai. Di luar eksponensial, pilihan umum dari distribusi parametrik untuk waktu bertahan hidup termasuk Weibull, lognormal, gamma, log-logistik di antara banyak lainnya ... perhatikan bahwa Weibull dan gamma memasukkan eksponensial sebagai kasus khusus]
sumber
Karena
yang masih memiliki probabilitas nol untuk menjadi negatif, sehingga tidak sepenuhnya positif;
mean dan varians adalah sesuatu yang dapat Anda ukur dari populasi yang Anda coba modelkan. Jika populasi Anda memiliki mean 2 dan varians 1, dan Anda memodelkannya dengan distribusi normal, distribusi normal itu akan memiliki massa substansial di bawah nol; jika Anda memodelkannya dengan distribusi normal dengan rata-rata 5 dan varians 0,1, model Anda jelas memiliki sifat yang sangat berbeda dengan benda yang seharusnya dimodelkan.
Distribusi normal memiliki bentuk tertentu, dan bentuk itu simetris tentang mean. Satu-satunya cara untuk menyesuaikan bentuk adalah dengan menggerakkannya ke kanan dan ke kiri (menambah atau mengurangi rata-rata) atau membuatnya lebih atau kurang menyebar (menambah atau mengurangi varians). Ini berarti bahwa satu-satunya cara untuk mendapatkan distribusi normal di mana sebagian besar massa adalah antara dua dan sepuluh dan hanya sejumlah kecil massa berada di bawah nol, Anda harus meletakkan nilai rata-rata Anda pada, katakanlah, enam (tengah kisaran) ) dan atur varians yang cukup kecil sehingga hanya sebagian kecil sampel yang negatif. Tetapi kemudian Anda mungkin akan menemukan bahwa sebagian besar sampel Anda adalah 5, 6 atau 7, sedangkan Anda seharusnya memiliki cukup banyak 2s, 3s, 4s, 8s, 9s dan 10s.
sumber