(Ini didasarkan pada pertanyaan yang baru saja datang kepada saya melalui email; Saya telah menambahkan beberapa konteks dari percakapan singkat sebelumnya dengan orang yang sama.)
Tahun lalu saya diberitahu bahwa distribusi gamma lebih berat daripada lognormal, dan sejak itu saya diberitahu bahwa bukan itu masalahnya.
Yang ini lebih berat ekor?
Apa sajakah sumber daya yang dapat saya gunakan untuk mengeksplorasi hubungan?
Jawaban:
Ekor distribusi (kanan) menjelaskan perilakunya pada nilai yang besar. Objek yang benar untuk studi tidak densitasnya - yang dalam banyak kasus praktis tidak ada - melainkan fungsi distribusiF . Lebih khusus lagi, karena F harus naik secara asimptot ke 1 untuk argumen besar x (oleh Hukum Probabilitas Total), kami tertarik pada seberapa cepat ia mendekati asimtot itu: kita perlu menyelidiki perilaku fungsi survivalnya 1−F(x) sebagai x→∞ .
Kurva merah pada gambar ini adalah fungsi survival untuk distribusi Poisson . Kurva biru untuk distribusi Gamma , yang memiliki varian yang sama. Akhirnya kurva biru selalu melebihi kurva merah, menunjukkan bahwa distribusi Gamma ini memiliki ekor yang lebih berat daripada distribusi Poisson ini. Distribusi ini tidak dapat dengan mudah dibandingkan dengan menggunakan kepadatan, karena distribusi Poisson tidak memiliki kepadatan.(3) (3)
Memang benar bahwa ketika kepadatan dan yang ada dan untuk maka lebih berat ekor dari . Namun, kebalikannya salah - dan ini adalah alasan kuat untuk mendasarkan definisi bobot ekor pada fungsi bertahan hidup daripada kepadatan, bahkan jika seringkali analisis ekor lebih mudah dilakukan dengan menggunakan kepadatan.f g f(x)>g(x) x>x0 F G
Contoh tandingan dapat dibangun dengan mengambil distribusi diskrit dukungan positif tak terbatas yang bagaimanapun tidak lebih berat dari (mendiskritisasi akan melakukan trik). Ubah ini menjadi distribusi kontinu dengan mengganti massa probabilitas pada setiap titik dukungannya , ditulis , dengan (katakanlah distribusi Beta berskala dengan dukungan pada interval yang sesuai dan ditimbang dengan . Dengan sedikit angka positif pilihH G G H k h(k) (2,2) [k−ε(k),k+ε(k)] h(k) δ, ε(k) cukup kecil untuk memastikan bahwa kepadatan puncak distribusi Beta berskala ini melebihi . Dengan konstruksi, campuran adalah distribusi berkesinambungan yang ekornya mirip dengan (secara seragam sedikit lebih rendah dengan jumlah ) tetapi memiliki paku di kepadatan pada dukungan dan semua paku memiliki titik di mana mereka melebihi kepadatan . Dengan demikian lebih ringan ekor dari tetapi tidak peduli seberapa jauh di ekor kita pergi akan ada titik di mana kepadatan melebihi dari .f(k)/δ δH+(1−δ)G G′ G δ H f G′ F F
Kurva merah adalah PDF dari distribusi Gamma , kurva emas adalah PDF dari distribusi lognormal , dan kurva biru (dengan paku) adalah PDF dari campuran dibuat seperti pada contoh sebelumnya. (Perhatikan sumbu kepadatan logaritmik.) Fungsi survival dekat dengan distribusi Gamma (dengan goyangan cepat membusuk): pada akhirnya akan tumbuh kurang dari , meskipun PDF-nya akan selalu melonjak di atas itu dari tidak peduli seberapa jauh kita melihat ke ekor.G F G′ G′ F F
Diskusi
Secara kebetulan, kita dapat melakukan analisis ini secara langsung pada fungsi survival dari distribusi lognormal dan Gamma, memperluasnya di sekitar untuk menemukan perilaku asimptotik mereka, dan menyimpulkan bahwa semua lognormal memiliki ekor yang lebih berat daripada semua Gammas. Tetapi, karena distribusi ini memiliki kepadatan "baik", analisis lebih mudah dilakukan dengan menunjukkan bahwa untuk cukup besar , kepadatan lognormal melebihi kepadatan Gamma. Namun, janganlah kita mengacaukan kenyamanan analitis ini dengan makna ekor yang berat.x=∞ x
Demikian pula, meskipun momen yang lebih tinggi dan varian mereka (seperti skewness dan kurtosis) sedikit berbicara tentang ekor, mereka tidak memberikan informasi yang cukup. Sebagai contoh sederhana, kita dapat memotong distribusi lognormal pada nilai yang sedemikian besar sehingga setiap momen tertentu tidak akan berubah - tetapi dengan melakukan itu kita akan melepaskan ekornya sepenuhnya, menjadikannya ekor yang lebih ringan daripada distribusi mana pun yang tidak terikat. dukungan (seperti Gamma).
Keberatan wajar terhadap kontraksi matematis ini adalah untuk menunjukkan bahwa perilaku sejauh ini di bagian ekor tidak memiliki aplikasi praktis, karena tidak ada yang akan percaya bahwa model distribusi apa pun akan valid pada nilai-nilai ekstrem (mungkin secara fisik tidak terjangkau). Namun, hal itu menunjukkan bahwa dalam aplikasi kita harus berhati-hati untuk mengidentifikasi bagian ekor mana yang menjadi perhatian dan menganalisisnya. (Misalnya kekambuhan banjir, dapat dipahami dalam pengertian ini: banjir 10 tahun, banjir 100 tahun, dan banjir 1000 tahun menandai bagian-bagian tertentu dari ekor distribusi banjir.) Prinsip-prinsip yang sama berlaku, meskipun: objek analisis fundamental di sini adalah fungsi distribusi dan bukan kepadatannya.
sumber
Gamma dan lognormal keduanya condong ke kanan, distribusi variasi konstan-koefisien pada , dan keduanya sering menjadi dasar model "bersaing" untuk jenis fenomena tertentu.(0,∞)
Ada berbagai cara untuk mendefinisikan bobot ekor, tetapi dalam hal ini saya pikir semua yang biasa menunjukkan bahwa lognormal lebih berat. (Apa yang orang pertama mungkin bicarakan adalah apa yang terjadi tidak jauh di ujung, tetapi sedikit di sebelah kanan mode (katakanlah, sekitar persentil ke-75 pada plot pertama di bawah ini, yang untuk lognormal hanya di bawah 5). dan gamma tepat di atas 5.)
Namun, mari kita telusuri pertanyaan dengan cara yang sangat sederhana untuk memulai.
Di bawah ini adalah kepadatan gamma dan lognormal dengan rerata 4 dan varians 4 (plot atas - gamma berwarna hijau gelap, lognormal berwarna biru), dan kemudian log densitas (bawah), sehingga Anda dapat membandingkan tren pada ekor:
Sulit untuk melihat banyak detail di plot teratas, karena semua aksinya di sebelah kanan 10. Tapi cukup jelas di plot kedua, di mana gamma sedang turun jauh lebih cepat daripada lognormal.
Cara lain untuk mengeksplorasi hubungan adalah dengan melihat kepadatan log, seperti pada jawabannya di sini ; kita melihat bahwa kepadatan log untuk lognormal simetris (normal!), dan untuk gamma condong ke kiri, dengan ekor yang ringan di sebelah kanan.
Kita dapat melakukannya secara aljabar, di mana kita dapat melihat rasio kepadatan sebagai (atau log dari rasio). Biarkan menjadi kepadatan gamma dan lognormal:g fx→∞ g f
Istilah dalam [] adalah kuadrat di , sedangkan istilah lainnya menurun secara linear dalam . Tidak peduli apa pun, itu pada akhirnya akan turun lebih cepat daripada kuadratik yang meningkat terlepas dari apa nilai parameternya . Dalam batas , log rasio kepadatan menurun menuju , yang berarti gamma pdf akhirnya jauh lebih kecil daripada pdf lognormal, dan itu terus menurun, relatif. Jika Anda mengambil rasio dengan cara lain (dengan lognormal di atas), akhirnya harus meningkat melampaui batas apa pun.log(x) x −x/β x→∞ −∞
Artinya, setiap lognormal yang diberikan pada akhirnya lebih berat daripada gamma manapun .
Definisi beban lainnya:
Beberapa orang tertarik pada skewness atau kurtosis untuk mengukur bobot ekor kanan. Pada koefisien variasi yang diberikan, lognormal lebih condong dan memiliki kurtosis lebih tinggi daripada gamma . **
Misalnya, dengan skewness , gamma memiliki skewness 2CV sedangkan lognormal adalah 3CV + CV .3
Ada beberapa definisi teknis tentang berbagai ukuran seberapa berat ekor di sini . Anda mungkin ingin mencoba beberapa dari mereka dengan dua distribusi ini. Lognormal adalah kasus khusus yang menarik dalam definisi pertama - semua momennya ada, tetapi MGFnya tidak bertemu di atas 0, sedangkan MGF untuk Gamma bertemu di lingkungan sekitar nol.
-
** Seperti yang disebutkan Nick Cox di bawah ini, transformasi biasa untuk mendekati normalitas untuk gamma, transformasi Wilson-Hilferty, lebih lemah daripada log - ini adalah transformasi root cube. Pada nilai-nilai kecil dari parameter bentuk, akar keempat telah disebutkan sebagai gantinya lihat diskusi dalam jawaban ini , tetapi dalam kedua kasus itu adalah transformasi yang lebih lemah untuk mencapai mendekati normalitas.
Perbandingan skewness (atau kurtosis) tidak menyarankan adanya hubungan yang perlu di ekor ekstrem - melainkan memberi tahu kita sesuatu tentang perilaku rata-rata; tetapi mungkin karena alasan itu bekerja lebih baik jika titik aslinya tidak dibuat tentang ekor yang ekstrem.
Sumber : Sangat mudah untuk menggunakan program seperti R atau Minitab atau Matlab atau Excel atau apa pun yang Anda suka menggambar kepadatan dan log-densitas dan log rasio kepadatan ... dan seterusnya, untuk melihat bagaimana keadaan dalam kasus-kasus tertentu. Itulah yang saya sarankan untuk memulai.
sumber
Meskipun kurtosis terkait dengan berat ekor, kurtosis akan lebih berkontribusi pada gagasan distribusi ekor gemuk , dan relatif lebih sedikit terhadap bobot ekor itu sendiri, seperti yang ditunjukkan contoh berikut. Di sini, saya sekarang memuntahkan apa yang telah saya pelajari di posting di atas dan di bawah, yang merupakan komentar yang sangat bagus. Pertama, area dari ekor kanan adalah area dari x hingga dari fungsi kepadatan , AKA fungsi survival, . Untuk distribusi lognormal dan distribusi gamma∞ f(x) 1−F(t) e−(log(x)−μ)22σ22π√σx;x≥0 βαxα−1e−βxΓ(α);x≥0 , mari kita bandingkan fungsi survival masing-masing dan grafis. Untuk melakukan ini, saya secara sewenang-wenang mengatur varians masing-masing dan , serta kelebihan masing-masing kurtosis dan sama dengan memilih dan diselesaikan untuk . Pertunjukan ini12erfc(log(x)−μ2√σ) Q(α,βx)=Γ(α,βx)Γ(α) (eσ2−1)e2μ+σ2 αβ2 3e2σ2+2e3σ2+e4σ2−6 6α μ=0,σ=0.8 α→0.19128,β→0.335421
fungsi survival untuk distribusi lognormal (LND) berwarna biru dan distribusi gamma (GD) berwarna oranye. Ini membawa kita pada peringatan pertama kita. Artinya, jika hanya plot yang harus kami periksa, kami dapat menyimpulkan bahwa ekor untuk GD lebih berat daripada untuk LND. Bahwa ini bukan masalahnya ditunjukkan dengan memperluas nilai sumbu x plot
Plot ini menunjukkan bahwa 1) bahkan dengan kurtosis yang sama, area ekor kanan LND dan GD dapat berbeda. 2) Penafsiran grafis itu sendiri memiliki bahaya, karena hanya dapat menampilkan hasil untuk nilai parameter tetap pada rentang terbatas. Dengan demikian, ada kebutuhan untuk menemukan ekspresi umum untuk rasio fungsi survival pembatas dari . Saya tidak dapat melakukan ini dengan ekspansi seri yang tak terbatas. Namun, saya bisa melakukan ini dengan menggunakan perantara fungsi terminal atau asimptotik, yang bukan fungsi unik dan di mana untuk ekor kanan maka sudah cukup untuk danlimx→∞S(LND,x)S(GD,x) limx→∞F(x)G(x)=1 F(x) G(x) menjadi saling asimptotik. Dengan perawatan yang tepat diambil untuk menemukan fungsi-fungsi ini, ini memiliki potensi untuk mengidentifikasi subset dari fungsi yang lebih sederhana daripada fungsi survival itu sendiri, yang dapat dibagi atau dimiliki bersama dengan lebih dari satu fungsi kerapatan, misalnya, dua fungsi kerapatan yang berbeda dapat berbagi ekor eksponensial yang membatasi. Dalam versi sebelumnya dari posting ini, inilah yang saya sebut sebagai "kompleksitas tambahan dalam membandingkan fungsi bertahan hidup." Perhatikan bahwa, dan (Secara kebetulan dan tidak harus danlimu→∞erfc(u)e−u2π√u=1 limu→∞Γ(α,u)e−uuα−1=1 erfc(u)<e−u2π√u Γ(α,u)<e−uuα−1 . Artinya, tidak perlu memilih batas atas, hanya fungsi asimptotik). Di sini kita menulis dan mana rasio istilah kanan memiliki batas yang sama dengan sebagai istilah tangan kiri. Menyederhanakan rasio pembatas hasil istilah tangan kanan12erfc(log(x)−μ2√σ)<e−(log(x)−μ2√σ)22(π√(log(x)−μ))2√σ Γ(α,βx)Γ(α)<e−βx(βx)α−1Γ(α) x→∞ limx→∞σΓ(α)(βx)1−αeβx−(μ−log(x))22σ22π√(log(x)−μ)=∞ berarti untuk x cukup besar, area ekor LND adalah sebesar yang kita suka dibandingkan dengan area ekor GD, terlepas dari apa nilai parameternya. Yang memunculkan masalah lain, kita tidak selalu memiliki solusi yang benar untuk semua nilai parameter, dengan demikian, menggunakan ilustrasi grafik saja bisa menyesatkan. Misalnya, area ekor kanan distribusi gamma lebih besar daripada area ekor distribusi eksponensial ketika , kurang dari eksponensial ketika dan GD persis distribusi eksponensial ketika .α<1 α>1 α=1
Lalu apa gunanya mengambil logaritma rasio fungsi survival, karena kita jelas tidak perlu mengambil logaritma untuk menemukan rasio pembatas? Banyak fungsi distribusi berisi istilah eksponensial yang terlihat lebih sederhana ketika logaritma diambil, dan jika rasio menjadi tak terhingga dalam batas ketika x bertambah, maka logaritma juga akan melakukannya. Dalam kasus kami, itu akan memungkinkan kami untuk memeriksa , yang menurut sebagian orang lebih mudah dilihat. Terakhir, jika rasio fungsi survival menjadi nol, maka logaritma rasio tersebut akan menjadi-∞limx→∞(log(σΓ(α)(βx)1−α2π√(log(x)−μ))+βx−(μ−log(x))22σ2)=∞ −∞ , dan dalam semua kasus setelah menemukan batas logaritma rasio, kita harus mengambil antilogaritma dari nilai tersebut untuk memahami hubungannya dengan nilai pembatas dari rasio biasa fungsi survival.
sumber