Jumlah variabel acak lognormal independen muncul lognormal?

11

Saya mencoba memahami mengapa jumlah dua (atau lebih) variabel acak lognormal mendekati distribusi lognormal ketika Anda meningkatkan jumlah pengamatan. Saya sudah mencari online dan tidak menemukan hasil mengenai ini.

Jelas jika dan adalah variabel lognormal independen, maka dengan sifat eksponen dan variabel acak gaussian, juga lognormal. Namun, tidak ada alasan untuk menyarankan bahwa juga lognormal.Y X × Y X + YXYX×YX+Y

NAMUN

Jika Anda menghasilkan dua variabel acak lognormal independen dan , dan biarkan , dan ulangi proses ini berkali-kali, distribusi muncul lognormal. Bahkan tampaknya lebih dekat ke distribusi lognormal saat Anda meningkatkan jumlah pengamatan.Y Z = X + Y ZXYZ=X+YZ

Sebagai contoh: Setelah menghasilkan 1 juta pasangan, distribusi log natural Z diberikan dalam histogram di bawah ini. Ini sangat jelas menyerupai distribusi normal, menunjukkan memang lognormal.Z

masukkan deskripsi gambar di sini

Apakah ada yang punya wawasan atau referensi ke teks yang mungkin berguna dalam memahami ini?

Patty
sumber
Apakah Anda mengasumsikan varian yang sama untuk dan ? Jika Anda mensimulasikan , maka log jumlah tidak terlihat sangat normal lagi. YXYxx <- rlnorm(1e6,0,3); yy <- rlnorm(1e6,0,1)
Stephan Kolassa
Saya berasumsi varians yang sama - saya akan mencoba yang lain dengan varians yang tidak sama dan melihat apa yang akhirnya saya dapatkan.
Patty
Dengan varian 2 dan 3, saya mendapatkan sesuatu yang masih tampak agak normal, albiet dengan apa yang tampak seperti kemiringan kecil mungil.
Patty
1
Melihat melalui pertanyaan sebelumnya mungkin bermanfaat. Di sini dan di sini adalah makalah yang berpotensi bermanfaat. Terlihat bagus!
Stephan Kolassa

Jawaban:

20

Perkiraan lognormalitas ini dari jumlah lognormal adalah aturan praktis yang terkenal; itu disebutkan di banyak makalah - dan di sejumlah posting di situs.

Perkiraan lognormal untuk jumlah lognormal dengan mencocokkan dua momen pertama kadang-kadang disebut pendekatan Fenton-Wilkinson.

Anda dapat menemukan dokumen ini oleh Dufresne bermanfaat (tersedia di sini , atau di sini ).

Saya juga di masa lalu kadang-kadang menunjuk orang ke kertas Mitchell

Mitchell, RL (1968),
"Permanen dari distribusi log-normal."
J. Masyarakat Optik Amerika . 58: 1267-1272.

Tapi itu sekarang dibahas dalam referensi Dufresne.

Tetapi sementara ia memegang set yang cukup luas dari kasus tidak terlalu condong, itu tidak berlaku secara umum, bahkan untuk in lognormals, bahkan ketika menjadi cukup besar.n

Berikut ini adalah histogram dari 1000 nilai yang disimulasikan, masing-masing log dari jumlah lima puluh ribu iid lognormals:

histogram dari jumlah lima puluh ribu lognormals

Seperti yang Anda lihat ... lognya cukup miring, jadi jumlahnya tidak terlalu dekat dengan lognormal.

Memang, contoh ini juga akan dihitung sebagai contoh yang berguna untuk orang-orang berpikir (karena teorema limit sentral) bahwa beberapa di ratusan atau ribuan akan memberikan sangat dekat dengan rata-rata normal; yang ini sangat miring sehingga log-nya sangat miring, tetapi teorema batas pusat tetap berlaku di sini; sebuah dari jutaan * akan diperlukan sebelum mulai terlihat di dekat simetris.nnn

* Saya belum mencoba untuk mencari tahu berapa banyak tetapi, karena cara kemiringan jumlah (ekuivalen, rata-rata) berperilaku, beberapa juta jelas tidak akan cukup


Karena lebih banyak rincian diminta dalam komentar, Anda bisa mendapatkan hasil yang mirip dengan contoh dengan kode berikut, yang menghasilkan 1000 ulangan dari jumlah 50.000 variabel lognormal acak dengan parameter skala dan parameter bentuk :μ=0σ=4

res <- replicate(1000,sum(rlnorm(50000,0,4)))
hist(log(res),n=100)

(Sejak itu saya sudah mencoba Lognya masih condong ke kanan)n=106

Glen_b -Reinstate Monica
sumber
Bisakah Anda menambahkan parameter (atau potongan kode) yang digunakan untuk membuat histogram pada gambar?
altroware
1
Itu dua tahun lalu, saya tidak ingat apa parameter lognormal itu. Tapi mari kita terapkan logika sederhana. Anda tidak perlu khawatir tentang parameter , karena hanya memengaruhi nilai pada skala sumbu x, bukan bentuk (sesuatu yang nyaman seperti akan digunakan). Sehingga meninggalkan parameter sebagai satu-satunya yang berdampak pada bentuk. Dengan asumsi dan bekerja kembali kira-kira dari skala dalam histogram di atas kita mendapatkan bahwa harus berada di angka rata-rata atau lebih (NB berhati-hatilah bagaimana ini condong). Dan hanya mencoba memberikan penampilan yang sangat mirip dengan yang di atas. μ = 0 σ μ = 0 σ 4 4μμ=0σμ=0σ44
Glen_b -Reinstate Monica
1
Jadi: res <- replicate(1000,sum(rlnorm(50000,0,4))); hist(log(res),n=100)... jika Anda mencobanya beberapa kali, Anda akan melihat skalanya melonjak sedikit tetapi gambaran umumnya tepat. Perhatikan bahwa kecenderungan momen populasi dari lognormal komponen adalah miliar - rata-rata populasi akan melebihi hampir setiap nilai yang dihasilkan di sebagian besar sampel Anda. 26.5
Glen_b -Reinstate Monica
2

Mungkin sudah terlambat, tetapi saya telah menemukan makalah berikut tentang jumlah distribusi lognormal , yang mencakup topik ini. Ini bukan lognormal, tetapi sesuatu yang sangat berbeda dan sulit untuk dikerjakan.

Ivan Svetunkov
sumber
1

Makalah yang disarankan oleh Dufresne tahun 2009 dan yang satu ini dari tahun 2004 bersama dengan makalah yang berguna ini mencakup sejarah tentang perkiraan jumlah distribusi log-normal dan memberikan hasil matematika secara total.

Masalahnya adalah bahwa semua perkiraan yang dikutip di sana ditemukan dengan mengandaikan dari keberangkatan bahwa Anda berada dalam kasus di mana jumlah distribusi log-normal masih log-normal. Kemudian Anda dapat menghitung dan dari jumlah global dalam beberapa cara yang diperkirakan. Tetapi ini tidak memberi Anda kondisi yang harus Anda penuhi jika Anda ingin jumlah itu masih log-normal.σμσ

Mungkin [makalah ini] ( http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=6029348 ) memberi Anda dalam kasus tertentu semacam teorema batas pusat untuk jumlah log-normals tetapi masih ada kurangnya keumuman. Bagaimanapun contoh yang diberikan oleh Glen_b itu tidak benar-benar tepat, karena ini adalah kasus di mana Anda dapat dengan mudah menerapkan teorema limit pusat klasik, dan tentu saja dalam kasus itu jumlah log-normal adalah Gaussian.

Tetapi benar seperti dikatakan dalam makalah yang dikutip di atas bahwa bahkan dalam batas Anda dapat memiliki jumlah log-normal (misalnya jika variabel berkorelasi atau cukup tidak iid ) n

Mimì
sumber
1
Anda mengatakan bahwa dalam contoh saya "Anda dapat dengan mudah menerapkan teorema batas pusat klasik" tetapi jika Anda memahami apa yang ditunjukkan histogram, jelas Anda tidak dapat menggunakan CLT untuk menyatakan bahwa perkiraan normal berlaku pada n = 50000 untuk kasus ini; jumlahnya sangat miring sehingga log-nya masih condong ke kanan. Inti dari contoh adalah bahwa itu bahkan terlalu miring untuk diperkirakan oleh lognormal (atau histogram akan terlihat sangat dekat dengan simetris). Perkiraan kemiringan yang kurang miring (seperti normal) akan * lebih buruk * /
Glen_b -Reinstate Monica
Saya setuju, tetapi mungkin dalam contoh Anda salah satu konvergensi numerik dari sampel tidak tercapai (1000 percobaan terlalu sedikit) atau konvergensi statistik tidak tercapai, (50.000 addend terlalu sedikit), tetapi untuk batas tak terhingga distribusi harus jadilah Gaussian, karena kita berada dalam kondisi CLT, bukan?
Mimì
1000 sampel lebih dari cukup untuk membedakan bentuk distribusi jumlah - jumlah sampel yang kita ambil tidak mengubah bentuk, hanya seberapa "jelas" kita melihatnya. Kemiringan yang jelas tidak akan hilang jika kita mengambil sampel yang lebih besar, itu hanya akan terlihat lebih halus. Ya, 50.000 terlalu sedikit untuk jumlah agar terlihat normal - itu condong ke kanan sehingga log masih terlihat sangat miring. Mungkin membutuhkan jutaan sebelum terlihat cukup normal. Ya, CLT jelas berlaku; itu iid dan variansnya terbatas, jadi cara standar akhirnya harus mendekati normalitas.
Glen_b -Reinstate Monica
1

Hukum lognormal hadir secara luas tentang fenomena fisik, jumlah dari jenis distribusi variabel ini diperlukan misalnya untuk mempelajari perilaku penskalaan suatu sistem. Saya tahu artikel ini (sangat panjang dan sangat kuat, permulaan dapat dilakukan jika Anda bukan specilist!), "Efek distribusi luas dalam jumlah variabel acak lognormal" yang diterbitkan pada tahun 2003, (European Physical Journal B-Condensed Matter and Complex) Sistem 32, 513) dan tersedia https://arxiv.org/pdf/physics/0211065.pdf .

pemenang
sumber