Mengapa menggunakan teori nilai ekstrem?

18

Saya berasal dari Teknik Sipil, di mana kami menggunakan Teori Nilai Ekstrim , seperti distribusi GEV untuk memprediksi nilai peristiwa tertentu, seperti Kecepatan angin terbesar , yaitu nilai 98,5% dari kecepatan angin akan lebih rendah.

Pertanyaan saya adalah mengapa menggunakan distribusi nilai ekstrem seperti itu ? Bukankah lebih mudah jika kita hanya menggunakan distribusi keseluruhan dan mendapatkan nilai untuk probabilitas 98,5% ?

cqcn1991
sumber

Jawaban:

24

Penafian: Pada poin-poin berikut ini, GROSSLY menganggap bahwa data Anda terdistribusi secara normal. Jika Anda benar-benar merekayasa apa pun, bicarakan dengan profesional statistik yang kuat dan biarkan orang itu masuk di telepon untuk mengatakan apa levelnya. Bicaralah dengan lima dari mereka, atau 25 dari mereka. Jawaban ini dimaksudkan untuk seorang mahasiswa teknik sipil yang bertanya "mengapa" bukan untuk seorang profesional teknik yang bertanya "bagaimana".

Saya pikir pertanyaan di balik pertanyaan adalah "apa distribusi nilai ekstrim?". Ya itu adalah beberapa aljabar - simbol. Terus? Baik?

Mari kita pikirkan banjir 1000 tahun. Mereka besar.

Ketika mereka terjadi, mereka akan membunuh banyak orang. Banyak jembatan turun.
Anda tahu jembatan apa yang tidak turun? Saya lakukan. Kamu belum ... belum.

Pertanyaan: Jembatan mana yang tidak akan tenggelam dalam banjir 1000 tahun?
Jawab: Jembatan dirancang untuk menahannya.

Data yang perlu Anda lakukan dengan cara Anda:
Jadi katakanlah Anda memiliki data air harian 200 tahun. Apakah banjir 1000 tahun ada di sana? Tidak jauh. Anda memiliki sampel satu ekor distribusi. Anda tidak memiliki populasi. Jika Anda tahu semua sejarah banjir maka Anda akan memiliki total populasi data. Mari kita pikirkan hal ini. Berapa tahun data yang perlu Anda miliki, berapa banyak sampel, untuk memiliki setidaknya satu nilai yang kemungkinannya adalah 1 dalam 1000? Di dunia yang sempurna, Anda membutuhkan setidaknya 1000 sampel. Dunia nyata berantakan, jadi Anda membutuhkan lebih banyak. Anda mulai mendapatkan peluang 50/50 di sekitar 4000 sampel. Anda mulai dijamin memiliki lebih dari 1 di sekitar 20.000 sampel. Sampel tidak berarti "air satu detik vs yang berikutnya" tetapi ukuran untuk setiap sumber variasi yang unik - seperti variasi tahun-ke-tahun. Satu ukuran lebih dari satu tahun, bersama dengan ukuran lain selama satu tahun lagi merupakan dua sampel. Jika Anda tidak memiliki 4.000 tahun data yang baik, maka kemungkinan besar Anda tidak memiliki contoh banjir data 1000 tahun. Yang bagus adalah - Anda tidak perlu banyak data untuk mendapatkan hasil yang baik.

Berikut adalah cara mendapatkan hasil yang lebih baik dengan data lebih sedikit:
Jika Anda melihat maksimal tahunan, Anda dapat menyesuaikan "distribusi nilai ekstrim" dengan nilai 200 dari level maksimum tahun dan Anda akan memiliki distribusi yang berisi banjir 1000 tahun -tingkat. Itu akan menjadi aljabar, bukan "seberapa besar" sebenarnya. Anda dapat menggunakan persamaan untuk menentukan seberapa besar banjir 1000 tahun yang akan terjadi. Kemudian, mengingat volume air itu - Anda dapat membangun jembatan Anda untuk menahannya. Jangan menembak untuk nilai yang tepat, menembak untuk yang lebih besar, jika tidak Anda berencana untuk gagal pada banjir 1000 tahun. Jika Anda berani, maka Anda dapat menggunakan resampling untuk mencari tahu seberapa jauh di baliknya pada nilai 1000 tahun yang Anda butuhkan untuk membangunnya agar dapat menolaknya.

Inilah sebabnya mengapa EV / GEV adalah bentuk analitik yang relevan:
Distribusi nilai ekstrem umum adalah tentang seberapa besar maks. Variasi dalam perilaku maksimum benar-benar berbeda dari variasi dalam mean. Distribusi normal, melalui teorema batas pusat, menjelaskan banyak "kecenderungan sentral".

Prosedur:

  1. lakukan 1000 kali berikut ini:
    i. pilih 1000 angka dari distribusi normal standar
    ii. hitung maks kelompok sampel itu dan simpan
  2. sekarang plot distribusi hasilnya

    #libraries
    library(ggplot2)
    
    #parameters and pre-declarations
    nrolls <- 1000
    ntimes <- 10000
    store <- vector(length=ntimes)
    
    #main loop
    for (i in 1:ntimes){
    
         #get samples
         y <- rnorm(nrolls,mean=0,sd=1)
    
         #store max
         store[i] <- max(y)
    }
    
    #plot
    ggplot(data=data.frame(store), aes(store)) + 
         geom_histogram(aes(y = ..density..),
                        col="red", 
                        fill="green", 
                        alpha = .2) + 
         geom_density(col=2) + 
         labs(title="Histogram for Max") +
         labs(x="Max", y="Count")
    

Ini BUKAN "distribusi normal standar": masukkan deskripsi gambar di sini

Puncaknya adalah di 3.2 tetapi max naik ke 5.0. Itu miring. Tidak sampai di bawah 2,5. Jika Anda memiliki data aktual (standar normal) dan Anda hanya memilih ekornya, maka Anda secara acak memilih sesuatu di sepanjang kurva ini. Jika Anda beruntung maka Anda menuju ke tengah dan bukan ekor bawah. Rekayasa adalah kebalikan dari keberuntungan - ini adalah tentang mencapai secara konsisten hasil yang diinginkan setiap saat. " Angka acak terlalu penting untuk dibiarkan kebetulan " (lihat catatan kaki), terutama untuk seorang insinyur. Keluarga fungsi analitik yang paling cocok dengan data ini - keluarga nilai distribusi yang ekstrem.

Kesesuaian sampel:
Katakanlah kita memiliki 200 nilai acak dari maksimum tahun dari distribusi normal standar, dan kita akan berpura-pura bahwa itu adalah 200 tahun sejarah tingkat ketinggian air maksimum kita (apa pun artinya). Untuk mendapatkan distribusi kami akan melakukan hal berikut:

  1. Cicipi variabel "store" (untuk membuat kode pendek / mudah)
  2. cocok dengan distribusi nilai ekstrim umum
  3. temukan rata-rata distribusi
  4. gunakan bootstrap untuk menemukan batas atas 95% CI dalam variasi rata-rata, sehingga kami dapat menargetkan rekayasa kami untuk itu.

(kode menganggap di atas telah dijalankan terlebih dahulu)

library(SpatialExtremes) #if it isn't here install it, it is the ev library
y2 <- sample(store,size=200,replace=FALSE)  #this is our data

myfit <- gevmle(y2)

Ini memberikan hasil:

> gevmle(y2)    
       loc      scale      shape     
 3.0965530  0.2957722 -0.1139021     

Ini dapat dicolokkan ke fungsi pembangkit untuk membuat 20.000 sampel

y3 <- rgev(20000,loc=myfit[1],scale=myfit[2],shape=myfit[3])

Membangun hal-hal berikut akan memberikan peluang 50/50 untuk gagal pada tahun apa pun:

berarti (y3)
3,23681

Berikut adalah kode untuk menentukan level "banjir" 1000 tahun:

p1000 <- qgev(1-(1/1000),loc=myfit[1],scale=myfit[2],shape=myfit[3])
p1000

Membangun hal-hal berikut ini akan memberi Anda 50/50 kemungkinan gagal pada banjir 1000 tahun.

p1000
4.510931

Untuk menentukan 95% CI atas saya menggunakan kode berikut:

myloc <- 3.0965530
myscale <- 0.2957722
myshape <- -0.1139021

N <- 1000
m <- 200
p_1000 <- vector(length=N)
yd <- vector(length=m)

for (i in 1:N){

      #generate samples
    yd <- rgev(m,loc=myloc,scale=myscale,shape=myshape)

    #compute fit
    fit_d <- gevmle(yd)

    #compute quantile
    p_1000[i] <- qgev(1-(1/1000),loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])

}

mytarget <- quantile(p_1000,probs=0.95)

Hasilnya adalah:

> mytarget
     95% 
4.812148

Ini berarti, bahwa untuk menahan sebagian besar banjir 1000 tahun, mengingat data Anda sangat normal (tidak mungkin), Anda harus membangun untuk ...

> out <- pgev(4.812148,loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])
> 1/(1-out)

atau

> 1/(1-out)
   shape 
1077.829 

... 1078 tahun banjir.

Garis bawah:

  • Anda memiliki sampel data, bukan total populasi aktual. Itu berarti kuantil Anda adalah perkiraan, dan bisa mati.
  • Distribusi seperti distribusi nilai ekstrem umum dibuat untuk menggunakan sampel untuk menentukan ekor yang sebenarnya. Mereka jauh lebih buruk dalam memperkirakan daripada menggunakan nilai sampel, bahkan jika Anda tidak memiliki cukup sampel untuk pendekatan klasik.
  • Jika Anda kuat, langit-langitnya tinggi, tetapi hasilnya adalah - Anda tidak gagal.

Semoga berhasil

PS:

  • 1/(1-0,985)67
  • Mengingat poin sebelumnya, rata-rata setiap 67 tahun orang sipil harus membangun kembali. Jadi dengan biaya penuh untuk rekayasa dan konstruksi setiap 67 tahun, mengingat umur operasional struktur sipil (saya tidak tahu apa itu), pada titik tertentu mungkin lebih murah untuk merekayasa untuk periode antar-badai yang lebih lama. Infrastruktur sipil berkelanjutan adalah salah satu yang dirancang untuk bertahan setidaknya satu umur manusia tanpa kegagalan, kan?

PS: lebih menyenangkan - video youtube (bukan milikku)
https://www.youtube.com/watch?v=EACkiMRT0pc

Catatan Kaki: Coveyou, Robert R. "Pembuatan angka acak terlalu penting untuk dibiarkan kebetulan." Probabilitas Terapan dan Metode Monte Carlo dan aspek dinamika modern. Studi dalam matematika terapan 3 (1969): 70-111.

EngrStudent - Pasang kembali Monica
sumber
2
Saya mungkin tidak cukup jelas. Perhatian utama saya adalah mengapa menggunakan extreme value distributiondaripada the overall distributionmencocokkan data, dan mendapatkan nilai 98,5%.
cqcn1991
Apa yang Anda maksud dengan populasi secara keseluruhan?
kjetil b halvorsen
1
memperbarui jawabannya.
EngrStudent
2
@EngrStudent jawaban yang bagus, namun akan lebih baik jika Anda menunjukkan bagaimana EVT bekerja di sini lebih baik daripada menggunakan distribusi normal selain memberikan ilustrasi.
Tim
2
Setelah melakukan beberapa pekerjaan pemodelan, saya akan mengatakan bahwa menggunakan distribusi induk hanya berbahaya, karena datanya sangat sedikit, dan ekstrapolasi hanya berbahaya dan tidak stabil, untuk memodelkan peristiwa ekstrem. Dan dengan demikian kita harus menggunakan teori EV sebagai gantinya.
cqcn1991
7

Anda menggunakan teori nilai ekstrim untuk mengekstrapolasi dari data yang diamati. Seringkali, data yang Anda miliki tidak cukup besar untuk memberi Anda perkiraan kemungkinan ekor yang masuk akal. Mengambil contoh @ EngrStudent dari peristiwa 1-dalam-1000 tahun: yang terkait dengan menemukan 99,9% kuantil dari suatu distribusi. Tetapi jika Anda hanya memiliki data 200 tahun, Anda hanya dapat menghitung estimasi kuantil empiris hingga 99,5%.

Teori nilai ekstrim memungkinkan Anda memperkirakan 99,9% kuantil, dengan membuat berbagai asumsi tentang bentuk distribusi Anda di bagian ekor: bahwa itu halus, bahwa ia meluruh dengan pola tertentu, dan seterusnya.

Anda mungkin berpikir bahwa perbedaan antara 99,5% dan 99,9% kecil; itu hanya 0,4% setelah semua. Tetapi itu adalah perbedaan dalam probabilitas , dan ketika Anda berada di buntut, itu dapat diterjemahkan menjadi perbedaan besar dalam kuantil . Berikut adalah ilustrasi tentang bagaimana distribusi gamma, yang tidak memiliki ekor yang sangat panjang saat ini. Garis biru sesuai dengan 99,5% kuantil, dan garis merah adalah 99,9% kuantil. Sementara perbedaan antara ini kecil pada sumbu vertikal, pemisahan pada sumbu horizontal sangat besar. Pemisahan ini semakin besar untuk distribusi yang benar-benar berekor panjang; gamma sebenarnya merupakan kasus yang tidak berbahaya.

masukkan deskripsi gambar di sini

Hong Ooi
sumber
Jawaban Anda salah. Titik 99,9% dari Normal tahunan mati tidak sesuai dengan peristiwa 1 dalam 1000 tahun. Maks 1000 Normals memiliki distribusi yang berbeda. Saya pikir itu dibahas dalam jawaban lain.
Mark L. Stone
@ MarkL.Stone Nowhere saya tidak mengatakan apa-apa tentang maksimum 1000 normals.
Hong Ooi
1
Itulah poin saya. Acara 1 dalam 1000 tahun harus didasarkan pada maksimum 1000 tahunan Normal. Itu sangat berbeda dari titik $ 99,9 pada Normal tahunan. Lihat komentar saya untuk jawaban Karel Macek di bawah ini.
Mark L. Stone
@ MarkL.Stone Titik grafik hanya untuk menunjukkan bahwa ketika Anda berada di ekor, perubahan kecil dalam probabilitas sesuai dengan perubahan besar dalam kuantil. Anda dapat mengganti 99% quantile dari GEV, atau GPD, atau distribusi lainnya. (Dan saya bahkan tidak menyebutkan distribusi normal.)
Hong Ooi
Selain itu, memperkirakan maxima melalui GEV hanyalah satu cara untuk mendapatkan jumlah ekor. Cara lain adalah dengan memperkirakan kuantil secara langsung melalui GPD (dengan asumsi distribusi berekor berat).
Hong Ooi
7

Jika Anda hanya tertarik pada ekor, masuk akal jika Anda memfokuskan pengumpulan data dan upaya analisis pada ekor. Seharusnya lebih efisien untuk melakukannya. Saya menekankan pengumpulan data karena aspek ini sering diabaikan ketika menyajikan argumen untuk distribusi EVT. Bahkan, tidak mungkin mengumpulkan data yang relevan untuk memperkirakan apa yang Anda sebut distribusi keseluruhan di beberapa bidang. Saya akan jelaskan lebih detail di bawah ini.

Jika Anda melihat banjir 1 dalam 1000 tahun seperti pada contoh @ EngrStudent, maka untuk membangun tubuh distribusi normal, Anda memerlukan banyak data untuk mengisinya dengan pengamatan. Secara potensial Anda membutuhkan setiap banjir yang telah terjadi dalam ratusan tahun terakhir.

Sekarang berhentilah sejenak dan pikirkan apa sebenarnya banjir itu? Ketika halaman belakang saya banjir setelah hujan lebat, apakah itu banjir? Mungkin tidak, tetapi di mana tepatnya garis yang menggambarkan banjir dari peristiwa yang bukan banjir? Pertanyaan sederhana ini menyoroti masalah pengumpulan data. Bagaimana Anda bisa memastikan bahwa kami mengumpulkan semua data pada tubuh mengikuti standar yang sama selama beberapa dekade atau bahkan berabad-abad? Praktis mustahil untuk mengumpulkan data pada tubuh distribusi banjir.

Oleh karena itu, itu bukan hanya soal efisiensi dari analisis , tetapi soal kelayakan data koleksi : apakah untuk model seluruh distribusi atau hanya ekor?

Secara alami, dengan ekor, pengumpulan data jauh lebih mudah. Jika kita mendefinisikan ambang batas yang cukup tinggi untuk apa itu banjir besar , maka kita dapat memiliki peluang lebih besar bahwa semua atau hampir semua peristiwa semacam itu mungkin dicatat dalam beberapa cara. Sulit untuk melewatkan banjir yang dahsyat, dan jika ada peradaban apa pun yang hadir, akan ada sejumlah kenangan yang tersimpan tentang peristiwa itu. Dengan demikian masuk akal untuk membangun alat analitik yang fokus secara khusus pada ekor mengingat bahwa pengumpulan data jauh lebih kuat pada peristiwa ekstrem daripada pada yang non-ekstrem di banyak bidang seperti studi reliabilitas.

Aksakal
sumber
+1 Poin menarik dan meyakinkan, terutama dalam sambutannya di bagian akhir.
whuber
(+1) Terkait dengan poin terakhir Anda (memori yang disimpan), Efek Sadler mungkin menarik.
GeoMatt22
@ GeoMatt22, ini adalah pertama kalinya saya melihat kertas dan istilah Efek Sadler. Terima kasih atas tautannya
Aksakal
Itu adalah poin yang sangat bagus. Ini adalah sistem, sehingga pendekatan sistemik dapat memiliki hasil yang sangat baik. Analisis terbaik di dunia dapat diracuni dengan data sampah. Analisis yang cukup sederhana, ketika diumpankan dengan data yang baik, dapat memiliki hasil yang bagus. Poin bagus!
EngrStudent
6

Biasanya, distribusi data yang mendasarinya (misalnya, kecepatan angin Gaussian) adalah untuk titik sampel tunggal. Persentil ke-98 akan memberi tahu Anda bahwa untuk setiap titik yang dipilih secara acak, ada peluang 2% dari nilai yang lebih besar daripada persentil ke-98.

Saya bukan seorang insinyur sipil, tetapi saya akan membayangkan apa yang ingin Anda ketahui bukanlah kemungkinan kecepatan angin pada suatu hari berada di atas angka tertentu, tetapi distribusi hembusan terbesar yang mungkin terjadi, katakanlah, jalannya tahun. Dalam hal ini, jika maksimum hembusan angin harian, katakanlah, terdistribusi secara eksponensial, maka yang Anda inginkan adalah distribusi hembusan angin maksimum selama 365 hari ... inilah yang ingin diselesaikan oleh distribusi nilai ekstrim.


sumber
1

Penggunaan kuantil membuat perhitungan lebih mudah. Insinyur sipil dapat mengganti nilai (kecepatan angin, misalnya) ke dalam rumus prinsip pertama mereka dan mereka mendapatkan perilaku sistem untuk kondisi ekstrem yang sesuai dengan kuantil 98,5%.

Penggunaan seluruh distribusi tampaknya dapat memberikan lebih banyak informasi, tetapi akan mempersulit perhitungan. Namun, hal itu dapat memungkinkan penggunaan pendekatan manajemen risiko tingkat lanjut yang akan secara optimal menyeimbangkan biaya terkait (i) konstruksi dan (ii) risiko kegagalan.

Karel Macek
sumber
Yah ... saya mungkin tidak cukup jelas. Saya hanya ingin tahu mengapa menggunakan teori nilai ekstrem daripada distribusi umum (seluruh distribusi?) Yang biasanya kita gunakan?
cqcn1991
1
Jika fungsi distribusi kumulatif untuk setiap satu instantiasi, seperti kecepatan angin maksimum harian, adalah F (x), maka fungsi distribusi kumulatif untuk maksimum n instantiasi independen (misalnya, n = 365 untuk satu tahun dengan kecepatan angin maksimum harian) ) adalah F ^ n (x). Ini berbeda dari F (x).
Mark L. Stone