Regresi untuk hukum kekuasaan

7

Ini adalah pos silang dari Math SE .

Saya punya beberapa data (menjalankan waktu suatu algoritma) dan saya pikir itu mengikuti hukum kekuatan

yreg=kxSebuah

Saya ingin menentukan dan . Apa yang telah saya lakukan sejauh ini adalah melakukan regresi linier (kuadrat terkecil) melalui dan menentukan dan dari koefisiennya.kSebuahcatatan(x),catatan(y)kSebuah

Masalah saya adalah bahwa karena kesalahan "absolut" diminimalkan untuk "data log-log", apa yang diminimalkan ketika Anda melihat data asli adalah hasil bagi

yyreg

Hal ini menyebabkan kesalahan absolut yang besar untuk nilai . Apakah ada cara untuk membuat "regresi kekuasaan-hukum" yang meminimalkan kesalahan "absolut" yang sebenarnya? Atau setidaknya apakah pekerjaan yang lebih baik untuk meminimalkan itu?y


Contoh:

masukkan deskripsi gambar di sini

Kurva merah cocok melalui seluruh dataset. Kurva hijau hanya cocok melalui 21 poin terakhir.

Berikut adalah data untuk plot. Kolom kiri adalah nilai-nilai ( sumbu), kolom kanan adalah nilai-nilai ( sumbu)nxty

1.000000000000000000e+02,1.944999820000248248e-03
1.120000000000000000e+02,1.278203080000253058e-03
1.250000000000000000e+02,2.479853309999952970e-03
1.410000000000000000e+02,2.767649050000500332e-03
1.580000000000000000e+02,3.161272610000196315e-03
1.770000000000000000e+02,3.536506440000266715e-03
1.990000000000000000e+02,3.165302929999711402e-03
2.230000000000000000e+02,3.115432719999944224e-03
2.510000000000000000e+02,4.102446610000356694e-03
2.810000000000000000e+02,6.248937529999807478e-03
3.160000000000000000e+02,4.109296799998674206e-03
3.540000000000000000e+02,8.410178100001530418e-03
3.980000000000000000e+02,9.524117600000181830e-03
4.460000000000000000e+02,8.694799099998817837e-03
5.010000000000000000e+02,1.267794469999898935e-02
5.620000000000000000e+02,1.376997950000031709e-02
6.300000000000000000e+02,1.553864030000227069e-02
7.070000000000000000e+02,1.608576049999897034e-02
7.940000000000000000e+02,2.055535920000011244e-02
8.910000000000000000e+02,2.381920090000448978e-02
1.000000000000000000e+03,2.922614199999884477e-02
1.122000000000000000e+03,1.785056299999610019e-02
1.258000000000000000e+03,3.823622889999569313e-02
1.412000000000000000e+03,3.297452850000013452e-02
1.584000000000000000e+03,4.841355780000071440e-02
1.778000000000000000e+03,4.927822640000271981e-02
1.995000000000000000e+03,6.248602919999939054e-02
2.238000000000000000e+03,7.927740400003813193e-02
2.511000000000000000e+03,9.425949999996419137e-02
2.818000000000000000e+03,1.212073290000148518e-01
3.162000000000000000e+03,1.363937510000141629e-01
3.548000000000000000e+03,1.598689289999697394e-01
3.981000000000000000e+03,2.055201890000262210e-01
4.466000000000000000e+03,2.308686839999722906e-01
5.011000000000000000e+03,2.683506760000113900e-01
5.623000000000000000e+03,3.307920660000149837e-01
6.309000000000000000e+03,3.641307770000139499e-01
7.079000000000000000e+03,5.151283440000042901e-01
7.943000000000000000e+03,5.910637860000065302e-01
8.912000000000000000e+03,5.568920769999863296e-01
1.000000000000000000e+04,6.339683309999486482e-01
1.258900000000000000e+04,1.250584726999989016e+00
1.584800000000000000e+04,1.820368430999963039e+00
1.995200000000000000e+04,2.750779816999994409e+00
2.511800000000000000e+04,4.136365994000016144e+00
3.162200000000000000e+04,5.498797844000023360e+00
3.981000000000000000e+04,7.895301083999981984e+00
5.011800000000000000e+04,9.843239714999981516e+00
6.309500000000000000e+04,1.641506008199996813e+01
7.943200000000000000e+04,2.786652209900000798e+01
1.000000000000000000e+05,3.607965075100003105e+01
1.258920000000000000e+05,5.501840400599996883e+01
1.584890000000000000e+05,8.544515980200003469e+01
1.995260000000000000e+05,1.273598972439999670e+02
2.511880000000000000e+05,1.870695913819999987e+02
3.162270000000000000e+05,3.076423412130000088e+02
3.981070000000000000e+05,4.243025571930002116e+02
5.011870000000000000e+05,6.972544795499998145e+02
6.309570000000000000e+05,1.137165088436000133e+03
7.943280000000000000e+05,1.615926472178005497e+03
1.000000000000000000e+06,2.734825116088002687e+03
1.584893000000000000e+06,6.900561992643000849e+03

(maaf untuk notasi ilmiah yang berantakan)

0x539
sumber
2
Ketahuilah bahwa pusat bantuan mengatakan, " Harap dicatat, bahwa posting silang tidak dianjurkan di situs SE. Pilih satu lokasi terbaik untuk mengirim pertanyaan Anda. Kemudian, jika terbukti lebih cocok di situs lain, itu dapat dimigrasi. "
Glen_b -Reinstate Monica
2
cukup jelas dari plot Anda bahwa hukum kekuatan tunggal tidak cocok dengan data ini. Anda mungkin menemukan beberapa nilai dalam pertanyaan hukum kuasa lainnya di situs. Mungkin juga ada baiknya Anda membaca makalah ini oleh Aaron Clauset, Cosma Rohilla Shalizi, MEJ Newman (2009), "Distribusi kuasa hukum dalam data empiris," SIAM Review 51, 661-703 (lihat versi arXiv di sini arXiv: 0706.1062v2 ); dan posting ini oleh Shalizi.
Glen_b -Reinstate Monica
2
Beberapa informasi yang relevan di sini
Glen_b -Reinstate Monica

Jawaban:

4

Jika Anda ingin varians kesalahan yang sama pada setiap pengamatan dalam skala yang tidak diubah, Anda dapat menggunakan kuadrat terkecil nonlinear.

(Ini sering tidak cocok; kesalahan pada banyak pesanan besar jarang dalam ukuran konstan.)

Jika kita terus maju dan menggunakannya, kita akan lebih cocok dengan nilai-nilai selanjutnya:

Plot kuadrat terkecil nonlinear cocok

Dan jika kita memeriksa residu kita dapat melihat bahwa peringatan saya di atas sepenuhnya beralasan:

Sisa plot terhadap log (dipasang) untuk model di atas

Ini menunjukkan bahwa variabilitas tidak konstan pada skala asli (dan bahwa kesesuaian kurva daya tunggal ini tidak cocok dengan semua yang baik di ujung yang tinggi, karena ada kelengkungan yang berbeda di kuartal ketiga kisaran nilai log pada skala x - antara sekitar 0 dan 5 pada sumbu x di atas). Variabilitas lebih dekat ke konstan dalam skala log (meskipun itu sedikit lebih variabel dalam hal relatif pada nilai rendah daripada yang tinggi di sana).

Apa yang terbaik untuk dilakukan di sini tergantung pada apa yang ingin Anda capai.

Glen_b -Reinstate Monica
sumber
Dalam hal ini, kecocokan yang lebih baik untuk yang terbesar y-nilai mungkin sesuai, karena kita tidak begitu penting waktu berjalan ketika itu rendah ...
kjetil b halvorsen
1
@kjetilbhalvorsen Ada cara yang lebih baik untuk mencapai itu, tetapi kenyataan bahwa model tidak cocok adalah peringatan yang jelas bahwa jika minat adalah untuk memprediksi bahkan sedikit di luar kisaran data, prediksi akan terlalu rendah, mungkin secara dramatis. Kecocokan untuk hanya 21 poin terakhir masih tidak sesuai dengan kelengkungan dalam bagian data tersebut.
Glen_b -Reinstate Monica
2

Sebuah makalah oleh Lin dan Tegmark dengan baik meringkas alasan mengapa distribusi proses lognormal dan / atau markov gagal untuk menyesuaikan data yang menampilkan perilaku kekuatan hukum yang kritis ... https://ai2-s2-pdfs.s3.amazonaws.com/5ba0/3a03d844f10d7b4861d3b116818afe2b75f2 .pdf . Seperti yang mereka catat, "Proses Markov ... gagal secara episial dengan memprediksi informasi timbal balik yang saling membusuk secara eksponensial ..." Solusi dan rekomendasi mereka adalah menggunakan jaringan saraf pembelajaran yang dalam seperti model memori jangka pendek (LSTM) jangka panjang.

Menjadi sekolah tua dan tidak fasih berbicara atau nyaman dengan NN atau LSTM, saya akan memberikan tip untuk pendekatan nonlinier @ glen_b. Namun, saya lebih suka solusi yang lebih mudah ditelusuri dan mudah diakses seperti regresi kuantil berbasis nilai. Setelah menggunakan pendekatan ini pada klaim asuransi berekor berat, saya tahu bahwa itu dapat memberikan kecocokan yang jauh lebih baik pada ekor daripada metode yang lebih tradisional, termasuk model log-log multiplikatif. Tantangan sederhana dalam menggunakan QR adalah menemukan kuantil yang sesuai yang menjadi dasar model seseorang. Biasanya, ini jauh lebih besar daripada median. Yang mengatakan, saya tidak ingin menjual lebih banyak metode ini karena masih ada kekurangan yang signifikan dalam nilai-nilai paling ekstrim dari ekor.

Hyndman, et al ( http://robjhyndman.com/papers/sig-alternate.pdf ), mengusulkan alternatif QR yang mereka sebut meningkatkan regresi kuantil aditif . Pendekatan mereka membangun model di seluruh jajaran atau kisi-kisi kuantil, menghasilkan perkiraan probabilitas atau perkiraan yang dapat dievaluasi dengan salah satu distribusi nilai ekstrem, misalnya, Cauchy, Levy-stable, apa pun. Saya belum menggunakan metode mereka tetapi tampaknya menjanjikan.

Pendekatan lain untuk pemodelan nilai ekstrim dikenal sebagai POT atau model peak over threshold. Ini melibatkan penetapan ambang batas atau cut-off untuk distribusi nilai empiris dan hanya memodelkan nilai-nilai terbesar yang berada di atas cutoff berdasarkan GEV atau distribusi nilai ekstrim umum. Keuntungan dari pendekatan ini adalah kemungkinan nilai ekstrem di masa depan dapat dikalibrasi atau ditempatkan berdasarkan parameter dari model. Namun, metode ini memiliki kelemahan yang jelas bahwa seseorang tidak menggunakan PDF lengkap.

Akhirnya, dalam makalah 2013, JP Bouchaud mengusulkan RFIM (model isian lapangan acak) untuk memodelkan informasi kompleks yang menampilkan kekritisan dan perilaku berekor berat seperti menggiring, tren, longsoran salju, dan sebagainya. Bouchaud termasuk dalam kelas polymath yang harusnya mencakup orang-orang seperti Mandelbrot, Shannon, Tukey, Turing, dll. Saya dapat mengklaim sangat tertarik dengan pembahasannya sementara, pada saat yang sama, diintimidasi oleh kerasnya keterlibatan dalam menerapkan sarannya. . https://www.researchgate.net/profile/Jean-Philippe_Bouchaud/publication/230788728_Crises_and_Collective_Socio-Economic_Pimple_Models_and_Challenges/links/5682d40008ae051file&p=9pelangga&hl=id&hl=id&hl=id

Mike Hunter
sumber