Kurtosis raksasa?

10

Saya melakukan beberapa statistik deskriptif pengembalian harian pada indeks saham. Yaitu jika dan adalah tingkat indeks masing-masing pada hari 1 dan 2, maka adalah pengembalian yang saya gunakan (sepenuhnya standar dalam literatur).P 2 l o g e ( P 2P1P2loge(P2P1)

Jadi kurtosis sangat besar dalam beberapa hal ini. Saya melihat sekitar 15 tahun data harian (jadi sekitar pengamatan seri waktu)26015

                      means     sds     mins    maxs     skews     kurts
ARGENTINA          -0.00031 0.00965 -0.33647 0.13976 -15.17454 499.20532
AUSTRIA             0.00003 0.00640 -0.03845 0.04621   0.19614   2.36104
CZECH.REPUBLIC      0.00008 0.00800 -0.08289 0.05236  -0.16920   5.73205
FINLAND             0.00005 0.00639 -0.03845 0.04622   0.19038   2.37008
HUNGARY            -0.00019 0.00880 -0.06301 0.05208  -0.10580   4.20463
IRELAND             0.00003 0.00641 -0.03842 0.04621   0.18937   2.35043
ROMANIA            -0.00041 0.00789 -0.14877 0.09353  -1.73314  44.87401
SWEDEN              0.00004 0.00766 -0.03552 0.05537   0.22299   3.52373
UNITED.KINGDOM      0.00001 0.00587 -0.03918 0.04473  -0.03052   4.23236
                   -0.00007 0.00745 -0.09124 0.06405  -1.82381  63.20596
AUSTRALIA           0.00009 0.00861 -0.08831 0.06702  -0.74937  11.80784
CHINA              -0.00002 0.00072 -0.40623 0.02031   6.26896 175.49667
HONG.KONG           0.00000 0.00031 -0.00237 0.00627   2.73415  56.18331
INDIA              -0.00011 0.00336 -0.03613 0.03063  -0.22301  10.12893
INDONESIA          -0.00031 0.01672 -0.24295 0.19268  -2.09577  54.57710
JAPAN               0.00008 0.00709 -0.03563 0.06591   0.57126   5.16182
MALAYSIA           -0.00003 0.00861 -0.35694 0.13379 -16.48773 809.07665

Pertanyaan saya adalah: Apakah ada masalah?

Saya ingin melakukan analisis deret waktu yang luas atas data ini - analisis regresi OLS dan Kuantil, dan juga Granger Causality.

Baik respons saya (dependen) maupun prediktor (regressor) akan memiliki sifat kurtosis raksasa ini. Jadi saya akan memiliki proses pengembalian ini di kedua sisi persamaan regresi. Jika ketidaknormalan tumpah ke gangguan yang hanya akan membuat kesalahan standar saya varians tinggi kan?

(Mungkin saya perlu bootstrap yang kuat skewness?)


sumber
3
1) Anda mungkin ingin memindahkan ini ke situs quant.stackexchange.com. 2) Apa yang Anda maksud dengan masalah? Ada seluruh literatur tentang dampak outlier pada momen. Seringkali bisa lebih dari seni daripada sains.
Yohanes
2
"Apakah ada masalah?" terlalu kabur. Apa yang ingin Anda lakukan dengan data ini? Kurva besar Anda dikaitkan dengan kemiringan kiri yang besar. Karena log (p2 / p1) = log p2 - log p1, condong ke kiri yang besar menunjukkan bahwa ada beberapa kali ketika ini sangat rendah, yaitu, p1 jauh lebih tinggi dari p2, dibandingkan dengan kasus biasa. Bisa jadi perusahaan bangkrut atau semacamnya.
Peter Flom - Reinstate Monica
Maaf tentang ini - Saya telah mengubah OP saya.
1
log-return biasanya miring dan berekor berat. Untuk alasan ini lebih disukai untuk mempertimbangkan distribusi fleksibel yang dapat menangkap perilaku ini. Lihat misalnya 1 dan 2 .
Anda harus melihat ukuran kutosis berdasarkan momen-L
kjetil b halvorsen

Jawaban:

2

Silakan melihat-lihat Lambert W x F ekor-berat atau mencoba distribusi Lambert W x F miring (disclaimer: I am the author). Dalam R mereka diimplementasikan dalam paket LambertW .

Posting terkait:

yX

Berikut adalah contoh perkiraan Lambert W x Gaussian yang diterapkan pada pengembalian dana ekuitas.

library(fEcofin)
ret <- ts(equityFunds[, -1] * 100)
plot(ret)

Rangkaian waktu plot dana ekuitas

Metrik ringkasan pengembalian serupa (tidak ekstrem) seperti pada pos OP.

data_metrics <- function(x) {
  c(mean = mean(x), sd = sd(x), min = min(x), max = max(x), 
    skewness = skewness(x), kurtosis = kurtosis(x))
}
ret.metrics <- t(apply(ret, 2, data_metrics))
ret.metrics

##          mean    sd    min   max skewness kurtosis
## EASTEU 0.1300 1.538 -18.42 12.38   -1.855    28.95
## LATAM  0.1206 1.468  -6.06  5.66   -0.434     4.21
## CHINA  0.0864 0.911  -4.71  4.27   -0.322     5.42
## INDIA  0.1515 1.502 -12.72 14.05   -0.505    15.22
## ENERGY 0.0997 1.187  -5.00  5.02   -0.271     4.48
## MINING 0.1315 1.394  -7.72  5.69   -0.692     5.64
## GOLD   0.1098 1.855 -10.14  6.99   -0.350     5.11
## WATER  0.0628 0.748  -5.07  3.72   -0.405     6.08

Kebanyakan seri menunjukkan dengan jelas karakteristik non-Normal (kemiringan yang kuat dan / atau kurtosis besar). Mari Gaussianize setiap seri menggunakan Lambert W x Gaussian distribusi berat (= Tukey's h) menggunakan metode estimator momen ( IGMM).

library(LambertW)
ret.gauss <- Gaussianize(ret, type = "h", method = "IGMM")
colnames(ret.gauss) <- gsub(".X", "", colnames(ret.gauss))

plot(ts(ret.gauss))

plot seri waktu pengembalian Gaussianized

Plot seri waktu menunjukkan lebih sedikit ekor dan juga variasi yang lebih stabil dari waktu ke waktu (meskipun tidak konstan). Menghitung kembali metrik pada hasil rangkaian waktu Gaussianized:

ret.gauss.metrics <- t(apply(ret.gauss, 2, data_metrics))
ret.gauss.metrics

##          mean    sd   min  max skewness kurtosis
## EASTEU 0.1663 0.962 -3.50 3.46   -0.193        3
## LATAM  0.1371 1.279 -3.91 3.93   -0.253        3
## CHINA  0.0933 0.734 -2.32 2.36   -0.102        3
## INDIA  0.1819 1.002 -3.35 3.78   -0.193        3
## ENERGY 0.1088 1.006 -3.03 3.18   -0.144        3
## MINING 0.1610 1.109 -3.55 3.34   -0.298        3
## GOLD   0.1241 1.537 -5.15 4.48   -0.123        3
## WATER  0.0704 0.607 -2.17 2.02   -0.157        3

IGMM3Gaussianize()scale()

Regresi bivariat sederhana

rESEBUAHSTEU,trsayaNDsayaSEBUAH,t

layout(matrix(1:2, ncol = 2, byrow = TRUE))
plot(ret[, "INDIA"], ret[, "EASTEU"])
grid()
plot(ret.gauss[, "INDIA"], ret.gauss[, "EASTEU"])
grid()

scatterplot INDIA dan EASTEU

Scatterplot kiri dari seri asli menunjukkan bahwa outlier kuat tidak terjadi pada hari yang sama, tetapi pada waktu yang berbeda di India dan Eropa; selain itu tidak jelas apakah data cloud di pusat tidak mendukung korelasi atau ketergantungan negatif / positif. Karena pencilan sangat mempengaruhi estimasi varians dan korelasi, ada baiknya untuk melihat ketergantungan dengan ekor yang berat dihilangkan (sebar kanan). Di sini polanya jauh lebih jelas dan hubungan positif antara pasar India dan Eropa Timur menjadi jelas.

# try these models on your own
mod <- lm(EASTEU ~ INDIA * CHINA, data = ret)
mod.robust <- rlm(EASTEU ~ INDIA, data = ret)
mod.gauss <- lm(EASTEU ~ INDIA, data = ret.gauss)

summary(mod)
summary(mod.robust)
summary(mod.gauss)

Kausalitas Granger

VSEBUAHR(5)hal=5

library(vars)  
mod.vars <- vars::VAR(ret[, c("EASTEU", "INDIA")], p = 5)
causality(mod.vars, "INDIA")$Granger


## 
##  Granger causality H0: INDIA do not Granger-cause EASTEU
## 
## data:  VAR object mod.vars
## F-Test = 3, df1 = 5, df2 = 3000, p-value = 0.02

causality(mod.vars, "EASTEU")$Granger
## 
##  Granger causality H0: EASTEU do not Granger-cause INDIA
## 
## data:  VAR object mod.vars
## F-Test = 4, df1 = 5, df2 = 3000, p-value = 0.003

Namun, untuk data Gaussian, jawabannya berbeda! Berikut tes dapat tidak menolak H0 bahwa "INDIA yang tidak Granger penyebab EASTEU", tapi masih menolak bahwa "EASTEU tidak Granger penyebab INDIA". Jadi data Gaussianized mendukung hipotesis bahwa pasar Eropa mendorong pasar di India pada hari berikutnya.

mod.vars.gauss <- vars::VAR(ret.gauss[, c("EASTEU", "INDIA")], p = 5)
causality(mod.vars.gauss, "INDIA")$Granger

## 
##  Granger causality H0: INDIA do not Granger-cause EASTEU
## 
## data:  VAR object mod.vars.gauss
## F-Test = 0.8, df1 = 5, df2 = 3000, p-value = 0.5

causality(mod.vars.gauss, "EASTEU")$Granger

## 
##  Granger causality H0: EASTEU do not Granger-cause INDIA
## 
## data:  VAR object mod.vars.gauss
## F-Test = 2, df1 = 5, df2 = 3000, p-value = 0.06

VSEBUAHR(5)

Georg M. Goerg
sumber
1

Yang diperlukan adalah model distribusi probabilitas yang lebih sesuai dengan data. Terkadang, tidak ada momen yang ditentukan. Salah satu distribusi tersebut adalah distribusi Cauchy. Meskipun distribusi Cauchy memiliki median sebagai nilai yang diharapkan, tidak ada nilai rata-rata yang stabil, dan tidak ada momen yang lebih tinggi yang stabil. Apa ini artinya adalah bahwa ketika seseorang mengumpulkan data, pengukuran aktual muncul yang terlihat seperti outlier, tetapi merupakan pengukuran aktual. Sebagai contoh, jika seseorang memiliki dua distribusi normal F dan G, dengan rata-rata nol, dan satu membagi F / G, hasilnya tidak memiliki momen pertama dan merupakan distribusi Cauchy. Jadi kami dengan senang hati mengumpulkan data, dan itu terlihat OK seperti 5,3,9,6,2,4 dan kami menghitung rata-rata yang terlihat stabil, kemudian, tiba-tiba kami mendapatkan nilai -32739876 dan nilai rata-rata kami menjadi tidak berarti, tetapi perhatikan, median adalah 4, stabil. Seperti itu dengan distribusi ekor panjang.

Sunting: Anda dapat mencoba distribusi-t Student dengan 2 derajat kebebasan. Distribusi yang memiliki ekor lebih panjang dari distribusi normal, kemiringan dan kurtosis tidak stabil ( Sic , tidak ada), tetapi mean dan varians didefinisikan, yaitu stabil.

Sunting berikutnya: Satu kemungkinan adalah menggunakan regresi Theil. Ngomong-ngomong, itu pemikiran, karena Theil akan bekerja dengan baik tidak peduli seperti apa bentuk ekornya. Mereka dapat melakukan MLR (regresi linier berganda menggunakan median slope). Saya belum pernah melakukan Theil untuk pemasangan data histogram. Tapi, saya telah membuat Theil dengan varian jackknife untuk membangun interval kepercayaan. Keuntungan melakukan itu adalah bahwa Theil tidak peduli apa bentuk distribusi, dan, jawabannya umumnya kurang bias dibandingkan dengan OLS karena biasanya OLS digunakan ketika ada varian sumbu independen yang bermasalah. Bukan berarti Theil benar-benar tidak terikat, itu adalah median slope. Jawabannya memiliki arti yang berbeda juga, ia menemukan kesepakatan yang lebih baik antara variabel dependen dan independen di mana OLS menemukan prediktor kesalahan terkecil dari variabel dependen,

Carl
sumber
2
Info bagus, terima kasih. Apakah Anda tahu beberapa sumber daya (cukup ringkas) untuk dibaca lebih lanjut? Saya memiliki masalah yang sama sekali berbeda dengan ekor panjang, tetapi saya pikir data saya hanyalah distribusi campuran skenario yang berbeda.
flaschenpost
Saya menggunakan Mathematica, dan distribusi pas serta mendefinisikan distribusi sepotong-bijaksana tidak sulit dalam bahasa itu. Sebagai contoh, lihat ini . Secara umum, variabel acak ditambahkan dengan konvolusi, tetapi dalam praktiknya konvolusi fungsi kerapatan merupakan tantangan. Beberapa orang hanya menentukan fungsi kerapatan untuk variabel yang dicampur, misalnya menambahkan ekor eksponensial cahaya ke distribusi gamma yang lebih berat yang disensor setelah nilai maksimum untuk memodelkan frekuensi gempa. @flaschenpost
Carl