Apakah distribusi Cauchy bagaimanapun juga merupakan distribusi yang “tidak dapat diprediksi”?

14

Apakah distribusi Cauchy bagaimanapun juga merupakan distribusi yang "tidak dapat diprediksi"?

Saya mencoba melakukannya

cs <- function(n) {
  return(rcauchy(n,0,1))
}

di R untuk banyak nilai n dan perhatikan bahwa mereka menghasilkan nilai yang cukup tidak terduga kadang-kadang.

Bandingkan dengan misalnya

as <- function(n) {
  return(rnorm(n,0,1))
}

yang sepertinya selalu memberi awan "kompak" poin.

Dengan gambar ini seharusnya terlihat seperti distribusi normal? Namun itu mungkin hanya berlaku untuk sebagian nilai. Atau mungkin triknya adalah bahwa penyimpangan standar Cauchy (pada gambar di bawah) menyatu jauh lebih lambat (ke kiri dan kanan) dan dengan demikian memungkinkan untuk pencilan yang lebih parah, walaupun pada probabilitas rendah?

https://i.stack.imgur.com/zGTLU.png

Di sini seperti rv normal dan cs rv Cauchy.

masukkan deskripsi gambar di sini

Tetapi dengan ekstremitas outlier, apakah mungkin bahwa ekor pau Cauchy tidak pernah bertemu?

mavavilj
sumber
9
1. Pertanyaan Anda tidak jelas / tidak jelas, sehingga sulit dijawab; mis. apa arti "tidak terduga" dalam pertanyaan Anda? apa yang Anda maksud dengan "standar penyimpangan Cauchy" dan konvergensi di akhir? Tampaknya Anda tidak menghitung penyimpangan standar di mana pun. standar deviasi apa, tepatnya? 2. Banyak posting di situs membahas properti Cauchy yang dapat membantu Anda memfokuskan pertanyaan Anda. Mungkin perlu juga memeriksa Wikipedia. 3. Saya sarankan menghindari istilah "lonceng berbentuk"; kedua kerapatan itu secara kasar berbentuk seperti bel; panggil saja mereka dengan nama mereka.
Glen_b -Reinstate Monica
4
Tentu saja Cauchy ini sangat berekor berat.
Glen_b -Reinstate Monica
1
Saya telah memposting beberapa fakta; mudah-mudahan ini akan membantu Anda mencari tahu apa yang ingin Anda ketahui sehingga Anda dapat memperbaiki pertanyaan Anda.
Glen_b -Reinstate Monica
1
|x|x
2
Pencilan besar dimungkinkan dengan yang normal tetapi mereka sangat jarang . Kepadatan (dan pada ekor bagian atas, khususnya yang relevan untuk pencilan paling tidak dari ukuran yang diberikan, fungsi bertahan hidup) untuk kepala normal menuju 0 jauh lebih cepat daripada Cauchy - tetapi demikian juga kepadatan (dan kedua fungsi bertahan hidup) mendekati 0 dan tidak pernah mencapainya.
Glen_b -Reinstate Monica

Jawaban:

39

Sementara sejumlah posting di situs membahas berbagai properti Cauchy, saya tidak berhasil menemukan satu yang benar-benar meletakkannya bersama. Semoga ini bisa menjadi tempat yang baik untuk mengumpulkan beberapa. Saya dapat mengembangkan ini.

Ekor yang berat

Sementara Cauchy simetris dan berbentuk lonceng kasar, agak seperti distribusi normal, ia memiliki ekor yang jauh lebih berat (dan lebih sedikit "bahu"). Sebagai contoh, ada kemungkinan kecil tetapi berbeda bahwa variabel acak Cauchy akan meletakkan lebih dari 1000 rentang interkuartil dari median - kira-kira dari urutan yang sama dengan variabel acak normal menjadi setidaknya 2,67 rentang interkuartil dari mediannya.

Perbedaan

Varian Cauchy tidak terbatas.

Sunting: JG mengatakan dalam komentar bahwa itu tidak terdefinisi. Jika kita mengambil varians sebagai rata-rata setengah jarak kuadrat antara pasangan nilai - yang identik dengan varians ketika keduanya ada, maka itu akan menjadi tak terbatas. Namun, dengan definisi biasa, JG benar. [Namun demikian berbeda dengan sarana sampel, yang tidak benar-benar menyatu dengan apa pun ketika n menjadi besar, distribusi varian sampel terus bertambah besar seiring dengan meningkatnya ukuran sampel; skala meningkat secara proporsional ke n, atau ekuivalen distribusi varian log tumbuh secara linier dengan ukuran sampel. Tampaknya produktif untuk benar-benar mempertimbangkan versi varians yang menghasilkan infinity memberitahu kita sesuatu.]

Deviasi standar sampel ada, tentu saja, tetapi semakin besar sampel semakin besar cenderung (mis. Median standar deviasi sampel pada n = 10 adalah sekitar 3,67 kali parameter skala (setengah IQR), tetapi pada n = 100 ini tentang 11.9).

Berarti

Distribusi Cauchy bahkan tidak memiliki mean yang terbatas; integral untuk mean tidak bertemu. Akibatnya, bahkan hukum jumlah besar tidak berlaku - saat n tumbuh, sampel berarti tidak menyatu dengan kuantitas tetap (memang tidak ada yang menyatu bagi mereka).

Faktanya, distribusi mean sampel dari distribusi Cauchy sama dengan distribusi pengamatan tunggal (!). Ekornya sangat berat sehingga menambahkan lebih banyak nilai ke dalam penjumlahan membuat nilai yang sangat ekstrem cukup mungkin untuk hanya mengkompensasi pembagian dengan penyebut yang lebih besar ketika mengambil mean.

Prediktabilitas

Anda tentu dapat menghasilkan interval prediksi yang sangat masuk akal untuk pengamatan dari distribusi Cauchy; ada penaksir sederhana, cukup efisien yang berkinerja baik untuk memperkirakan lokasi dan skala dan perkiraan interval prediksi dapat dibangun - jadi dalam hal itu, setidaknya, varian Cauchy 'dapat diprediksi'. Namun, ekor memanjang sangat jauh, sehingga jika Anda menginginkan interval probabilitas tinggi, mungkin cukup lebar.

Jika Anda mencoba memprediksi pusat distribusi (misalnya dalam model tipe regresi), itu mungkin relatif mudah diprediksi; Cauchy cukup memuncak (ada banyak distribusi "dekat" ke pusat untuk ukuran skala khas), sehingga pusat dapat diperkirakan dengan relatif baik jika Anda memiliki penduga yang tepat.

Ini sebuah contoh:

Saya menghasilkan data dari hubungan linier dengan kesalahan Cauchy standar (100 pengamatan, intersep = 3, slope = 1.5), dan memperkirakan garis regresi dengan tiga metode yang cukup kuat untuk y-outlier: Tukey 3 grup line (merah), regresi Theil (hijau tua) dan regresi L1 (biru). Tidak ada yang sangat efisien di Cauchy - meskipun mereka semua akan membuat titik awal yang sangat baik untuk pendekatan yang lebih efisien.

Namun demikian ketiganya hampir kebetulan dibandingkan dengan kebisingan data dan terletak sangat dekat dengan pusat di mana data berjalan; dalam arti itu Cauchy jelas "dapat diprediksi".

Median residu absolut hanya sedikit lebih besar dari 1 untuk setiap garis (sebagian besar data terletak cukup dekat dengan garis perkiraan); dalam pengertian itu juga, Cauchy "dapat diprediksi".

hubungan linear dengan kesalahan Cauchy dan tiga garis regresi pas

Untuk plot di sebelah kiri ada outlier besar. Untuk melihat data yang lebih baik, saya mempersempit skala pada sumbu y ke bawah di sebelah kanan.

Glen_b -Reinstate Monica
sumber
1
Ekor berat dan varians yang tak terhingga berhubungan, kan?
mavavilj
Pasti. Mean tidak terdefinisi juga terkait dengan ekor yang berat.
Glen_b -Reinstate Monica
“Ada penaksir sederhana, cukup efisien yang berkinerja baik untuk memperkirakan lokasi dan skala dan perkiraan interval prediksi dapat dibangun” - dapatkah Anda memberikan referensi?
Carlos Cinelli
Komentar bukan untuk diskusi panjang; percakapan ini telah dipindahkan ke obrolan .
gung - Reinstate Monica
@Carlos Ada dua masalah berbeda di sana - (i) penduga yang sederhana, cukup efisien untuk lokasi (seperti rata-rata yang dipangkas dengan tepat) dan skala dalam Cauchy, dan (ii) metode untuk membangun interval prediksi yang akan bekerja untuk Cauchy. Saya pikir yang pertama sudah dibahas di situs, dan yang kedua akan pantas pertanyaannya sendiri.
Glen_b -Reinstate Monica
1

μσnμ±σμ±636.62σ

σ

Distribusi Cauchy tampak sedikit di alam, terutama di mana Anda memiliki beberapa bentuk pertumbuhan. Itu juga muncul di mana benda-benda berputar, seperti batu-batu yang bergulir menuruni bukit. Anda akan menemukannya sebagai distribusi inti dari campuran distribusi yang buruk dalam pengembalian pasar saham, meskipun tidak dalam pengembalian untuk hal-hal seperti barang antik yang dijual dalam pelelangan. Pengembalian barang antik juga milik distribusi tanpa rerata atau varian, tetapi bukan distribusi Cauchy. Perbedaan diciptakan oleh perbedaan dalam aturan lelang. Jika Anda mengubah aturan NYSE, maka distribusi Cauchy akan hilang, dan yang lain akan muncul.

Untuk memahami mengapa biasanya ada, bayangkan Anda adalah seorang penawar dalam sejumlah besar penawar dan calon penawar. Karena stok dijual dalam lelang ganda, kutukan pemenang tidak berlaku. Dalam ekuilibrium, perilaku rasional adalah menawar nilai yang Anda harapkan. Harapan adalah bentuk dari rata-rata. Distribusi estimasi rata-rata akan menyatu dengan normalitas ketika ukuran sampel mencapai tak terbatas.

rt=halt+1halt

Hal ini membuat pasar saham sangat fluktuatif, jika orang berpikir bahwa pasar saham harus memiliki distribusi normal atau log-normal, tetapi tidak terduga volatile jika Anda mengharapkan buntut yang berat.

Saya telah membangun distribusi prediktif Bayesian dan Frequentist untuk distribusi Cauchy dan memberikan asumsi bahwa mereka bekerja dengan baik. Prediksi Bayesian meminimalkan divergensi Kullback-Leibler, yang berarti sedekat mungkin dengan yang Anda dapatkan dari prediksi, untuk kumpulan data tertentu. Prediksi Frequentist meminimalkan rata - rata perbedaan Kullback-Leibler atas banyak prediksi independen dari banyak sampel independen. Namun, itu tidak selalu berkinerja baik, untuk satu sampel seperti yang diharapkan dengan cakupan rata-rata. Ekor benar-benar bertemu, tetapi mereka bertemu perlahan.

Cauchy multivarian bahkan memiliki sifat yang lebih mengecewakan. Sebagai contoh, sementara itu jelas tidak bisa kovari karena tidak ada rata-rata, tidak ada yang mirip dengan matriks kovarians. Kesalahan Cauchy selalu bulat jika tidak ada hal lain yang terjadi dalam sistem. Selain itu, walaupun tidak ada yang bersifat kovarien, tidak ada yang independen juga. Untuk memahami betapa pentingnya hal itu dalam arti praktis, bayangkan dua negara yang sedang tumbuh dan mereka saling berdagang. Kesalahan dalam satu tidak terlepas dari kesalahan yang lain. Kesalahan saya memengaruhi kesalahan Anda. Jika satu negara diambil alih oleh orang gila, kesalahan orang gila itu terasa di mana-mana. Di sisi lain, karena efeknya tidak linier seperti yang diharapkan dengan matriks kovarians, negara-negara lain dapat memutuskan hubungan untuk meminimalkan dampak.

Ini juga yang membuat perang dagang Trump sangat berbahaya. Ekonomi terbesar kedua di dunia setelah Uni Eropa mendeklarasikan perang ekonomi melalui perdagangan terhadap setiap ekonomi tunggal dan membiayai perang itu dengan meminjam uang untuk melawannya dari negara-negara yang dideklarasikan sebagai perang. Jika ketergantungan itu dipaksa untuk melepas lelah, itu akan menjadi jelek dengan cara yang tak seorang pun memiliki ingatan hidup. Kami tidak pernah memiliki masalah yang sama sejak Pemerintahan Jackson ketika Bank of England mengembargo perdagangan Atlantik.

Distribusi Cauchy menarik karena muncul dalam sistem pertumbuhan eksponensial dan kurva-S. Mereka membingungkan orang karena kehidupan sehari-hari mereka dipenuhi dengan kepadatan yang memang memiliki rata-rata dan biasanya memiliki varian. Itu membuat pengambilan keputusan sangat sulit karena pelajaran yang salah dipelajari.

Dave Harris
sumber
Saya suka cara berani di mana properti matematika dipetakan ke perilaku dunia nyata dalam jawaban ini. Tapi bukankah Anda harus menyebutkan bahwa Cauchy (kedua-sisi) yang terpotong memiliki semua momennya terbatas?
Alecos Papadopoulos
Itu hanya terpotong di sebelah kiri. Batasan anggaran planet nominal adalah stokastik di sebelah kanan dan karena sistem moneter bukan sistem konservasi, maka tak terbatas di sebelah kanan.
Dave Harris