Apa yang membuat arti dari beberapa distribusi tidak terdefinisi?

21

Banyak PDF berkisar dari minus hingga tak terhingga positif, namun beberapa cara didefinisikan dan beberapa tidak. Sifat umum apa yang membuat beberapa dapat dihitung?

Kevin Nowaczyk
sumber
14
Integral yang konvergen.
Sycorax berkata Reinstate Monica
1
Distribusi ini adalah abstraksi matematis. Jika integral tidak konvergen, berarti tidak didefinisikan. Namun, apa yang tidak disebutkan dalam jawaban di bawah adalah bahwa PDF dengan minus tanpa batas hingga plus tanpa batas tidak dapat memodelkan sumber data nyata. Tidak ada proses fisik untuk menghasilkan data seperti itu dalam kehidupan nyata. Menurut pendapat saya, semua sumber data nyata akan dibatasi dan Anda akan dapat memperkirakan nilai rata-rata.
Cagdas Ozgenc
3
@Cagdas Pernyataan itu tampaknya tidak benar. Ada banyak proses berekor berat. Ekspektasi mereka yang berlainan dimanifestasikan sebagai variabilitas ekstrem dalam rata-rata jangka panjang. Untuk aplikasi meyakinkan model Cauchy, misalnya, lihat posting Douglas Zare di stats.stackexchange.com/a/36037/919 .
whuber
2
@CagdasOzgenc: Anda harus membaca Black Swan oleh Taleb untuk melihat betapa salahnya alasan itu. Walaupun secara heuristik mungkin tidak ada proses yang secara sempurna menghasilkan distribusi dengan rata-rata yang tidak ditentukan atau rata-rata yang tak terbatas, ada banyak contoh di mana orang-orang meremehkan betapa gemuknya ekor dari distribusi mereka dan melanjutkan untuk menghitung sarana, sedangkan distribusi yang benar memiliki berarti yang sama sekali berbeda dan biasanya miring kanan. Jenis penalaran yang tidak tepat ini menyebabkan banyak penilaian risiko dalam keuangan di mana risiko diremehkan oleh banyak pesanan.
Alex R.
1
@Cagdas Ozgenc: Untuk diskusi mengapa argumen Anda salah, lihat stats.stackexchange.com/questions/94402/…
kjetil b halvorsen

Jawaban:

23

Rata-rata distribusi didefinisikan dalam bentuk integral (saya akan menulisnya seolah-olah untuk distribusi kontinu - sebagai integral Riemann, katakan - tetapi masalah ini berlaku lebih umum; kita dapat melanjutkan ke integrasi Stieltjes atau Lebesgue untuk berurusan dengan ini dengan benar dan sekaligus):

E(X)=xf(x)dx

Tapi apa artinya itu? Secara efektif ini adalah singkatan

a,blimabxf(x)dx

atau

alima0xf(x)dx+blim0bxf(x)dx

(meskipun Anda bisa memecahkannya di mana saja tidak hanya pada 0)

Masalahnya muncul ketika batas integral tersebut tidak terbatas.

Jadi misalnya, perhatikan kerapatan Cauchy standar, yang sebanding dengan ... perhatikan bahwa11+x2

blim0bx1+x2dx

biarkan , jadi d u = 2 xu=1+x2du=2xdx

=blim1211+b21udu

=blim12ln(u)|11+b2

=blim12ln(1+b2)

yang tidak terbatas. Batas di bagian bawah juga tidak terbatas; harapan itu dengan demikian tidak terdefinisi.

Atau jika kita memiliki sebagai variabel acak nilai absolut dari Cauchy standar, seluruh ekspektasinya akan sebanding dengan batas yang baru saja kita lihat (yaitu ).blim12ln(1+b2)

Di sisi lain, beberapa kepadatan lainnya terus berlanjut "hingga tak terbatas" tetapi integral mereka memang memiliki batas.

Glen_b -Reinstate Monica
sumber
1
Anda dapat (tentu saja) juga melihat hal yang sama dalam distribusi probabilitas diskrit serupa. Ambil distribusi di mana probabilitas jika terjadi, untuk bilangan bulat , sebanding dengan . Jumlah probabilitas adalah terbatas (yang sama baiknya karena harus memiliki batas 1: sebenarnya konstanta kita harus atau apa pun itu), tetapi karena jumlah dari berbeda karena tidak ada artinya. Sedangkan jika kita memilih probabilitas yang sebanding dengan maka mean melibatkan jumlah dan kita baik-baik saja, itu "cukup kecil" sehingga konvergen. n > 0 1nn>0 61n2 16π2 11n 11n31n2
Steve Jessop
1
Ya, adalah tetapan penskalaan untuk itu (untuk membuatnya menjadi to1). 6π2
Glen_b -Reinstate Monica
8

Jawaban lainnya baik, tetapi mungkin tidak meyakinkan semua orang, terutama orang yang melihat distribusi Cauchy (dengan ) dan mengatakan itu masih secara intuitif jelas bahwa rata-rata harus nol.x0=0

Alasan jawaban intuitif tidak benar dari perspektif matematika adalah karena teorema penataan ulang Riemann (video) .

Secara efektif apa yang Anda lakukan ketika Anda melihat Cauchy dan mengatakan bahwa rata-rata "harus nol" adalah bahwa Anda membagi "pusat" menjadi nol, dan kemudian mengklaim momen keseimbangan dua ukuran. Atau dengan kata lain, Anda secara implisit melakukan jumlah tak terbatas dengan "setengah" istilah positif (momen di setiap titik di kanan) dan "setengah" istilah negatif (momen di setiap titik di kiri) dan mengklaimnya jumlah ke nol. (Untuk yang berpikiran teknis: )0f(x0+r)rdr0f(x0r)rdr=0

Teorema penataan ulang Riemann mengatakan bahwa jenis jumlah tak terbatas ini (satu dengan istilah positif dan negatif) hanya konsisten jika dua seri (hanya istilah positif dan hanya negatif) masing-masing konvergen ketika diambil secara independen. Jika kedua belah pihak (positif dan negatif) berbeda dengan mereka sendiri, maka Anda dapat membuat urutan penjumlahan dari istilah-istilah sedemikian sehingga menjumlahkan ke nomor berapa pun . (Video di atas, mulai dari 6:50)

Jadi, ya, jika Anda melakukan penjumlahan secara seimbang dari 0, saat-saat pertama dari distribusi Cauchy dibatalkan. Namun, definisi (standar) rata-rata tidak menegakkan urutan penjumlahan ini. Anda harus dapat menjumlahkan momen dalam urutan apa pun dan membuatnya sama-sama valid. Oleh karena itu, rata-rata distribusi Cauchy tidak terdefinisi - dengan memilih dengan bijak bagaimana Anda menjumlahkan momen, Anda dapat menjadikannya "seimbang" (atau tidak) pada titik apa pun secara praktis.

Jadi untuk membuat rata-rata distribusi didefinisikan, dua momen integral perlu masing-masing secara konvergen (terbatas) di sekitar mean yang diusulkan (yang, ketika Anda , benar-benar hanyalah cara lain untuk mengatakan bahwa integral penuh ( ) harus konvergen). Jika ekornya "gemuk" cukup untuk membuat momen untuk satu sisi tak terbatas, Anda sudah selesai. Anda tidak dapat menyeimbangkannya dengan momen tak terbatas di sisi lain.f(x)xdx


Saya harus menyebutkan bahwa perilaku "kontra intuitif" dari hal-hal seperti distribusi Cauchy sepenuhnya karena masalah ketika berpikir tentang ketakterhinggaan. Ambil distribusi Cauchy dan potong ekornya - bahkan secara sewenang-wenang, seperti pada plus / minus nomor xkcd - dan (setelah dinormalisasi ulang) Anda tiba-tiba mendapatkan sesuatu yang berperilaku baik dan memiliki rata-rata yang ditentukan. Bukan ekor gemuk di dalam dan dari diri mereka sendiri yang menjadi masalah, melainkan bagaimana ekor itu berperilaku saat Anda mendekati tak terbatas.

RM
sumber
Bagus. Saya ingin tahu apakah mungkin untuk memberikan "urutan penjumlahan" yang luar biasa yang mengarah pada, katakanlah, dua.
Matthew Drury
@MatthewDrury: p_i dan n_i menunjukkan angka positif dan negatif. Berhasil menemukan p_i dan n_i sehingga integral dari [n_i, p_i] adalah 2+ (1 / i) dan integral dari [n_ {i + 1}, p_i] adalah 2- (1 / i). Seseorang dapat melakukan ini secara eksplisit menggunakan R, matlab atau Mathematica, tetapi hanya untuk sejumlah istilah yang terbatas.
David Epstein
7

Jenderal Abrial dan Glen_b memiliki jawaban sempurna. Saya hanya ingin menambahkan demo kecil untuk menunjukkan kepada Anda rata-rata distribusi Cauchy tidak ada / tidak konvergen.

Dalam percobaan berikut, Anda akan melihat, bahkan jika Anda mendapatkan sampel besar dan menghitung rata-rata empiris dari sampel, jumlahnya cukup berbeda dari eksperimen ke eksperimen.

set.seed(0)
par(mfrow=c(1,2))
experiments=rep(1e5,100)
mean_list_cauchy=sapply(experiments, function(n) mean(rcauchy(n)))
mean_list_normal=sapply(experiments, function(n) mean(rnorm(n)))
plot(mean_list_cauchy,ylim=c(-10,10))
plot(mean_list_normal,ylim=c(-10,10))

masukkan deskripsi gambar di sini

Anda dapat mengamati bahwa kami memiliki percobaan, dan dalam setiap percobaan, kami mengambil sampel poin dari dua distribusi, dengan ukuran sampel sebesar itu, rata-rata empiris pada eksperimen yang berbeda harus cukup dekat dengan rata-rata sebenarnya. Hasilnya menunjukkan distribusi Cauchy tidak memiliki rata-rata konvergen, tetapi distribusi normal memiliki.1 × 10 51001×105

EDIT:

Seperti @ mark999 disebutkan dalam obrolan, kita harus berdebat bahwa dua distribusi yang digunakan dalam percobaan memiliki "varians" yang serupa (alasan saya menggunakan kutipan adalah karena varian distribusi Cauchy juga tidak terdefinisi.). Inilah pembenarannya: PDF mereka serupa.

Perhatikan bahwa, dengan melihat PDF distribusi Cauchy, kami menduga itu adalah , tetapi dari percobaan yang dapat kita lihat, itu tidak ada. Itulah inti dari demo.0

curve(dnorm, -8,8)
curve(dcauchy, -8,8)

masukkan deskripsi gambar di sini

Haitao Du
sumber
4
Saya tidak berpikir ini menunjukkan bahwa distribusi Cauchy tidak ada artinya. Anda bisa mendapatkan hasil yang serupa jika Anda mengganti distribusi Cauchy dengan distribusi normal dengan varian yang sesuai.
mark999
good point @ mark999, saya akan mengedit jawaban saya untuk mengatasi masalah ini.
Haitao Du
Apakah mungkin untuk mengetahui dari PDF tentang distribusi Cauchy yang tidak ada artinya, mungkin dengan melihat ekornya yang gemuk?
ks1322
Mungkin Anda memikirkan hal seperti ini? stats.stackexchange.com/questions/90531/…
Sycorax berkata
2

Distribusi Cauchy adalah bentuk penyamaran dari distribusi yang sangat mendasar, yaitu distribusi seragam pada sebuah lingkaran. Dalam rumus, probabilitas sangat kecil adalah , di mana adalah koordinat sudut. Probabilitas (atau ukuran) dari busur adalah . Ini berbeda dari distribusi seragam , meskipun ukurannya memang sama untuk busur yang tidak mengandung . Misalnya, pada lengkungan dari berlawanan arah jarum jam ke , rata-rata distribusi pada lingkaran adalahdθ/2πθAS1length(A)/2πU(π,π)ππεπ+ε (=π+εmod2π)π. Tetapi rata-rata distribusi seragam pada gabungan yang sesuai dari dua interval terpisah, masing-masing panjang , adalah nol.U(π,π)ε/2π

Karena distribusi pada lingkaran secara simetris berputar, tidak mungkin ada rata-rata, median atau mode pada lingkaran. Demikian pula, momen yang lebih tinggi, seperti varians, tidak masuk akal. Distribusi ini muncul secara alami dalam banyak konteks. Sebagai contoh, proyek saya saat ini melibatkan gambar mikroskop dari jaringan kanker. Objek yang sangat banyak dalam gambar tidak simetris dan "arah" dapat ditetapkan untuk masing-masing. Hipotesis nol yang jelas adalah bahwa arah ini terdistribusi secara seragam.

Untuk menyamarkan kesederhanaan, misalkan menjadi lingkaran satuan standar, dan biarkan . Kami mendefinisikan sebagai fungsi dengan proyeksi stereografis lingkaran dari ke -aksi. Rumusnya adalah . Membedakan, kami menemukan . Karena itu, probabilitas sangat kecil adalah , bentuk distribusi Cauchy yang biasa, dan "Hei, presto!", Kesederhanaan menjadi sakit kepala, membutuhkan perawatan oleh seluk-beluk teori integrasi. p=(0,1S1p=(0,1)S1xθpxx=tan(θ/2)dθ/2=dx/(1+x2)dθπ(1+x2)

Dalam , kita dapat mengabaikan ketiadaan (dengan kata lain, mengembalikan ) untuk pertimbangan apa pun seperti mean atau momen pesanan lebih tinggi, karena probabilitas dari (ukurannya) adalah nol. Jadi karena itu, tidak adanya rata-rata dan momen-momen yang lebih tinggi mengarah ke garis nyata. Namun, sekarang ada titik khusus, yaitu , yang memetakan ke bawah proyeksi stereografi dan ini menjadi median dan mode distribusi Cauchy.pp S 1 p-p=(0,-1)0 RS1{p}ppS1pp=(0,1)0R

David Epstein
sumber
2
Distribusi Cauchy memiliki median dan mode.
jkabrg
benar sekali. Saya agak terbawa suasana. Tapi argumen untuk tidak adanya mean adalah benar .. Saya akan mengedit jawaban saya.
David Epstein
Mengapa "tidak ada yang berarti karena tidak ada orang di lingkaran"? Ada banyak yang hilang dalam argumen Anda. Saya berasumsi apa yang Anda maksud dengan itu menjadi distribusi seragam "pada lingkaran" adalah bahwa dan , tetapi kemudian jadi saya tidak mengerti apa yang Anda bicarakan. X = tan ( θ / 2 ) E [ θ ] = 0θU(π,π)X=tan(θ/2)E[θ]=0
jkabrg
@jkabrg: Saya harap suntingan baru membuat ini lebih mudah dipahami
David Epstein