Intuisi grafis statistik pada bermacam-macam

12

Pada posting ini , Anda dapat membaca pernyataan:

Model biasanya diwakili oleh titik θ pada manifold dimensi terbatas.

Pada Diferensial Geometri dan Statistik oleh Michael K Murray dan John W Rice konsep-konsep ini dijelaskan dalam prosa dapat dibaca bahkan mengabaikan ekspresi matematika. Sayangnya, hanya ada sedikit ilustrasi. Hal yang sama berlaku untuk posting ini di MathOverflow.

Saya ingin meminta bantuan dengan representasi visual untuk dijadikan sebagai peta atau motivasi menuju pemahaman yang lebih formal tentang topik tersebut.

Apa poin di manifold? Kutipan dari pencarian online ini , tampaknya mengindikasikan bahwa itu bisa berupa titik data, atau parameter distribusi:

Statistik pada manifold dan geometri informasi adalah dua cara berbeda di mana geometri diferensial memenuhi statistik. Sementara dalam statistik manifold, itu adalah data yang terletak pada manifold, dalam geometri informasi data berada di Rn , tetapi keluarga parameter dari fungsi kepadatan probabilitas yang diminati diperlakukan sebagai manifold. Manifold semacam itu dikenal sebagai manifold statistik.


Saya telah menggambar diagram ini yang terinspirasi oleh penjelasan ruang singgung di sini :

masukkan deskripsi gambar di sini

C(M)pM(ψ:RM)p.p,C(t)R,(fψ)(t)ψMp,f,fp

Kesetaraan (atau salah satu dari kesetaraan yang diterapkan pada statistik) dibahas di sini , dan akan berkaitan dengan kutipan berikut :

s

Rss.

Rψ:RMf(fψ)(t).f:MRψf


LATAR BELAKANG STUFF:

Dari catatan saya percaya konsep-konsep ini tidak langsung berkaitan dengan pengurangan dimensi non-linear dalam ML. Mereka tampak lebih mirip dengan geometri informasi . Berikut ini kutipannya:

Rnn


Informasi berikut dari Statistik pada Manifol dengan Aplikasi ke Pemodelan Bentuk Deformasi oleh Oren Freifeld :

masukkan deskripsi gambar di sini

MTpMpMTpMMTpMpMTpMMpMterletak sepenuhnya di salah satu sisinya. Elemen TpM disebut vektor singgung.

[...] Pada bermacam-macam, model statistik sering dinyatakan dalam ruang singgung.

[...]

M

DL={p1,,pNL}M

DS={q1,,qNS}M

Let dan mewakili dua, mungkin tidak diketahui, poin di . Diasumsikan bahwa kedua dataset memenuhi aturan statistik berikut:µLµSM

{logμL(p1),,logμL(pNL)}TμLM,logμL(pi)i.i.dN(0,ΣL) {logμS(q1),,logμS(qNS)}TμSM,logμS(qi)i.i.dN(0,ΣS)

[...]

Dengan kata lain, ketika diekspresikan (sebagai vektor garis singgung) di ruang tangen (ke ) di , itu dapat dilihat sebagai satu set sampel iid dari Gaussian mean-nol dengan kovarians . Demikian juga, ketika diekspresikan dalam ruang singgung di dapat dilihat sebagai satu set sampel iid dari Gaussian mean-nol dengan kovarians . Ini menggeneralisasi kasus Euclidean.DLMμLΣLDSμSΣS

Pada referensi yang sama, saya menemukan contoh online terdekat (dan hanya praktis) dari konsep grafis ini yang saya tanyakan:

masukkan deskripsi gambar di sini

Apakah ini menunjukkan bahwa data terletak pada permukaan manifold yang dinyatakan sebagai vektor singgung, dan parameter akan dipetakan pada bidang Cartesian?

Antoni Parellada
sumber
1
Apa yang kamu coba lakukan di sini? Gambar manifold? Kebanyakan dari mereka terlalu membosankan untuk menggambar. Misalnya, coba distribusi Gaussian.
Aksakal
Saya biasanya menganggap spasi parameter sebagai ruang vektor, misalnya . Jika saya berpikir tentang "manifold" parametrik, hal pertama yang terlintas dalam pikiran adalah "sistem kendala" misalnya . Kalau tidak, mengapa ruangnya tidak "lengkap"? (Apa yang mendefinisikan subset yang merupakan "manifold"?)θRnf(θ)=0
GeoMatt22
2
Semoga @whuber akan datang dan menguraikan komentar yang dia buat dalam obrolan.
gung - Reinstate Monica
1
Jawaban singkat untuk pertanyaan Anda yang diedit adalah "tidak." Ruang singgung menggambarkan kecepatan semua jalur halus di manifold. Peran utamanya dalam statistik adalah dalam memaksimalkan kemungkinan, di mana manifold menggambarkan keluarga parameter yang halus. Dalam "manifold learning," manifold digunakan sebagai pendekatan lokal terhadap data - ini adalah versi melengkung dari "ruang kolom" dalam regresi linier. Di sana, ruang singgung tertanam di dalam ruang Euclide ambient. Secara lokal, ini menggambarkan "arah" data dan bundel normalnya memberikan arah "kesalahan".
whuber
1
Ya: ruang cotangent at dapat didefinisikan sebagai turunan dari kuman fungsi di sekitar . Ruang singgung pada (karena itu!) Hanyalah dualnya. dan memperoleh topologi - yaitu, mengakui gagasan dua ruang tangen dan menjadi "dekat" - dengan cara koordinat grafik di . Ini mengurangi definisi (dan masalah visualisasi) untuk mendefinisikan ruang tangen . Ini adalah himpunan semua vektor yang berasal dari . Spivak, dalam Calculus on ManifoldsTpMpppTMTMTpMTqMMTxRnx, memberikan definisi dasar yang jelas dan semacam ini.
whuber

Jawaban:

3

Keluarga distribusi probabilitas dapat dianalisis sebagai titik pada manifold dengan koordinat intrinsik yang sesuai dengan parameter dari distribusi. Idenya adalah untuk menghindari representasi dengan metrik yang salah: Univariat Gaussians dapat diplot sebagai titik dalam manifold Euclidean seperti di sisi kanan plot di bawah ini dengan rata-rata di sumbu dan SD di dalam sumbu (setengah positif dalam kasus merencanakan varian):(Θ)N(μ,σ2),R2xy

masukkan deskripsi gambar di sini

Namun, matriks identitas (jarak Euclidean) akan gagal mengukur tingkat (dis-) kesamaan antara individu 's: pada kurva normal di sebelah kiri plot di atas, diberikan interval dalam domain, area tanpa tumpang tindih (berwarna biru gelap) lebih besar untuk kurva Gaussian dengan varian yang lebih rendah, bahkan jika rata-rata dijaga tetap. Faktanya, satu-satunya metrik Riemannian yang “masuk akal” untuk manifold statistik adalah metrik informasi Fisher .pdf

Dalam jarak informasi Fisher: pembacaan geometris , Costa SI, Santos SA dan Strapasson JE memanfaatkan kesamaan antara matriks informasi Fisher dari distribusi Gaussian dan metrik dalam model disk Beltrami-Pointcaré untuk mendapatkan formula tertutup.

Kerucut "utara" hiperboloid menjadi manifold non-Euclidean, di mana setiap titik sesuai dengan mean dan standar deviasi (ruang parameter), dan jarak terpendek antara misalnya dan dalam diagram di bawah ini, adalah kurva geodesik, diproyeksikan (peta bagan) ke bidang khatulistiwa sebagai garis lurus hyperparabolic, dan memungkinkan pengukuran jarak antara melalui tensor metrik - metrik informasi Fisher :x2+y2x2=1pdfs,PQ,pdfsgμν(Θ)eμeν

D(P(x;θ1),Q(x;θ2))=minθ(t)|θ(0)=θ1,θ(1)=θ201(dθdt)I(θ)dθdtdt

dengan

I(θ)=1σ2[1002]

masukkan deskripsi gambar di sini

The Kullback-Leibler divergence berkaitan erat, meskipun kurang geometri dan terkait metrik.

Dan menarik untuk dicatat bahwa Matriks informasi Fisher dapat diartikan sebagai Hessian dari entropi Shannon :

gij(θ)=E[2logp(x;θ)θiθj]=2H(p)θiθj

dengan

H(p)=p(x;θ)logp(x;θ)dx.

Contoh ini mirip dalam konsepnya dengan peta Bumi stereografi yang lebih umum .

Pembelajaran multidimensi ML atau manifold ML tidak dibahas di sini.

Antoni Parellada
sumber
1

Ada lebih dari satu cara untuk menghubungkan probabilitas dengan geometri. Saya yakin Anda pernah mendengar tentang distribusi elips (mis. Gaussian). Istilah itu sendiri menyiratkan tautan geometri dan jelas ketika Anda menggambar matriks kovariannya. Dengan manifold, itu hanya menempatkan setiap nilai parameter yang mungkin dalam sistem koordinat. Misalnya, Manifold Gaussian akan berada dalam dua dimensi: . Anda dapat memiliki nilai tetapi hanya varians positif . Oleh karena itu, manifold Gaussian akan menjadi setengah dari seluruh ruang . Tidak terlalu menarikμ,σ2μRσ2>0R2

Aksakal
sumber
Saya kira saya berpikir bahwa "manifold" seharusnya memiliki dimensi yang lebih rendah daripada ruang embeddingnya? Jadi setengah ruang tidak akan dihitung?
GeoMatt22
Dengan Gaussian itu bahkan tidak banyak, benar. Anda perlu kendala, jadi itu menjadi semacam pesawat atau garis
Aksakal
Saya mencoba untuk memahami implikasi dari jawaban Anda ... Apakah Anda berarti " sebuah geometri link"? Juga, saya baru saja menemukan posting terkait ini di MathOverflow .
Antoni Parellada
3
Menjadi lebih menarik dengan metrik yang sesuai ... seperti yang Fisher-Rao, dan kemudian menjadi setengah-tempat hiperbolik Poincare en.wikipedia.org/wiki/Poincar%C3%A9_half-plane_model
mic
2
Untuk semua: (1) manifold yang menggambarkan keluarga parametrik adalah manifold intrinsik : mereka tidak perlu tertanam dalam ruang vektor apa pun. (2) Mereka lebih dari sekadar manifold yang dapat dibedakan: Informasi Fisher memberi mereka metrik Riemann - jarak lokal - yang memungkinkan mereka dipelajari secara geometris. Ini membuat "setengah dari seluruh ruang" menjadi permukaan melengkung. R2
whuber