Definisi keluarga suatu distribusi?

14

Apakah keluarga dari suatu distribusi memiliki definisi yang berbeda untuk statistik daripada di disiplin ilmu lain?

Secara umum, keluarga kurva adalah seperangkat kurva, yang masing-masing diberikan oleh fungsi atau parametriisasi di mana satu atau lebih parameter bervariasi. Keluarga semacam itu digunakan, misalnya, untuk mengkarakterisasi komponen elektronik .

Untuk statistik, keluarga menurut satu sumber adalah hasil memvariasikan parameter bentuk. Bagaimana kita dapat memahami bahwa distribusi gamma memiliki parameter bentuk dan skala dan hanya distribusi gamma umum yang memiliki parameter lokasi? Apakah itu membuat keluarga hasil dari memvariasikan parameter lokasi? Menurut @whuber arti dari sebuah keluarga secara implisit A "parameterisasi" dari keluarga adalah peta kontinu dari subset dari ℝ nn , dengan topologi yang biasa, ke dalam ruang distribusi, yang gambarnya adalah keluarga itu.

Apa, dalam bahasa yang sederhana, sebuah keluarga untuk distribusi statistik?

Sebuah pertanyaan tentang hubungan antara sifat statistik distribusi dari keluarga yang sama telah menimbulkan kontroversi yang cukup besar untuk a pertanyaan yang berbeda sehingga tampaknya perlu untuk mengeksplorasi maknanya.

Bahwa ini belum tentu pertanyaan sederhana muncul dengan penggunaannya dalam frase keluarga eksponensial , yang tidak ada hubungannya dengan keluarga kurva, tetapi terkait dengan mengubah bentuk PDF distribusi dengan reparameterisasi tidak hanya parameter , tetapi juga penggantian fungsi variabel acak independen.

Carl
sumber
1
Dengan frasa "keluarga distribusi", apakah Anda bermaksud sesuatu yang lain "keluarga distribusi"? Keluarga eksponensial adalah keluarga distribusi (dengan properti tertentu), dan menafsirkan pdf masing-masing distribusi sebagai kurva, bahkan sesuai dengan keluarga kurva, sehingga paragraf terakhir tampak bingung.
Juho Kokkala
@JuhoKokkala Tampaknya membingungkan karena arti "keluarga" tergantung konteks. Sebagai contoh, distribusi normal dari mean yang tidak diketahui dan varians yang diketahui ada dalam keluarga eksponensial. Distribusi normal memiliki dukungan tak terbatas, , dan distribusi eksponensial memiliki dukungan semi-tak terbatas, [ 0 , + ) , sehingga tidak ada keluarga kurva untuk distribusi eksponensial yang mencakup kisaran normal. distribusi, mereka tidak pernah memiliki bentuk yang sama ...(,+)[0,+)
Carl
@JuhoKokkala ... dan PDF eksponensial bahkan tidak memiliki parameter lokasi, sedangkan distribusi normal tidak dapat melakukannya tanpa satu. Lihat tautan di atas untuk penggantian yang diperlukan, dan konteks di mana pdf normal berada dalam keluarga eksponensial.
Carl
1
stats.stackexchange.com/questions/129990/... mungkin relevan. "distribusi normal dari mean yang tidak diketahui dan varian yang diketahui ada dalam keluarga eksponensial", setahu saya, penyalahgunaan terminologi (meskipun agak umum). Tepatnya, keluarga eksponensial adalah keluarga distribusi dengan properti tertentu. Keluarga distribusi normal dengan varians mean dan diketahui tidak diketahui adalah sebuah keluarga eksponensial; keluarga distribusi eksponensial adalah keluarga eksponensial lain, dll.
Juho Kokkala
1
@JuhoKokkala: "Keluarga" itu sangat umum (ab) digunakan, dalam kasus khusus, untuk berarti "kumpulan keluarga" mungkin layak menarik ke jawaban lain. (Saya tidak bisa memikirkan kasus lain - untuk beberapa alasan tampaknya tidak ada seseorang rentan terhadap berbicara dari " the keluarga lokasi-skala".)
Scortchi - mengembalikan Monica

Jawaban:

14

Konsep statistik dan matematika persis sama, memahami bahwa "keluarga" adalah istilah matematika umum dengan variasi teknis yang disesuaikan dengan keadaan yang berbeda:

Famili parametrik adalah kurva (atau permukaan atau generalisasi dimensi-terbatas lainnya) dalam ruang semua distribusi.

Sisa dari posting ini menjelaskan apa artinya itu. Sebagai tambahan, saya tidak berpikir semua ini kontroversial, baik secara matematis atau statistik (terlepas dari satu masalah kecil yang dicatat di bawah). Untuk mendukung pendapat ini, saya telah menyediakan banyak referensi (kebanyakan ke artikel Wikipedia).


Terminologi ini dari "keluarga" cenderung digunakan ketika belajar kelas dari fungsi ke dalam satu set Y atau "peta." Diberikan domain X , keluarga F dari peta pada X yang diparameterisasi oleh beberapa set Θ ("parameter") adalah fungsiCYYX FX Θ

F:X×ΘY

di mana (1) untuk setiap , fungsi F θ : X Y yang diberikan oleh F θ ( x ) = F ( x , θ ) berada di C Y dan (2) FθΘFθ:XYFθ(x)=F(x,θ)CYF itu sendiri memiliki tertentu "bagus" sifat.

Idenya adalah kita ingin memvariasikan fungsi dari ke Y dengan cara "halus" atau terkontrol. Properti (1) berarti bahwa masing-masing θ menunjuk fungsi seperti itu, sementara perincian properti (2) akan menangkap pengertian di mana perubahan "kecil" pada θ menginduksi perubahan "kecil" yang cukup dalam F θ .XYθθFθ

Contoh matematika standar, dekat dengan yang disebutkan dalam pertanyaan, adalah homotopy . Dalam hal ini adalah kategori dari peta terus-menerus dari ruang topologi X ke dalam ruang topologi Y ; Θ = [ 0 , 1 ] R adalah interval satuan dengan topologi biasa, dan kami mengharuskan F menjadi terus menerus peta dari produk topologi X × Θ ke Y . Ini dapat dianggap sebagai "deformasi kontinu dari peta FCY XYΘ=[0,1]RFX×ΘY hingga F 1. "Ketika X = [ 0 , 1 ] itu sendiri merupakan interval, peta tersebut adalahkurvadalam Y dan homotopy adalah deformasi halus dari satu kurva ke kurva lainnya.F0F1X=[0,1]Y

Untuk aplikasi statistik, adalah himpunan semua distribusi pada R (atau, dalam praktek, pada R n untuk beberapa n , tetapi untuk menjaga eksposisi sederhana saya akan fokus pada n = 1 ). Kami dapat mengidentifikasinya dengan set semua fungsi càdlàg yang tidak berkurang R[ 0 , 1 ] di mana penutupan rentangnya mencakup 0 dan 1 : ini adalah fungsi distribusi kumulatif, atau hanya fungsi distribusi. Jadi, X = RCYRRnnn=1R[0,1]01X=R dan.Y=[0,1]

Sebuah keluarga dari distribusi adalah subset dari . CY Nama lain untuk keluarga adalah model statistik. Ini terdiri dari semua distribusi yang kita anggap mengatur pengamatan kita, tetapi kita tidak tahu distribusi mana yang sebenarnya.

  • Sebuah keluarga bisa kosong.
  • CY itu sendiri adalah sebuah keluarga.
  • Sebuah keluarga dapat terdiri dari distribusi tunggal atau hanya sejumlah terbatas.

Karakteristik set-teoretis abstrak ini memiliki minat atau utilitas yang relatif sedikit. Hanya ketika kita mempertimbangkan tambahan (relevan) struktur matematika pada bahwa konsep ini menjadi berguna. Tapi apa sifat dari C Y yang menarik statistik? Beberapa yang sering muncul adalah:CYCY

  1. adalahset cembung: diberikan setiap dua distribusi F , G C Y , kita dapat membentukdistribusi campuran(1-t) F +t GYuntuk semuat[0,1]. Ini adalah semacam "homotopy" dariFkeGCYF,GCY (1t)F+tGYt[0,1]FG .

  2. Sebagian besar mendukung berbagai metrik semu, seperti perbedaan Kullback-Leibler atau Informasi Fisher terkait erat metrik.CY

  3. memiliki struktur aditif: sesuai dengan setiap dua distribusiFdanGadalah jumlah mereka, F G .CYFGFG

  4. mendukung banyak berguna, fungsi alami, sering diistilahkan "sifat." Ini termasuk setiap kuantil tetap (seperti median) sertakumulans.CY

  5. adalah himpunan bagian darifungsi ruang. Dengan demikian, itu mewarisi banyak metrik berguna, sepertinorma sup( L norma) yang diberikan oleh | | F-G | | = sup x R | F(x)-G(x) | .CYL

    ||FG||=supxR|F(x)G(x)|.
  6. Natural tindakan kelompok pada menginduksi tindakan pada C Y . Tindakan yang paling umum adalah terjemahan T μ : x x + μ dan pengukuran S σ : x x σ untuk σ > 0 . Efeknya terhadap distribusi adalah mengirim F ke distribusi yang diberikan oleh F μ , σ ( x ) = F ( ( x - μ )RCY Tμ:xx+μ Sσ:xxσσ>0F . Ini mengarah pada konsep keluarga skala lokasi dan generalisasi mereka. (Saya tidak memberikan referensi, karena pencarian Web yang luas menghasilkan berbagai definisi yang berbeda: di sini, setidaknya, mungkin ada sedikit kontroversi.)Fμ,σ(x)=F((xμ)/σ)

Properti yang penting tergantung pada masalah statistik dan pada bagaimana Anda bermaksud untuk menganalisis data. Mengatasi semua variasi yang disarankan oleh karakteristik sebelumnya akan mengambil terlalu banyak ruang untuk media ini. Mari kita fokus pada satu aplikasi penting yang umum.

Ambil, misalnya, Kemungkinan Maksimum. Di sebagian besar aplikasi, Anda ingin dapat menggunakan Kalkulus untuk memperoleh taksiran. Agar ini berhasil, Anda harus dapat "mengambil turunan" dalam keluarga.

( Teknis samping: Cara biasa di mana ini dilakukan adalah untuk memilih domain untuk d 0 dan menentukan terus menerus, secara lokal dibalik fungsi p dari Θ ke C Y (Ini berarti bahwa untuk setiap. Q Θ ada ada bola B ( θ , ϵ ) , dengan ϵ > 0 yang p B ( θ , ϵ ) :ΘRdd0pΘCYθΘB(θ,ϵ)ϵ>0dengan jumlah yang cukup kecil kita akan selalu mendapatkan distribusi yang berbeda.)) adalah satu-ke-satu. Dengan kata lain, jika kita mengubah θpB(θ,ϵ):B(θ,ϵ)ΘCYθ

Akibatnya, dalam sebagian besar aplikasi ML kami meminta agar kontinu (dan mudah-mudahan, hampir di mana saja dapat dibedakan) dalam komponen Θ . (Tanpa kontinuitas, memaksimalkan kemungkinan secara umum menjadi masalah yang sulit dipecahkan.) Hal ini mengarah pada definisi berorientasi-kemungkinan berikut dari keluarga parametrikpΘ :

Keluarga parametrik dari distribusi (univariat) adalah peta yang tidak dapat dibalik secara lokal dengan Θ R n , di mana (a) setiap F θ adalah fungsi distribusi dan (b) untuk setiap x R , fungsi L x : θ [ 0 , 1 ] diberikan oleh L x ( θ ) = F ( x , θ )

F:R×Θ[0,1],
ΘRnFθxRLx:θ[0,1]Lx(θ)=F(x,θ) berkelanjutan dan hampir di mana-mana dapat dibedakan.

Perhatikan bahwa keluarga parametrik lebih dari sekedar kumpulan F θ : ia juga mencakup cara spesifik di mana nilai parameter θFFθθ sesuai dengan distribusi.

Mari kita akhiri dengan beberapa contoh ilustrasi.

  • Biarkan menjadi himpunan semua distribusi Normal. Seperti yang diberikan, ini bukan keluarga parametrik: itu hanya keluarga. Untuk menjadi parametrik, kita harus memilih parameterisasi. Salah satu caranya adalah dengan memilih Θ = { ( μ , σ ) R 2σ > 0 } dan untuk memetakan ( μ , σ ) ke distribusi Normal dengan rata-rata μ dan varians σ 2 .CYΘ={(μ,σ)R2σ>0}(μ,σ)μσ2

  • Set distribusi Poisson (λ) adalah keluarga parametrik dengan λΘ=(0,)R1 .

  • Set distribusi Uniform (yang ditampilkan dengan jelas dalam banyak latihan buku teks) adalah keluarga parametrik dengan θ R 1 . Dalam hal ini, F θ ( x ) = maks ( 0 , min ( 1 , x - θ ) ) dapat dibedakan dalam θ kecuali untuk θ { x , x - 1 }(θ,θ+1)θR1Fθ(x)=max(0,min(1,xθ))θθ{x,x1} .

  • Mari dan G menjadi salah dua distribusi. Maka F ( x , θ ) = ( 1 - θ ) F ( x ) + θ G ( x ) adalah keluarga parametrik untuk θ [ 0 , 1 ] . (Bukti: gambar F adalah sekumpulan distribusi dan turunan parsialnya dalam θ sama dengan - F ( x ) + x )FGF(x,θ)=(1θ)F(x)+θG(x)θ[0,1]FθF(x)+G(x) yang didefinisikan di mana-mana.)

  • Keluarga Pearson adalah keluarga empat dimensi, , yang meliputi (antara lain) distribusi Normal, distribusi Beta, dan distribusi Inverse Gamma. Ini menggambarkan fakta bahwa setiap distribusi yang diberikan mungkin milik banyak keluarga distribusi yang berbeda . Ini sangat analog dengan mengamati bahwa setiap titik dalam ruang (cukup besar) mungkin milik banyak jalur yang bersinggungan di sana. Ini, bersama dengan konstruksi sebelumnya, menunjukkan kepada kita bahwa tidak ada distribusi yang secara unik menentukan keluarga dari mana ia berasal.ΘR4

  • Keluarga dari semua terbatas-variance distribusi benar-benar terus menerus tidak parametrik. Buktinya membutuhkan teorema dalam topologi: jika kita memberkati C Y dengan setiap topologi (apakah secara statistik berguna atau tidak) dan p : q C Y kontinu dan lokal memiliki invers terus menerus, maka secara lokal C Y harus memiliki dimensi yang sama seperti bahwa dari Θ . Namun, dalam semua topologi statistik bermakna, C Y adalah tak terbatas dimensi.CYCYp:ΘCYCYΘCY

whuber
sumber
2
Saya butuh sekitar sehari untuk mencerna jawaban Anda. Saya harus mengunyah perlahan. Sementara itu terima kasih.
Carl
(+1) OK, saya slogging melalui itu. Jadi apakah ruang Polandia atau tidak? Bisakah kita melakukan jawaban sederhana sehingga orang tahu bagaimana menghindari menggunakan kata keluarga dengan tidak tepat, tolong. @JuhoKokkala terkait, misalnya, bahwa Wikipedia menyalahgunakan bahasa dalam keluarga eksponensial mereka , yang perlu diklarifikasi. F:R×Θ[0,1]
Carl
1
Bukankah kalimat kedua dari jawaban ini melayani permintaan untuk kesederhanaan itu?
whuber
IMHO, betapapun tidak tahu, tidak, itu bukan karena ketidaklengkapan, ia tidak mengatakan apa yang bukan keluarga. Konsep "di ruang semua distribusi" tampaknya hanya berhubungan dengan statistik.
Carl
1
Saya telah menerima jawaban Anda. Anda memiliki cukup informasi di dalamnya sehingga saya bisa menerapkannya pada pertanyaan yang dimaksud.
Carl
1

Untuk membahas poin tertentu yang muncul dalam pertanyaan: "keluarga eksponensial" tidak menunjukkan serangkaian distribusi. (Standar, katakanlah, distribusi eksponensial adalah anggota keluarga distribusi eksponensial, keluarga eksponensial; keluarga distribusi gamma, juga keluarga eksponensial; keluarga distribusi Weibull, bukan keluarga eksponensial; & dari nomor berapa pun) keluarga lain yang mungkin Anda impikan.) Sebaliknya, "eksponensial" di sini merujuk pada properti yang dimiliki oleh keluarga distribusi. Jadi kita tidak boleh berbicara tentang "distribusi dalam keluarga eksponensial" tetapi tentang "keluarga distribusi eksponensial" - yang pertama adalah penyalahgunaan terminologi, seperti yang ditunjukkan oleh @JuhoKokkala. Untuk beberapa alasan tidak ada yang melakukan penyalahgunaan ini ketika berbicara tentang keluarga skala lokasi.

Scortchi - Reinstate Monica
sumber
0

Berkat @whuber ada cukup informasi untuk diringkas dalam apa yang saya harap adalah bentuk yang lebih sederhana yang berkaitan dengan pertanyaan dari mana posting ini muncul. "Nama lain untuk keluarga [ Sic , keluarga statistik] adalah model statistik [a] ."

Dari entri Wikipedia itu: Model statistik terdiri dari semua distribusi yang kami anggap mengatur pengamatan kami, tetapi kami tidak tahu distribusi mana yang sebenarnya. Apa yang membedakan model statistik dari model matematika lainnya adalah bahwa model statistik adalah non-deterministik. Dengan demikian, dalam model statistik yang ditentukan melalui persamaan matematika, beberapa variabel tidak memiliki nilai spesifik, tetapi sebaliknya memiliki distribusi probabilitas; yaitu beberapa variabel bersifat stokastik. Model statistik biasanya dianggap sebagai pasangan(S,P)dimana S adalah himpunan pengamatan yang mungkin, yaitu ruang sampel, dan P adalah seperangkat distribusi probabilitas pada S.

Misalkan kita memiliki model statistik (S,P) dengan P={Pθ:θΘ}. The model is said to be a Parametric model if Θ has a finite dimension. In notation, we write that ΘRd where d is a positive integer (R denotes the real numbers; other sets can be used, in principle). Here, d is called the dimension of the model.

As an example, if we assume that data arise from a univariate Gaussian distribution, then we are assuming that

P={Pμ,σ(x)12πσexp((xμ)22σ2):μR,σ>0}.
In this example, the dimension, d, equals 2, end quote.

Thus, if we reduce the dimensionality by assigning, for the example above, μ=0, we can show a family of curves by plotting σ=1,2,3,4,5 or whatever choices for σ.

Carl
sumber