Bagaimana cara menentukan kemungkinan secara ketat?

30

Kemungkinan dapat didefinisikan dengan beberapa cara, misalnya:

  • fungsi dari yang memetakan untuk yaitu .L LΘ × XΘ×X ( θ , x ) (θ,x)L ( θ x ) L(θx)L : Θ × XRL:Θ×XR

  • fungsi acakL ( X )L(X)

  • kita juga dapat mempertimbangkan bahwa kemungkinan hanya kemungkinan "teramati"L ( x obs )L(xobs)

  • dalam praktiknya kemungkinan membawa informasi pada hanya hingga konstanta multiplikasi, maka kita dapat mempertimbangkan kemungkinan sebagai kelas fungsi ekivalensi daripada fungsiθθ

Pertanyaan lain muncul ketika mempertimbangkan perubahan parametrization: jika adalah parameterisasi baru yang biasanya kita tunjukkan dengan kemungkinan pada dan ini bukan evaluasi dari fungsi sebelumnya pada tetapi pada . Ini adalah notasi yang kasar tetapi bermanfaat yang dapat menyebabkan kesulitan bagi pemula jika tidak ditekankan.ϕ = θ 2ϕ=θ2 L ( ϕ x ) L(ϕx)ϕ ϕL ( x ) L(x)θ 2 θ2ϕϕ

Apa definisi ketat favorit Anda tentang kemungkinan?

Selain itu bagaimana Anda memanggil ? Saya biasanya mengatakan sesuatu seperti "kemungkinan pada ketika diamati".L ( θ x ) L(θx)θ θxx

EDIT: Mengingat beberapa komentar di bawah ini, saya menyadari saya harus mengawali konteksnya. Saya menganggap model statistik yang diberikan oleh keluarga parametrik dari kepadatan sehubungan dengan beberapa ukuran yang mendominasi, dengan masing-masing didefinisikan pada ruang observasi . Karenanya kita mendefinisikan dan pertanyaannya adalah "apa itu ?" (pertanyaannya bukan tentang definisi umum kemungkinan){ f ( θ ) , θ Θ } f ( θ ) X L ( θ x ) = f ( x θ ) L{f(θ),θΘ}f(θ)XL(θx)=f(xθ)L

Stéphane Laurent
sumber
2
(1) Karena untuk semua , saya percaya bahkan konstanta dalam didefinisikan. (2) Jika Anda menganggap parameter seperti dan hanya sebagai koordinat untuk berbagai distribusi, maka perubahan parameterisasi tidak memiliki makna matematika intrinsik; itu hanyalah perubahan deskripsi. (3) pembicara asli bahasa Inggris akan lebih alami mengatakan "kemungkinan dari " daripada "pada." (4) Klausa "ketika diamati" memiliki kesulitan filosofis, karena sebagian besar tidak akan pernah diamati. Mengapa tidak mengatakan saja "kemungkinan diberikanL ( θ | x ) d x = 1 θ L ϕL(θ|x)dx=1θLϕθ θ x x θ xθ θxxθx "?
whuber
1
@whuber: Untuk (1), saya tidak berpikir konstanta didefinisikan dengan baik. Lihat buku ET Jaynes di mana ia menulis: "bahwa kemungkinan bukanlah kemungkinan karena normalisasi itu sewenang-wenang."
Neil G
3
Anda tampaknya membingungkan dua jenis normalisasi, Neil: Jaynes mengacu pada normalisasi dengan integrasi lebih dari , bukan . θ θxx
whuber
1
@whuber: Saya tidak berpikir faktor penskalaan akan berpengaruh bagi ikatan Cramer-Rao karena mengubah menambah jumlah konstan pada kemungkinan log, yang kemudian menghilang ketika turunan parsial diambil. kk
Neil G
1
Saya setuju dengan Neil, saya tidak melihat aplikasi apa pun di mana konstanta memainkan peran
Stéphane Laurent

Jawaban:

13

Item ketiga Anda adalah yang saya lihat paling sering digunakan sebagai definisi yang ketat.

Yang lain juga menarik (+1). Khususnya yang pertama menarik, dengan kesulitan bahwa ukuran sampel belum (belum) didefinisikan, lebih sulit untuk mendefinisikan set "dari".

Bagi saya, intuisi mendasar dari kemungkinan adalah bahwa itu adalah fungsi dari model + parameternya, bukan fungsi dari variabel acak (juga merupakan poin penting untuk tujuan pengajaran). Jadi saya akan tetap pada definisi ketiga.

Sumber penyalahgunaan notasi adalah bahwa set "dari" kemungkinan adalah implisit, yang biasanya tidak berlaku untuk fungsi yang didefinisikan dengan baik. Di sini, pendekatan yang paling ketat adalah menyadari bahwa setelah transformasi, kemungkinan berhubungan dengan model lain. Ini setara dengan yang pertama, tetapi masih model lain. Jadi notasi kemungkinan harus menunjukkan model mana yang dirujuknya (dengan subskrip atau lainnya). Tentu saja saya tidak pernah melakukannya, tetapi untuk mengajar, saya mungkin melakukannya.

Akhirnya, agar konsisten dengan jawaban saya sebelumnya, saya mengatakan "kemungkinan " dalam formula terakhir Anda.θθ

gui11aume
sumber
Terima kasih. Dan apa saran Anda tentang persamaan hingga konstanta multiplikasi?
Stéphane Laurent
Secara pribadi saya lebih suka menyebutnya ketika dibutuhkan daripada kode keras dalam definisi. Dan berpikir bahwa untuk pemilihan model / perbandingan, persamaan 'up-to-a-multiplicative-constant' ini tidak berlaku.
gui11aume
Baik. Mengenai nama, Anda dapat membayangkan Anda mendiskusikan tentang kemungkinan dan untuk dua pengamatan yang memungkinkan. Dalam kasus seperti itu, apakah Anda akan mengatakan "kemungkinan ketika diamati", atau "kemungkinan untuk pengamatan ", atau sesuatu yang lain? L ( θ x 1 ) L ( θ x 2 ) θ x 1 θ x 1L(θx1)L(θx2)θx1θx1
Stéphane Laurent
1
Jika Anda melakukan parametrik ulang model Anda dengan Anda benar-benar menghitung kemungkinan sebagai komposisi fungsi mana . Dalam kasus ini, beralih dari ke sehingga himpunan definisi (disebut sebagai "dari" himpunan) dari kemungkinan tidak lagi sama. Anda dapat memanggil fungsi pertama Dan kedua Karena keduanya bukan fungsi yang sama. ϕ = θ 2 L ( . | x ) g ( . ) g ( y ) = y 2 g R R + L 1 ( . | ) L 2 ( . | )ϕ=θ2L(.|x)g(.)g(y)=y2gRR+L1(.|)L2(.|)
gui11aume
1
Bagaimana definisi ketiga sangat ketat? Dan apa masalah dengan ukuran sampel yang tidak ditentukan? Karena kita mengatakan , yang secara alami menghadirkan aljabar sigma yang sesuai untuk ruang sampel , mengapa kita tidak dapat memiliki definisi paralel untuk kemungkinan? P ( x 1 , x 2 , ... , x nθ ) Ω nP(x1,x2,,xnθ)Ωn
Neil G
8

Saya pikir saya akan menyebutnya sesuatu yang berbeda. Kemungkinan adalah densitas probabilitas untuk x diamati diberi nilai parameter dinyatakan sebagai fungsi dari untuk diberikan . Saya tidak berbagi pandangan tentang konstanta proporsionalitas. Saya pikir itu hanya berperan karena memaksimalkan fungsi monotonik dari kemungkinan memberikan solusi yang sama untuk . Jadi Anda dapat memaksimalkan untuk atau fungsi monoton lainnya seperti yang biasa dilakukan.θ θ x θ c L ( θx ) c > 0 log ( L ( θx ) )θθxθcL(θx)c>0log(L(θx))

Michael R. Chernick
sumber
4
Tidak hanya maksimisasi: up-to-proporsionalitas juga berperan dalam gagasan rasio kemungkinan, dan dalam formula Bayes untuk statistik Bayesian
Stéphane Laurent
Saya pikir seseorang mungkin akan menurunkan jawaban saya. Tapi saya pikir itu cukup masuk akal untuk mendefinisikan kemungkinan dengan cara ini sebagai probabilitas definitif tanpa menyebut sesuatu yang proporsional sebagai kemungkinan. @ StéphaneLaurent pada komentar Anda tentang prior, jika fungsinya terintegrasi, ia dapat dinormalisasi menjadi kepadatan. Posterior sebanding dengan kemungkinan kali sebelumnya. Karena posterior harus dinormalisasi dengan membaginya dengan integral, kita juga dapat menentukan sebelum menjadi distribusi. Hanya dalam arti luas bahwa ini diterapkan pada prior yang tidak tepat.
Michael R. Chernick
1
Saya tidak yakin mengapa seseorang akan menurunkan jawaban ini. Tampaknya Anda mencoba merespons lebih banyak pertanyaan dan pertanyaan OP daripada yang pertama. Mungkin itu tidak sepenuhnya jelas bagi pembaca lain. Tepuk tangan. :)
kardinal
@Michael Saya tidak melihat perlunya untuk membatalkan jawaban ini juga. Mengenai prior noninformative (ini adalah diskusi lain dan) saya bermaksud untuk membuka disucssion baru tentang subjek ini. Saya tidak akan segera melakukannya, karena saya tidak mudah dengan bahasa Inggris, dan ini lebih sulit bagi saya untuk menulis "filsafat" daripada matematika.
Stéphane Laurent
1
@Stephane: Jika Anda mau, silakan memposting pertanyaan Anda yang lain secara langsung dalam bahasa Prancis. Kami memiliki beberapa penutur asli bahasa Prancis di situs ini yang kemungkinan akan membantu menerjemahkan setiap bagian yang tidak Anda yakini. Ini termasuk moderator dan juga editor dari salah satu jurnal statistik berbahasa Inggris paling atas. Saya menantikan pertanyaan itu.
kardinal
6

Berikut adalah upaya definisi matematis yang ketat:

Misalkan menjadi vektor acak yang menerima kepadatan sehubungan dengan beberapa ukuran pada , di mana untuk , adalah keluarga kepadatan di sehubungan dengan . Kemudian, untuk setiap kita mendefinisikan fungsi kemungkinan menjadi ; untuk kejelasan, untuk setiap kita memiliki . Seseorang dapat menganggap sebagai potensi tertentuX : Ω R n f ( x | θ 0 ) ν R n θ Θ { f ( x | θ ) : θ Θ } R n ν x R n L ( θ | x ) f ( x | θ ) x L x : Θ R x x o bX:ΩRnf(x|θ0)νRnθΘ{f(x|θ):θΘ}RnνxRnL(θ|x)f(x|θ)xLx:ΘRxs θ 0 θxobs dan menjadi nilai "true" dari .θ0θ

Beberapa pengamatan tentang definisi ini:

  1. Definisi ini cukup kuat untuk menangani diskrit, kontinu, dan lainnya macam keluarga distribusi untuk .XX
  2. Kami mendefinisikan kemungkinan pada tingkat fungsi kepadatan bukan pada tingkat distribusi probabilitas / tindakan. Alasan untuk ini adalah bahwa kepadatan tidak unik, dan ternyata ini bukan situasi di mana seseorang dapat lolos ke kelas kesetaraan kepadatan dan masih aman: pilihan kepadatan yang berbeda menyebabkan MLE berbeda dalam kasus berkelanjutan. Namun, dalam kebanyakan kasus ada pilihan alami dari keluarga kepadatan yang diinginkan secara teoritis.
  3. Saya suka definisi ini karena ini memasukkan variabel acak yang kami kerjakan ke dalamnya dan, dengan desain karena kami harus menetapkan mereka distribusi, kami juga telah membangun dengan seksama gagasan nilai "benar tetapi tidak diketahui" dari , di sini dilambangkan . Bagi saya, sebagai seorang siswa, tantangan untuk bersikap keras tentang kemungkinan selalu bagaimana mendamaikan konsep dunia nyata dari "benar" dan "mengamati" dengan matematika; ini sering tidak dibantu oleh instruktur yang mengklaim bahwa konsep-konsep ini tidak formal tetapi kemudian berbalik dan menggunakannya secara formal ketika membuktikan sesuatu! Jadi kami membahasnya secara formal dalam definisi ini.θ θ 0 θ x o b sθθ0θxobs
  4. EDIT: Tentu saja, kita bebas untuk mempertimbangkan elemen acak yang biasa , dan dan di bawah definisi ini tanpa masalah nyata dengan kekakuan sebagai selama Anda berhati-hati (atau bahkan jika Anda tidak melakukannya jika tingkat kekakuan itu tidak penting bagi Anda).L ( θ | X ) S ( θ | X ) I ( θ | X )L(θ|X)S(θ|X)I(θ|X)
orang
sumber
4
@ Xi'an Let X 1 , . . . , X n menjadi seragam pada ( 0 , θ ) . Pertimbangkan dua kerapatan f 1 ( x ) = θ - 1 I [ 0 < x < θ ] versus f 2 ( x ) = θ - 1 I [ 0 x θ ] . Baik f 1 danX1,...,Xn(0,θ)f 2 adalah densitas yang valid untuk U ( 0 , θ ) , tetapi di bawah f 2 MLE ada dan sama dengan maks X i sedangkan di bawahkita memilikisehingga jika Anda mengaturAnda berakhir dengan kemungkinan, dan pada kenyataannya MLE tidak ada karenatidak diperoleh untukapa pun. f 1 Π j f 1 ( x j | max x i ) = 0 θ = max X i 0 sup θ Π j f 1 ( x | θ ) θ
pria
1
@ guy: terima kasih, saya tidak tahu tentang contoh balasan yang menarik ini.
Xi'an
1
@guy Anda mengatakan bahwa tidak diperoleh untuk apa pun . Namun, supremum ini diperoleh pada beberapa titik seperti yang saya tunjukkan di bawah ini: mana . Saya mengasumsikan bahwa untuk semua . Sangat mudah untuk melihat bahwa 1. , jika ; 2. , jika . Melanjutkan ...supθjf1(xj|θ)θL1(θ;x)=nj=1f1(xj|θ)=θnnj=1I(0<xj<θ)=θnI(0<M<θ),
M=max{x1,,xn}xj>0j=1,,nL1(θ;x)=00<θML1(θ;x)=θnM<θ<
Alexandre Patriota
1
@ guy: melanjutkan ... Yaitu, untuk semua . Kami tidak memiliki nilai maksimum tetapi supremum itu ada dan diberikan oleh dan argumennya adalah Mungkin, asimptotik yang biasa tidak diterapkan di sini dan beberapa tol lainnya harus digunakan. Tetapi, supremum memang ada atau saya melewatkan beberapa konsep yang sangat mendasar. L1(θ;x)[0,Mn),
θ(0,)supθ(0,)L1(θ,x)=Mn
M=argsupθ(0,)L1(θ;x).
L1(θ;x)
Alexandre Patriota
1
@AlexandrePatriota Supremum ada, jelas, tetapi tidak tercapai oleh fungsinya. Saya tidak yakin apa yang dimaksud dengan notasi - tidak ada argumen yang menghasilkan karena . MLE didefinisikan sebagai setiap yang mencapai (biasanya) dan tidak ada mencapai sini. Jelas ada beberapa cara untuk mengatasinya - asimptotik yang kami inginkan mengharuskan ada kemungkinan dengan sifat ini-dan-itu, dan memang ada. Itu hanya daripada .argsupL1(θ;x)supL1(θ;M)=0ˆθsupˆθsupL2L1
pria