CDF empiris vs CDF

21

Saya sedang belajar tentang Fungsi Distribusi Kumulatif Empiris. Tapi saya masih belum mengerti

  1. Mengapa disebut 'Empiris'?

  2. Apakah ada perbedaan antara CDF Empiris dan CDF?

Gammary
sumber
Ada penjelasan sederhana, langsung, elegan dalam hal tiket dalam model kotak : CDF menggambarkan apa yang ada di dalam kotak asli. ECDF adalah apa yang Anda dapatkan ketika Anda meletakkan sampel Anda (yang merupakan seperangkat tiket yang diambil dari kotak asli: apa yang disebut data "empiris") ke dalam kotak kosong.
whuber
Satu hal yang perlu diperhatikan adalah bahwa distribusi empiris Anda biasanya dibatasi oleh cara itu dibangun, sedangkan CDF mungkin tidak. Misalnya, jika Anda membangun CDF empiris dari pengamatan variabel Poisson, ECDF yang diperoleh akan dibatasi oleh frekuensi tertinggi yang diamati, sedangkan CDF sejati tidak terikat.
Aksakal

Jawaban:

27

Biarkan X menjadi variabel acak.

  • Fungsi distribusi kumulatif F(x) memberikan P(Xx) .
  • Fungsi fungsi distribusi kumulatif empiris G(x) memberikan P(Xx) berdasarkan pengamatan dalam sampel Anda.

Perbedaannya adalah ukuran probabilitas yang digunakan. Untuk CDF empiris, Anda menggunakan ukuran probabilitas yang ditentukan oleh jumlah frekuensi dalam sampel empiris.

Contoh sederhana (flip koin):

Misalkan X adalah variabel acak yang menunjukkan hasil flip koin tunggal di mana X=1 menunjukkan kepala dan X=0 menunjukkan ekor.

CDF untuk koin yang adil diberikan oleh:

F(x)={0for x<012for 0x<11for 1x

Jika Anda membalik 2 kepala dan 1 ekor, CDF empiris akan menjadi:

G(x)={0for x<023for 0x<11for 1x

Empiris CDF akan mencerminkan bahwa dalam sampel Anda, 2/3 dari membalik Anda adalah kepala.

Contoh lain ( F adalah CDF untuk distribusi normal):

Misalkan X adalah variabel acak yang terdistribusi normal dengan rata-rata 0 dan standar deviasi 1 .

CDF diberikan oleh:

F(x)=x12πex22

x1<x2<x3

G(y)={0for y<x113for x1y<x223for x2y<x31for x3y

Dengan penarikan IID yang cukup (dan kondisi keteraturan tertentu terpenuhi), CDF empiris akan menyatu pada CDF yang mendasari populasi.

Matthew Gunn
sumber
12

Apakah ada perbedaan antara CDF Empiris dan CDF?

Ya, mereka berbeda. Cdf empiris adalah cdf yang tepat, tetapi cdf empiris akan selalu terpisah bahkan ketika tidak diambil dari distribusi diskrit, sedangkan cdf dari distribusi dapat berupa hal-hal lain selain diskrit.

Jika Anda memperlakukan sampel seolah-olah itu adalah populasi nilai, masing-masing kemungkinan sama (yaitu menempatkan probabilitas 1 / n pada setiap pengamatan) maka cdf dari distribusi itu akan menjadi ECDF dari data.

Mengapa itu disebut 'Empiris'?

Ini adalah perkiraan populasi berdasarkan pada sampel; khususnya jika Anda memperlakukan proporsi sampel pada setiap nilai data yang berbeda dan memperlakukannya seperti kemungkinan dalam populasi, Anda mendapatkan ECDF.

Empiris memiliki arti sesuatu seperti "dengan mengamati daripada teori", dan itulah yang artinya dalam kasus ini ... menggunakan pengamatan untuk menentukan fungsi distribusi.

Glen_b -Reinstate Monica
sumber
10

CDF empiris dibangun dari kumpulan data aktual (dalam plot di bawah ini, saya menggunakan 100 sampel dari distribusi normal standar). CDF adalah konstruksi teoretis - ini adalah apa yang akan Anda lihat jika Anda bisa mengambil banyak sampel.

CDF empiris biasanya mendekati CDF dengan cukup baik, terutama untuk sampel besar (pada kenyataannya, ada teorema tentang seberapa cepat konvergen ke CDF ketika ukuran sampel meningkat).

CDF empiris vs CDF

Chris Taylor
sumber
10

Empiris adalah sesuatu yang Anda bangun dari data dan pengamatan. Misalnya, Anda ingin tahu tentang distribusi ketinggian orang di suatu negara. Anda mulai dengan mengukur orang dan menghasilkan histogram yang dapat diperkirakan mendekati suatu distribusi. Kemudian Anda menghitung CDF empiris.

Jika Anda menggunakan distribusi statistik (rumus deterministik yang memberikan output yang sama persis dengan parameter yang sama), Anda juga dapat menghitung CDF-nya.

Anda dapat mengatakan "Tinggi orang di negara ini terdistribusi mirip dengan distribusi normal dengan rata-rata 1,75 m dan standar deviasi 0,1 m. Kemudian Anda dapat menggunakan CDF ~N(μ=1.75 m,σ=0,1 m) bukannya CDF yang dibangun dari distribusi empiris.

berkorbay
sumber
Apakah ada pengukuran kepercayaan yang digunakan yang mengungkapkan kemungkinan bahwa CDF dan CDF Kaisar menggambarkan populasi yang sama dalam batas semua sampel percobaan di dunia? Ini tampaknya memiliki aplikasi untuk pemilihan umum, misalnya. (walaupun mungkin tidak, karena outputnya tidak sepenuhnya dijelaskan sebagai fungsi ...)
BenPen
3

Menurut Dictionary.com , definisi "empiris" meliputi:

berasal dari atau dibimbing oleh pengalaman atau percobaan.

Karenanya, CDF Empiris adalah CDF yang Anda peroleh dari data Anda. Ini kontras dengan CDF teoretis (sering hanya disebut "CDF"), yang diperoleh dari model statistik atau probabilistik seperti distribusi Normal.

Waldir Leoncio
sumber