Mengapa koreksi kontinuitas (katakanlah, perkiraan normal untuk distribusi binomial) berfungsi?

24

Saya ingin lebih memahami bagaimana koreksi kontinuitas distribusi binomial untuk perkiraan normal diturunkan.

Metode apa yang digunakan untuk memutuskan kita harus menambahkan 1/2 (mengapa tidak nomor lain?). Penjelasan apa pun (atau tautan ke bacaan yang disarankan, selain ini , akan dihargai).

Tal Galili
sumber

Jawaban:

29
  1. Sebenarnya itu tidak selalu "bekerja" (dalam arti selalu meningkatkan perkiraan binomial cdf oleh normal di ). Jika binomial adalah 0,5, saya pikir itu selalu membantu, kecuali mungkin untuk ekor yang paling ekstrim. Jika tidak terlalu jauh dari 0,5, untuk cukup besar biasanya ia bekerja dengan sangat baik kecuali pada ujung yang jauh, tetapi jika mendekati 0 atau 1 mungkin tidak membantu sama sekali (lihat poin 6. di bawah)p p n pxhalhalnhal

  2. Satu hal yang perlu diingat (terlepas dari ilustrasi yang hampir selalu melibatkan pmfs dan pdf) adalah hal yang kami coba perkiraan adalah cdf. Berguna untuk merenungkan apa yang terjadi dengan cdf dari binomial dan perkiraan normal (misal inilah ):n=20,hal=0,5

    masukkan deskripsi gambar di sini

    Dalam batas cdf binomial terstandarisasi akan menjadi standar normal (perhatikan bahwa standardisasi mempengaruhi skala pada sumbu x tetapi bukan sumbu y); sepanjang jalan semakin besar lompatan binomial cdf cenderung lebih merata mengangkangi cdf normal.n

    Mari memperbesar dan melihat ini dalam contoh sederhana di atas:

    masukkan deskripsi gambar di sini

    Perhatikan bahwa karena perkiraan normal melewati dekat ke tengah lompatan vertikal *, sedangkan dalam batas cdf normal secara lokal kira-kira linier dan (seperti perkembangan cdf binomial di bagian atas setiap lompatan); sebagai hasilnya, cdf cenderung untuk melintasi langkah-langkah horisontal di dekat . Jika Anda ingin memperkirakan nilai binomial cdf, pada integer , cdf normal mencapai ketinggian mendekati . F(x)xx+1x+12F(x)xx+12

    * Jika kita menerapkan Berry-Esseen ke variabel Bernoulli yang dikoreksi-rata, batas Berry-Esseen memungkinkan ruang gerak yang sangat kecil ketika berada di dekat dan dekat - cdf normal harus melewati cukup dekat dengan bagian tengah dari lompatan di sana karena jika tidak perbedaan mutlak dalam cdf akan melebihi Berry-Essen terbaik terikat di satu sisi atau yang lain. Ini pada gilirannya berkaitan dengan seberapa jauh dari cdf normal dapat melintasi bagian horizontal dari fungsi langkah binomial cdf.1hal xμx+112xμx+12

  3. Memperluas motivasi yang ada di 1. mari kita pertimbangkan bagaimana kita akan menggunakan perkiraan normal untuk binomial cdf untuk menghitung . Misalnya (lihat diagram kedua di atas). Jadi normal kita dengan mean yang sama dan sd adalah . Perhatikan bahwa kami akan memperkirakan lompatan dalam cdf pada 9 dengan perubahan cdf normal antara sekitar 8,5 dan 9,5.n = 20 , p = 0,5 , k = 9 N ( 10 , ( P(X=k)n=20,hal=0,5,k=9N(10,(5)2)

masukkan deskripsi gambar di sini

  1. Melakukan hal yang sama di bawah motivasi buku teks yang kurang formal tetapi lebih "biasa" (yang mungkin lebih intuitif, terutama untuk siswa pemula), kami mencoba untuk memperkirakan variabel diskrit dengan yang berkelanjutan. Kita dapat membuat versi kontinu dari binomial dengan mengganti setiap probabilitas lonjakan tinggi dengan persegi panjang lebar 1 yang berpusat di , memberinya tinggi (lihat persegi panjang biru di bawah; bayangkan satu untuk setiap x- nilai) dan kemudian memperkirakan bahwa dengan kepadatan normal dengan mean dan sd yang sama dengan binomial asli:x p ( x )hal(x)xhal(x)

    ! [masukkan deskripsi gambar di sini

    Area di bawah kotak didekati oleh normal antara dan ; dua bagian yang hampir berbentuk segitiga yang terletak di atas dan di bawah langkah horizontal berdekatan di area tersebut. Sejumlah probabilitas binomial dalam suatu interval akan berkurang menjadi sekumpulan perkiraan ini. (Menggambar diagram seperti ini sering sangat berguna jika tidak jelas apakah Anda perlu naik atau turun 0,5 untuk perhitungan tertentu ... cari nilai binomial mana yang Anda inginkan dalam perhitungan Anda dan lanjutkan dengan untuk setiap.)x-12x+1212

    Orang dapat memotivasi pendekatan ini secara aljabar menggunakan derivasi [di sepanjang garis De Moivre - lihat di sini atau di sini misalnya] untuk mendapatkan perkiraan normal (meskipun itu dapat dilakukan agak lebih langsung daripada pendekatan De Moivre).

    Itu pada dasarnya melanjutkan melalui beberapa perkiraan, termasuk menggunakan perkiraan Stirling pada istilah dan menggunakan untuk mendapatkan itu(nx)log(1+x)x-x2/2

    P(X=x)12πnhal(1-hal)exp(-(x-nhal)22nhal(1-hal))

    yang mengatakan bahwa kerapatan normal dengan rata-rata dan varians pada kira-kira tingginya PMF binomial pada . Di sinilah De Moivre harus pergi.μ=nhalσ2=nhal(1-hal)xx

    Jadi sekarang pertimbangkan bahwa kita memiliki perkiraan aturan titik tengah untuk area normal dalam hal ketinggian binomial ... yaitu, untuk , aturan titik tengah mengatakan bahwa dan kami memiliki dari De Moivre bahwa . Membalik itu tentang, .YN(nhal,nhal(1-hal))F(y+12)-F(y-12)=y-12y+12fY(kamu)dkamufY(y)fY(x)P(X=x)P(X=x)F(x+12)-F(x-12)

    [Perkiraan tipe "aturan titik" yang serupa dapat digunakan untuk memotivasi perkiraan lainnya seperti PMF kontinu dengan kepadatan menggunakan koreksi kontinuitas, tetapi orang harus selalu berhati-hati untuk memperhatikan di mana masuk akal untuk memohon perkiraan itu]

  2. Catatan sejarah: koreksi kontinuitas tampaknya berasal dengan Augustus de Morgan pada tahun 1838 sebagai perbaikan dari perkiraan De Moivre. Lihat, misalnya Hald (2007) [1]. Dari deskripsi Hald, alasannya adalah sepanjang baris item 4. di atas (yaitu pada dasarnya dalam hal mencoba mendekati PMF dengan mengganti spike probabilitas dengan "blok" lebar 1 yang berpusat pada nilai x).

  3. Ilustrasi situasi di mana koreksi kontinuitas tidak membantu:

    masukkan deskripsi gambar di sini

    Dalam plot di sebelah kiri (di mana seperti sebelumnya, adalah binomial, adalah perkiraan normal), dan . Dalam plot di sebelah kanan (binomial yang sama tetapi lebih jauh ke ekor), dan begitu - yang merupakan untuk mengatakan bahwa mengabaikan koreksi kontinuitas lebih baik daripada menggunakannya di wilayah ini.XYFX(x)FY(x+12)hal(x)FY(x+12)-FY(x-12)FX(x)FY(x)hal(x)FY(x)-FY(x-1)

    [1]: Hald, Anders (2007),
    "Sejarah Inferensi Statistik Parametrik dari Bernoulli ke Fisher, 1713-1935",
    Sumber dan Studi dalam Sejarah Matematika dan Ilmu Pengetahuan Fisika,
    Springer-Verlag New York

Glen_b -Reinstate Monica
sumber
1

Saya percaya faktor muncul dari fakta bahwa kami membandingkan distribusi kontinu dengan diskrit. Oleh karena itu kita perlu menerjemahkan apa arti setiap nilai diskrit dalam distribusi kontinu. Kita dapat memilih nilai lain, namun ini tidak seimbang tentang bilangan bulat yang diberikan. (yaitu Anda akan mempertimbangkan kemungkinan berada pada 6 lebih ke 7 dari 5.)

Saya menemukan tautan yang bermanfaat di sini: tautan

Kitter Catter
sumber