Bagaimana jika probabilitas tidak sama dalam ".632 Rule?"

Pertanyaan ini berasal dari pertanyaan ini tentang ".632 Rule." Saya menulis dengan referensi khusus untuk jawaban / notasi user60 sejauh itu menyederhanakan masalah.

Jawaban itu dimulai dengan sampel ukuran dengan penggantian, dari item berbeda dalam koleksi (panggil) n. Probabilitas bahwa sampel berbeda dari elemen N saat itu $n,$ $n$ $i^{th}$ $s_i$ $m$ $(1 - 1/n).$

Dalam jawaban itu semua elemen N memiliki peluang yang sama untuk ditarik secara acak.

Pertanyaan saya adalah ini: anggap sebagai gantinya dalam pertanyaan di atas item yang akan ditarik sedemikian rupa sehingga mereka didistribusikan secara normal. Yaitu, kami membagi kurva normal standar dari ke menjadi (katakanlah) 100 sub-panjang sama panjang. Masing-masing dari 100 item dalam N memiliki kemungkinan ditarik yang sama dengan area yang digantikan oleh kurva dalam interval masing-masing. $Z = -4$ $Z = 4$

Pemikiran saya adalah sebagai berikut:

Alasannya mirip dengan yang ada di jawaban terkait yang saya pikir. Probabilitas bahwa , dengan elemen N, adalah di mana adalah probabilitas menggambar $s_i \ne m$ $m$ $P(s_i \neq m) = (1 - F_i)$ $F_i$ $s_i.$

Probabilitas bahwa elemen m tertentu dalam sampel S ukuran n adalah

P (m \in S) = 1 - P (m \notin S) = 1 - \prod_{1}^{n} P (s_{i} \neq m)

$P(m \in S) = 1 - P(m \notin S) = 1 - \prod_1^n P(s_i \neq m)$

= 1 - \prod_{1}^{n} (1 - F_{i}) .

$= 1 - \prod_1^n(1 - F_i).$

Sebuah perhitungan tampaknya menunjukkan bahwa ketika panjang subinterval semakin kecil, jawabannya menyatu dengan angka yang sama seperti pada kasus pertama (probabilitas semuanya sama). $s_i$

Ini tampaknya berlawanan dengan intuisi (bagi saya) karena konstruksinya tampaknya memasukkan unsur-unsur N yang langka, jadi saya perkirakan jumlahnya lebih kecil dari 0,632.

Juga, jika ini benar, saya kira kita akan melakukannya

lim_{n \to \infty} \prod_{1}^{n} (1 - F_{i}) = lim (1 - 1 / n)^{n} = 1 / e,

$\lim_{n \to \infty} \prod_1^n(1 - F_i) =\lim (1- 1/n)^n = 1/e,$

yang saya belum tahu benar atau salah.

Sunting: Jika itu benar mungkin akan menggeneralisasi beberapa.

Terima kasih atas wawasannya.

probability sampling daniel
sumber

Saya hanya bertanya tentang persamaan terakhir tentang Matematika SE (pertanyaan 791114) karena saya juga tertarik pada bagaimana generalisasi, jika sama sekali.

daniel

... dan jawaban singkatnya adalah bahwa kesetaraan terakhir adalah benar untuk PDF berperilaku baik, jadi jawaban atas pertanyaan adalah bahwa aturan .632 berlaku untuk berbagai distribusi yang mendasarinya.

daniel

Dapatkah saya mengangkat jawaban orang lain dari situs lain dan mempostingnya di sini sebagai milik saya? Itu sebabnya saya memposting komentar singkat. Mungkin ada cara yang diterima untuk melakukan ini, jika demikian saya setuju.

daniel

tentu saja Anda bisa, sebutkan sumbernya di beberapa titik :)

Firebug

@ Firebug: dapatkah Anda menunjuk ke sebuah instance di mana ini dilakukan sehingga saya bisa melihat apa yang Anda maksud? Terima kasih.

daniel

Jawaban:

Pertanyaannya adalah tentang perilaku membatasi

\begin{matrix} (1) & = 1 - \prod_{i = 1}^{n} (1 - F_{i}) \end{matrix}

$= 1 - \prod_{i=1}^n(1 - F_i)\tag{1}$

ketika tumbuh dan secara seragam menyusut sedemikian rupa sehingga (a) semuanya non-negatif dan (b) semuanya berjumlah satu. (Ini mengikuti dari konstruksi dan aksioma probabilitas.) $n$ $F_i$ $F_i$

Menurut definisi, produk ini adalah eksponensial dari logaritma-nya:

\prod_{i = 1}^{n} (1 - F_{i}) = \exp (\sum_{i = 1}^{n} \log (1 - F_{i})) .

$\prod_{i=1}^n(1 - F_i) = \exp\left(\sum_{i=1}^n\log\left(1-F_i\right)\right).$

Teorema Taylor (dengan bentuk Lagrange sisanya) , diterapkan ke , menetapkan itu $\log$

\log (1 - F_{i}) = - F_{i} - \frac{1}{2} ϕ_{i}^{2} \geq - F_{i} - \frac{1}{2} F_{i}^{2}

$\log\left(1-F_i\right) = -F_i - \frac{1}{2}\phi_i^2 \ge -F_i - \frac{1}{2}F_i^2$

untuk beberapa dalam interval . Dengan kata lain, logaritma ini sama dengan hingga istilah yang paling banyak kali . Tetapi ketika cukup besar untuk memastikan bahwa semua lebih kecil dari beberapa yang diberikan (kondisi yang dijamin oleh penyusutan seragam ), maka (b) menyiratkan dan oleh karena itu $\phi_i$ $[0, F_i]$ $-F_i$ $1/2$ $F_i^2$ $n$ $F_i$ $\epsilon\gt 0$ $F_i$ $n\epsilon \gt \sum F_i = 1$

\sum_{i = 1}^{n} F_{i}^{2} \leq \sum_{i = 1}^{n} ϵ^{2} < \sum_{i = 1}^{n} {(\frac{1}{n})}^{2} = \frac{1}{n} .

$\sum_{i=1}^n F_i^2 \le \sum_{i=1}^n \epsilon^2 \lt \sum_{i=1}^n \left(\frac{1}{n}\right)^2 =\frac{1}{n}.$

Karena itu

- 1 = - \sum_{i = 1}^{n} F_{i} \geq \sum_{i = 1}^{n} \log (1 - F_{i}) \geq - \sum_{i = 1}^{n} F_{i} - \frac{1}{2} \frac{1}{n} = - 1 - \frac{1}{2 n}

$-1 = -\sum_{i=1}^n F_i \ge \sum_{i=1}^n\log\left(1-F_i\right) \ge -\sum_{i=1}^n F_i - \frac{1}{2}\frac{1}{n} = -1 - \frac{1}{2n}$

meremas logaritma antara dua urutan konvergen ke . Karena kontinu, produk menyatu dengan eksponensial dari batas ini, . Karena itu $-1$ $\exp$ $\prod_{i=1}^n(1 - F_i)$ $\exp(-1)$

lim_{n \to \infty} (1 - \prod_{i = 1}^{n} (1 - F_{i})) = 1 - \exp (- 1) \approx 0.632,

$\lim_{n\to\infty} \left(1 - \prod_{i=1}^n(1 - F_i)\right) = 1 - \exp(-1) \approx 0.632,$

QED .

Melihat lebih dekat pada analisis ini menetapkan bahwa kesalahan dalam perkiraan ini (yang akan selalu menjadi batas bawah ) tidak lebih besar dari Misalnya, pembagian distribusi Normal standar menjadi irisan antara dan menghasilkan maksimum dekat mode , di mana kira-kira akan sama dengan luas persegi panjang di sana, . Batas di atas menetapkan nilai rumus akan berada dalam dari nilai pembatasnya. Kesalahan sebenarnya adalah urutan besarnya kurang,

(\exp ((n / 2) max (F_{i}^{2})) - 1) \exp (- 1) .

$\left(\exp\left((n/2)\max(F_i^2)\right) - 1\right)\exp(-1).$

n = 400

$n=400$

- 4

$-4$

4

$4$

F_{i}

$F_i$

0

$0$

\exp (- 1 / 2) / 50 \approx 0.012

$\exp(-1/2)/50 \approx 0.012$

(1)

$(1)$

0.011

$0.011$

0.001041

$0.001041$ . Berikut perhitungan di R(yang dapat kami percayai karena tidak ada yang benar-benar kecil relatif terhadap ):

f_{i}

$f_i$

1

$1$

f <- diff(pnorm(seq(-4, 4, length.out=401))) # The normal "slices".
f <- f / sum(f)                              # Make them sum to unity.
exp(-1) - prod(1 - f)                        # Compute the error.

Memang, 1 - prod(1-f)adalah sedangkan adalah . $0.6331615\ldots$ $1-\exp(-1)$ $0.6321206\ldots$

whuber
sumber

Analisis kesalahan adalah aspek yang sangat membantu dari jawaban ini.

daniel