Hubungan antara rentang dan standar deviasi

Dalam sebuah artikel saya menemukan rumus untuk standar deviasi ukuran sampel $N$

$\sigma=\frac{\overline{R}}{2.534}$

di mana $\overline{R}$ adalah kisaran rata-rata sub sampel (ukuran $6$ ) dari sampel utama. Bagaimana angka $2.534$ dihitung? Ini nomor yang benar?

standard-deviation descriptive-statistics range Andy
sumber

Referensi silakan. Yang lebih penting: 1. Tidak mungkin ada "angka yang benar" di sini terlepas dari jenis distribusi yang Anda ambil. 2. Aturan-aturan ini biasanya datang dari minat pada metode pintas untuk memperkirakan SD dari kisaran. Sekarang kami memiliki komputer .... Apakah Anda ingin melakukan itu dan mengapa? Mengapa tidak menggunakan data saja?

Nick Cox

@Nick Sorry: Anda benar. Nilai sekitar

berfungsi untuk deviasi standar ketika ukuran sampel sekitar

hingga

;

berfungsi untuk ukuran sampel sekitar

, dll. Saya akan menghapus komentar saya sebelumnya sehingga tidak membingungkan siapa pun selain saya!

4

$4$

15

$15$

50

$50$

3

$3$

10

$10$

whuber

@NickCox itu adalah sumber rusia lama dan saya tidak melihat formula sebelumnya.

Andy

Memberikan referensi jarang merupakan ide yang buruk. Biarkan pembaca memutuskan sendiri apakah mereka menarik atau dapat diakses. (Ada banyak orang di sini yang bisa membaca bahasa Rusia, misalnya.)

Nick Cox

Jawaban:

Dalam sampel dari nilai independen dari distribusi dengan pdf , pdf dari distribusi gabungan dari ekstrem dan sebanding dengan $x$ $n$ $F$ $f$ $\min(x)=x_{[1]}$ $\max(x)=x_{[n]}$

f (x_{[1]}) {(F (x_{[n]}) - F (x_{[1]}))}^{n - 2} f (x_{[n]}) d x_{[1]} d x_{[n]} = H_{F} (x_{[1]}, x_{[n]}) d x_{[1]} d x_{[n]} .

$f(x_{[1]})\left(F(x_{[n]})-F(x_{[1]})\right)^{n-2}f(x_{[n]})dx_{[1]}dx_{[n]} = H_F(x_{[1]}, x_{[n]})dx_{[1]}dx_{[n]}.$

(Konstanta proporsionalitas adalah kebalikan dari koefisien multinomial . Secara intuitif, PDF gabungan ini mengungkapkan peluang untuk menemukan nilai terkecil dalam rentang, nilai terbesar dalam rentang $\binom{n}{1,n-2,1} = n(n-1)$ $[x_{[1]},x_{[1]}+dx_{[1]})$ $[x_{[n]},x_{[n]}+dx_{[n]})$ , dan nilai tengah antaranya dalam kisaran . Ketika adalah kontinu, kita dapat mengganti rentang tengah itu dengan , dengan demikian mengabaikan hanya sejumlah probabilitas "sangat kecil". Probabilitas terkait, untuk urutan pertama dalam diferensial, adalah $n-2$ $[x_{[1]}+dx_{[1]}, x_{[n]})$ $F$ $(x_{[1]}, x_{[n]}]$ dan . Masing-masing, sekarang membuat jelas di mana formula yang berasal dari) $f(x_{[1]})dx_{[1]},$ $f(x_{[n]})dx_{[n]},$ $F(x_{[n]})-F(x_{[1]}),$

Mengambil ekspektasi kisaran memberikan untuk distribusi normal dengan standar deviasi dan . Kisaran yang diharapkan sebagai kelipatan tergantung pada ukuran sampel : $x_{[n]} - x_{[1]}$ $2.53441\ \sigma$ $\sigma$ $n=6$ $\sigma$ $n$

Normal

Nilai-nilai ini dihitung dengan mengintegrasikan secara numerik lebih dari, dengandiatur ke CDF Normal standar, dan membaginya dengan deviasi standar(yang hanya). $\binom{n}{1,n-2,1}\left(y-x\right)H_F(x,y)dxdy$ $\{(x,y)\in\mathbb{R}^2|x\le y\}$ $F$ $F$ $1$

Hubungan multiplikasi yang serupa antara rentang yang diharapkan dan standar deviasi akan berlaku untuk setiap keluarga skala lokasi, karena itu adalah properti dari bentuk distribusi saja. Misalnya, berikut adalah plot yang sebanding untuk distribusi seragam:

Seragam

dan distribusi eksponensial:

Eksponensial

Nilai dalam dua plot sebelumnya diperoleh dengan integrasi tepat - bukan numerik, yang dimungkinkan karena bentuk aljabar dan relatif sederhana dalam setiap kasus. Untuk distribusi seragam mereka sama dengan $f$ $F$ $\frac{n-1}{(n+1)}\sqrt{12}$ $\gamma + \psi(n) = \gamma + \frac{\Gamma'(n)}{\Gamma(n)}$ $\gamma$ $\psi$

$n=6$ $2.5$ $t$ $2.3$ $n=6$ $2.5$

whuber
sumber

2.53441 σ

$2.53441\sigma$

@Avraham Terima kasih atas komentar yang menerangi. Apa yang mengejutkan saya ketika saya menambahkan grafik adalah bahwa bagian yang sangat pintar dari keseluruhan pendekatan ini adalah penggunaan subsamples ukuran enam karena di situlah pengganda semua cenderung hampir sama terlepas dari bentuk distribusinya.

whuber

Terima kasih! Tabel Tippet sebenarnya memberikan pengganda yang sesuai untuk semua angka antara 2 dan 1000. Dia memang menyebutkan masalah perhitungan; tentu saja, ini terjadi pada tahun 1925, 20 tahun sebelum ENIAC.

Avraham

@whuber dapatkah Anda menunjukkan bagaimana angka (2.534) dihitung?

Andy

Saya mengedit jawaban untuk memasukkan penjelasan perhitungan.

whuber

Perkiraan itu sangat dekat dengan standar deviasi sampel yang sebenarnya. Saya menulis skrip R cepat untuk menggambarkannya:

x = sample(1:10000,6000,replace=TRUE)

B = 100000
R = rep(NA,B)
for(i in 1:B){
    samp = sample(x,6)
    R[i] = max(samp)-min(samp)
}

mean(R)/2.534

sd(x)

yang menghasilkan:

> mean(R)/2.534
[1] 2819.238
> 
> sd(x)
[1] 2880.924

Sekarang saya tidak yakin (belum) mengapa ini bekerja tetapi setidaknya terlihat (pada nilai nominal) bahwa pendekatannya adalah yang layak.

Sunting: Lihat komentar luar biasa @ Whuber (atas) tentang mengapa ini bekerja

sumber

Anda menggambar subsamples ukuran

6

$6$ dari distribusi yang kurang lebih seragam. Untuk distribusi yang benar-benar seragam, rasionya adalah

10 \sqrt{3} / 7 \approx 2.474

$10\sqrt{3}/7\approx 2.474$ . Memang, jika Anda menggunakan faktor itu dalam simulasi Anda, Anda akan mendapatkan mean(R)/2.474sama dengan

2887.6

$2887.6$ , sangat dekat sd(x).

whuber

Sangat benar! > mean(R)/2.474 [1] 2887.611