Hubungan antara rentang dan standar deviasi

14

Dalam sebuah artikel saya menemukan rumus untuk standar deviasi ukuran sampel N

σ=R¯2.534

di mana R¯ adalah kisaran rata-rata sub sampel (ukuran 6 ) dari sampel utama. Bagaimana angka 2.534 dihitung? Ini nomor yang benar?

Andy
sumber
6
Referensi silakan. Yang lebih penting: 1. Tidak mungkin ada "angka yang benar" di sini terlepas dari jenis distribusi yang Anda ambil. 2. Aturan-aturan ini biasanya datang dari minat pada metode pintas untuk memperkirakan SD dari kisaran. Sekarang kami memiliki komputer .... Apakah Anda ingin melakukan itu dan mengapa? Mengapa tidak menggunakan data saja?
Nick Cox
3
@Nick Sorry: Anda benar. Nilai sekitar berfungsi untuk deviasi standar ketika ukuran sampel sekitar 15 hingga 50 ; 3 berfungsi untuk ukuran sampel sekitar 10 , dll. Saya akan menghapus komentar saya sebelumnya sehingga tidak membingungkan siapa pun selain saya! 41550310
whuber
1
@NickCox itu adalah sumber rusia lama dan saya tidak melihat formula sebelumnya.
Andy
3
Memberikan referensi jarang merupakan ide yang buruk. Biarkan pembaca memutuskan sendiri apakah mereka menarik atau dapat diakses. (Ada banyak orang di sini yang bisa membaca bahasa Rusia, misalnya.)
Nick Cox

Jawaban:

17

Dalam sampel dari n nilai independen dari distribusi F dengan pdf f , pdf dari distribusi gabungan dari ekstrem min ( x ) = x [ 1 ] dan maks ( x ) = x [ n ] sebanding denganxnFfmin(x)=x[1]max(x)=x[n]

f(x[1])(F(x[n])F(x[1]))n2f(x[n])dx[1]dx[n]=HF(x[1],x[n])dx[1]dx[n].

(Konstanta proporsionalitas adalah kebalikan dari koefisien multinomial . Secara intuitif, PDF gabungan ini mengungkapkan peluang untuk menemukan nilai terkecil dalam rentang[x[1],x[1]+dx[1]), nilai terbesar dalam rentang[x[n],x[n]+dx[n])(n1,n2,1)=n(n1)[x[1],x[1]+dx[1])[x[n],x[n]+dx[n]), dan nilai tengah antaranya dalam kisaran [ x [ 1 ] + d x [ 1 ] , x [ n ] ) . Ketika F adalah kontinu, kita dapat mengganti rentang tengah itu dengan ( x [ 1 ] , x [ n ] ] , dengan demikian mengabaikan hanya sejumlah probabilitas "sangat kecil". Probabilitas terkait, untuk urutan pertama dalam diferensial, adalah f ( x [ 1 ]n2[x[1]+dx[1],x[n])F(x[1],x[n]]f ( x [ n ] ) d x [ n ] , dan F ( x [ n ] ) - F ( x [ 1 ] ) , . Masing-masing, sekarang membuat jelas di mana formula yang berasal dari)f(x[1])dx[1], f(x[n])dx[n],F(x[n])F(x[1]),

Mengambil ekspektasi kisaran memberikan 2.53441 σ untuk distribusi normal dengan standar deviasi σ dan n = 6 . Kisaran yang diharapkan sebagai kelipatan σ tergantung pada ukuran sampel n :x[n]x[1]2.53441 σσn=6σn

Normal

Nilai-nilai ini dihitung dengan mengintegrasikan secara numerik lebih dari{(x,y)R2| xy}, denganFdiatur ke CDF Normal standar, dan membaginya dengan deviasi standarF(yang hanya1).(n1,n2,1)(yx)HF(x,y)dxdy{(x,y)R2|xy}FF1

Hubungan multiplikasi yang serupa antara rentang yang diharapkan dan standar deviasi akan berlaku untuk setiap keluarga skala lokasi, karena itu adalah properti dari bentuk distribusi saja. Misalnya, berikut adalah plot yang sebanding untuk distribusi seragam:

Seragam

dan distribusi eksponensial:

Eksponensial

Nilai dalam dua plot sebelumnya diperoleh dengan integrasi tepat - bukan numerik, yang dimungkinkan karena bentuk aljabar dan F yang relatif sederhana dalam setiap kasus. Untuk distribusi seragam mereka sama dengan n - 1fFn1(n+1)12γ+ψ(n)=γ+Γ(n)Γ(n)γψ

n=62.5t2.3n=62.5

whuber
sumber
6
2.53441σ
@Avraham Terima kasih atas komentar yang menerangi. Apa yang mengejutkan saya ketika saya menambahkan grafik adalah bahwa bagian yang sangat pintar dari keseluruhan pendekatan ini adalah penggunaan subsamples ukuran enam karena di situlah pengganda semua cenderung hampir sama terlepas dari bentuk distribusinya.
whuber
Terima kasih! Tabel Tippet sebenarnya memberikan pengganda yang sesuai untuk semua angka antara 2 dan 1000. Dia memang menyebutkan masalah perhitungan; tentu saja, ini terjadi pada tahun 1925, 20 tahun sebelum ENIAC.
Avraham
@whuber dapatkah Anda menunjukkan bagaimana angka (2.534) dihitung?
Andy
Saya mengedit jawaban untuk memasukkan penjelasan perhitungan.
whuber
4

Perkiraan itu sangat dekat dengan standar deviasi sampel yang sebenarnya. Saya menulis skrip R cepat untuk menggambarkannya:

x = sample(1:10000,6000,replace=TRUE)

B = 100000
R = rep(NA,B)
for(i in 1:B){
    samp = sample(x,6)
    R[i] = max(samp)-min(samp)
}

mean(R)/2.534

sd(x)

yang menghasilkan:

> mean(R)/2.534
[1] 2819.238
> 
> sd(x)
[1] 2880.924

Sekarang saya tidak yakin (belum) mengapa ini bekerja tetapi setidaknya terlihat (pada nilai nominal) bahwa pendekatannya adalah yang layak.

Sunting: Lihat komentar luar biasa @ Whuber (atas) tentang mengapa ini bekerja


sumber
1
Anda menggambar subsamples ukuran 6dari distribusi yang kurang lebih seragam. Untuk distribusi yang benar-benar seragam, rasionya adalah103/72.474. Memang, jika Anda menggunakan faktor itu dalam simulasi Anda, Anda akan mendapatkan mean(R)/2.474sama dengan2887.6, sangat dekat sd(x).
whuber
Sangat benar! > mean(R)/2.474 [1] 2887.611