Saya tahu ini mungkin sedikit mengikat, secara statistik, tetapi ini adalah masalah saya.
Saya memiliki banyak data rentang, yaitu ukuran minimum, maksimum, dan sampel suatu variabel. Untuk beberapa data ini saya juga memiliki nilai rata-rata, tetapi tidak banyak. Saya ingin membandingkan rentang ini satu sama lain untuk mengukur variabilitas masing-masing rentang, dan juga membandingkan cara. Saya punya alasan kuat untuk mengasumsikan bahwa distribusi simetris di sekitar rata-rata, dan bahwa data akan memiliki distribusi Gaussian. Untuk alasan ini saya berpikir saya dapat membenarkan menggunakan titik tengah distribusi sebagai proksi untuk mean, ketika tidak ada.
Yang ingin saya lakukan adalah merekonstruksi distribusi untuk setiap rentang, dan kemudian menggunakannya untuk memberikan standar deviasi atau kesalahan standar untuk distribusi itu. Satu-satunya informasi yang saya miliki adalah maks dan min yang diamati dari sampel, dan titik tengah sebagai proksi untuk mean.
Dengan cara ini saya berharap dapat menghitung cara tertimbang untuk setiap kelompok, dan juga menghitung koefisien variasi untuk masing-masing kelompok juga, berdasarkan pada rentang data yang saya miliki dan asumsi saya (dari distribusi simetris dan normal).
Saya berencana untuk menggunakan R untuk melakukan ini, jadi bantuan kode apa pun akan dihargai juga.
sumber
Jawaban:
Fungsi distribusi kumulatif bersama untuk minimum & maksimum x ( n ) untuk sampel n dari distribusi Gaussian dengan mean μ & standar deviasi σ adalahx(1) x(n) n μ σ
di mana adalah CDF Gaussian standar. Diferensiasi sehubungan dengan x ( 1 ) & x ( n ) memberikan fungsi densitas probabilitas gabunganΦ(⋅) x(1) x(n)
di mana adalah standar Gaussian PDF. Mengambil log & menjatuhkan istilah yang tidak mengandung parameter memberikan fungsi log-likelihoodϕ(⋅)
Ini tidak terlihat sangat penurut tapi mudah untuk melihat bahwa itu dimaksimalkan apapun nilai oleh pengaturan μ = μ = x ( n ) + x ( 1 )σ , yaitu titik tengah - istilah pertama dimaksimalkan ketika argumen dari satu CDF adalah negatif dari argumen yang lain; istilah kedua & ketiga mewakili kemungkinan gabungan dari dua varian normal independen.μ=μ^=x(n)+x(1)2
Mengganti μ ke dalam log-likelihood & menulis r = x ( n ) - x ( 1 ) memberikan ℓ ( σ ; x ( 1 ) , x ( n ) , μ ) = ( n - 2 ) log [ 1 - 2 Φ ( - rμ^ r=x(n)−x(1)
Ungkapan ini harus dimaksimalkan numerik (misalnya denganσ^ σ^=k(n)⋅r k n
optimize
dari Rstat
paket) untuk menemukan σ . (Ternyata σ = k ( n ) ⋅ r , di mana k adalah konstanta tergantung hanya pada n -mungkin orang yang lebih matematis gesit daripada aku bisa menunjukkan mengapa.)Perkiraan tidak ada gunanya tanpa ukuran presisi yang menyertainya. Informasi Fisher yang diamati dapat dievaluasi secara numerik (misalnya dengan
hessian
darinumDeriv
paket R ) & digunakan untuk menghitung perkiraan kesalahan standar:I(σ)=-∂2ℓ(σ; μ )
Akan menarik untuk membandingkan kemungkinan & metode-saat estimasi untuk dalam hal bias (apakah MLE konsisten?), Varians, & mean-square error. Ada juga masalah estimasi untuk kelompok-kelompok tersebut di mana rata-rata sampel diketahui selain minimum & maksimum.σ
sumber
Mengurangkan yang kedua dari yang pertama kita dapatkan
Memiliki nilai untuk mean dan untuk standar deviasi sepenuhnya mencirikan distribusi normal.
sumber
Sangat mudah untuk mendapatkan fungsi distribusi maksimum dari distribusi normal (lihat "P.max.norm" dalam kode). Dari itu (dengan beberapa kalkulus) Anda bisa mendapatkan fungsi kuantil (lihat "Q.max.norm").
Dengan menggunakan "Q.max.norm" dan "Q.min.norm" Anda bisa mendapatkan median rentang yang terkait dengan N. Menggunakan ide yang disajikan oleh Alecos Papadopoulos (dalam jawaban sebelumnya) Anda dapat menghitung sd.
Coba ini:
sumber