Apakah ada sesuatu yang signifikan tentang rata-rata geometrik dan rata-rata aritmatika yang sangat dekat satu sama lain, katakan ~ 0,1%? Dugaan apa yang dapat dibuat tentang kumpulan data seperti itu?
Saya telah bekerja menganalisis set data, dan saya perhatikan bahwa ironisnya nilainya sangat, sangat dekat. Tidak tepat, tapi tutup. Juga, pemeriksaan kewarasan yang cepat dari ketidaksetaraan rata-rata-rata geometri aritmatika serta tinjauan terhadap perolehan data mengungkapkan bahwa tidak ada yang mencurigakan tentang integritas data saya yang ditetapkan dalam hal bagaimana saya menghasilkan nilai-nilai tersebut.
descriptive-statistics
mean
geometric-mean
pengguna12289
sumber
sumber
x=c(-5,-5,1,2,3,10); prod(x)^(1/length(x))
[1] 3.383363
(sedangkan rata-rata aritmatika adalah 1)Jawaban:
Mean aritmatika terkait dengan rata-rata geometrik melalui ketimpangan Aritmatika-Berarti-Geometrik (AMGM) yang menyatakan bahwa:
di mana kesetaraan dicapai jika . Jadi mungkin poin data Anda sangat dekat satu sama lain.x1=x2=⋯=xn
sumber
Menguraikan jawaban @Alex R, salah satu cara untuk melihat ketimpangan AMGM adalah sebagai efek ketimpangan Jensen. Oleh ketidaksetaraan Jensen : Kemudian ambil eksponensial dari kedua sisi: 1
Sisi kanan adalah rerata geometris karena(x1⋅x2⋅…⋅xn)1/n=exp(1n∑ilogxi)
Kapan ketimpangan AMGM bertahan dengan hampir kesetaraan? Ketika efek ketidaksetaraan Jensen kecil. Apa yang mendorong efek ketimpangan Jensen di sini adalah konkavitas, kelengkungan logaritma. Jika data Anda tersebar di area di mana logaritma memiliki kelengkungan, efeknya akan besar. Jika data Anda tersebar di wilayah di mana logaritma pada dasarnya affine, maka efeknya akan kecil.
Misalnya, jika data memiliki sedikit variasi, dikelompokkan bersama dalam lingkungan yang cukup kecil, maka logaritma akan terlihat seperti fungsi affine di wilayah itu (tema kalkulus adalah jika Anda memperbesar cukup pada fungsi yang halus dan kontinu, yang itu akan terlihat seperti garis). Untuk data yang cukup berdekatan, rata-rata aritmatika data akan mendekati rata-rata geometrik.
sumber
Mari kita selidiki kisaran mengingat bahwa rata-rata aritmatika mereka (AM) adalah kelipatan kecil 1 + δ dari rata-rata geometriknya (GM) (dengan δ ≥ 0 ). Dalam pertanyaan, δ ≈ 0,001 tetapi kita tidak tahu n .x1≤x2≤⋯≤xn 1+δ δ≥0 δ≈0.001 n
Karena rasio cara-cara ini tidak berubah ketika unit pengukuran diubah, pilih unit yang GM-nya . Dengan demikian, kami berusaha untuk memaksimalkan x n dengan batasan bahwa x 1 + x 2 + ⋯ + x n = n ( 1 + δ ) dan x 1 ⋅ x 2 ⋯ x n = 1 .1 xn x1+x2+⋯+xn=n(1+δ) x1⋅x2⋯xn=1
Ini akan dilakukan dengan membuat , katakanlah, dan x n = z ≥ x . Demikianx1=x2=⋯=xn−1=x xn=z≥x
dan
Solusi adalah root antara 0 dan 1 darix 0 1
Mudah ditemukan secara iteratif. Berikut adalah grafik dari dan z optimal sebagai fungsi δ untuk n = 6 , 20 , 50 , 150 , dari kiri ke kanan:x z δ n=6,20,50,150
Begitu mencapai ukuran yang cukup, bahkan rasio kecil dari 1,001 konsisten dengan satu terpencil besar x n (kurva merah atas) dan sekelompok erat berkerumun x i (kurva biru yang lebih rendah).n 1.001 xn xi
Di sisi lain, misalkan adalah genap (untuk kesederhanaan). Kisaran minimum dicapai ketika setengah x i sama dengan satu nilai x ≤ 1 dan setengah lainnya sama dengan nilai lain z ≥ 1 . Sekarang solusinya (yang mudah diperiksa) adalahn=2k xi x≤1 z≥1
The range is approximately32δ−−−√/n .
In this manner we have obtained upper and lower bounds on the possible range of the data. We have learned that they depend heavily on the amount of datan . The upper bound shows the range can be appreciable even for tiny δ , thereby improving our sense of just how close to each other the data points really need to be--and placing a lower limit on their range, too.
Similar analyses, just as easily carried out, can inform you--quantitatively--of how tightly clustered thexi might be in terms of any other measure of spread, such as their variance or coefficient of variation.
sumber