Apa yang bisa disimpulkan tentang data ketika rata-rata aritmatika sangat dekat dengan rata-rata geometris?

24

Apakah ada sesuatu yang signifikan tentang rata-rata geometrik dan rata-rata aritmatika yang sangat dekat satu sama lain, katakan ~ 0,1%? Dugaan apa yang dapat dibuat tentang kumpulan data seperti itu?

Saya telah bekerja menganalisis set data, dan saya perhatikan bahwa ironisnya nilainya sangat, sangat dekat. Tidak tepat, tapi tutup. Juga, pemeriksaan kewarasan yang cepat dari ketidaksetaraan rata-rata-rata geometri aritmatika serta tinjauan terhadap perolehan data mengungkapkan bahwa tidak ada yang mencurigakan tentang integritas data saya yang ditetapkan dalam hal bagaimana saya menghasilkan nilai-nilai tersebut.

pengguna12289
sumber
6
Catatan kecil: Pertama periksa data Anda semuanya positif; bahkan sejumlah nilai negatif mungkin meninggalkan Anda dengan produk positif, dan beberapa paket mungkin tidak menandai masalah potensial (ketidaksetaraan AM-GM bergantung pada nilai-nilai yang semuanya positif). Lihat misalnya (dalam R):x=c(-5,-5,1,2,3,10); prod(x)^(1/length(x)) [1] 3.383363 (sedangkan rata-rata aritmatika adalah 1)
Glen_b -Reinstate Monica
1
Untuk menguraikan titik @ Glen_b, dataset {x,0,x} selalu memiliki rata-rata aritmatika dan geometris yang sama, yaitu nol. Namun kita dapat menyebarkan tiga nilai sejauh yang kita inginkan.
hardmath
Baik aritmatika dan geometrik memiliki rumus umum yang sama , dengan memberikan yang pertama dan p 0 memberikan yang terakhir. Kemudian menjadi jelas secara intuitif bahwa keduanya menjadi lebih dekat dan lebih dekat satu sama lain ketika nilai data x lebih dan lebih sama, mendekati konstan. p=1p0x
ttnphns

Jawaban:

29

Mean aritmatika terkait dengan rata-rata geometrik melalui ketimpangan Aritmatika-Berarti-Geometrik (AMGM) yang menyatakan bahwa:

x1+x2++xnnx1x2xnn,

di mana kesetaraan dicapai jika . Jadi mungkin poin data Anda sangat dekat satu sama lain.x1=x2==xn

Alex R.
sumber
4
Ini benar. Biasanya, semakin kecil varians nilainya, semakin dekat keduanya.
Michael M
16
Varians harus kecil DENGAN PERBANDINGAN dengan ukuran pengamatan. Jadi itu adalah koefisien variasi, , yang harus kecil.σ/μ
Michael Hardy
1
Apakah AMGM mendukung sesuatu? Jika demikian, akan lebih baik jika dijabarkan.
Richard Hardy
@RichardHardy: AMGM adalah singkatan dari 'arithmetic mean - geometric mean'
1
@ user1108, terima kasih, sebenarnya, saya mengerti setelah membaca posting lainnya. Saya hanya berpikir itu bisa dijabarkan dalam jawabannya (tidak hanya di komentar).
Richard Hardy
15

Menguraikan jawaban @Alex R, salah satu cara untuk melihat ketimpangan AMGM adalah sebagai efek ketimpangan Jensen. Oleh ketidaksetaraan Jensen : Kemudian ambil eksponensial dari kedua sisi: 1

log(1nixi)1nilogxi
1nixiexp(1nilogxi)

Sisi kanan adalah rerata geometris karena (x1x2xn)1/n=exp(1nilogxi)

Kapan ketimpangan AMGM bertahan dengan hampir kesetaraan? Ketika efek ketidaksetaraan Jensen kecil. Apa yang mendorong efek ketimpangan Jensen di sini adalah konkavitas, kelengkungan logaritma. Jika data Anda tersebar di area di mana logaritma memiliki kelengkungan, efeknya akan besar. Jika data Anda tersebar di wilayah di mana logaritma pada dasarnya affine, maka efeknya akan kecil.

Misalnya, jika data memiliki sedikit variasi, dikelompokkan bersama dalam lingkungan yang cukup kecil, maka logaritma akan terlihat seperti fungsi affine di wilayah itu (tema kalkulus adalah jika Anda memperbesar cukup pada fungsi yang halus dan kontinu, yang itu akan terlihat seperti garis). Untuk data yang cukup berdekatan, rata-rata aritmatika data akan mendekati rata-rata geometrik.

Matthew Gunn
sumber
12

Mari kita selidiki kisaran mengingat bahwa rata-rata aritmatika mereka (AM) adalah kelipatan kecil 1 + δ dari rata-rata geometriknya (GM) (dengan δ 0 ). Dalam pertanyaan, δ 0,001 tetapi kita tidak tahu n .x1x2xn1+δδ0δ0.001n

Karena rasio cara-cara ini tidak berubah ketika unit pengukuran diubah, pilih unit yang GM-nya . Dengan demikian, kami berusaha untuk memaksimalkan x n dengan batasan bahwa x 1 + x 2 + + x n = n ( 1 + δ ) dan x 1x 2x n = 1 .1xnx1+x2++xn=n(1+δ)x1x2xn=1

Ini akan dilakukan dengan membuat , katakanlah, dan x n = z x . Demikianx1=x2==xn1=xxn=zx

n(1+δ)=x1++xn=(n1)x+z

dan

1=x1x2xn=xn1z.

Solusi adalah root antara 0 dan 1 darix01

(1n)xn+n(1+δ)xn11.

Mudah ditemukan secara iteratif. Berikut adalah grafik dari dan z optimal sebagai fungsi δ untuk n = 6 , 20 , 50 , 150 , dari kiri ke kanan:xzδn=6,20,50,150

Figure

Begitu mencapai ukuran yang cukup, bahkan rasio kecil dari 1,001 konsisten dengan satu terpencil besar x n (kurva merah atas) dan sekelompok erat berkerumun x i (kurva biru yang lebih rendah).n1.001xnxi

Di sisi lain, misalkan adalah genap (untuk kesederhanaan). Kisaran minimum dicapai ketika setengah x i sama dengan satu nilai x 1 dan setengah lainnya sama dengan nilai lain z 1 . Sekarang solusinya (yang mudah diperiksa) adalahn=2kxix1z1

xk=1+δ±δ2+2δ.

δδ2kth

x1+δ2δk; z1+δ+2δk.

The range is approximately 32δ/n.

In this manner we have obtained upper and lower bounds on the possible range of the data. We have learned that they depend heavily on the amount of data n. The upper bound shows the range can be appreciable even for tiny δ, thereby improving our sense of just how close to each other the data points really need to be--and placing a lower limit on their range, too.

Similar analyses, just as easily carried out, can inform you--quantitatively--of how tightly clustered the xi might be in terms of any other measure of spread, such as their variance or coefficient of variation.

whuber
sumber
On the right of your right hand graph you seem to have n=150,δ=0.002,x0.9954,z1.983,k=75. I do not see how these values are near your stated formulae approximations which seem to give x0.99918,z1.00087. Perhaps I have misunderstood
Henry
@Henry I don't know how you came up with those numbers. When n=150, the requirements are that x149z=1 and 149x+z=150(1.002)=150.3. Neither of those comes close to being true for the values you supply. When you plug in x=0.995416 and z=1.98308, you get the correct values.
whuber
I tried what looks to me like your z1+δ+2δk=1+0.002+2×0.002751.00087 and similarly for x. But now I see this is answering a different question
Henry
@Henry That solves a different problem: those are the values that give a minimum range. I did not post graphs for those. Indeed, with your x and z we have 75x+75z150.3 and x75z751, as required.
whuber