Yang "berarti" untuk digunakan dan kapan?

197

Jadi kita memiliki mean aritmatika (AM), mean geometrik (GM) dan rata-rata harmonik (HM). Formulasi matematis mereka juga terkenal bersama dengan contoh-contoh stereotip mereka yang terkait (misalnya, rata-rata Harmonik dan aplikasinya untuk masalah-masalah terkait 'kecepatan').

Namun, pertanyaan yang selalu membuat saya penasaran adalah "bagaimana cara saya memutuskan mana yang paling tepat untuk digunakan dalam konteks tertentu?" Harus ada setidaknya beberapa aturan praktis untuk membantu memahami penerapan, namun jawaban paling umum yang saya temui adalah: "Itu tergantung" (tetapi pada apa?).

Ini mungkin tampaknya menjadi pertanyaan yang agak sepele, tetapi bahkan teks sekolah menengah gagal menjelaskan ini - mereka hanya memberikan definisi matematika!

Saya lebih suka penjelasan bahasa Inggris daripada matematika - tes sederhana adalah "apakah ibu / anak Anda memahaminya?"

PhD
sumber
20
Ini mungkin terlalu disederhanakan tetapi saya selalu menggunakan rentang dan pengamatan. Jika rentang sama = AM (bandingkan skor 0-100, hingga 0-100), jika rentang berbeda tetapi pengamatan sama = GM (bandingkan skor 1-5, hingga 0-10), jika rentang sama tetapi pengamatan berbeda = HM (kecepatan mobil dengan kecepatan berbeda, ketinggian dua tangga, "tarif" lainnya).
Brandon Bertelsen
> "Itu tergantung" (tetapi pada apa?) Itu tergantung pada algoritma pemrosesan data.
Macson
Ini bukan hanya pilihan yang berarti untuk digunakan. Ini juga merupakan pilihan sekumpulan statistik ringkasan untuk menggambarkan populasi atau proses yang diminati. Orang seharusnya tidak berpikir bahwa semua yang diperlukan adalah angka tunggal untuk menggambarkan sesuatu yang mungkin sangat rumit.
JimB

Jawaban:

160

Jawaban ini mungkin memiliki sedikit bengkok matematis daripada yang Anda cari.

Hal yang penting untuk dikenali adalah bahwa semua cara ini hanyalah rata-rata aritmatika yang menyamar .

Karakteristik penting dalam mengidentifikasi mana (jika ada!) Dari tiga cara umum (aritmatika, geometris atau harmonik) adalah rata-rata "benar" adalah untuk menemukan "struktur aditif" dalam pertanyaan yang dihadapi.

Dengan kata lain misalkan kita diberi beberapa jumlah abstrak , yang akan saya sebut "pengukuran", agak menyalahgunakan istilah ini di bawah demi konsistensi. Masing-masing dari ketiga cara ini dapat diperoleh dengan (1) mengubah setiap x i menjadi beberapa y i , (2) mengambil rata-rata aritmatika dan kemudian (3) mentransformasikan kembali ke skala pengukuran asli.x1,x2,...,xnxsayaysaya

Berarti aritmatika : Jelas, kami menggunakan transformasi "identitas": . Jadi, langkah (1) dan (3) sepele (tidak ada yang dilakukan) dan ˉ x A M = ˉ y .ysaya=xsayax¯SEBUAHM.=y¯

Berarti geometris : Di sini struktur aditif adalah pada logaritma pengamatan asli. Jadi, kita ambil dan kemudian untuk mendapatkan GM di langkah (3) kita mengonversi kembali melalui fungsi invers dari log , yaitu, ˉ x G M = exp ( ˉ y ) .ysaya=catatanxsayacatatanx¯GM.=exp(y¯)

Rata-rata harmonik : Di sini struktur aditif berada pada kebalikan dari pengamatan kami. Jadi, , dari mana ˉ x H M = 1 / ˉ y .ysaya=1/xsayax¯HM.=1/y¯

Dalam masalah fisik, ini sering muncul melalui proses berikut: Kami memiliki sejumlah yang tetap dalam kaitannya dengan pengukuran kami x 1 , , x n dan beberapa jumlah lainnya, katakanlah z 1 , , z n . Sekarang, kita memainkan permainan berikut: Usahakan w dan z 1 + + z n konstan dan cobalah untuk menemukan beberapa ˉ x sehingga jika kita mengganti setiap pengamatan individual kita x i dengan ˉ xwx1,...,xnz1,...,znwz1++znx¯xsayax¯, maka hubungan "total" masih dilestarikan .

Contoh jarak – kecepatan – waktu tampaknya populer, jadi mari kita gunakan.

Jarak konstan, waktu bervariasi

Pertimbangkan jarak tetap yang ditempuh . Sekarang anggaplah kita perjalanan jarak ini n waktu yang berbeda pada kecepatan v 1 , ... , v n , mengambil kali t 1 , ... , t n . Kami sekarang memainkan permainan kami. Misalkan kita ingin mengganti kecepatan kita masing-masing dengan beberapa kecepatan tetap ˉ v sehingga total waktu tetap konstan. Perhatikan bahwa kita memiliki d - v i t i = 0dnv1,...,vnt1,...,tnv¯ sehingga β i ( d - v i t i ) = 0 . Kami inginhubungantotalini(total waktu dan total jarak yang ditempuh) dilestarikan ketika kami mengganti masing-masing v i dengan ˉ v dalam game kami. Oleh karena itu, n d - ˉ v Σ i t i = 0

d-vsayatsaya=0,
saya(d-vsayatsaya)=0vsayav¯ Dan karena masing-masing t i = d / v i , kita mendapatkan bahwa ˉ v = n
nd-v¯sayatsaya=0,
tsaya=d/vsaya
v¯=n1v1++1vn=v¯HM..

Perhatikan bahwa "struktur aditif" di sini berkenaan dengan waktu individu, dan pengukuran kami berbanding terbalik dengan mereka, maka rata-rata harmonik berlaku.

Memvariasikan jarak, waktu konstan

Sekarang, mari kita ubah situasinya. Misalkan untuk contoh kita perjalanan waktu yang tetap t pada kecepatan v 1 , ... , v n jarak d 1 , ... , d n . Sekarang, kami ingin jarak total dilestarikan. Kami memiliki d i - v i t = 0ntv1,...,vnd1,...,dn dan sistem total dilestarikan jikai ( d i - v i t ) = 0 . Dengan memainkan permainan kami lagi, kami mencari ˉ v sedemikian rupa sehingga i ( d i - ˉ v t ) = 0

dsaya-vsayat=0,
saya(dsaya-vsayat)=0v¯ tapi, karena d i = v i t , kita dapat ˉ v = 1
saya(dsaya-v¯t)=0,
dsaya=vsayat
v¯=1nsayavsaya=v¯SEBUAHM..

Di sini struktur aditif yang kita coba pertahankan sebanding dengan pengukuran yang kita miliki, sehingga rata-rata aritmatika berlaku.

Kubus volume yang sama

nV

V=x1x2xn,
nxsayax¯
V=x¯x¯x¯=x¯n.

x¯=(xsayaxn)1/n=x¯GM.

catatanV=sayacatatanxsaya

Sarana baru dari yang lama

dsayavsayatsayav¯

Latihan : Apa arti "alami" dalam situasi ini?

kardinal
sumber
25
+1 Ini adalah jawaban yang bagus. Namun, saya pikir itu tidak lengkap dalam cara yang penting: dalam banyak kasus hak rata-rata untuk digunakan ditentukan oleh pertanyaan yang kami coba jawab alih-alih oleh struktur matematika dalam data. Contoh yang baik dari hal ini terjadi dalam penilaian risiko lingkungan: otoritas pengawas ingin memperkirakan paparan total populasi terhadap kontaminan dari waktu ke waktu. Ini membutuhkan rata-rata aritmatika tertimbang yang tepat, meskipun data konsentrasi lingkungan biasanya memiliki struktur multiplikasi . Rerata geometris akan menjadi estimator atau estimasi yang salah.
whuber
7
@whuber: (+1) Ini adalah komentar yang bagus. Di jalan saya untuk membangun jawaban, saya mengambil garpu non-statistik jelas, jadi saya senang Anda menyebutkan ini. Ini adalah topik yang layak mendapat jawaban ( petunjuk ) lengkap.
kardinal
9
@whuber: Ini juga memunculkan fakta (mungkin tidak sengaja), bahwa analisis statistik seringkali dapat menjadi subyek pengawasan para pakar domain (atau, mungkin dalam contoh Anda, bahkan bukan pakar), yang ingin memperkirakan sesuatu yang berarti bagi domain mereka tetapi hampir secara statistik tidak alami. Masalah yang pernah saya alami di sana di masa lalu adalah bahwa mereka terkadang ingin juga menentukan cara estimasi statistik dilakukan! :)
kardinal
1
@whuber: Akan sangat dihargai jika Anda bisa menambahkan sudut pandang itu ke jawabannya juga, dengan beberapa perincian. Jujur, penjelasan Anda adalah salah satu yang terbaik yang pernah saya lihat di Stats.SE!
PhD
3
Komentar luar biasa yang biasa dari @whuber. Terkadang (mungkin sering!) Hak untuk menggunakan tidak ada ; melainkan, pertanyaan itu sering perlu diperluas ke "ukuran kecenderungan sentral apa yang harus saya gunakan?".
Peter Flom
43

Memperluas komentar luar biasa @Brandon (yang menurut saya harus dipromosikan untuk menjawab):

Rerata geometris harus digunakan ketika Anda tertarik pada perbedaan multiplikasi. Brandon mencatat bahwa rata-rata geometrik harus digunakan ketika rentangnya berbeda. Ini biasanya benar. Alasannya adalah kami ingin menyamakan rentang. Sebagai contoh, misalkan pelamar kuliah dinilai pada skor SAT (0 hingga 800), nilai rata-rata kelas di HS (0 hingga 4) dan kegiatan ekstrakurikuler (1 hingga 10). Jika sebuah perguruan tinggi ingin meratakan ini dan menyamakan kisaran (yaitu, kenaikan berat dalam setiap kualitas relatif terhadap kisaran) maka rerata geometris akan menjadi jalan yang harus ditempuh.

Tetapi ini tidak selalu benar ketika kita memiliki skala dengan rentang yang berbeda. Jika kita membandingkan pendapatan di negara yang berbeda (termasuk yang miskin dan kaya), kita mungkin tidak menginginkan rata-rata geometris, tetapi rata-rata aritmatika (atau, lebih mungkin, median atau mungkin rata-rata yang dipangkas).

Satu-satunya penggunaan yang saya lihat untuk rata-rata harmonik adalah membandingkan tingkat. Sebagai contoh: Jika Anda berkendara dari New York ke Boston pada 40 MPH, dan kembali pada 60 MPH, maka rata-rata keseluruhan Anda bukan rata-rata aritmatika 50 MPH, tetapi rata-rata harmonik.

(40+60)/2=502/(1/40+1/60)=48

240/5=48

Peter Flom
sumber
3
Mengapa contoh SAT / IPK / ekstrakurikuler Anda menggunakan rata-rata geometris daripada rata-rata aritmatika tertimbang atau berskala? Mengapa SAT atau IPK nol berarti bahwa dua nilai lainnya menjadi tidak relevan (seperti rata-rata geometrik akan menyiratkan)? Dan bagaimana jika (katakanlah) kegiatan ekstrakurikuler cenderung mengelompok dalam kelompok yang jauh lebih sempit daripada rentang teoretisnya? Sepertinya akan lebih masuk akal untuk mengambil rata-rata aritmatika dari persentil (atau nilai yang disesuaikan lainnya) daripada rata-rata geometrik dari nilai mentah.
ruakh
1
@ruakh Menarik. Masalah 0 tidak terlalu penting dalam kasus ini, karena SAT dan IPK tidak bisa benar-benar 0 (SAT = 0 hampir tidak mungkin, dan IPK 0 tidak akan lulus). Saya pikir rata-rata aritmatika persentil akan mendekati rata-rata geometrik dalam kesimpulannya (meskipun tidak dalam angka aktual).
Peter Flom
31

Saya akan mencoba merebusnya menjadi 3-4 aturan praktis dan memberikan beberapa contoh lagi cara Pythagoras.

Hubungan antara 3 berarti adalah HM <GM <AM untuk data non-negatif dengan beberapa variasi . Mereka akan sama jika dan hanya jika tidak ada variasi sama sekali dalam data sampel.

Untuk data dalam level, gunakan AM. Harga adalah contoh yang bagus. Untuk rasio, gunakan GM. Pengembalian investasi, harga relatif seperti indeks Bloomberg Billy (harga rak buku Ikea Billy di berbagai negara dibandingkan dengan harga AS) dan Indeks Pembangunan Manusia PBB adalah contoh. HM tepat ketika berhadapan dengan kurs. Berikut adalah contoh milik David Giles dari non-otomotif :

Misalnya, pertimbangkan data "jam kerja per minggu" (tarif). Misalkan kita memiliki empat orang (pengamatan sampel), masing-masing bekerja total 2.000 jam. Namun, mereka bekerja untuk jumlah jam yang berbeda per minggu, sebagai berikut:

Person      Total Hours       Hours per Week          Weeks Taken
1                  2,000                  40                   50
2                  2,000                  45                   44.4444
3                  2,000                  35                   57.142857
4                  2,000                  50                   40

Total:           8,000                                       191.587297

Nilai rata-rata aritmatika pada kolom ketiga adalah AM = 42,5 jam per minggu. Namun, perhatikan apa artinya nilai ini. Membagi jumlah total minggu yang dikerjakan oleh anggota sampel (8.000) dengan nilai rata-rata ini menghasilkan nilai 188.2353 sebagai jumlah total minggu yang dikerjakan oleh keempat orang.

Sekarang lihat kolom terakhir pada tabel di atas. Faktanya nilai yang benar untuk total jumlah minggu yang dikerjakan oleh anggota sampel adalah 191,5873 minggu. Jika kita menghitung Harmonic Mean untuk nilai-nilai untuk Jam per Minggu di kolom ketiga dari tabel kita mendapatkan HM = 41,75642 jam (<AM), dan membagi angka ini menjadi 8,000 jam memberi kita hasil yang benar dari 191,5873 untuk jumlah total minggu bekerja. Ini adalah kasus di mana Harmonic Mean memberikan ukuran yang sesuai untuk rata-rata sampel.

David juga membahas versi tertimbang dari 3 cara, yang muncul dalam indeks harga yang digunakan untuk mengukur inflasi.

A Hijacky Aside:

ROT ini tidak sempurna. Sebagai contoh, saya sering merasa sulit untuk mencari tahu apakah ada yang menilai atau rasio. Pengembalian investasi biasanya diperlakukan sebagai rasio ketika menghitung sarana, tetapi mereka juga tingkat karena mereka biasanya didenominasikan dalam "x% per unit waktu." Apakah "menggunakan HM ketika data adalah level per unit waktu" menjadi heuristik yang lebih baik?

Jika Anda ingin meringkas Indeks Big Mac untuk negara-negara Eropa Utara, apakah Anda akan menggunakan GM?

Dimitriy V. Masterov
sumber
3
Beberapa tahun terlambat, tetapi apakah Anda pernah menemukan jawaban untuk pertanyaan Anda kembali: "Jika Anda ingin meringkas Indeks Big Mac untuk negara-negara Eropa Utara, apakah Anda akan menggunakan GM?" ?
StatsScared
2
@StatsScared Tidak, tapi itu akan menjadi pertanyaan yang bagus!
Dimitriy V. Masterov
7

Sebuah jawaban yang mungkin untuk pertanyaan Anda ("bagaimana saya memutuskan mean mana yang paling tepat untuk digunakan dalam konteks tertentu?") Adalah definisi mean yang diberikan oleh matematikawan Italia Oscar Chisini .

Berikut ini makalah dengan penjelasan yang lebih rinci dan beberapa contoh (rata-rata kecepatan perjalanan dan lain-lain).

boscovich
sumber
6
Mungkin ideal jika Anda dapat menambahkan beberapa baris tentang definisi Chisini di sini jika tautannya mati, & / atau untuk membantu pembaca mengetahui jika mereka ingin mengklik tautan untuk mengejar ide-ide lebih lanjut.
gung
2
Memang, tautan ke koran sudah mati. Tautan Wolfram tidak memberikan wawasan apa pun tentang bagaimana definisi Chisini berguna untuk menentukan sarana yang digunakan dalam konteks tertentu; bagi saya tampaknya hanya generalisasi matematis yang bertentangan dengan resep penggunaan.
Ryan Simmons
1
Dengan menggunakan DOI, orang dapat melihat bahwa kertas telah pindah ke tandfonline.com. Kutipan: R Graziani, P Veronese (2009). Bagaimana cara menghitung mean? Pendekatan Chisini dan aplikasinya. The American Statistician 63 (1), hlm. 33-36. tandfonline.com/doi/abs/10.1198/tast.2009.0006
akraf
0

Saya pikir cara sederhana untuk menjawab pertanyaan itu adalah:

  1. Jika struktur matematika adalah xy = k (hubungan terbalik antara variabel) dan Anda sedang mencari rata-rata, maka Anda perlu menggunakan rata-rata harmonik - yang berarti rata-rata aritmatika tertimbang - pertimbangkan

Rata-rata harmonik = 2ab / (a ​​+ b) = a (b / a + b) + b (a / (a ​​+ b)

Misalnya: rata-rata biaya dolar termasuk dalam kategori ini karena jumlah uang yang Anda investasikan (A) tetap, tetapi harga per saham (P) dan jumlah saham (N) berbeda-beda (A = PN). Bahkan, jika Anda menganggap rata-rata aritmatika sebagai angka yang sama-sama berpusat di antara dua angka, rata-rata harmonik juga merupakan angka yang sama-sama berpusat di antara dua angka tetapi (dan ini bagus) "pusat" adalah tempat persentase (rasio) berada sama. Yaitu: (x - a) / a = (b -x) / b, di mana x adalah rata-rata harmonik.

  1. Jika struktur matematis adalah variasi langsung y = kx, Anda menggunakan rata-rata aritmatika - yang berarti pengurangan harmonik dalam kasus ini.
Ira Nirenberg
sumber
1
$x$x\frac{a}{b}Sebuahb
Katakanlah Anda ingin membuat rata-rata probabilitas dari beberapa model yang berbeda. Dalam hal itu, apakah masuk akal menggunakan mean geometris atau harmonik?
thecity2