Properti Berarti dan Median

18

Bisakah seseorang menjelaskan saya menghapus logika matematika yang akan menghubungkan dua pernyataan (a) dan (b) bersama? Mari kita punya satu set nilai (beberapa distribusi). Sekarang,

a) Median tidak tergantung pada setiap nilai [itu hanya tergantung pada satu atau dua nilai tengah]; b. Median adalah lokus penyimpangan minimum absolut darinya.

Dan juga, dan sebaliknya,

a) (Aritmatika) rata-rata tergantung pada setiap nilai; b) Mean adalah lokus jumlah minimum penyimpangan kuadrat darinya.

Peganganku tentang hal itu sejauh ini intuitif.

ttnphns
sumber
1
Penting untuk meninjau versi yang lebih lama dari pertanyaan yang sama: stats.stackexchange.com/questions/2547/… Dan, deskripsi tentang Statistik Robust: en.wikipedia.org/wiki/Robust_statistics
bill_080
Jadi yang Anda cari untuk pasangan pertama adalah bukti bahwa median, seperti biasanya didefinisikan sebagai nilai peringkat menengah (untuk jumlah nilai ganjil, untuk memulai dengan kasus paling sederhana) juga merupakan nilai yang meminimalkan jumlah penyimpangan absolut? Lebih disukai bukti yang juga memberikan wawasan intuitif? Saya sendiri tidak tahu buktinya, jadi sepertinya ini pertanyaan yang bagus, dan saya ingin tahu jawabannya juga.
onestop
Anda merasakan saya dengan benar. (a) dan (b) saat ini merupakan aspek / properti yang terpisah dalam pikiran saya, untuk kedua statistik; tetapi intuisi menyarankan kedua aspek itu terikat. Saya ingin tahu - bagaimana mereka terikat, untuk memahami semuanya secara mendalam.
ttnphns

Jawaban:

19

Ini adalah dua pertanyaan: satu tentang bagaimana mean dan median meminimalkan fungsi kerugian dan satu lagi tentang sensitivitas estimasi ini terhadap data. Kedua pertanyaan itu saling terhubung, seperti yang akan kita lihat.

Meminimalkan Kerugian

Ringkasan (atau penaksir) pusat kumpulan angka dapat dibuat dengan membiarkan nilai ringkasan berubah dan membayangkan bahwa setiap angka dalam kumpulan mengerahkan kekuatan pemulihan pada nilai itu. Ketika gaya tidak pernah mendorong nilai menjauh dari angka, maka bisa dibilang setiap titik di mana keseimbangan gaya adalah "pusat" dari bets.

Kehilangan kuadratik ( )L.2

Misalnya, jika kita melampirkan pegas klasik (mengikuti Hukum Hooke ) antara ringkasan dan masing-masing angka, gaya akan sebanding dengan jarak ke setiap pegas. Mata air akan menarik ringkasan dengan cara ini dan itu, akhirnya menetap di lokasi stabil energi minimum yang unik.

Saya ingin menarik perhatian ke sulap kecil yang baru saja terjadi: energi sebanding dengan jumlah jarak kuadrat . Mekanika Newton mengajarkan kepada kita bahwa gaya adalah laju perubahan energi. Mencapai keseimbangan - meminimalkan energi - menghasilkan keseimbangan kekuatan. Tingkat perubahan bersih dalam energi adalah nol.

Sebut saja ini " ringkasan ," atau "ringkasan kerugian kuadrat."L.2

Kehilangan Mutlak ( )L.1

Ringkasan lain dapat dibuat dengan mengandaikan ukuran kekuatan pemulih adalah konstan , terlepas dari jarak antara nilai dan data. Namun, gaya itu sendiri tidak konstan, karena mereka harus selalu menarik nilai ke setiap titik data. Jadi, ketika nilainya kurang dari titik data gaya diarahkan positif, tetapi ketika nilainya lebih besar dari titik data gaya diarahkan negatif. Sekarang energi sebanding dengan jarak antara nilai dan data. Biasanya akan ada seluruh wilayah di mana energi konstan dan gaya totalnya nol. Nilai apa pun di wilayah ini yang kami sebut " ringkasan " atau "ringkasan kehilangan absolut."L.1

Analogi fisik ini memberikan intuisi yang berguna tentang dua ringkasan. Misalnya, apa yang terjadi pada ringkasan jika kita memindahkan salah satu titik data? Dalam kasus dengan pegas yang terpasang, memindahkan satu titik data akan meregangkan atau mengendurkan pegasnya. Hasilnya adalah perubahan yang berlaku pada ringkasan, sehingga harus berubah sebagai respons. Tetapi dalam kasus , sebagian besar waktu perubahan dalam titik data tidak melakukan apa pun pada ringkasan, karena gaya bersifat konstan secara lokal. Satu-satunya cara kekuatan dapat berubah adalah agar titik data bergerak melintasi ringkasan.L 1L.2L.1

(Faktanya, harus jelas bahwa gaya total pada suatu nilai diberikan oleh jumlah poin yang lebih besar dari itu - yang menariknya ke atas - minus jumlah poin lebih sedikit dari itu - yang menariknya ke bawah. Dengan demikian, yang Ringkasan harus terjadi pada setiap lokasi di mana jumlah nilai data melebihi itu persis sama dengan jumlah nilai data kurang dari itu.)L.1

Menggambarkan Kerugian

Karena kedua kekuatan dan energi bertambah, dalam kedua kasus ini kita dapat menguraikan energi bersih menjadi kontribusi individu dari titik data. Dengan grafik energi atau gaya sebagai fungsi dari nilai ringkasan, ini memberikan gambaran rinci tentang apa yang terjadi. Ringkasan akan menjadi lokasi di mana energi (atau "kerugian" dalam bahasa statistik) adalah yang terkecil. Secara ekuivalen, itu akan menjadi lokasi di mana kekuatan menyeimbangkan: pusat data terjadi di mana perubahan bersih dalam kerugian adalah nol.

Gambar ini menunjukkan energi dan kekuatan untuk dataset kecil dengan enam nilai (ditandai dengan garis vertikal samar di setiap plot). Kurva hitam putus-putus adalah total dari kurva berwarna yang menunjukkan kontribusi dari nilai-nilai individual. Sumbu x menunjukkan kemungkinan nilai ringkasan.

Gambar 1

Rata- rata aritmatika adalah titik di mana kerugian kuadrat diminimalkan: itu akan terletak di puncak (bawah) parabola hitam di plot kiri atas. Itu selalu unik. The median adalah titik di mana kerugian mutlak diminimalkan. Seperti disebutkan di atas, itu harus terjadi di tengah data. Itu belum tentu unik. Ini akan terletak di bagian bawah kurva hitam yang rusak di kanan atas. (Bottom sebenarnya terdiri dari bagian datar pendek antara dan ; setiap nilai dalam interval ini adalah median.)- 0,17-0,23-0,17

Menganalisis Sensitivitas

Sebelumnya saya menjelaskan apa yang bisa terjadi pada ringkasan ketika suatu titik data bervariasi. Penting untuk merencanakan bagaimana ringkasan berubah sebagai respons terhadap perubahan setiap titik data tunggal. (Plot-plot ini pada dasarnya adalah fungsi pengaruh empiris . Mereka berbeda dari definisi yang biasa dalam hal mereka menunjukkan nilai aktual dari perkiraan daripada berapa banyak nilai-nilai itu diubah.) Nilai ringkasan dilabeli oleh "Perkirakan" pada y -saya untuk mengingatkan kita bahwa ringkasan ini memperkirakan di mana letak tengah dataset. Nilai (yang diubah) baru dari setiap titik data ditunjukkan pada sumbu x.

Gambar 2

Gambar ini menyajikan hasil memvariasikan masing-masing nilai data dalam batch (yang sama dianalisis pada gambar pertama). Ada satu plot untuk setiap nilai data, yang disorot pada plotnya dengan centang hitam panjang di sepanjang sumbu bawah. (Nilai data yang tersisa ditunjukkan dengan kutu abu-abu pendek.) Kurva biru menelusuri ringkasan - rata-rata aritmatika - dan kurva merah menelusuri ringkasan - median. (Karena sering median adalah rentang nilai, konvensi merencanakan tengah rentang tersebut diikuti di sini.)L 2 L 1-1.02,-0,82,-0,23,-0,17,-0,08,0,77L.2L.1

Memperhatikan:

  1. Sensitivitas rata-rata tidak terbatas: garis-garis biru itu memanjang jauh ke atas dan ke bawah. Sensitivitas median dibatasi: ada batas atas dan bawah pada kurva merah.

  2. Meskipun median berubah, ia berubah jauh lebih cepat daripada rata-rata. Kemiringan setiap garis biru adalah (umumnya untuk dataset dengan nilai ), sedangkan kemiringan bagian miring dari garis merah semuanya .1 / n n 1 / 21/61/nn1/2

  3. Rerata sensitif terhadap setiap titik data dan sensitivitas ini tidak memiliki batas (seperti kemiringan nol dari semua garis berwarna di plot kiri bawah gambar pertama menunjukkan). Meskipun median sensitif terhadap setiap titik data, sensitivitasnya dibatasi (itulah sebabnya kurva berwarna di plot kanan bawah gambar pertama terletak dalam kisaran vertikal sempit di sekitar nol). Ini, tentu saja, hanyalah pengulangan visual dari kekuatan dasar (kehilangan) hukum: kuadrat untuk mean, linier untuk median.

  4. Interval di mana median dapat dibuat untuk berubah dapat bervariasi di antara titik data. Itu selalu dibatasi oleh dua nilai dekat-menengah di antara data yang tidak bervariasi . (Batas-batas ini ditandai oleh garis putus-putus vertikal samar.)

  5. Karena laju perubahan median selalu , jumlah yang dapat bervariasi karenanya ditentukan oleh panjangnya kesenjangan antara nilai-nilai dekat-menengah dari dataset.1/2

Meskipun hanya poin pertama yang umum dicatat, keempat poin itu penting. Khususnya,

  • Jelas salah bahwa "median tidak bergantung pada setiap nilai." Angka ini memberikan contoh tandingan.

  • Namun demikian, median tidak bergantung "secara material" pada setiap nilai dalam arti bahwa meskipun mengubah nilai individu dapat mengubah median, jumlah perubahan dibatasi oleh kesenjangan antara nilai-nilai hampir menengah dalam dataset. Secara khusus, jumlah perubahan dibatasi . Kami mengatakan bahwa median adalah ringkasan "tahan".

  • Meskipun rata-rata tidak tahan , dan akan mengubah setiap kali setiap nilai data berubah, tingkat perubahan relatif kecil. Semakin besar dataset, semakin kecil tingkat perubahannya. Secara setara, untuk menghasilkan perubahan material dalam rata-rata dataset yang besar, setidaknya satu nilai harus menjalani variasi yang relatif besar. Ini menunjukkan bahwa non-resistance dari mean hanya menjadi perhatian untuk (a) dataset kecil atau (b) dataset di mana satu atau lebih data mungkin memiliki nilai yang sangat jauh dari tengah batch.

Pernyataan ini - yang saya harap angka-angkanya menjadi jelas - mengungkapkan hubungan yang mendalam antara fungsi kerugian dan sensitivitas (atau resistensi) dari estimator. Untuk lebih lanjut tentang ini, mulailah dengan salah satu artikel Wikipedia tentang penduga-M dan kemudian kejar ide-ide itu sejauh yang Anda suka.


Kode

RKode ini menghasilkan angka-angka dan dapat dengan mudah dimodifikasi untuk mempelajari dataset lain dengan cara yang sama: cukup ganti vektor yang dibuat secara acak ydengan vektor angka apa pun.

#
# Create a small dataset.
#
set.seed(17)
y <- sort(rnorm(6)) # Some data
#
# Study how a statistic varies when the first element of a dataset
# is modified.
#
statistic.vary <- function(t, x, statistic) {
  sapply(t, function(e) statistic(c(e, x[-1])))
}
#
# Prepare for plotting.
#
darken <- function(c, x=0.8) {
  apply(col2rgb(c)/255 * x, 2, function(s)  rgb(s[1], s[2], s[3]))
}
colors <- darken(c("Blue", "Red"))
statistics <- c(mean, median); names(statistics) <- c("mean", "median")
x.limits <- range(y) + c(-1, 1)
y.limits <- range(sapply(statistics, 
                         function(f) statistic.vary(x.limits + c(-1,1), c(0,y), f)))
#
# Make the plots.
#
par(mfrow=c(2,3))
for (i in 1:length(y)) {
  #
  # Create a standard, consistent plot region.
  #
  plot(x.limits, y.limits, type="n", 
       xlab=paste("Value of y[", i, "]", sep=""), ylab="Estimate",
       main=paste("Sensitivity to y[", i, "]", sep=""))
  #legend("topleft", legend=names(statistics), col=colors, lwd=1)
  #
  # Mark the limits of the possible medians.
  #
  n <- length(y)/2
  bars <- sort(y[-1])[ceiling(n-1):floor(n+1)]
  abline(v=range(bars), lty=2, col="Gray")
  rug(y, col="Gray", ticksize=0.05);
  #
  # Show which value is being varied.
  #
  rug(y[1], col="Black", ticksize=0.075, lwd=2)
  #
  # Plot the statistics as the value is varied between x.limits.
  #
  invisible(mapply(function(f,c) 
    curve(statistic.vary(x, y, f), col=c, lwd=2, add=TRUE, n=501),
    statistics, colors))
  y <- c(y[-1], y[1])    # Move the next data value to the front
}
#------------------------------------------------------------------------------#
#
# Study loss functions.
#
loss <- function(x, y, f) sapply(x, function(t) sum(f(y-t)))
square <- function(t) t^2
square.d <- function(t) 2*t
abs.d <- sign
losses <- c(square, abs, square.d, abs.d)
names(losses) <- c("Squared Loss", "Absolute Loss",
                   "Change in Squared Loss", "Change in Absolute Loss")
loss.types <- c(rep("Loss (energy)", 2), rep("Change in loss (force)", 2))
#
# Prepare for plotting.
#
colors <- darken(rainbow(length(y)))
x.limits <- range(y) + c(-1, 1)/2
#
# Make the plots.
#
par(mfrow=c(2,2))
for (j in 1:length(losses)) {
  f <- losses[[j]]
  y.range <- range(c(0, 1.1*loss(y, y, f)))
  #
  # Plot the loss (or its rate of change).
  #
  curve(loss(x, y, f), from=min(x.limits), to=max(x.limits), 
        n=1001, lty=3,
        ylim=y.range, xlab="Value", ylab=loss.types[j],
        main=names(losses)[j])
  #
  # Draw the x-axis if needed.
  #
  if (sign(prod(y.range))==-1) abline(h=0, col="Gray")
  #
  # Faintly mark the data values.
  #
  abline(v=y, col="#00000010")
  #
  # Plot contributions to the loss (or its rate of change).
  #
  for (i in 1:length(y)) {
    curve(loss(x, y[i], f), add=TRUE, lty=1, col=colors[i], n=1001)
  }
  rug(y, side=3)
}
whuber
sumber
3
Saya menawarkan hadiah, karena jawabannya, gaya yang tidak tergesa-gesa, selain kualitasnya.
ttnphns
Terima kasih! Penghargaan Anda atas pos ini sangat memuaskan.
whuber
11

Untuk perhitungan median, misalkan menjadi datanya. Asumsikan, untuk kesederhanaan, bahwa adalah genap, dan poinnya berbeda! Mari ada beberapa nomor. Biarkan menjadi 'jumlah penyimpangan mutlak' dari ke poin . Ini berarti bahwa. Tujuan Anda adalah untuk menemukan yang meminimalkan . Biarkan menjadi jumlah yang kurang dari atau sama persis dengan pada titik waktu tertentu, dan mari menjadi angka yang benar-benar lebih besar darix1,x2,...,xnnyf(y)yxsayaf(y)=|x1-y|+|x2-y|+...+|xn-y|yf(y)lxsayayr=n-ly . Berpura-puralah Anda 'bergerak ke kanan', yaitu, tambah sedikit . Apa yang terjadi pada ?yyf(y)

Misalkan Anda menambahkan jumlah ke . Untuk yang kurang dari atau sama dengan , kita memilikimeningkat . Dan untuk yang lebih besar dari , kita memilikiberkurang . (Ini mengasumsikan sangat kecil sehingga tidak menyeberangi salah satu poin). Jadi perubahan adalah . Perhatikan bahwa perubahan dalam ini tidak bergantung pada nilaiΔyyxsayay|xsaya-y|Δyy|xsaya-y|ΔyΔyyf(y)lΔy-rΔy=(l-r)Δyf(y)xsayatetapi hanya pada angka di sebelah kiri dan kanan . Menurut definisi, adalah nilai median ketika memindahkannya ke kiri atau kanan tidak menambah atau mengurangi . Ini berarti bahwa , dan dengan demikian jumlah di sebelah kiri sama dengan jumlah di sebelah kanan . Dan dengan demikian median tidak tergantung pada nilai-nilai , hanya lokasi mereka.yyf(y)l-r=0xsayayyxsaya

sunting Untuk mean: fungsi menjadi . Jelas perubahan dalam untuk perubahan kecil dalam sekarang tergantung pada besarnya , bukan hanya angka di kiri dan kanan .f(y)f(y)=(x1-y)2+...+(xn-y)2f(y)yxsayay

Perhatikan bahwa bisnis ini tentang 'perubahan kecil' hanyalah pembicaraan rahasia untuk turunan dari ...f(y)

shabbychef
sumber
1
Ini menyapu beberapa hal di bawah karpet mengenai ketika Anda menekan nilai berikutnya , tetapi cukup dekat dengan bukti handwavey yang diinginkan, saya pikir, setidaknya untuk median. xsaya
shabbychef
terima kasih atas penjelasannya yang elegan. Namun, kedengarannya bagi saya begitu: "Angka itu y yang perubahan kecil tidak mengubah fungsi Sum | x_i-y | tidak bergantung pada setiap x_i dan disebut median". Ini adalah catatan yang menarik tentang median data n . Tetapi saya meminta untuk membuktikan ini: "Angka itu y yang meminimalkan fungsi Sum | x_i-y | tidak bergantung pada masing-masing x_i dan disebut median". Dan demikian pula: "Angka itu y yang meminimalkan fungsi Sum (x_i-y) ^ 2 tergantung sama pada setiap x_i dan disebut rata-rata".
ttnphns
1
bagaimana saya bisa membuktikan bagian 'disebut median'? Itu gila.
shabbychef
Ini adalah kiasan sebab. Ini bagian tidak untuk membuktikan, saya berharap Anda mengerti.
ttnphns
1
Apakah ada hasil yang sama untuk median penyimpangan absolut, bukan jumlah penyimpangan absolut? Karena Median Absolute Deviasi dari Median juga merupakan ukuran penyebaran yang cukup menarik.
samthebest
3
  • Secara kasar, median adalah "nilai menengah". Sekarang, jika Anda mengubah nilai tertinggi (yang seharusnya positif di sini) dari menjadi , katakanlah, itu tidak mengubah median. Tapi itu memang mengubah mean aritmatika. Ini menunjukkan, secara sederhana, bahwa median tidak bergantung pada setiap nilai sementara rata-rata tidak. Sebenarnya, median hanya tergantung pada peringkat. Logika matematika di balik ini hanya muncul dari definisi matematika dari median dan rata-rata.x(n)2x(n)
  • Sekarang, dapat ditunjukkan bahwa, untuk setiapaR

saya=1n|xsaya-medsayaSebuahn|saya=1n|xsaya-Sebuah|

dan

saya=1n(xsaya-meSebuahn)2saya=1n(xsaya-Sebuah)2

okram
sumber
Yah, sebagai ahli statistik berpengalaman yang tidak memiliki pendidikan matematika dasar, saya masih tahu banyak tentang perbedaan rata-rata dan aplikasi. Yang saya butuhkan di sini adalah seseorang untuk MENARIK - secara logis atau matematis - baik (a) dari (b) atau (b) dari (a), untuk saya. Saya merasa tidak dapat menyelaraskan (a) dengan (b) diri sendiri secara rasional. Marco, saya merasa sangat sulit memahami notasi Anda. Jika formula Anda adalah pengurang yang saya butuhkan, bisakah Anda "mengunyah" gagasan itu secara kurang teknis untuk saya?
ttnphns
PS Selama dua ketidaksetaraan Anda akhirnya ditampilkan dengan benar di layar saya, saya melihat itu hanya pernyataan (b) saya. Anda menulis, "dapat ditunjukkan bahwa ...". Jadi tunjukkan padaku itu. Saya membutuhkan semacam bukti matematis yang dapat dipahami oleh analis data yang bukan ahli matematika profesional.
ttnphns
2
@ttnphns: permintaan Anda untuk jawaban matematis, bukannya intuitif, tampaknya tidak sesuai dengan permintaan Anda untuk sesuatu yang kurang teknis daripada yang ditawarkan orang.
rolando2
Bisakah kita menyederhanakan situasi menjadi 2 atau tiga poin dan bertanya apakah median dalam penjumlahan ganda ketidaksetaraan non-ketat di atas memiliki nilai unik? Dengan dua poin itu tampaknya akan terpuaskan oleh titik mana pun di antara 2.
DWin
2

Hai di sini adalah kontribusi, setelah saya membacanya sedikit. Mungkin agak terlambat untuk orang yang bertanya, tetapi mungkin layak untuk orang lain.

Untuk kasus rata-rata:

Sebuahrgmsayanxsaya=1n(ysaya-x)

f(x)=saya=1n(ysaya-x)2

f(x)=02saya=1n(ysaya-x)=0

f(x)=0saya=1nysaya=saya=1nx

f(x)=0x=saya=1nn

Karena fungsinya cembung, ini adalah minimum

Untuk kasus median

Sebuahrgmsayanxsaya=1n|ysaya-x|

f(x)=saya=1n|ysaya-x|

f(x)=0saya=1nsgn(ysaya-x)=0

sgn(x)sgn(x)=1x>0sgn(x)=-1x<0

f(x)=0#{ysaya/ysaya>x}-#{ysaya/ysaya<x}=0

# adalah kardinal ruang, jadi dalam kasus diskrit ini, jumlah elemen di dalamnya)

f(x)=0x

Karena fungsinya juga cembung, ini adalah minimum lagi.

Anthony Martin
sumber
Terima kasih. Mungkin bermanfaat bagi saya dan orang lain. Bisakah Anda menambahkan beberapa komentar dalam kata-kata untuk utama ekspresi Anda - untuk seseorang yang tidak cukup fasih dalam memahami rumus. Khususnya, baris terakhir Anda dengan satu baris - apa artinya dan apa #?
ttnphns
Apakah sudah jelas sekarang? Saya telah mendefinisikan dua fungsi yang kurang biasa
Anthony Martin