Bagaimana saya bisa menginterpretasikan plot pemangkasan persentase vs rata-rata yang dipangkas?

12

Untuk bagian dari pertanyaan pekerjaan rumah, saya diminta untuk menghitung rata-rata yang dipangkas untuk dataset dengan menghapus pengamatan terkecil dan terbesar, dan untuk menafsirkan hasilnya. Mean dipangkas lebih rendah dari rata-rata tidak terpangkas.

Penafsiran saya adalah ini karena distribusi yang mendasarinya condong positif, sehingga ekor kiri lebih padat daripada ekor kanan. Sebagai hasil dari kemiringan ini, menghapus datum tinggi menyeret rata-rata lebih dari menghapus yang rendah mendorongnya, karena, secara informal, ada lebih banyak data rendah "menunggu untuk menggantikannya." (Apakah ini masuk akal?)

Lalu saya mulai bertanya-tanya bagaimana persentase pemangkasan memengaruhi ini, jadi saya menghitung rata-rata yang dipangkas untuk berbagai . Saya mendapatkan bentuk parabola yang menarik: $\bar x_{\operatorname{tr}(k)}$ $k = 1/n, 2/n, \dotsc, (\frac{n}{2}-1)/n$ Plot persentase pemangkasan vs rata-rata yang dipangkas; membentuk kurva cekung-up yang terlihat kira-kira parabola

Saya tidak yakin bagaimana menafsirkan ini. Secara intuitif, sepertinya kemiringan grafik harus (sebanding dengan) kemiringan negatif dari bagian distribusi dalam titik data median. (Hipotesis ini cocok dengan data saya, tetapi saya hanya memiliki , jadi saya tidak terlalu percaya diri.) $k$ $n = 11$

Apakah jenis grafik ini memiliki nama, atau apakah itu biasa digunakan? Informasi apa yang dapat kita peroleh dari grafik ini? Apakah ada interpretasi standar?

Untuk referensi, datanya adalah: 4, 5, 5, 6, 11, 17, 18, 23, 33, 35, 80.

data-visualization interpretation mean trimmed-mean wchargin
sumber

11

@ung dan @kjetil b. halvorsen keduanya benar.

Saya telah menemukan grafik semacam itu di

Rosenberger, JL dan M. Gasko. 1983. Membandingkan penduga lokasi: Berarti dipangkas, median, dan trimean. Dalam Memahami Analisis Data Yang Kuat dan Eksplorasi , Eds. DC Hoaglin, F. Mosteller, dan JW Tukey, 297–338. New York: Wiley.

dan

Davison, AC dan DV Hinkley. 1997. Metode Bootstrap dan Penerapannya. Cambridge: Cambridge University Press.

dan berikan contoh lebih lanjut di

Cox, NJ 2013. Pemangkasan secukupnya. Jurnal Stata 13: 640-666. http://www.stata-journal.com/article.html?article=st0313 [akses gratis ke pdf]

yang membahas banyak aspek sarana yang dipangkas.

Sejauh yang saya tahu, grafik tidak memiliki nama yang berbeda. Nama yang berbeda untuk setiap plot yang mungkin sebenarnya akan menjadi mimpi buruk kecil: terminologi grafis sudah berantakan. Saya hanya akan menyebutnya sebidang rata-rata yang dipangkas versus angka yang dipangkas, fraksi atau persen (sehingga membalikkan kata-kata OP).

Untuk komentar kecil lebih lanjut tentang "lawan", lihat jawaban saya di Heteroscedasticity in Regression

EDIT: Untuk lebih lanjut tentang versus (hanya pakar bahasa), lihat di sini .

Nick Cox
sumber

10

Saya belum pernah mendengar grafik ini, tapi saya pikir ini cukup rapi; mungkin seseorang pernah melakukan ini sebelumnya. Apa yang dapat Anda lakukan dengan itu adalah melihat bagaimana rerata bergeser dan / atau menstabilkan jika Anda menganggap proporsi berbeda dari data Anda sebagai outlier. Alasan Anda mendapatkan bentuk parabola adalah bahwa distribusi (awal) Anda benar condong secara keseluruhan, tetapi tingkat kemiringannya tidak sama di pusat distribusi. Untuk perbandingan, pertimbangkan plot kepadatan kernel di bawah ini.

masukkan deskripsi gambar di sini

Di sebelah kiri adalah data Anda karena mereka dipotong satu per satu. Di sebelah kanan adalah data y = c(5.016528, 7.601235, 10.188326, 13.000723, 16.204741, 20.000000, 24.684133, 30.767520, 39.260622, 52.623029, 79.736416)ini:, yang merupakan kuantil dari distribusi lognormal standar yang diambil dari persentil yang berjarak sama dan dikalikan dengan 20 untuk membuat kisaran nilai serupa.

Data Anda mulai condong ke kanan, tetapi pada baris 5, mereka miring, sehingga memangkas lebih banyak data mulai membawa rata-rata kembali. Data di sebelah kanan mempertahankan kemiringan yang sama dengan pemotongan terus.

Di bawah ini adalah plot Anda untuk data lognormal dan data seragam ( z = 1:11, tidak ada kemiringan - simetris sempurna).

masukkan deskripsi gambar di sini

gung - Pasang kembali Monica
sumber

4

Saya tidak berpikir jenis grafik ini memiliki nama, tetapi apa yang Anda lakukan masuk akal, dan interpretasi Anda, saya pikir, valid. Saya pikir apa yang Anda lakukan terkait dengan fungsi Pengaruh Hampel, lihat https://en.wikipedia.org/wiki/Robust_statistics#Empirical_influence_function terutama bagian tentang fungsi pengaruh empiris. Dan plot Anda tentu saja dapat dikaitkan dengan ukuran kemiringan data, karena, jika data Anda simetris sempurna, plotnya akan datar. Anda harus menyelidiki itu!

            EDIT

Salah satu ekstensi dari plot ini adalah untuk menunjukkan juga efek dari penggunaan pemangkasan yang berbeda di kiri dan kanan. Karena ini tidak diimplementasikan dalam meanfungsi yang biasa dengan argumen trimdalam R, saya menulis fungsi rata-rata saya sendiri. Untuk mendapatkan plot yang lebih halus saya menggunakan interpolasi linier ketika fraksi pemangkasan menyiratkan menghapus sejumlah poin non-integer. Ini memberi fungsi:

my.trmean  <-  function(x, trim)  {
    x  <-  sort(x)
    if (length(trim)==1) {
        tr1  <-  tr2  <-  trim }  else {
                                   tr1  <-  trim[1]
                                   tr2  <-  trim[2] }
    stopifnot((0 <= tr1)&& (tr1 <= 0.5)); stopifnot((0 <= tr2)&&(tr2 <= 0.5))
    n  <-  length(x)
    if ((tr1>=0.5-1/n)&&(tr2>=0.5-1/n)) return( median(x) )

    k1  <-  floor(n*tr1) ; k2  <-  floor(n*tr2)
    a1  <-  n*tr1-k1     ; a2  <-  n*tr2-k2
    crange  <-  if ( (k1+2) <= (n-k2-1) ) ((k1+2):(n-k2-1)) else NULL
    trmean  <-  sum(c((1-a1)*x[k1+1], x[crange], (1-a2)*x[n-k2]))/(length(crange)+2-(a1+a2)  )
    trmean     
}

Lalu saya mensimulasikan beberapa data dan menunjukkan hasilnya sebagai plot kontur:

tr1  <-  seq(0, 0.5, length.out=25)
tr2  <-   seq(0, 0.5, length.out=25)

x  <-  rgamma(10000, 1.5)
vals  <-  outer(tr1, tr2, FUN=Vectorize(function(t1, t2) my.trmean(x, c(t1, t2))))

image(tr1, tr2, vals, xlab="left trimming", ylab="right trimming", main="Effect of trimming")
contour(tr1, tr2, vals, nlevels=20, add=TRUE)

memberikan hasil ini:

kjetil b halvorsen
sumber

Bagaimana saya bisa menginterpretasikan plot pemangkasan persentase vs rata-rata yang dipangkas?

Jawaban: