Bagaimana cara menghitung rerata terpotong atau terpangkas?

Bagaimana saya bisa menghitung rerata terpotong atau terpangkas? Katakanlah terpotong 10%?

Saya bisa membayangkan bagaimana melakukannya jika Anda memiliki 10 entri atau lebih, tetapi bagaimana saya bisa melakukannya untuk banyak entri?

mean robust truncation trimmed-mean Queops
sumber

Haruskah ini ditandai tidak dipangkas?

Saya akan mengatakan baik en.wikipedia.org/wiki/Truncated_mean akan melakukannya.

Queops

Jawaban:

Mean dipangkas melibatkan pemangkasan pengamatan persen dari kedua ujungnya. $P$

Misalnya: Jika Anda diminta untuk menghitung rata-rata terpangkas 10%, . $P = 10$

Diberikan banyak pengamatan, : $X_i$

Pertama temukan = jumlah pengamatan. $n$
Susun ulang sebagai "statistik pesanan" dari yang terkecil hingga yang terbesar. $X_i$
Temukan huruf kecil = proporsi yang dipangkas. $p = P/100$
Hitung . $n p$

Jika adalah bilangan bulat, gunakan dan trim observasi di kedua ujungnya. $n p$ $k = n p$ $k$

$R$ = pengamatan tersisa = . $n - 2k$

Mean terpangkas = $(1/R) \left( X_{k+1} + X_{k+2} + \ldots + X_{n-k} \right).$

Contoh : Temukan 10% rata-rata terpangkas dari

2, 4, 6, 7, 11, 21, 81, 90, 105, 121

Di sini, yang merupakan bilangan bulat jadi potong tepat satu pengamatan di setiap ujung, karena . Jadi potong 2 dan 121. Kita dibiarkan dengan pengamatan. $n = 10, p = 0.10, k = n p = 1$ $k = 1$ $R = n - 2k = 10 - 2 = 8$

10% rata-rata yang dipangkas = (1/8) * (4 + 6 + 7 + 11 + 21 + 81 + 90 + 105) = 40,625

Jika memiliki bagian fraksional, mean yang dipangkas sedikit lebih rumit. Dalam contoh di atas, jika kita ingin rata-rata terpangkas 15%, . Ini memiliki bilangan bulat bagian 1 dan bagian pecahan 0,5 hadir. . Jadi pengamatan dipertahankan. $n p$ $P = 15, p = 0.15, n = 10, k = n p = 1.5$ $R = n - 2k = 10 - 2 * 1.5 = 10 - 3 = 7$ $R = 7$

Tambahan pada komentar @ whuber: Agar tetap tidak bias (setelah menghapus 2 dan 121), tampaknya kita harus menghapus setengah dari 4 dan setengah dari 105 untuk rata-rata yang dipangkas $(4/2 + 6 + 7 + 11 + 21 + 81 + 90 + 105/2)/7 = 38.64$

Sumber: Catatan kelas tentang P persen dipangkas rata-rata

Mehper C. Palavuzlar
sumber

@Mehper Pada contoh terakhir, tiga pengamatan mana yang akan Anda hapus? Jelas 2 dan 121, tetapi apa lagi? Agar tetap tidak bias, tampaknya Anda harus menghapus setengah dari 4 dan setengah dari 105 untuk rata-rata yang dipangkas (4/2 + 6 + 7 + 11 + 21 + 81 + 90 + 105/2) / 7 = 34,64

whuber

@Mehper: hanya FYI, Anda dapat memformat matematika dengan menulis ekspresi TeX di antara tanda $ Misalnya $X_i$

nico

@whuber: Terima kasih atas komentar Anda, saya telah menambahkan komentar Anda pada jawabannya; @nico: Terima kasih telah memberi tahu saya tentang pemformatan TeX. Saya mencoba memperbarui jawabannya menggunakan format TeX tetapi saya tidak bisa mengelolanya dengan baik. Bisakah Anda memberi saya tautan yang menjelaskan cara menggunakan gaya TeX dalam posting? Saya tidak punya pengalaman di TeX.

Mehper C. Palavuzlar

@Mehper: Google "TeX Manual" dan pilihlah. Saya suka "pengantar lembut" karena berisi tabel yang berguna dan dapat dibaca: tex.ac.uk/tex-archive/info/gentle/gentle.pdf

whuber

@Mepher: tentu, ini dia! mathjax.org/help/user (perhatikan bahwa jika Anda mengklik kanan pada rumus matematika apa pun Anda akan memiliki menu konteks yang menghubungkan ke halaman itu). Anda juga dapat menggunakan MathML alih-alih TeX (jika Anda sangat berani: P).

nico

Selain jawaban di atas, jika ada banyak entri (katakanlah n), maka pertama menyortirnya membutuhkan waktu O (n log n). Namun, ada solusi linear-waktu.

Hitunglah P-quantile L dan (1-P) -quantile U. Ada algoritma sederhana (quicksort-like) untuk ini yang berjalan dalam waktu linear yang diharapkan. Ada juga algoritma yang lebih rumit yang berjalan dalam waktu linear kasus terburuk. Keduanya dapat ditemukan, misalnya, di: Cormen, Leiserson, Rivest, Stein: Pengantar Algortithms.
Memindai semua nilai dan menambahkannya antara L dan U. Ini jelas membutuhkan waktu linier.
Jika ada ikatan dan kuantil yang dihitung ada beberapa kali di antara nilai-nilai tersebut, kami mungkin telah menambahkan terlalu banyak atau terlalu sedikit nilai dan mungkin perlu mengoreksi hal ini dengan tepat. Karena kita tahu berapa banyak angka yang kita tambahkan pada langkah 2, dan juga berapa kali kita telah melihat L dan U, ini dapat dilakukan dalam waktu yang konstan.
Bagilah jumlah total dengan jumlah puncak.

Perhatikan bahwa resep di atas hanya bermanfaat jika n benar-benar besar dan mengurutkan semuanya akan menjadi hit kinerja, mungkin beberapa juta.

sumber