Apakah ada 99 persen, atau 100 persen? Dan apakah mereka kelompok angka, atau pembagi atau penunjuk ke nomor individual?

27

Apakah ada 99 persen, atau 100 persen? Dan apakah mereka kelompok angka, atau garis pembagi, atau petunjuk ke nomor individu?

Saya kira pertanyaan yang sama akan berlaku untuk kuartil atau kuantil apa pun.

Saya telah membaca bahwa indeks angka pada persentil tertentu (p), diberikan n item, adalah i = (p / 100) * n

Itu menunjukkan kepada saya bahwa ada 100 persen .. karena seandainya Anda memiliki 100 angka (i = 1 hingga i = 100), maka masing-masing akan memiliki indeks (1 hingga 100).

Jika Anda memiliki 200 angka, akan ada 100 persen, tetapi masing-masing akan merujuk pada sekelompok dua angka. Atau 100 pembagi tidak termasuk pembagi paling kiri atau paling kanan karena jika tidak Anda akan mendapatkan 101 pembagi. Atau penunjuk ke nomor individual sehingga persentil pertama akan merujuk ke angka kedua, (1/100) * 200 = 2 Dan persentil ke seratus akan merujuk ke angka ke-200 (100/100) * 200 = 200

Saya kadang-kadang mendengar ada 99 persentil ..

Google menunjukkan kamus oxford yang mengatakan tentang persentil- "masing-masing dari 100 kelompok yang sama di mana suatu populasi dapat dibagi sesuai dengan distribusi nilai-nilai variabel tertentu." dan "masing-masing dari 99 nilai antara dari variabel acak yang membagi distribusi frekuensi menjadi 100 kelompok tersebut."

Wikipedia mengatakan "persentil ke-20 adalah nilai di bawahnya yang dapat ditemukan 20% dari pengamatan" Tetapi apakah ini benar-benar berarti "nilai di bawah atau sama dengan yang, 20% dari pengamatan dapat ditemukan" yaitu "nilai untuk mana 20 % dari nilai adalah <= untuk itu ". Jika hanya <dan bukan <=, maka dengan alasan itu, persentil ke-100 akan menjadi nilai di bawah mana 100% dari nilai dapat ditemukan. Saya telah mendengarnya sebagai argumen bahwa tidak boleh ada persentil ke-100, karena Anda tidak dapat memiliki angka di mana ada 100% angka di bawahnya. Tapi saya pikir mungkin argumen bahwa Anda tidak dapat memiliki persentil ke-100 tidak benar dan didasarkan pada kesalahan bahwa definisi persentil melibatkan <= tidak <. (atau> = tidak>). Jadi persentil ke seratus akan menjadi angka terakhir dan akan menjadi>

barlop
sumber
4
Saya pikir itu tidak mungkin 100 akan menjadi jawaban yang masuk akal karena perlakuannya yang asimetris terhadap ekstrem. Kasus dapat dibuat untuk baik 99 (seperti dalam definisi Anda mengutip) atau 101.
whuber
4
Secara historis kuantil - seperti yang sekarang kita katakan secara umum - adalah titik ringkasan pertama, dan kemudian dengan memperpanjang tempat sampah, kelas atau interval yang mereka batasi. Jadi tiga kuartil, termasuk median, menentukan empat nampan, dan sebagainya.
Nick Cox
1
@whuber Anda menulis, "Saya pikir itu tidak mungkin 100 akan menjadi jawaban yang masuk akal karena perlakuan asimetris ekstrem." <- bisakah kamu menjelaskannya?
barlop
3
Saya mencantumkan penggunaan awal berbagai istilah kuantil di stats.stackexchange.com/questions/235330/… . Jika Anda melihat dalam OED atau jstor Anda akan mendapatkan contoh penggunaan historis.
Nick Cox
2
@whuber Ya, tampaknya apa yang saya rujuk secara tepat disebut "peringkat persentil", digunakan dalam laporan skor tes & c .: en.wikipedia.org/wiki/Percentile , en.wikipedia.org/wiki/Percentile_rank , ncme .org / sumber daya / glosarium . Permintaan maaf karena menambah kebingungan. Dalam pembelaan saya, perbedaannya tampaknya bergantung pada penggunaan preposisi "at" vs. "in" (lihat tautan 1).
Jeff Y

Jawaban:

32

Kedua indera persentil , kuartil , dan sebagainya ini digunakan secara luas. Paling mudah untuk menggambarkan perbedaan dengan kuartil:

  1. pengertian "pembagi" - ada 3 kuartil, yang merupakan nilai yang membagi distribusi (atau sampel) menjadi 4 bagian yang sama:

       1   2   3
    ---|---|---|---
    

    (Kadang-kadang ini digunakan dengan nilai-nilai maks dan min disertakan, jadi ada 5 kuartil bernomor 0–4; perhatikan ini tidak bertentangan dengan penomoran di atas, itu hanya memperpanjangnya.)

  2. pengertian "bin": ada 4 kuartil, himpunan bagian di mana 3 nilai tersebut membagi distribusi (atau sampel)

     1   2   3   4
    ---|---|---|---
    

Tidak ada penggunaan yang dapat secara wajar disebut "salah": keduanya digunakan oleh banyak praktisi berpengalaman, dan keduanya muncul dalam banyak sumber otoritatif (buku teks, kamus teknis, dan sejenisnya).

Dengan kuartil, pengertian yang digunakan biasanya jelas dari konteks: berbicara tentang nilai dalam kuartil ketiga hanya bisa menjadi pengertian "bin", sementara berbicara tentang semua nilai di bawah kuartil ketiga kemungkinan besar berarti arti "pembagi". Dengan persentil, perbedaannya lebih sering tidak jelas, tetapi juga tidak begitu signifikan untuk sebagian besar tujuan, karena 1% dari distribusi sangat kecil - strip sempit kira-kira satu garis. Berbicara tentang semua orang di atas persentil ke-80 dapat berarti 20% teratas atau 19% teratas, tetapi dalam konteks informal itu bukan perbedaan besar, dan dalam pekerjaan yang keras, makna yang diperlukan mungkin harus diklarifikasi oleh sisa konteks.

(Bagian dari jawaban ini diadaptasi dari /math/1419609/are-there-3-or-4-quartiles-99-or-100-percentiles , yang juga memberikan kutipan + referensi.)

PLL
sumber
2
(+1) Jawaban terlambat ini sampai ke inti permasalahan.
Nick Cox
bagaimana dengan en.wikipedia.org/wiki/Percentile mengatakan "setiap skor berada dalam persentil ke-100" <- yang terdengar seperti nampan ukuran seluruh kumpulan data, sedangkan nampan Anda semua berukuran sama
barlop
1
Entri Wikipedia mengatakan itu. Saya tidak bisa memikirkan pembelaan untuk kata-kata seperti itu. Wikipedia itu luar biasa, kecuali kalau itu menyesatkan atau salah. Itu akan terdengar kurang ajar, tetapi yang bisa saya lakukan adalah mendorong siapa pun yang menonton yang aktif di Wikipedia untuk meningkatkan entri. Setiap orang harus memiliki aturan untuk apa yang mereka lakukan dan tidak lakukan, dan menjadi aktif di sini dan di beberapa tempat lain adalah batasan pribadi saya.
Nick Cox
5

Ambil jawaban ini dengan sebutir garam - ini dimulai dengan salah dan saya masih memutuskan apa yang harus dilakukan dengan itu.

Pertanyaannya adalah sebagian tentang bahasa dan penggunaan, sedangkan jawaban ini berfokus pada matematika. Saya berharap bahwa matematika akan menyediakan kerangka kerja untuk memahami berbagai penggunaan.

xfFF1(x)zF1(z/100)F adalah 1) tidak dapat dibalik, 2) hanya dapat dibalik pada domain tertentu, atau 3) tidak dapat dibalik tetapi kebalikannya tidak pernah mencapai nilai-nilai tertentu.

Contoh 1): Saya akan meninggalkan ini untuk yang terakhir; terus membaca.

F1(1)F1(0)F(0.5)

Contoh lain dari 2): Untuk distribusi yang seragam pada dua interval disjoint dari 0 ke 1 dan 2 ke 3, CDF terlihat seperti ini.

masukkan deskripsi gambar di sini

Sebagian besar kuantil dari distribusi ini ada dan unik, tetapi median (persentil ke-50) secara inheren ambigu. Dalam R, mereka setengah jalan: quantile(c(runif(100), runif(100) + 2), 0.5)mengembalikan sekitar 1,5.

±

z/100yF(y)=z/100

masukkan deskripsi gambar di sini

Untuk persentil ke-60, R mengembalikan 1 ( quantile(c(rpois(lambda = 1, n = 1000) ), 0.60)). Untuk persentil ke-65, R juga mengembalikan 1. Anda dapat menganggap ini sebagai menggambar 100 pengamatan, memeringkatnya rendah ke tinggi, dan mengembalikan item ke-60 atau ke-65. Jika Anda melakukan ini, Anda akan paling sering mendapatkan 1.

Ketika datang ke data nyata, semua distribusi diskrit. (CDF empiris runif(100)atau np.random.random(100)memiliki 100 kenaikan mengelompok sekitar 0,5.) Tetapi, alih-alih memperlakukannya sebagai diskrit, quantilefungsi R tampaknya memperlakukannya sebagai sampel dari distribusi kontinu. Sebagai contoh, median (persentil ke-50 atau 0,5 kuantil) dari sampel 3,4, 5, 6, 7, 8 diberikan sebagai 5,5. Jika Anda mengambil 2n sampel dari distribusi unif (3,8) dan mengambil angka apa pun antara sampel ke-n dan (n + 1), Anda akan berkumpul pada 5,5 seiring n bertambah.

Sangat menarik untuk juga mempertimbangkan distribusi seragam diskrit dengan probabilitas yang sama mengenai 3,4,5,6,7,8. (Die roll ditambah dua.) Jika Anda mengambil pendekatan sampel-dan-peringkat yang diuraikan di atas untuk distribusi Poisson, Anda biasanya akan mendapatkan 5 atau 6. Ketika sampel bertambah besar, distribusi untuk angka setengah naik akan berkumpul pada setengah balita dan setengah enam. 5.5 juga tampak seperti kompromi yang masuk akal.

eric_kernfeld
sumber
2
F1[0,1]F[0,1]F
whuber
Poin bagus. Saya telah mencoba memisahkan beberapa kasus untuk mengklarifikasi hal itu. Bagaimana Anda meningkatkan diskusi tentang kontinuitas? Interpretasi kuantil sebagai penduga adalah poin utama dari jawaban saya; mereka benar-benar tidak masuk akal bagi saya tanpa itu.
eric_kernfeld
Yang terakhir: kuantil tidak perlu memperkirakan apa pun. Mereka berguna dalam hak mereka sendiri untuk menggambarkan dan memvisualisasikan data (dan seringkali hanya digunakan sebagai statistik deskriptif). Kelanjutan: Saya pikir sebagian besar pihak berwenang akan mengatakan bahwa semua persentil ada untuk distribusi diskrit. Bersikeras jika tidak merupakan komplikasi yang tidak perlu. Ini juga akan membuat hasil perhitungan perangkat lunak yang paling misterius, yang dengan senang hati memberikan semua kuantil dari 0 hingga 1 ( inklusif ) untuk setiap dataset. Dalam R, misalnya, ketik quantile(0).
whuber
Diskusi ini telah membuat saya sadar bahwa saya tidak mengerti jumlah distribusi diskrit. Saya pikir saya harus menghapus jawaban ini.
eric_kernfeld
1
Orang-orang berbeda tentang ini, Eric. Ketika jawaban saya salah sehingga menyesatkan, saya pertama-tama menghapusnya. Jika saya melihat beberapa nilai potensial di bagian jawaban saya mengeditnya untuk menghapus (atau menjelaskan) bagian yang menyesatkan dan kemudian membatalkan penghapusan. Lainnya hanya membiarkan hal-hal berdiri dan mengambil gumpalan mereka dalam pemungutan suara; yang lain menambahkan suntingan yang menunjukkan bahwa mungkin ada nilai di pembaca yang melihat di mana beberapa kesalahpahaman mungkin terjadi; yang lain hanya menghapus. Anda bahkan dapat mengubah jawaban sepenuhnya jika Anda suka, seperti yang kadang-kadang dilakukan.
whuber
2

Saya diajari bahwa pengamatan dalam persentil ke-n lebih besar dari n% pengamatan dalam dataset yang dipertimbangkan. Yang bagi saya menyiratkan bahwa tidak ada persentil 0 atau 100. Tidak ada pengamatan yang bisa lebih besar dari 100% pengamatan karena merupakan bagian dari 100% itu (dan logika yang sama berlaku dalam kasus 0).

Sunting: Untuk apa nilainya, ini juga konsisten dengan penggunaan non-akademis dari istilah yang saya temui: "X ada dalam persentil ke-n " menunjukkan bahwa persentil adalah grup, bukan batas.

Sayangnya saya tidak punya sumber untuk ini yang saya bisa tunjukkan.

mkt - Pasang kembali Monica
sumber
6
Apakah Anda memiliki referensi resmi untuk apa yang Anda ingat sedang diajarkan? Perhatikan bahwa Anda secara implisit mengadopsi definisi "persentil" sebagai sekelompok angka. Definisi lain yang dikutip dalam pertanyaan adalah bahwa persentil adalah batas antara kelompok-kelompok tersebut.
whuber
1
Itu tidak masuk akal bagi saya karena anggaplah data Anda adalah 2,2,2,2,2,2,2,2,2,2,2 sehingga item dalam satu kuantil sama dengan item di sebelah kiri dalam sebuah kuantil sebelumnya. Jadi item dalam kuantil ke-n tidak lebih besar dari semua kuantil yang tersisa darinya. Jadi item dalam persentil ke-n tidak lebih besar dari n% dari pengamatan dalam dataset. Ini> = n% dari pengamatan dalam dataset, tetapi tidak hanya>. Dan karenanya Anda dapat memiliki pecentile ke-100 .. apa yang Anda buat dari logika itu?
barlop
4
Banyak definisi berada di bawah tekanan jika semua nilai identik!
Nick Cox
2
Orang-orang dari matematika bengkok abstrak dan idealise sedangkan mereka yang menulis perangkat lunak harus berurusan dengan kekacauan data. Contoh 16 nilai Anda akan diperlakukan secara berbeda oleh perangkat lunak yang saya tahu yang mengikuti aturan bahwa nilai-nilai identik harus dibuang secara identik (dan saya setuju). Saya terkejut bahwa Anda tidak menderita data lebih dengan 15 atau 17 nilai di mana meskipun semua nilai berbeda, tidak ada aturan yang dapat membagi data menjadi 4 nampan dengan ukuran yang sama.
Nick Cox
3
Apa logika yang sama dengan nol? Bukankah "lebih besar dari nol persen dari pengamatan" berarti "sama dengan atau lebih kecil dari semua pengamatan", yaitu persentil ke-0 akan menjadi nilai terendah yang diamati?
ilkkachu
2

Ada cara lain untuk menghitung persentil, yang berikut, bukan satu-satunya. Diambil dari Sumber ini .


p pp%28808028

x1xn

nxipi

pi=100(i0.5)n

Contoh dari catatan yang sama untuk ilustrasi:

masukkan deskripsi gambar di sini

7507

Jika Anda memiliki 200 angka, akan ada 100 persen, tetapi masing-masing akan merujuk pada sekelompok dua angka.

Tidak.

x1x200

100(10.5)200100(20.5)200100(30.5)200...

yang menghasilkan

0.25,0.75,1.25...1,2,3,...

naif
sumber
3
Kalimat pertama terlihat hebat, dan salah satu kata yang paling penting kira - kira , Setelah itu penjelasan yang cermat hanya satu resep. Apa kuncinya adalah bahwa ada beberapa resep dan kebanyakan jika tidak semua memiliki logika yang dapat dipertahankan tentang mereka (kadang-kadang logika adalah untuk menjaga hal-hal sesederhana mungkin). Lihat kertas Hyndman dan Kipas yang dirujuk dalam banyak utas di sini di CV. Saya ragu bahwa banyak orang akan menggunakan paragraf terakhir Anda sebagai cara untuk melaporkan persentil sebagai contoh Anda.
Nick Cox
@Nick Cox Terima kasih atas komentarnya yang mendalam. Tentang paragraf terakhir saya percaya metode ini harus bekerja dengan baik ketika semua pengamatan berbeda satu sama lain. Dalam hal angka yang diulang tidak akan ada persentil unik untuk nomor yang sama yang kedengarannya tidak bagus. Bisakah Anda menyarankan bagaimana menangani kasus ini. Dan bisakah Anda juga menunjukkan potensi jebakan di paragraf terakhir.
naif
1
Saya rasa saya tidak ingin atau perlu menambahkan apa yang sudah dijelaskan dengan baik dalam literatur jurnal. Pertama, Anda memiliki beberapa perangkat lunak favorit untuk ini. Lihat apa yang didokumentasikan dan apa yang dilakukannya. Kedua, saya tidak menghitung persentil dengan tangan selama beberapa dekade, dan tidak seorang pun dari kita yang perlu. Ketiga, poin saya tentang para: Saya kira tidak ada yang mau diberi tahu bahwa poin data yang diamati adalah persentil 0,25, 0,75, 1,25, .... Apa yang orang inginkan berbeda-beda, tetapi dalam pengalaman saya itu biasanya yang paling diinginkan adalah ringkasan seperti 1, 5, 10, 25, 50, 75, 90, 95, 99% poin serta sampel ekstrem.
Nick Cox
1
Saya baru saja memperhatikan bahwa Anda menyatakan bahwa 0,5 dalam jargon EDA sering disebut nilai-p untuk median. Tidak dalam bacaan saya, dan bahkan jika Anda dapat menemukan contoh-contoh yang mengerikan, terminologi yang diberikan mayoritas rasa untuk nilai-p sebagai tingkat signifikansi yang diamati.
Nick Cox
Saya akan membaca makalah yang Anda sarankan. Terima kasih
naif
0

Catatan- Saya akan menerima jawaban orang lain dan bukan jawaban saya. Tetapi saya memang melihat beberapa komentar yang berguna jadi saya hanya menulis jawaban yang menyebutkannya.

Berdasarkan jawaban Nick "-iles" terminologi untuk setengah persen atas

tampaknya istilah-istilahnya ambigu, dan saya kira (berdasarkan pemahaman saya tentang pos itu), terminologi yang lebih baik adalah titik X%, dan kelompok X% -Y%; begitu titik kuantil (jadi untuk titik kuartil yang bisa berupa apa saja dari 0 hingga 4); kelompok kuantil mulai dari titik kuantil X ke titik kuantil Y.

Either way seseorang akan mendapatkan 101 untuk persentil, meskipun satu komentar menunjukkan bahwa seseorang dapat merujuk ke 101 poin (saya kira jika Anda menghitung poin persentil, dan hanya bilangan bulat), tetapi bahkan kemudian, jika seseorang berbicara tentang 1, 2, 3, persentil atau kuantil, ia menghitung dan seseorang tidak dapat menghitung yang pertama sebagai 0, dan Anda tidak dapat memiliki mis. lebih dari 4 kuartil atau lebih dari 100 persen. Jadi jika berbicara 1, 2, 3, terminologi itu tidak dapat benar-benar merujuk ke poin 0. Jika seseorang mengatakan poin 0, maka sementara itu jelas maksud mereka adalah titik 0, saya pikir mereka harus benar-benar mengatakan titik kuantil 0. Atau kelompok Quantile pada titik 0. Bahkan ilmuwan komputer tidak akan mengatakan 0; bahkan mereka menghitung item pertama sebagai 1, dan jika mereka menyebutnya item 0, itu adalah pengindeksan dari 0, bukan hitungan.

Sebuah komentar menyebutkan "Tidak mungkin ada 100. Baik 99 atau 101, tergantung pada apakah Anda menghitung maksimum dan minimum". Saya pikir ada kasus untuk 99 atau 101, ketika berbicara tentang poin kuantil daripada kelompok, meskipun saya tidak akan mengatakan 0. Untuk n item, suatu indeks dapat berubah dari 0 ... n-1 dan seseorang tidak akan menulis th / st misalnya 1, 2 dll, pada indeks (kecuali jika mungkin indeks mengindeks item pertama sebagai 1). Tetapi indeks yang memulai item pertama dengan indeks 0 bukanlah hitungan ke-1, ke-3 ke-3. mis. item dengan indeks 0 adalah item pertama, orang tidak akan mengatakan 0 dan memberi label item kedua pertama.

barlop
sumber
Ambiguitas apa pun diperkenalkan oleh mereka yang berangkat dari preseden sejarah yang jelas. Itu tidak menggigit keras dalam praktek.
Nick Cox
Semua ahli matematika mulai menghitung dari nol. Konsepnya sederhana dan alami: mengucapkan kata "nol" dengan keras mengumumkan niat seseorang untuk menghitung. Lalu seseorang membuat beberapa (mungkin arbitrer) penugasan satu-ke-satu dari urutan kata "satu," "dua," "tiga," dll untuk objek yang dihitung. Yang terakhir dari kata-kata itu (jika ada yang terakhir) disamakan dengan kardinalitas set. Keindahan dari ide ini adalah bahwa ketika tidak ada elemen di set, kata terakhir mengatakan "nol," yang merupakan nilai unik yang benar.
whuber
@ ketika Anda menulis "Semua matematikawan mulai menghitung pada nol" <- Di mana menurut Anda saya katakan sebaliknya?
barlop
"Ini menghitung dan seseorang tidak dapat menghitung yang pertama sebagai 0".
whuber
1
@whuber mungkin banyak, saya pikir bertahun-tahun yang lalu mungkin saya miliki, seperti ketika mempelajari ilmu komputer, saya kadang-kadang mendengar bahwa ilmuwan komputer menghitung dari 0, matematikawan unilke (itu bukan klaim atau milik saya), tetapi setelah beberapa pemikiran mendalam saya mendapat lebih banyak kejelasan dan menyadari bahwa ilmuwan komputer dan matematikawan keduanya dihitung dari 0 .. Perbedaannya adalah para ilmuwan komputer sering menggunakan indeks dan indeks mengindeks item pertama sebagai 0. (tetapi masih dihitung akan menjadi 1) ..
barlop