Bisakah kita mengatakan 50% data akan berada di antara persentil ke 25 hingga 75?

8

Katakanlah kita memiliki kerangka data berikut:

       TY_MAX
141  1.004622
142  1.004645
143  1.004660
144  1.004672
145  1.004773
146  1.004820
147  1.004814
148  1.004807
149  1.004773
150  1.004820
151  1.004814
152  1.004834
153  1.005117
154  1.005023
155  1.004928
156  1.004834
157  1.004827
158  1.005023
159  1.005248
160  1.005355

25th: 1.0031185409705132
50th: 1.004634349800723
75th: 1.0046683578907745
Calculated 50th: 1.003893449430644

Saya agak bingung di sini. Jika kita mendapatkan prosentil ke-75, 75% data harus di bawah persentil itu. Dan jika kita dapat 25 persentil, 25% data harus di bawah 25 itu. Sekarang saya berpikir bahwa 50% data harus antara 25 dan 50. Dan juga persentil ke-50 memberi saya nilai yang berbeda. Cukup adil, yang berarti 50% data harus di bawah nilai ini. Tetapi pertanyaan saya adalah apakah pendekatan saya benar?

EDIT: Dan dapatkah kita mengatakan bahwa 98% data akan berada di antara persentil ke-99?

Don Coder
sumber
2
Ya, tetapi Anda dapat mengatakan bahwa 50% dari data tidak akan sama!
James

Jawaban:

30

Iya.

  • 75% data Anda berada di bawah persentil ke-75.
  • 25% dari data Anda di bawah persentil ke-25.
  • Karenanya, 50% (= 75% -25%) dari data Anda berada di antara keduanya, yaitu antara persentil ke-25 dan ke-75.
  • Secara analog, 98% data Anda berada di antara persentil ke-1 dan ke-99.
  • Dan bagian bawah data Anda, lagi-lagi 50%, berada di bawah persentil ke-50.

Angka-angka ini mungkin tidak sepenuhnya benar, terutama jika Anda memiliki jumlah data yang rendah. Perhatikan juga bahwa ada konvensi yang berbeda tentang bagaimana kuantil dan persentil sebenarnya dihitung .

Stephan Kolassa
sumber
5
Alasan lain mengapa angka Anda mungkin tidak aktif adalah ketika Anda memiliki banyak ikatan (pengamatan dengan nilai yang sama)
Maarten Buis
4
"Persentil yang paling umum digunakan" - maksud Anda jenis yang sesuai dengan typeargumen dalam R'squantile() ? Hyndman & Fan merekomendasikan tipe 7, yang juga merupakan default. Sejujurnya, perbedaannya kecil. Atau maksud Anda berapa persen yang biasa digunakan? Itu akan tergantung pada aplikasi Anda, kami tidak dapat membantu Anda dengan itu. Dan tentu saja, semakin banyak data yang Anda dapatkan, Anda akan semakin akurat. Tingkat akurasi mana yang cukup akan tergantung pada data dan aplikasi Anda.
Stephan Kolassa
2
Tingkat apa yang Anda butuhkan akan bergantung pada apa yang akan Anda gunakan untuk analisis Anda.
Stephan Kolassa
2
"Tidak sepenuhnya benar, terutama jika Anda memiliki jumlah data yang rendah." - mungkin layak untuk diklarifikasi karena ada dua faktor yang dapat saya lihat saat bermain: (1) ukuran sampel mungkin tidak dapat habis dibagi 4 atau 100 atau apa pun yang diperlukan untuk kuantil yang dimaksud; (2) titik data mungkin tidak unik (mis. Untuk data pada bilangan bulat, skala 1 hingga 5, Anda dapat mengharapkan banyak nilai berulang; kuartil dalam kasus itu dapat berperilaku sangat buruk sehubungan dengan properti seperti "50% dari data berbaring di atas median "atau" antara Q1 dan Q3 "dan persentil sering buang-buang waktu)
Silverfish
1
@StephanKolassa, tampaknya Hyndman & Fan direkomendasikan tipe 8. (Yang juga disebutkan dalam ?quantile.)
Axeman
2

Idealnya, ya.

Persentil biasanya ditafsirkan berdasarkan distribusi normal (karena normalitas seringkali merupakan asumsi yang mendasari, terkadang tidak dinyatakan, ketika menghitung segala ukuran statistik dasar). Namun, distribusi tidak harus normal.

Menurut situs web ini ...

Distribusi normal standar juga dapat berguna untuk menghitung persentil . Misalnya, median adalah persentil ke-50, kuartil pertama adalah persentil ke-25, dan kuartil ketiga adalah persentil ke-75. Dalam beberapa kasus mungkin menarik untuk menghitung persentil lain, misalnya ke-5 atau ke-95. Rumus di bawah ini digunakan untuk menghitung persentil dari distribusi normal:X=μ+Zσ

Jadi, jika kita mengasumsikan normal, kita dapat dengan mudah menghitung persentil apa pun yang kita cari. Namun, persentase tidak memerlukan asumsi distribusi, dan terikat pada data dari mana mereka dihitung. Ini berarti bahwa persentil dapat memberikan tolok ukur yang berarti untuk distribusi normal dan non-normal. Anda juga dapat menggunakan persentil dalam interpretasi probabilitas, tentu saja berdasarkan pengukuran yang Anda miliki saat ini, yang bisa menjadi indikator baik atau buruk dari distribusi yang mendasarinya.

Menurut situs ini ...

Interpretasi langsung: pertimbangkan persentil ke 10 ( ) dan 90 ( ): "mengingat data yang tersedia, kita tahu bahwa properti tanah 10% dari waktu, dan, 90% dari waktu ". Pernyataan yang sama ini dapat dibingkai dengan menggunakan probabilitas atau proporsi: "mengingat data yang tersedia, properti tanah berada dalam kisaran { } 80% dari waktu".P10P90p<P10p<P90pP10P90

ERT
sumber
10
Sejujurnya, saya pikir penekanan Anda pada distribusi normal tidak berguna di sini. OP semata-mata tertarik pada persentil empiris.
Stephan Kolassa
Setuju dengan @StephanKolassa, terutama karena data contoh OP tidak normal.
Nuclear Wang