Apakah ada trik teknis untuk menentukan kuartil ketiga jika termasuk dalam interval terbuka yang berisi lebih dari seperempat populasi (jadi saya tidak bisa menutup interval dan menggunakan rumus standar)?
Edit
Jika saya salah memahami sesuatu, saya akan memberikan lebih atau kurang konteks penuh. Saya memiliki data yang disusun dalam tabel dengan dua kolom dan, katakanlah, 6 baris. Dengan masing-masing kolom sesuai dengan interval (di kolom pertama) dan jumlah populasi yang "milik" interval itu. Interval terakhir terbuka dan mencakup lebih dari 25% populasi. Semua interval (kecuali yang terakhir) memiliki rentang yang sama.
Sampel data (dialihkan untuk presentasi):
Column 1: (6;8),(8;10),(10;12),(12;14),(14;16),(16;∞)
Column 2: 51, 65, 68, 82, 78, 182
Kolom pertama harus ditafsirkan sebagai kisaran tingkat pendapatan. Yang kedua harus ditafsirkan sebagai jumlah karyawan yang penghasilannya termasuk dalam interval.
Rumus standar yang saya pikirkan adalah .
Jawaban:
Anda perlu mencocokkan data yang telah disimpan ini dengan beberapa model distribusi, untuk itu adalah satu-satunya cara untuk mengekstrapolasi ke kuartil atas.
Sebuah contoh
Menurut definisi, model seperti itu diberikan oleh fungsi cadlag naik dari ke . Probabilitas yang diberikannya pada interval apa pun adalah . Untuk membuat kecocokan, Anda perlu menempatkan keluarga fungsi yang mungkin diindeks oleh parameter (vektor) , . Dengan asumsi bahwa sampel merangkum kumpulan orang yang dipilih secara acak dan independen dari populasi yang dijelaskan oleh beberapa tertentu (tetapi tidak diketahui) , probabilitas sampel (atau kemungkinan , ) adalah produk dari individu tersebut probabilitas Dalam contoh, itu akan sama0 1 ( a , b ] F ( b ) - F ( a ) θ { F θ } F θ LF 0 1 (a,b] F(b)−F(a) θ {Fθ} Fθ L
karena orang memiliki probabilitas terkait , memiliki probabilitas , dan seterusnya.F θ ( 8 ) - F θ ( 6 ) 65 F θ ( 10 ) - F θ ( 8 )51 Fθ(8)−Fθ(6) 65 Fθ(10)−Fθ(8)
Menyesuaikan model dengan data
The perkiraan Kemungkinan Maksimum dari adalah nilai yang memaksimalkan (atau, sama, logaritma ).L Lθ L L
Distribusi pendapatan sering dimodelkan dengan distribusi lognormal (lihat, misalnya, http://gdrs.sourceforge.net/docs/PoleStar_TechNote_4.pdf ). Menulis , keluarga dari distribusi lognormal adalahθ=(μ,σ)
Untuk keluarga ini (dan banyak lainnya) sangat mudah untuk mengoptimalkan numerik. Sebagai contoh, dalam kita akan menulis sebuah fungsi untuk menghitung dan kemudian mengoptimalkannya, karena maksimum bertepatan dengan maksimum itu sendiri dan (biasanya) lebih mudah untuk menghitung dan lebih stabil secara numerik untuk bekerja dengan:Log L ( L ( θ ) ) Log ( L ) L Log ( L )L log(L(θ)) log(L) L log(L)
R
Solusi dalam contoh ini adalah , ditemukan dalam nilai .θ=(μ,σ)=(2.620945,0.379682)
fit$par
Memeriksa asumsi model
Setidaknya kita perlu memeriksa seberapa baik ini sesuai dengan asumsi lognormalitas, jadi kami menulis fungsi untuk menghitung :F
Ini diterapkan pada data untuk mendapatkan populasi bin yang sesuai atau "diperkirakan":
Kita dapat menggambar histogram data dan prediksi untuk membandingkannya secara visual, ditunjukkan pada baris pertama plot ini:
Untuk membandingkannya, kita dapat menghitung statistik chi-squared. Ini biasanya disebut distribusi chi-squared untuk menilai signifikansi :
"P-value" cukup kecil untuk membuat banyak orang merasa cocok tidak baik. Melihat plot, masalahnya jelas berfokus pada nampan terendah . Mungkin terminal bawah seharusnya nol? Jika, secara eksploratif, kami harus mengurangi hingga kurang dari , kami akan mendapatkan kecocokan yang ditunjukkan di baris terbawah plot. P-value chi-squared sekarang , menunjukkan (secara hipotetis, karena kita murni dalam mode eksplorasi sekarang) bahwa statistik ini tidak menemukan perbedaan yang signifikan antara data dan fit.6 - 8 6 3 0,400.0087 6−8 6 3 0.40
Menggunakan fit untuk memperkirakan kuantil
Jika kita menerima, maka, bahwa (1) pendapatan kira-kira didistribusikan secara lognormal dan (2) batas bawah pendapatan kurang dari (katakanlah ), maka estimasi kemungkinan maksimum adalah = . Dengan menggunakan parameter ini, kita dapat membalikkan untuk mendapatkan persentil :3 ( μ , σ ) ( 2.620334 , 0.405454 ) F 75 th6 3 (μ,σ) (2.620334,0.405454) F 75th
Nilainya . (Seandainya kita tidak mengubah batas bawah nampan pertama dari menjadi , kita akan mendapatkan .)6 3 17.7618.06 6 3 17.76
Prosedur dan kode ini dapat diterapkan secara umum. Teori kemungkinan maksimum dapat dieksploitasi lebih lanjut untuk menghitung interval kepercayaan di sekitar kuartil ketiga, jika itu menarik.
sumber
Terlalu panjang untuk dikomentari:
jawaban whubers sama bagusnya dengan jawaban yang lain, tetapi dia menganggap kemiringan yang benar dalam model log-normal-nya. Ini mungkin realistis untuk pendapatan di atas populasi umum, tetapi mungkin tidak untuk pendapatan untuk satu majikan pada tingkat tertentu.
Anda juga dapat memilih untuk memodelkan distribusi sebagai kira-kira simetris dalam hal ini Anda dapat menempatkan sekitar ke dalam kisaran 16-18, ke 18-20 dan ke dalam kisaran 22-24 dan ini akan memberi Anda perkiraan kuartil ketiga sekitar .64 50 17.568 64 50 17.5
Anda akan memiliki perkiraan yang lebih rendah jika Anda memilih untuk melanjutkan frekuensi sekitar per unit ganda yang akan memberi Anda perkiraan kuartil ketiga sekitar .17.380 17.3
Estimasi yang lebih tinggi dimungkinkan dengan asumsi lain. Jadi kesimpulan saya adalah bahwa kuartil ketiga cenderung berada di atas , tetapi Anda benar-benar tidak memiliki cukup data untuk membuat perkiraan yang akurat tanpa mengetahui (atau mengasumsikan) lebih banyak tentang distribusi pendapatan di ujung atas, dan bahwa justru apa yang tidak Anda ketahui.17
sumber