Metode apa yang dapat saya gunakan untuk menyimpulkan distribusi jika saya hanya tahu tiga persen?
Misalnya, saya tahu bahwa dalam kumpulan data tertentu, persentil kelima adalah 8.135, persentil ke-50 adalah 11.259, dan persentil ke-95 adalah 23.611. Saya ingin dapat beralih dari angka lain ke persentilnya.
Ini bukan data saya, dan itu semua statistik yang saya miliki. Jelas bahwa distribusinya tidak normal. Satu-satunya informasi lain yang saya miliki adalah bahwa data ini mewakili dana per kapita pemerintah untuk distrik sekolah yang berbeda.
Saya cukup tahu tentang statistik untuk mengetahui bahwa masalah ini tidak memiliki solusi yang pasti, tetapi tidak cukup untuk tahu bagaimana cara menemukan tebakan yang baik.
Apakah distribusi lognormal sesuai? Alat apa yang dapat saya gunakan untuk melakukan regresi (atau apakah saya perlu melakukannya sendiri)?
sumber
Jawaban:
Menggunakan metode statistik murni untuk melakukan pekerjaan ini akan sama sekali tidak memberikan informasi tambahan tentang distribusi pengeluaran sekolah: hasilnya hanya akan mencerminkan pilihan algoritma yang sewenang-wenang.
Anda membutuhkan lebih banyak data .
Ini mudah didapat: gunakan data dari tahun-tahun sebelumnya, dari kabupaten yang sebanding, apa pun. Misalnya, pengeluaran federal untuk 14866 distrik sekolah pada 2008 tersedia dari situs Sensus . Ini menunjukkan bahwa di seluruh negeri, total pendapatan federal per-kapita (terdaftar) kira-kira terdistribusi secara lognormal, tetapi memecahnya menurut negara menunjukkan variasi substansial ( mis. , Pengeluaran kayu bulat di Alaska memiliki kecenderungan negatif sedangkan pengeluaran kayu bulat di Colorado memiliki kecenderungan positif yang kuat) . Gunakan data tersebut untuk mengkarakterisasi bentuk distribusi yang mungkin dan kemudian cocokkan kuantil Anda dengan formulir itu.
Jika Anda bahkan dekat dengan bentuk distribusi yang tepat, maka Anda harus dapat mereproduksi kuantil secara akurat dengan memasang satu atau paling banyak dua parameter. Teknik terbaik untuk menemukan kecocokan akan tergantung pada bentuk distribusi apa yang Anda gunakan, tetapi - jauh lebih penting - itu akan tergantung pada apa yang ingin Anda gunakan untuk hasilnya.. Apakah Anda perlu memperkirakan jumlah pengeluaran rata-rata? Batas atas dan bawah untuk pengeluaran? Apa pun itu, Anda ingin mengadopsi beberapa ukuran kebaikan yang akan memberi Anda peluang terbaik untuk membuat keputusan yang baik dengan hasil Anda. Misalnya, jika minat Anda terfokus pada 10% teratas dari semua pengeluaran, Anda ingin menyesuaikan persentil ke-95 secara akurat dan Anda mungkin tidak terlalu peduli tentang pemasangan persentil ke-5. Tidak ada teknik pemasangan yang canggih yang akan membuat pertimbangan ini untuk Anda.
Tentu saja tidak ada yang dapat secara sah menjamin bahwa data-diinformasikan ini, metode berorientasi keputusan akan melakukan lebih baik (atau lebih buruk) daripada beberapa resep statistik, tetapi - tidak seperti pendekatan statistik murni - metode ini memiliki dasar yang didasarkan pada kenyataan, dengan fokus pada kebutuhan Anda, berikan kredibilitas dan pertahanan terhadap kritik.
sumber
Seperti yang ditunjukkan @whuber, metode statistik tidak berfungsi di sini. Anda perlu menyimpulkan distribusi dari sumber lain. Ketika Anda mengetahui distribusi Anda memiliki latihan pemecahan persamaan non-linear. Ditunjukkan oleh fungsi kuantil dari distribusi probabilitas yang Anda pilih dengan vektor parameter θ . Apa yang Anda miliki adalah sistem persamaan nonlinier berikut:f θ
Di sini saya memilih fungsi kuadratik, tetapi Anda dapat memilih apa pun yang Anda inginkan. Menurut komentar @whuber Anda dapat menetapkan bobot, sehingga kuantil yang lebih penting dapat dipasang lebih akurat.
Untuk empat dan lebih banyak parameter, sistem ini tidak ditentukan, sehingga ada banyak solusi.
Berikut adalah beberapa contoh kode R yang menggambarkan pendekatan ini. Untuk keperluan demonstrasi saya menghasilkan kuantil dari distribusi Singh-Maddala dari paket VGAM . Distribusi ini memiliki 3 parameter dan digunakan dalam pemodelan distribusi pendapatan.
Sekarang bentuk fungsi yang mengevaluasi sistem persamaan non-linear:
Periksa apakah nilai sejati memenuhi persamaan:
Untuk memecahkan sistem persamaan non-linear saya menggunakan fungsi
nleqslv
dari paket nlqeslv .Seperti yang kita lihat, kita mendapatkan solusi yang tepat. Sekarang mari kita coba menyesuaikan distribusi log-normal ke kuantil ini. Untuk ini kita akan menggunakan
optim
fungsinya.Sekarang plot hasilnya
Dari sini kita segera melihat bahwa fungsi kuadratik tidak begitu baik.
Semoga ini membantu.
sumber
ofn <- function(x,q) sum(abs(q-qlnorm(c(0.05,0.5,0.95),x[1],x[2]))^2)
. Saya mengusulkanofn <- function(x) sum(abs(q-qlnorm(c(0.05,0.5,0.95),x[1],x[2],x[3]))^2)
karenaq
bukan input untukofn
, danX[3]
hilang. SalamCoba paket rriskDistributions , dan - jika Anda yakin tentang keluarga distribusi lognormal - gunakan perintah
yang seharusnya bisa menyelesaikan masalah Anda. Gunakan
fit.perc
sebaliknya jika Anda tidak ingin membatasi pada satu pdf yang dikenal.sumber
Untuk lognormal, rasio persentil ke-95 dengan median sama dengan rasio median terhadap persentil ke-5. Itu bahkan tidak hampir benar di sini sehingga lognormal tidak akan cocok.
Anda memiliki informasi yang cukup agar sesuai dengan distribusi dengan tiga parameter, dan Anda jelas membutuhkan distribusi miring. Untuk kesederhanaan analitis, saya sarankan distribusi log-logistik bergeser sebagai fungsi kuantilnya (yaitu kebalikan dari fungsi distribusi kumulatifnya) dapat ditulis dalam bentuk tertutup yang cukup sederhana, sehingga Anda harus bisa mendapatkan ekspresi bentuk-tertutup untuk tiga parameter dalam hal tiga kuantil Anda dengan sedikit aljabar (saya akan meninggalkan itu sebagai latihan!). Distribusi ini digunakan dalam analisis frekuensi banjir.
Ini tidak akan memberi Anda indikasi ketidakpastian dalam estimasi kuantil lain. Saya tidak tahu apakah Anda memerlukannya, tetapi sebagai ahli statistik saya merasa saya harus dapat menyediakannya, jadi saya tidak benar-benar puas dengan jawaban ini. Saya pasti tidak akan menggunakan metode ini, atau mungkin metode apa pun , untuk meramalkan (banyak) di luar kisaran persentil ke-5 hingga ke-95.
sumber
Satu-satunya hal yang dapat Anda simpulkan dari data adalah bahwa distribusinya tidak simetris. Anda bahkan tidak bisa memastikan apakah kuantil itu berasal dari distribusi yang sesuai atau hanya ecdf.
Jika mereka berasal dari distribusi yang sesuai, Anda dapat mencoba semua distribusi yang dapat Anda pikirkan dan lihat apakah ada yang cocok. Jika tidak, hampir tidak ada informasi yang cukup. Anda dapat menginterpolasi polinomial derajat 2 atau spline derajat 3 untuk fungsi kuantil dan menggunakannya, atau menghasilkan teori tentang keluarga distribusi dan mencocokkan kuantil, tetapi setiap kesimpulan yang akan Anda buat dengan metode ini akan sangat mencurigakan.
sumber
Penggunaan kuantil untuk memperkirakan parameter dari distribusi apriori dibahas dalam literatur tentang pengukuran waktu respons manusia sebagai "estimasi probabilitas maksimum kuantil" (QMPE, meskipun awalnya keliru dijuluki "estimasi kemungkinan maksimum kuantil", QMLE), dibahas panjang lebar oleh Heathcote dan kolega . Anda dapat menyesuaikan sejumlah distribusi a priori yang berbeda (ex-Gaussian, Lognormal bergeser, Wald, dan Weibull) kemudian membandingkan jumlah kemungkinan log dari hasil yang paling sesuai untuk setiap distribusi untuk menemukan rasa distribusi yang tampaknya menghasilkan yang paling cocok.
sumber
Anda dapat menggunakan informasi persentil Anda untuk mensimulasikan data dengan cara tertentu dan menggunakan paket R "logspline" untuk memperkirakan distribusi secara nonparametrik. Di bawah ini adalah fungsi saya yang menggunakan metode seperti ini.
sumber