Sebuah pertanyaan yang mengganggu saya selama beberapa waktu, yang saya tidak tahu bagaimana mengatasinya:
Setiap hari, petugas cuaca saya memberikan persentase kemungkinan hujan (mari kita anggap itu dihitung hingga 9000 digit dan dia tidak pernah mengulangi angka). Setiap hari berikutnya, hujan atau hujan.
Saya memiliki data bertahun-tahun - peluang persen vs hujan atau tidak. Mengingat sejarah cuaca ini , jika dia mengatakan malam ini bahwa peluang hujan besok adalah X, lalu apa tebakan terbaik saya tentang apa sebenarnya peluang hujan itu?
hypothesis-testing
forecasting
Paul Murray
sumber
sumber
Jawaban:
Akibatnya Anda memikirkan model di mana peluang sebenarnya hujan, p , adalah fungsi dari peluang yang diprediksi q : p = p (q ). Setiap kali prediksi dibuat, Anda mengamati satu realisasi dari varian Bernoulli yang memiliki probabilitas p (q) keberhasilan. Ini adalah pengaturan regresi logistik klasik jika Anda bersedia untuk memodelkan peluang sebenarnya sebagai kombinasi linear dari fungsi basis f1 , f2 , ..., fk ; kata model itu
dengan kesalahan iid e . Jika Anda agnostik tentang bentuk hubungan (meskipun jika cuaca bagus, p (q) - q harus cukup kecil), pertimbangkan untuk menggunakan satu set splines sebagai dasar. Output, seperti biasa, terdiri dari estimasi koefisien dan estimasi varians dari e . Dengan adanya prediksi q di masa mendatang , cukup masukkan nilai ke dalam model dengan koefisien yang diperkirakan untuk memperoleh jawaban atas pertanyaan Anda (dan gunakan varian e untuk membuat interval prediksi di sekitar jawaban itu jika Anda mau).
Kerangka kerja ini cukup fleksibel untuk memasukkan faktor-faktor lain, seperti kemungkinan perubahan kualitas prediksi dari waktu ke waktu. Ini juga memungkinkan Anda menguji hipotesis, seperti apakah p = q (yang menurut cuaca dinyatakan secara implisit).
sumber
Perbandingan perkiraan probabilitas untuk peristiwa biner (atau Variabel Acak diskrit) dapat dilakukan pada skor Brier
Anda harus melihat bagaimana pusat Eropa untuk ramalan cuaca jarak menengah ( ECMWF ).
sumber
Ketika ramalan mengatakan "peluang hujan X persen di (area)", itu berarti bahwa model cuaca numerik telah menunjukkan hujan di persen persen dari daerah itu, untuk interval waktu yang dimaksud. Misalnya, biasanya akurat untuk memperkirakan "100 persen kemungkinan hujan di Amerika Utara". Ingatlah bahwa model-model tersebut baik dalam memprediksi dinamika dan buruk dalam memprediksi termodinamika.
sumber
Pendekatan Brier Score sangat sederhana dan cara yang paling langsung diterapkan memverifikasi keakuratan hasil yang diprediksi dibandingkan peristiwa biner.
Jangan hanya mengandalkan formula ... petak skor untuk periode waktu yang berbeda, data, kesalahan, rata-rata data yang digulirkan, kesalahan ... sulit untuk mengatakan apa yang mungkin diungkapkan analisis visual ... setelah Anda berpikir Anda melihat sesuatu, Anda akan lebih tahu apa jenis tes hipotesis untuk dilakukan sampai SETELAH Anda melihat data.
Skor Brier secara inheren mengasumsikan stabilitas variasi / distribusi yang mendasari cuaca dan teknologi yang mendorong model peramalan, kurangnya linearitas, tidak ada bias, kurangnya perubahan dalam bias ... itu mengasumsikan bahwa tingkat akurasi / ketidaktepatan umum yang sama konsisten. Karena perubahan iklim dengan cara yang belum dipahami, keakuratan prediksi cuaca akan menurun; sebaliknya, para ilmuwan yang memberi informasi kepada petugas cuaca memiliki lebih banyak sumber daya, model yang lebih lengkap, lebih banyak daya komputasi sehingga mungkin keakuratan prediksi akan meningkat. Melihat kesalahan akan memberi tahu sesuatu tentang stabilitas, linearitas, dan bias perkiraan ... Anda mungkin tidak memiliki cukup data untuk melihat tren; Anda mungkin belajar bahwa stabilitas, linearitas, dan bias tidak menjadi masalah. Anda mungkin mengetahui bahwa ramalan cuaca semakin akurat ... atau tidak.
sumber
Bagaimana kalau hanya binning prediksi yang diberikan dan mengambil fraksi yang diamati sebagai perkiraan Anda untuk setiap bin?
Anda dapat menggeneralisasi ini menjadi model berkelanjutan dengan menimbang semua pengamatan di sekitar nilai yang Anda minati (katakan prediksi besok) oleh seorang Gaussian dan melihat berapa rata-rata tertimbangnya.
Anda dapat menebak lebar untuk memberi Anda sebagian kecil dari data Anda (atau, katakanlah, tidak pernah kurang dari 100 poin untuk perkiraan yang baik). Sebagai alternatif, gunakan metode seperti validasi silang kemungkinan-besar untuk mendapatkan lebar Gaussian.
sumber
Apakah Anda ingin tahu apakah ramalannya lebih akurat daripada ramalan lain? Jika demikian, Anda dapat melihat metrik akurasi dasar untuk klasifikasi probabilistik seperti cross-entropy, precision / recall, kurva ROC, dan skor f1.
Menentukan apakah ramalan itu baik secara objektif adalah masalah yang berbeda. Salah satu opsi adalah melihat kalibrasi. Dari semua hari di mana dia mengatakan bahwa akan ada kemungkinan 90% hujan, apakah kira-kira 90% dari hari-hari itu memiliki hujan? Luangkan semua hari di mana ia memiliki perkiraan dan kemudian gabungkan mereka dengan perkiraan kemungkinan hujan. Untuk setiap ember, hitung persentase hari di mana hujan benar-benar terjadi. Kemudian untuk setiap ember plot probabilitas hujan aktual terhadap perkiraannya untuk probabilitas hujan. Plot akan terlihat seperti garis lurus jika ramalan dikalibrasi dengan baik.
sumber