Apakah cuaca saya akurat?

20

Sebuah pertanyaan yang mengganggu saya selama beberapa waktu, yang saya tidak tahu bagaimana mengatasinya:

Setiap hari, petugas cuaca saya memberikan persentase kemungkinan hujan (mari kita anggap itu dihitung hingga 9000 digit dan dia tidak pernah mengulangi angka). Setiap hari berikutnya, hujan atau hujan.

Saya memiliki data bertahun-tahun - peluang persen vs hujan atau tidak. Mengingat sejarah cuaca ini , jika dia mengatakan malam ini bahwa peluang hujan besok adalah X, lalu apa tebakan terbaik saya tentang apa sebenarnya peluang hujan itu?

Paul Murray
sumber
Ini terkait dengan pertanyaan sebelumnya: stats.stackexchange.com/q/2275/495
Simon Byrne
Sesuatu yang perlu dipertimbangkan: dalam buku Nate Silver tentang prediksi, The Signal and the Noise: Mengapa Banyak Prediksi Gagal - Tetapi Beberapa Tidak, ia berbicara panjang lebar tentang bagaimana para pekerja cuaca secara rutin menyesuaikan ramalan hujan mereka untuk alasan pemasaran. NOAA tidak, tetapi Weather Channel cukup terbuka untuk merevisi setiap peluang antara 5 dan 20 hingga 20 (agar tidak membuat marah pelanggan jika memang hujan), sedangkan petugas cuaca untuk stasiun TV lokal secara rutin memasang angka mereka jauh lebih berani. Bias sadar dan mungkin tidak etis ini akan mempengaruhi setiap evaluasi statistik kualitas prediksi mereka.
SQLServerSteve

Jawaban:

6

Akibatnya Anda memikirkan model di mana peluang sebenarnya hujan, p , adalah fungsi dari peluang yang diprediksi q : p = p (q ). Setiap kali prediksi dibuat, Anda mengamati satu realisasi dari varian Bernoulli yang memiliki probabilitas p (q) keberhasilan. Ini adalah pengaturan regresi logistik klasik jika Anda bersedia untuk memodelkan peluang sebenarnya sebagai kombinasi linear dari fungsi basis f1 , f2 , ..., fk ; kata model itu

Logit ( p ) = b0 + b1 f1 (q) + b2 f2 (q) + ... + bk fk (q) + e

dengan kesalahan iid e . Jika Anda agnostik tentang bentuk hubungan (meskipun jika cuaca bagus, p (q) - q harus cukup kecil), pertimbangkan untuk menggunakan satu set splines sebagai dasar. Output, seperti biasa, terdiri dari estimasi koefisien dan estimasi varians dari e . Dengan adanya prediksi q di masa mendatang , cukup masukkan nilai ke dalam model dengan koefisien yang diperkirakan untuk memperoleh jawaban atas pertanyaan Anda (dan gunakan varian e untuk membuat interval prediksi di sekitar jawaban itu jika Anda mau).

Kerangka kerja ini cukup fleksibel untuk memasukkan faktor-faktor lain, seperti kemungkinan perubahan kualitas prediksi dari waktu ke waktu. Ini juga memungkinkan Anda menguji hipotesis, seperti apakah p = q (yang menurut cuaca dinyatakan secara implisit).

whuber
sumber
Hmm - pertanyaan saya tidak didefinisikan dengan baik. Satu-satunya hal yang dapat saya lakukan adalah memilih beberapa model untuk q () yang memungkinkan pengaturan parameter, dan memaksimalkan kebaikan fit dengan mengutak-atik parameter tersebut. Artinya - tidak peduli apa yang saya lakukan, saya harus membuat beberapa asumsi tentang seperti apa q () pada dasarnya.
Paul Murray
11

Perbandingan perkiraan probabilitas untuk peristiwa biner (atau Variabel Acak diskrit) dapat dilakukan pada skor Brier

ττ

Anda harus melihat bagaimana pusat Eropa untuk ramalan cuaca jarak menengah ( ECMWF ).

robin girard
sumber
3

Ketika ramalan mengatakan "peluang hujan X persen di (area)", itu berarti bahwa model cuaca numerik telah menunjukkan hujan di persen persen dari daerah itu, untuk interval waktu yang dimaksud. Misalnya, biasanya akurat untuk memperkirakan "100 persen kemungkinan hujan di Amerika Utara". Ingatlah bahwa model-model tersebut baik dalam memprediksi dinamika dan buruk dalam memprediksi termodinamika.

lembab
sumber
1
Sebuah topik lama, tetapi poin kunci untuk klarifikasi dalam OP: ketika mereka mengatakan bahwa mereka memiliki "hujan atau tidak" data yang dapat digunakan untuk membandingkan prediksi, apakah maksudnya "di rumah saya", atau apakah maksudnya "dalam prediksi daerah"?
Wayne
2

Pendekatan Brier Score sangat sederhana dan cara yang paling langsung diterapkan memverifikasi keakuratan hasil yang diprediksi dibandingkan peristiwa biner.

Jangan hanya mengandalkan formula ... petak skor untuk periode waktu yang berbeda, data, kesalahan, rata-rata data yang digulirkan, kesalahan ... sulit untuk mengatakan apa yang mungkin diungkapkan analisis visual ... setelah Anda berpikir Anda melihat sesuatu, Anda akan lebih tahu apa jenis tes hipotesis untuk dilakukan sampai SETELAH Anda melihat data.

Skor Brier secara inheren mengasumsikan stabilitas variasi / distribusi yang mendasari cuaca dan teknologi yang mendorong model peramalan, kurangnya linearitas, tidak ada bias, kurangnya perubahan dalam bias ... itu mengasumsikan bahwa tingkat akurasi / ketidaktepatan umum yang sama konsisten. Karena perubahan iklim dengan cara yang belum dipahami, keakuratan prediksi cuaca akan menurun; sebaliknya, para ilmuwan yang memberi informasi kepada petugas cuaca memiliki lebih banyak sumber daya, model yang lebih lengkap, lebih banyak daya komputasi sehingga mungkin keakuratan prediksi akan meningkat. Melihat kesalahan akan memberi tahu sesuatu tentang stabilitas, linearitas, dan bias perkiraan ... Anda mungkin tidak memiliki cukup data untuk melihat tren; Anda mungkin belajar bahwa stabilitas, linearitas, dan bias tidak menjadi masalah. Anda mungkin mengetahui bahwa ramalan cuaca semakin akurat ... atau tidak.

markbruns
sumber
0

Bagaimana kalau hanya binning prediksi yang diberikan dan mengambil fraksi yang diamati sebagai perkiraan Anda untuk setiap bin?

Anda dapat menggeneralisasi ini menjadi model berkelanjutan dengan menimbang semua pengamatan di sekitar nilai yang Anda minati (katakan prediksi besok) oleh seorang Gaussian dan melihat berapa rata-rata tertimbangnya.

Anda dapat menebak lebar untuk memberi Anda sebagian kecil dari data Anda (atau, katakanlah, tidak pernah kurang dari 100 poin untuk perkiraan yang baik). Sebagai alternatif, gunakan metode seperti validasi silang kemungkinan-besar untuk mendapatkan lebar Gaussian.

luispedro
sumber
0

Apakah Anda ingin tahu apakah ramalannya lebih akurat daripada ramalan lain? Jika demikian, Anda dapat melihat metrik akurasi dasar untuk klasifikasi probabilistik seperti cross-entropy, precision / recall, kurva ROC, dan skor f1.

Menentukan apakah ramalan itu baik secara objektif adalah masalah yang berbeda. Salah satu opsi adalah melihat kalibrasi. Dari semua hari di mana dia mengatakan bahwa akan ada kemungkinan 90% hujan, apakah kira-kira 90% dari hari-hari itu memiliki hujan? Luangkan semua hari di mana ia memiliki perkiraan dan kemudian gabungkan mereka dengan perkiraan kemungkinan hujan. Untuk setiap ember, hitung persentase hari di mana hujan benar-benar terjadi. Kemudian untuk setiap ember plot probabilitas hujan aktual terhadap perkiraannya untuk probabilitas hujan. Plot akan terlihat seperti garis lurus jika ramalan dikalibrasi dengan baik.

Alex Lamb
sumber