Saya masih ingat tulisan Annals of Statistics tentang Boosting oleh Friedman-Hastie-Tibshirani, dan komentar tentang masalah yang sama oleh penulis lain (termasuk Freund dan Schapire). Pada saat itu, Boosting jelas dipandang sebagai terobosan dalam banyak hal: layak secara komputasi, metode ansambel, dengan kinerja luar biasa namun misterius. Sekitar waktu yang sama, SVM datang dari usia, menawarkan kerangka kerja yang didukung oleh teori yang kuat dan dengan banyak varian dan aplikasi.
Itu di tahun 90-an yang luar biasa. Dalam 15 tahun terakhir, bagi saya tampak bahwa banyak Statistik telah menjadi operasi pembersihan dan perincian, tetapi dengan beberapa pandangan yang benar-benar baru.
Jadi saya akan mengajukan dua pertanyaan:
- Sudahkah saya melewatkan beberapa makalah revolusioner / mani?
- Jika tidak, adakah pendekatan baru yang menurut Anda berpotensi untuk mengubah sudut pandang inferensi statistik?
Aturan:
- Satu jawaban per posting;
- Referensi atau tautan diterima.
PS: Saya punya beberapa kandidat untuk terobosan yang menjanjikan. Saya akan mempostingnya nanti.
Jawaban:
Jawabannya sangat sederhana sehingga saya harus menulis semua omong kosong ini untuk membuat CV izinkan saya mempostingnya: R
sumber
Saya tidak yakin apakah Anda akan menyebutnya "terobosan" per se, Tetapi Penerbitan Teori Probabilitas: Logika Ilmu Pengetahuan Oleh Edwin Jaynes dan Larry Bretthorst mungkin patut diperhatikan. Beberapa hal yang mereka lakukan di sini adalah:
1) menunjukkan kesetaraan antara beberapa skema "penyesuaian musiman" berulang dan integrasi "parameter gangguan" Bayesian.
2) menyelesaikan apa yang disebut "Paradoks Marjinalisasi" - dianggap sebagai "kematian bayesianisme" oleh sebagian orang, dan "kematian orang-orang yang tidak pantas" oleh yang lain.
3) gagasan bahwa probabilitas menggambarkan keadaan pengetahuan tentang proposisi yang benar atau salah, yang bertentangan dengan menggambarkan properti fisik dunia .
Tiga bab pertama buku ini tersedia secara gratis di sini .
sumber
Sebagai ahli statistik terapan dan penulis perangkat lunak minor sesekali, saya akan mengatakan:
WinBUGS (dirilis 1997)
Ini didasarkan pada BUGS, yang dirilis lebih dari 15 tahun yang lalu (1989), tetapi WinBUGS-lah yang membuat analisis Bayesian dari model-model rumit yang realistis tersedia bagi basis pengguna yang jauh lebih luas. Lihat misalnya Lunn, Spiegelhalter, Thomas & Best (2009) (dan diskusi tentang itu dalam Statistics in Medicine vol. 28 masalah 25 ).
sumber
Stan
keluar?sumber
Pengenalan fungsi kerugian "perbedaan intrinsik" dan fungsi kerugian "bebas parameterisasi" lainnya ke dalam teori keputusan. Ini memiliki banyak properti "bagus" lainnya, tapi saya pikir yang terbaik adalah sebagai berikut:
Saya pikir ini sangat keren! (mis. estimasi peluang log terbaik adalah log (p / (1-p)), estimasi varian terbaik adalah kuadrat dari standar deviasi, dll.)
Tangkapan? perbedaan intrinsik bisa sangat sulit untuk diselesaikan! (Ini melibatkan fungsi min (), rasio kemungkinan, dan integral!)
"Counter-catch"? Anda dapat "mengatur ulang" masalah sehingga lebih mudah untuk dihitung!
"Counter-counter-catch"? mencari tahu bagaimana "mengatur ulang" masalahnya bisa sulit!
Berikut adalah beberapa referensi yang saya tahu menggunakan fungsi kerugian ini. Meskipun saya sangat menyukai bagian "estimasi intrinsik" dari makalah / slide ini, saya memiliki beberapa keraguan tentang pendekatan "referensi prior" yang juga dijelaskan.
Pengujian Hipotesis Bayesian: Suatu Pendekatan Referensi
Estimasi intrinsik
Membandingkan Cara Normal: Metode Baru untuk Masalah Lama
Uji Estimasi Bayesian Terpadu dan Uji Hipotesis Terpadu
sumber
Hanya jatuh dalam jendela 15 tahun, saya percaya, adalah algoritma untuk mengendalikan False Discovery Rate . Saya suka pendekatan 'q-value'.
sumber
Menambahkan 5 sen saya sendiri, saya percaya terobosan paling signifikan dalam 15 tahun terakhir adalah Penginderaan Terkompresi. LARS, LASSO, dan sejumlah algoritma lain termasuk dalam domain ini, karena Compressed Sensing menjelaskan mengapa mereka bekerja dan memperluasnya ke domain lain.
sumber
Sesuatu yang sangat sedikit hubungannya dengan statistik itu sendiri, tetapi telah sangat bermanfaat: Peningkatan daya tembak komputer, membuat kumpulan data yang lebih besar dan analisis statistik yang lebih kompleks lebih mudah diakses, terutama di bidang yang diterapkan.
sumber
Algoritma Ekspektasi-Propagasi untuk inferensi Bayesian, terutama dalam klasifikasi Proses Gaussian, bisa dibilang merupakan terobosan yang signifikan, karena memberikan metode pendekatan analitik yang efisien yang bekerja hampir serta pendekatan berbasis pengambilan sampel yang mahal secara komputasi (tidak seperti pendekatan Laplace biasa). Lihat karya Thomas Minka dan lainnya di peta jalan EP
sumber
Saya pikir 'Perkiraan Bayesian Perkiraan untuk Model Laten Gaussian Menggunakan Pendekatan Nested Laplace Terpadu' dari H. Rue et. al (2009) adalah kandidat potensial.
sumber
Menurut pendapat saya, semuanya memungkinkan Anda untuk menjalankan model baru dalam skala besar adalah terobosan. Interpolasi Kernel untuk Proses Gaussian Terstruktur Skalabel (KISS-GP) bisa menjadi kandidat (meskipun idenya baru dan belum banyak implementasi dari ide yang disajikan).
sumber
Meskipun sedikit lebih umum daripada statistik, saya pikir ada kemajuan penting dalam metode penelitian yang dapat diraih (RR) . Misalnya pengembangan R's
knittr
danSweave
paket dan notebook "R Markdown", peningkatan LyX dan LaTeX telah memberikan kontribusi signifikan pada berbagi data, kolaborasi, verifikasi / validasi, dan bahkan peningkatan statistik tambahan. Makalah-makalah yang direferensikan dalam jurnal statistik, medis, dan epidemiologis jarang memungkinkan seseorang untuk mereproduksi hasil dengan mudah sebelum munculnya metode / teknologi penelitian yang dapat direproduksi ini. Sekarang, beberapa jurnal membutuhkan penelitian yang dapat direproduksi dan banyak ahli statistik menggunakan RR dan memposting kode, hasil mereka dan sumber data di web. Ini juga membantu mengembangkan disiplin ilmu data dan membuat pembelajaran statistik lebih mudah diakses.sumber
Menurut pendapat saya, makalah yang diterbitkan pada tahun 2011 di majalah Science. Penulis mengusulkan ukuran hubungan yang sangat menarik antara pasangan variabel acak yang bekerja dengan baik dalam banyak situasi di mana ukuran yang sama gagal (Pearson, Spearman, Kendall). Kertas yang sangat bagus. Ini dia.
sumber