Apa saja terobosan dalam Statistik selama 15 tahun terakhir?

56

Saya masih ingat tulisan Annals of Statistics tentang Boosting oleh Friedman-Hastie-Tibshirani, dan komentar tentang masalah yang sama oleh penulis lain (termasuk Freund dan Schapire). Pada saat itu, Boosting jelas dipandang sebagai terobosan dalam banyak hal: layak secara komputasi, metode ansambel, dengan kinerja luar biasa namun misterius. Sekitar waktu yang sama, SVM datang dari usia, menawarkan kerangka kerja yang didukung oleh teori yang kuat dan dengan banyak varian dan aplikasi.

Itu di tahun 90-an yang luar biasa. Dalam 15 tahun terakhir, bagi saya tampak bahwa banyak Statistik telah menjadi operasi pembersihan dan perincian, tetapi dengan beberapa pandangan yang benar-benar baru.

Jadi saya akan mengajukan dua pertanyaan:

  1. Sudahkah saya melewatkan beberapa makalah revolusioner / mani?
  2. Jika tidak, adakah pendekatan baru yang menurut Anda berpotensi untuk mengubah sudut pandang inferensi statistik?

Aturan:

  1. Satu jawaban per posting;
  2. Referensi atau tautan diterima.

PS: Saya punya beberapa kandidat untuk terobosan yang menjanjikan. Saya akan mempostingnya nanti.

gappy
sumber
5
Lihat stats.stackexchange.com/q/1883/159 untuk pertanyaan serupa (yang ditutup sebagai subjektif & argumentatif).
Rob Hyndman
1
Saya akan membuka thread yang sama. Baunya seperti duplikat.
Dirk Eddelbuettel
1
Ini subjektif, tentu, tapi bukankah masih baik untuk CW?
Christopher Aden
1
Itu pada skala waktu yang lebih lama. Saya pikir ini bukan duplikat. Adapun argumentatif, terserah peserta. Saya tidak mencoba memberikan trofi di sini, hanya untuk mengikuti makalah seminal yang saya dan orang lain mungkin telah lewatkan. Karena tidak ada jawaban yang benar, saya semua untuk CW. Saya merasa menarik bahwa sejauh ini semua jawabannya ada pada inovasi bayesian.
gappy
2
Ini seperti pos yang bisa dikagumi. Saya pikir ini bisa tetap terbuka.
gung - Reinstate Monica

Jawaban:

43

Jawabannya sangat sederhana sehingga saya harus menulis semua omong kosong ini untuk membuat CV izinkan saya mempostingnya: R

hans0l0
sumber
14

Saya tidak yakin apakah Anda akan menyebutnya "terobosan" per se, Tetapi Penerbitan Teori Probabilitas: Logika Ilmu Pengetahuan Oleh Edwin Jaynes dan Larry Bretthorst mungkin patut diperhatikan. Beberapa hal yang mereka lakukan di sini adalah:

1) menunjukkan kesetaraan antara beberapa skema "penyesuaian musiman" berulang dan integrasi "parameter gangguan" Bayesian.

2) menyelesaikan apa yang disebut "Paradoks Marjinalisasi" - dianggap sebagai "kematian bayesianisme" oleh sebagian orang, dan "kematian orang-orang yang tidak pantas" oleh yang lain.

3) gagasan bahwa probabilitas menggambarkan keadaan pengetahuan tentang proposisi yang benar atau salah, yang bertentangan dengan menggambarkan properti fisik dunia .

Tiga bab pertama buku ini tersedia secara gratis di sini .

probabilityislogic
sumber
2
Sayangnya, resolusi Jaynes tentang paradoks marginalisasi cacat. Lihat Catatan Kevin Van Horn tentang Perlakuan Jayad tentang Paradoks Marginalisasi , tersedia di sini .
Cyan
1
@cyan - Perhatikan bahwa sementara resolusinya cacat di beberapa area, prinsip-prinsip dasarnya telah menyelesaikannya. Aturan umum dari prior prior dan batas konvergennya berarti mp tidak dapat muncul. Kelemahan ini kemungkinan besar disebabkan oleh buku yang belum selesai di sebagian besar bagian kedua. Saya suka resolusinya [di sini] ( arxiv.org/abs/math/0310006 ) lebih baik daripada versi ksvh. lebih pendek dan lebih umum.
probabilityislogic
14

Sebagai ahli statistik terapan dan penulis perangkat lunak minor sesekali, saya akan mengatakan:

WinBUGS (dirilis 1997)

Ini didasarkan pada BUGS, yang dirilis lebih dari 15 tahun yang lalu (1989), tetapi WinBUGS-lah yang membuat analisis Bayesian dari model-model rumit yang realistis tersedia bagi basis pengguna yang jauh lebih luas. Lihat misalnya Lunn, Spiegelhalter, Thomas & Best (2009) (dan diskusi tentang itu dalam Statistics in Medicine vol. 28 masalah 25 ).

onestop
sumber
2
Bagaimana ini berubah sekarang yang Stankeluar?
Ari B. Friedman
13

kii

shabbychef
sumber
Apakah Anda pernah menggunakan LARS? Saya bertanya karena saya belum pernah mendengarnya sebelumnya dan itu terdengar sangat menarik. Artikel asli agak panjang (93 halaman) jadi saya ingin mendapatkan pendapat sebelum saya masuk ke dalamnya.
Tomek Tarczynski
@ Tomek Tarczynski: Saya telah menggunakannya dalam jumlah kecil. Ada paket di Matlab (saya yakin ada satu atau lebih di R), yang telah saya gunakan. Ini juga menyediakan PCA yang jarang, yang saya lebih tertarik. Saya akui saya hanya membaca kertas. ;)
shabbychef
11

Pengenalan fungsi kerugian "perbedaan intrinsik" dan fungsi kerugian "bebas parameterisasi" lainnya ke dalam teori keputusan. Ini memiliki banyak properti "bagus" lainnya, tapi saya pikir yang terbaik adalah sebagai berikut:

θθeθg(θ)g(θe)

Saya pikir ini sangat keren! (mis. estimasi peluang log terbaik adalah log (p / (1-p)), estimasi varian terbaik adalah kuadrat dari standar deviasi, dll.)

Tangkapan? perbedaan intrinsik bisa sangat sulit untuk diselesaikan! (Ini melibatkan fungsi min (), rasio kemungkinan, dan integral!)

"Counter-catch"? Anda dapat "mengatur ulang" masalah sehingga lebih mudah untuk dihitung!

"Counter-counter-catch"? mencari tahu bagaimana "mengatur ulang" masalahnya bisa sulit!

Berikut adalah beberapa referensi yang saya tahu menggunakan fungsi kerugian ini. Meskipun saya sangat menyukai bagian "estimasi intrinsik" dari makalah / slide ini, saya memiliki beberapa keraguan tentang pendekatan "referensi prior" yang juga dijelaskan.

Pengujian Hipotesis Bayesian: Suatu Pendekatan Referensi

Estimasi intrinsik

Membandingkan Cara Normal: Metode Baru untuk Masalah Lama

Uji Estimasi Bayesian Terpadu dan Uji Hipotesis Terpadu

probabilityislogic
sumber
11

Hanya jatuh dalam jendela 15 tahun, saya percaya, adalah algoritma untuk mengendalikan False Discovery Rate . Saya suka pendekatan 'q-value'.

shabbychef
sumber
1
q
9

Menambahkan 5 sen saya sendiri, saya percaya terobosan paling signifikan dalam 15 tahun terakhir adalah Penginderaan Terkompresi. LARS, LASSO, dan sejumlah algoritma lain termasuk dalam domain ini, karena Compressed Sensing menjelaskan mengapa mereka bekerja dan memperluasnya ke domain lain.

gappy
sumber
1
Saya telah melihat Compressed Sensing dan sebagai non-statistik saya terus bertanya pada diri sendiri, "Bukankah ini hanya proyeksi acak terbalik?". Saya tahu bahwa "hanya" adalah kata yang mudah untuk dilontarkan, tetapi rasanya seperti orang meninggalkan apa yang tampak seperti hubungan yang jelas antara proyeksi acak (sekitar tahun 2000) dan penginderaan yang dikompresi (sekitar tahun 2004).
Wayne
9

Sesuatu yang sangat sedikit hubungannya dengan statistik itu sendiri, tetapi telah sangat bermanfaat: Peningkatan daya tembak komputer, membuat kumpulan data yang lebih besar dan analisis statistik yang lebih kompleks lebih mudah diakses, terutama di bidang yang diterapkan.

Fomite
sumber
8

Algoritma Ekspektasi-Propagasi untuk inferensi Bayesian, terutama dalam klasifikasi Proses Gaussian, bisa dibilang merupakan terobosan yang signifikan, karena memberikan metode pendekatan analitik yang efisien yang bekerja hampir serta pendekatan berbasis pengambilan sampel yang mahal secara komputasi (tidak seperti pendekatan Laplace biasa). Lihat karya Thomas Minka dan lainnya di peta jalan EP

Dikran Marsupial
sumber
EP memang terlihat keren (meskipun masih sakit di kepalaku). Apakah masih kurang jaminan konvergensi umum?
conjugateprior
2

Meskipun sedikit lebih umum daripada statistik, saya pikir ada kemajuan penting dalam metode penelitian yang dapat diraih (RR) . Misalnya pengembangan R's knittrdanSweavepaket dan notebook "R Markdown", peningkatan LyX dan LaTeX telah memberikan kontribusi signifikan pada berbagi data, kolaborasi, verifikasi / validasi, dan bahkan peningkatan statistik tambahan. Makalah-makalah yang direferensikan dalam jurnal statistik, medis, dan epidemiologis jarang memungkinkan seseorang untuk mereproduksi hasil dengan mudah sebelum munculnya metode / teknologi penelitian yang dapat direproduksi ini. Sekarang, beberapa jurnal membutuhkan penelitian yang dapat direproduksi dan banyak ahli statistik menggunakan RR dan memposting kode, hasil mereka dan sumber data di web. Ini juga membantu mengembangkan disiplin ilmu data dan membuat pembelajaran statistik lebih mudah diakses.

StatsStudent
sumber
1

Menurut pendapat saya, makalah yang diterbitkan pada tahun 2011 di majalah Science. Penulis mengusulkan ukuran hubungan yang sangat menarik antara pasangan variabel acak yang bekerja dengan baik dalam banyak situasi di mana ukuran yang sama gagal (Pearson, Spearman, Kendall). Kertas yang sangat bagus. Ini dia.

Miroslav Sabo
sumber
Tautan tampaknya rusak.
dsaxton
Dapat ditemukan juga di sini: ncbi.nlm.nih.gov/pmc/articles/PMC3325791/pdf/nihms358982.pdf
Miroslav Sabo