Apa 'masalah besar' dalam statistik?

77

Matematika memiliki Masalah Milenium yang terkenal (dan, secara historis, Hilbert's 23 ), pertanyaan yang membantu membentuk arah bidang.

Tapi saya tidak tahu apa itu Hipotesis Riemann dan P vs NP.

Jadi, apa pertanyaan terbuka menyeluruh dalam statistik?

Diedit untuk menambahkan: Sebagai contoh semangat umum (jika tidak cukup spesifik) dari jawaban yang saya cari, saya menemukan kuliah "Hilbert's 23" yang diinspirasikan oleh David Donoho pada konferensi "Tantangan Matematika Abad 21": Analisis Data Dimensi Tinggi: Kutukan dan Berkat Dimensi

Jadi jawaban potensial dapat berbicara tentang data besar dan mengapa itu penting, jenis-jenis tantangan statistik yang ditimbulkan data dimensi tinggi, dan metode yang perlu dikembangkan atau pertanyaan yang perlu dijawab untuk membantu memecahkan masalah.

raegtin
sumber
5
Terima kasih telah memposting ini. Ini diskusi penting (dan berpotensi menginspirasi) untuk dimiliki.
whuber

Jawaban:

48

Sebuah pertanyaan besar harus melibatkan isu-isu kunci dari metodologi statistik atau, karena statistik sepenuhnya tentang aplikasi, itu harus menyangkut bagaimana statistik digunakan dengan masalah-masalah penting bagi masyarakat.

Karakterisasi ini menunjukkan bahwa hal-hal berikut harus dimasukkan dalam pertimbangan masalah besar:

  • Cara terbaik untuk melakukan uji coba narkoba . Saat ini, pengujian hipotesis klasik membutuhkan banyak tahapan studi formal. Dalam fase selanjutnya (konfirmasi), masalah ekonomi dan etika tampak besar. Bisakah kita berbuat lebih baik? Apakah kita harus memasukkan ratusan atau ribuan orang sakit ke dalam kelompok kontrol dan menyimpannya di sana sampai akhir studi, misalnya, atau dapatkah kita menemukan cara yang lebih baik untuk mengidentifikasi perawatan yang benar-benar bekerja dan mengirimkannya kepada anggota uji coba (dan lainnya) lebih cepat?

  • Mengatasi bias publikasi ilmiah . Hasil negatif diterbitkan jauh lebih sedikit hanya karena mereka tidak mencapai nilai p ajaib. Semua cabang ilmu pengetahuan perlu menemukan cara yang lebih baik untuk membawa hasil yang penting secara ilmiah , tidak hanya signifikan secara statistik , ke cahaya. (Masalah perbandingan ganda dan mengatasi data dimensi tinggi adalah subkategori dari masalah ini.)

  • Menguji batas metode statistik dan antarmuka mereka dengan pembelajaran mesin dan kognisi mesin . Kemajuan yang tak terhindarkan dalam teknologi komputasi akan membuat AI benar-benar dapat diakses di masa hidup kita. Bagaimana kita akan memprogram otak buatan? Apa peran pemikiran statistik dan pembelajaran statistik dalam menciptakan kemajuan ini? Bagaimana para ahli statistik dapat membantu dalam berpikir tentang kognisi buatan, pembelajaran buatan, dalam mengeksplorasi keterbatasan mereka, dan membuat kemajuan?

  • Mengembangkan cara yang lebih baik untuk menganalisis data geospasial . Sering diklaim bahwa mayoritas, atau sebagian besar, basis data mengandung referensi lokasi. Segera banyak orang dan perangkat akan ditemukan secara real time dengan teknologi GPS dan ponsel. Metode statistik untuk menganalisis dan mengeksploitasi data spasial benar-benar baru dalam masa pertumbuhannya (dan tampaknya diturunkan ke SIG dan perangkat lunak spasial yang biasanya digunakan oleh non-statistik).

whuber
sumber
1
Dengan cara apa orang berusaha menyelesaikan masalah ini?
raegtin
3
@grautur: Itu empat pertanyaan yang sangat bagus (ditambah banyak lagi, karena jawaban Anda berlaku untuk setiap jawaban di utas ini). Mereka semua pantas mendapatkan jawaban yang rumit, tetapi jelas tidak ada ruang untuk itu di sini: satu pertanyaan pada satu waktu, tolong!
whuber
3
Mengenai peluru pertama (uji coba obat-obatan): bahkan orang-orang yang sebaliknya mungkin tidak tertarik pada eksperimen medis harus membaca artikel NYTimes Obat Baru Aduk Debat tentang Aturan Dasar Percobaan Klinis ( nytimes.com/2010/09/19/health/research/ ... ) Pembaca yang melek secara statistik akan segera melihat implikasi yang tidak disebutkan mengenai desain eksperimental dan menggunakan nilai-p untuk pengambilan keputusan. Ada resolusi statistik, di suatu tempat, untuk teka-teki hidup dan mati yang dijelaskan dalam artikel ini.
whuber
26

Michael Jordan memiliki artikel pendek berjudul Apa Masalah Terbuka dalam Statistik Bayesian? , di mana ia mengumpulkan pendapat banyak ahli statistik untuk pandangan mereka tentang masalah terbuka dalam statistik. Saya akan meringkas (alias, salin dan tempel) sedikit di sini, tapi mungkin yang terbaik hanya dengan membaca aslinya.

Nonparametrik dan semiparametrik

  • Untuk masalah apa nonparametrik Bayes berguna dan sepadan dengan masalahnya?
  • David Dunson: "Model Nonparametric Bayes melibatkan banyak parameter dan prior biasanya dipilih untuk kenyamanan dengan hyperparameter yang ditetapkan pada nilai yang tampaknya masuk akal tanpa objektif yang tepat atau justifikasi subyektif."
  • "Telah dicatat oleh beberapa orang bahwa salah satu aplikasi yang menarik dari nonparametrik frequentist adalah inferensi semiparametrik, di mana komponen nonparametrik model adalah parameter gangguan. Orang-orang ini merasa bahwa akan diinginkan untuk menyempurnakan teori (frequentist) dari Semiparametrik Bayesian. "

Priors

  • "Elicitation tetap menjadi sumber utama masalah terbuka."
  • 'Aad van der Vaart mengarahkan Bayes objektif ke kepalanya dan menunjuk pada kurangnya teori untuk "situasi di mana seseorang menginginkan hal yang sebelumnya terjadi di posterior" sebagai lawan "hanya menyediakan pendekatan Bayesian untuk menghaluskan."'

Hubungan Bayesian / frequentist

  • "Banyak responden menyatakan keinginan untuk lebih jauh menuntaskan hubungan Bayesian / frequentist. Ini paling sering dibuktikan dalam konteks model dan data dimensi tinggi, di mana tidak hanya pendekatan subyektif terhadap spesifikasi prior sulit untuk diimplementasikan tetapi prioritas kenyamanan dapat dilakukan. (sangat) menyesatkan. "
  • 'Beberapa responden mencari teori non-asimtotik yang mungkin mengungkap lebih banyak manfaat yang diduga dari metode Bayesian; misalnya, David Dunson: "Seringkali, tingkat optimal sering yang diperoleh dengan prosedur yang jelas jauh lebih buruk dalam sampel hingga daripada pendekatan Bayesian." '

Komputasi dan statistik

  • Alan Gelfand: "Jika MCMC tidak lagi layak untuk masalah yang orang ingin atasi, lalu apa peran INLA, metode variasional, pendekatan ABC?"
  • "Beberapa responden meminta integrasi yang lebih menyeluruh dari ilmu komputasi dan ilmu statistik, mencatat bahwa set kesimpulan yang dapat dicapai seseorang dalam situasi tertentu adalah fungsi bersama dari model, sebelumnya, data dan sumber daya komputasi, dan berharap untuk manajemen yang lebih eksplisit dari pengorbanan di antara jumlah-jumlah ini. Memang, Rob Kass mengangkat kemungkinan gagasan "solvabilitas inferensial," di mana beberapa masalah dipahami berada di luar harapan (misalnya,pemilihan model dalam regresi di mana “untuk jumlah data sederhana yang tunduk pada kebisingan nontrivial adalah tidak mungkin untuk mendapatkan interval kepercayaan yang berguna tentang koefisien regresi ketika ada sejumlah besar variabel yang ada atau tidaknya dalam model tidak ditentukan apriori”) dan di mana ada masalah lain ("fungsional tertentu yang ada interval kepercayaan yang berguna") yang ada harapan. "
  • "Beberapa responden, sambil meminta maaf atas ketidakjelasan tertentu, menyatakan perasaan bahwa sejumlah besar data tidak selalu menyiratkan sejumlah besar perhitungan; melainkan, entah bagaimana kekuatan inferensial yang ada dalam data besar harus ditransfer ke algoritma dan memungkinkannya untuk melakukannya dengan langkah komputasi yang lebih sedikit untuk mencapai solusi inferensial yang memuaskan (perkiraan). "

Seleksi Model dan Pengujian Hipotesis

  • George Casella: "Kami sekarang melakukan pemilihan model tetapi Bayesia tampaknya tidak khawatir tentang sifat-sifat mendasarkan inferensi pada model yang dipilih. Bagaimana jika itu salah? Apa konsekuensi dari pengaturan daerah yang kredibel untuk parameter tertentu ketika Anda telah memilih model yang salah? Bisakah kita memiliki prosedur dengan semacam jaminan? "β1
  • Perlu lebih banyak bekerja pada dasar-dasar teori-keputusan dalam pemilihan model.
  • David Spiegelhalter: "Bagaimana cara terbaik untuk memeriksa konflik sebelum / data sebagai bagian integral dari analisis Bayesian?"
  • Andrew Gelman: "Untuk pengecekan model, masalah utama yang terbuka adalah mengembangkan alat grafis untuk memahami dan membandingkan model. Grafik tidak hanya untuk data mentah; melainkan, model Bayesian yang kompleks memberikan peluang untuk analisis data eksplorasi yang lebih baik dan lebih efektif."
raegtin
sumber
13

Saya tidak yakin seberapa besar mereka, tetapi ada halaman Wikipedia untuk masalah yang belum terselesaikan dalam statistik. Daftar mereka termasuk:

Inferensi dan pengujian

  • Kesalahan sistematis
  • Admissability dari estimator Graybill-Deal
  • Menggabungkan nilai-p dependen dalam Meta-analisis
  • Masalah Behrens – Fisher
  • Beberapa perbandingan
  • Buka masalah dalam statistik Bayesian

Desain eksperimental

  • Masalah dalam kotak Latin

Masalah yang sifatnya lebih filosofis

  • Sampling masalah spesies
  • Argumen kiamat
  • Pertukaran paradoks
gung
sumber
6

Sebagai contoh semangat umum (jika tidak cukup spesifik) dari jawaban yang saya cari, saya menemukan kuliah "Hilbert's 23" yang diinspirasikan oleh David Donoho di konferensi "Tantangan Matematika Abad 21":

Analisis Data Dimensi Tinggi: Kutukan dan Berkat Dimensi

raegtin
sumber
2
Bolehkah saya menyarankan Anda mengedit pertanyaan utama Anda untuk memasukkan informasi ini?
russellpierce
4

Mathoverflow memiliki pertanyaan serupa tentang masalah besar dalam teori probabilitas .

Akan muncul dari halaman itu bahwa pertanyaan terbesar berkaitan dengan menghindari jalan acak dan perkolasi.

Robby McKilliam
sumber
1
Saya pikir statistik adalah area yang terpisah dari teori probabilitas.
raegtin
3
@raegtin - Saya tidak berpikir teori probabilitas terpisah dari statistik, melainkan teorinya. "Statistik" adalah penerapan teori probabilitas untuk masalah inferensial (yaitu praktik).
probabilityislogic
4

Anda dapat memeriksa "Masalah Sulit dalam temu wicara Ilmu Sosial Harvard yang diadakan awal tahun ini. Beberapa pembicaraan ini menawarkan masalah dalam penggunaan statistik dan pemodelan dalam ilmu sosial.

Charlie
sumber
3

Jawaban saya adalah perjuangan antara statistik frequentist dan Bayesian. Ketika orang bertanya kepada Anda yang Anda "percaya", ini tidak baik! Terutama untuk disiplin ilmu.

pmgjones
sumber
2
Tidak ada yang salah dengan ilmuwan "percaya" pada sesuatu, terutama karena probabilitas Bayesian mewakili tingkat kepercayaan atau pengetahuan tentang kebenaran beberapa proposisi.
Dikran Marsupial
2
... Masalah muncul hanya ketika seorang ilmuwan tidak dapat membedakan antara keyakinan dan fakta. Tidak ada yang tidak ilmiah dalam keyakinan bahwa statistik Bayesian atau frequentist lebih unggul, karena tidak ada tes objektif yang dapat menentukan jawabannya (AFAIK), sehingga pilihannya sebagian besar subyektif dan / atau masalah "kuda untuk kursus".
Dikran Marsupial
@propofol - Saya setuju bahwa kata "percaya" bukanlah gagasan yang tepat untuk digunakan dalam statistik - itu mengandung jenis konotasi yang salah. Informasi adalah kata yang jauh lebih tepat menurut saya (yaitu, "informasi apa yang Anda miliki?"). Itu tidak mengubah matematika atau teorema optimalitas dari analisis Bayesian, tetapi memberi mereka arti yang tepat dalam hal bagaimana mereka sebenarnya digunakan. misalnya pengetahuan tentang teori fisik atau mekanisme sebab akibat adalah informasi, dan bukan kepercayaan.
probabilityislogic