Apa saja makalah statistik terapan yang menarik dan ditulis dengan baik?

28

Apa saja makalah bagus yang menggambarkan aplikasi statistik yang akan menyenangkan dan informatif untuk dibaca? Untuk lebih jelasnya, saya tidak benar-benar mencari makalah yang menjelaskan metode statistik baru (misalnya, makalah tentang regresi sudut terkecil), tetapi makalah yang menjelaskan cara mengatasi masalah dunia nyata.

Sebagai contoh, satu kertas yang cocok dengan apa yang saya cari adalah kertas iklim dari Cross-Validated Journal Club kedua . Saya agak mencari lebih banyak makalah statistik-ish, daripada makalah pembelajaran mesin, tapi saya kira itu semacam perbedaan fuzzy (saya akan mengklasifikasikan makalah Netflix Prize sebagai sedikit batas, dan makalah tentang analisis sentimen sebagai sesuatu Saya tidak mencari).

Saya bertanya karena sebagian besar aplikasi statistik yang saya lihat adalah potongan kecil yang Anda lihat di buku teks, atau hal-hal yang berkaitan dengan karya saya sendiri, jadi saya ingin sedikit bercabang.

raegtin
sumber
4
Apakah Anda memiliki minat umum yang ingin Anda daftarkan? Itu mungkin membantu memandu saran. Aplikasi statistik telah menjadi sangat luas dalam berbagai bidang yang sangat luas.
kardinal
1
@ cardinal, nggak, tidak ada minat khusus - tujuannya adalah untuk keluar dari hal-hal yang biasanya saya baca, jadi saya berusaha untuk tidak membatasi jawaban apa pun. (Ini mungkin membuat pertanyaannya agak terlalu luas, tapi saya rasa saya sedang mencari daftar "terbaik" pribadi orang.)
raegtin
1
Bacaan klasik yang harus dibaca, terutama karena semua model probabilitas yang diperkenalkan dimotivasi oleh alasan "fisik" tentang masalah, daripada ditarik keluar dari topi, adalah: F. Mosteller, DL Wallace (1963): Kesimpulan dalam masalah kepenulisan: Sebuah studi perbandingan metode diskriminasi diterapkan pada kepenulisan makalah Federalis yang disengketakan , J. Am. Stat. Assoc. 58 (302), hlm. 275–309. Juga di tautan ini .
pglpm

Jawaban:

12

Agak sulit bagi saya untuk melihat kertas apa yang mungkin menarik bagi Anda, jadi izinkan saya mencoba dan menyarankan yang berikut, dari literatur psikometrik:

Borsboom, D. (2006). Serangan para psikometri . Psychometrika , 71 , 425-440.

untuk berpakaian adegan (Mengapa kita perlu menggunakan model statistik yang lebih mencerminkan hipotesis yang mendasari umumnya ditemukan dalam penelitian psikologis?), dan

Borsboom, D. (2008). Perspektif psikometri pada sistem diagnostik . Jurnal Psikologi Klinis , 64 , 1089-1108.

untuk perspektif terapan pada obat diagnostik (transisi dari penilaian ya / tidak seperti yang digunakan dalam DSM-IV ke pendekatan "dimensi" yang dimaksudkan untuk DSM-V). Tinjauan yang lebih besar dari model variabel laten dalam penelitian biomedis yang saya suka adalah:

Rabe-Hesketh, S. dan Skrondal, A. (2008). Model variabel laten klasik untuk penelitian medis . Metode Statistik dalam Penelitian Medis , 17 (1) , 5-32.

chl
sumber
@ chl (+1) kertas-kertas Borsboom itu bagus, mereka benar-benar memperluas pemikiran saya tentang pengukuran
richiemorrisroe
+1, saya menikmati Borsboom juga. Bagi mereka yang tertarik dengan artikel The Attack saya pikir juga akan tertarik pada "Konsep Keabsahan", rhowell.ba.ttu.edu/borsboomValidity2004.pdf . Meskipun sedikit lebih verbose sehingga tidak mudah diikuti seperti artikel Attack.
Andy W
10

Berikut adalah lima makalah yang sangat dikutip dari 40 tahun terakhir Journal of Royal Statistics Society, Seri C: Statistik Terapan dengan aplikasi yang jelas dalam judul yang menarik perhatian saya saat memindai melalui hasil pencarian Web of Knowledge:

onestop
sumber
9

Pada tingkat yang lebih luas saya akan merekomendasikan makalah ["Pemodelan Statistik: Dua Budaya"] [1] oleh Leo Breiman pada tahun 2001 (dikutip 515). Saya tahu makalah ini diliput oleh klub jurnal baru-baru ini dan saya merasa kertas itu benar-benar menarik. Saya sudah menyimpan abstraknya.

Abstrak. Ada dua budaya dalam penggunaan pemodelan statistik untuk mencapai kesimpulan dari data. Satu mengasumsikan bahwa data dihasilkan oleh model data stokastik yang diberikan. Yang lainnya menggunakan model algoritmik dan memperlakukan mekanisme data sebagai tidak dikenal. Komunitas statistik telah berkomitmen untuk penggunaan model data yang hampir eksklusif. Komitmen ini telah mengarah pada teori yang tidak relevan, kesimpulan yang dipertanyakan, dan telah membuat ahli statistik dari bekerja pada sejumlah besar masalah saat ini yang menarik. Pemodelan algoritma, baik dalam teori maupun praktik, telah berkembang pesat dalam bidang di luar statistik. Ini dapat digunakan baik pada set data besar yang kompleks dan sebagai alternatif yang lebih akurat dan informatif untuk pemodelan data pada set data yang lebih kecil. Jika tujuan kami sebagai bidang adalah menggunakan data untuk menyelesaikan masalah,

[1]: https://doi.org/10.1214/ss/1009213726 (akses terbuka)

Parbury
sumber
8

Dari perspektif epidemiologi genetik, sekarang saya akan merekomendasikan serangkaian makalah berikut tentang studi asosiasi genome :

  1. Cordell, HJ dan Clayton, DG (2005). Studi asosiasi genetik . Lancet 366, 1121-1131.
  2. Cantor, RM, Lange, K., dan Sinsheimer, JS (2010). Memprioritaskan hasil GWAS: Tinjauan metode statistik dan rekomendasi untuk aplikasi mereka . The American Journal of Human Genetics 86, 6-22.
  3. Ioannidis, JPA, Thomas, G., Daly, MJ (2009). Memvalidasi, menambah, dan menyempurnakan sinyal asosiasi genom-lebar . Ulasan Alam Genetika 10, 318-329.
  4. Balding, DJ (2006). Tutorial tentang metode statistik untuk studi asosiasi populasi . Ulasan Alam Genetika 7, 781-791.
  5. Hijau, AE dkk. (2008). Menggunakan data genetik dalam ilmu saraf kognitif: dari rasa sakit yang berkembang hingga wawasan yang asli . Ulasan Alam Neuroscience 9, 710-720.
  6. McCarthy, MI dkk. (2008). Studi asosiasi genome untuk sifat kompleks: konsensus, ketidakpastian dan tantangan . Ulasan Alam Genetika 9, 356-369.
  7. Komite Koordinasi Konsorsium Psikiatri GWAS (2009). Studi Asosiasi Genomewide: Sejarah, Rasional, dan Prospek Gangguan Jiwa . American Journal of Psychiatry 166 (5), 540-556.
  8. Sebastiani, P. et al. (2009). Studi asosiasi genome-lebar dan diseksi genetik sifat kompleks . American Journal of Hematology 84 (8), 504-15.
  9. The Wellcome Trust Case Control Consortium (2007). Studi asosiasi genome-lebar dari 14.000 kasus tujuh penyakit umum dan 3.000 kontrol bersama . Alam 447, 661-678.
  10. The Wellcome Trust Case Control Consortium (2010). Studi asosiasi genome luas CNV di 16.000 kasus delapan penyakit umum dan 3.000 kontrol bersama . Alam 464, 713-720.
chl
sumber
2

Sebuah artikel dengan dampak awal mengenai penelitian bioinformatika statistik:

Jelizarow et al . Terlalu optimisme dalam bioinformatika: sebuah ilustrasi . Bioinformatika, 2010

Itu membuat diskusi yang menarik tentang sumber bias, overfitting, dan memancing untuk signifikansi.

Borlaug
sumber