Rekomendasi untuk artikel non-teknis namun mendalam dalam statistik

24

Inspirasi untuk pertanyaan ini datang dari artikel Leo-Breiman yang terkenal, Pemodelan Statistik: The Two Cultures (akses terbuka yang tersedia). Penulis membandingkan apa yang dilihatnya sebagai dua pendekatan berbeda untuk menganalisis data, menyentuh ide-ide kunci dalam statistik klasik dan pembelajaran mesin. Namun, artikel ini dapat dipahami oleh khalayak luas - dapat diperdebatkan bagi siapa saja yang bekerja dengan data, terlepas dari apakah mereka telah mengejar statistik di tingkat doktoral atau hanya mengambil kursus pengantar. Apalagi, artikel itu merangsang . Yaitu, ia dengan mudah menghasilkan diskusi (seperti yang dibuktikan oleh serangkaian komentar hidup yang diterbitkan dalam edisi yang sama).

Saya ingin tahu untuk menemukan lebih banyak artikel dengan kualitas ini. Yaitu, artikel yang:

  • Menyentuh konsep dasar dalam statistik / analisis data
  • Dapat dipahami oleh khalayak luas dalam hal variasi dalam fokus penelitian dan pelatihan statistik formal
  • Merangsang diskusi, baik melalui wawasan atau kontroversi
Richard Border
sumber
2
Jawabannya sejauh ini sangat menarik! Biarkan mereka datang. Tentu saja, saya tidak akan menerima jawaban apa pun sesuai meta.stats.stackexchange.com/questions/409/…
Richard Border
2
Tidak ada Royal Road ke statistik.
Aksakal

Jawaban:

15

Shmueli, Galit. "Untuk menjelaskan atau memprediksi?" Ilmu statistik (2010): 289-310.

Saya percaya itu cocok dengan tiga poin Anda.

Ini berbicara tentang pemodelan penjelas dan penjelas prediktif (istilah harus jelas) dan mencatat bahwa perbedaan di antara mereka sering tidak diakui.

Ini menimbulkan poin bahwa tergantung pada tujuan pemodelan (eksplanatori vs prediksi), strategi membangun model yang berbeda dapat digunakan dan model yang berbeda dapat dipilih sebagai model "yang terbaik".

Ini adalah makalah yang agak komprehensif dan bacaan yang menyenangkan. Diskusi tentang hal itu dirangkum dalam posting blog Rob J. Hyndman . Diskusi terkait Cross Validated ada di utas ini (dengan banyak upvotes). Pertanyaan (tidak dijawab) lain tentang topik yang sama adalah ini .

Richard Hardy
sumber
12

Lehmann, Erich L. "Teori Fisher, Neyman-Pearson menguji hipotesis: Satu atau dua teori?" Jurnal Asosiasi Statistik Amerika 88.424 (1993): 1242-1249.

Tidak diketahui banyak orang, tetapi ketika para raksasa profesi masih ada di antara kita, mereka tidak cocok satu sama lain. Perdebatan tentang dasar-dasar pengujian hipotesis secara khusus, apakah itu harus induktif atau deduktif, melihat beberapa penghinaan yang cukup serius terbang antara Fisher di satu sisi dan Neyman-Pearson di sisi lain. Dan masalah itu tidak pernah terjadi selama masa hidup mereka.

Lama setelah mereka semua berlalu, Lehmann mencoba menjembatani kesenjangan dan menurut saya melakukan pekerjaan dengan baik karena ia menunjukkan bahwa pendekatannya saling melengkapi daripada eksklusif. Inilah yang dipelajari siswa saat ini. Anda perlu mengetahui beberapa hal mendasar tentang pengujian hipotesis tetapi Anda dapat mengikuti makalah ini tanpa masalah.

JohnK
sumber
1
Terima kasih untuk kutipannya. Saya pernah mengajukan pertanyaan tentang dugaan konflik antara pendekatan F dan NP: stats.stackexchange.com/questions/112769 , dan meskipun banyak perhatian dan peningkatan yang diterima, saya masih belum yakin dengan jawaban yang ada (dan tidak terima apa saja). Saya berencana untuk kembali ke utas itu dan membaca / memberikan hadiah atau sesuatu, tetapi tidak pernah menemukan waktu; jika Anda terbiasa dengan makalah Lehmann, saya akan mendorong Anda untuk berkontribusi jawaban di sana
Amoeba berkata Reinstate Monica
@amoeba Saya telah membaca makalah Lehmann berulang kali, ini sangat mudah dibaca tetapi saya tidak berpikir saya telah meneliti masalah ini sebaik Anda. Jadi, setiap kali Anda punya waktu, itu adalah ide yang baik bagi Anda untuk membahasnya dan melihat sudut pandangnya. Anda akan menemukan diskusi tentang masalah Behrens-Fisher secara khusus mengungkapkan.
JohnK
Terima kasih telah berbagi. Mungkin yang saya dengar agak sepihak, tetapi semua yang saya dengar tentang Sir Ron Fisher adalah bahwa dia adalah orang yang agak tidak menyenangkan untuk diajak bicara. Dia juga memiliki beberapa pendapat yang dipertanyakan tentang hubungan antara penggunaan tembakau dan kanker paru-paru .
Phil
Alternatif "yang lebih ringan" untuk artikel ini adalah Christensen, Ronald. "Menguji Fisher, Neyman, Pearson, dan Bayes." The American Statistician 59.2 (2005): 121-126. Saya menemukan itu menyenangkan.
Richard Hardy
9

Wilk, MB dan Gnanadesikan, R. 1968. Probabilitas merencanakan metode untuk analisis data. Biometrika 55: 1-17. Tautan Jstor jika Anda memiliki akses

Makalah ini, pada saat saya menulis, hampir 50 tahun tetapi masih terasa segar dan inovatif. Dengan menggunakan beragam contoh menarik dan substansial, penulis menyatukan dan memperluas berbagai ide untuk merencanakan dan membandingkan distribusi menggunakan kerangka QQ (quantile-quantile) dan plot PP (probabilitas-probabilitas). Distribusi di sini berarti secara luas setiap set data atau angka (residu, kontras, dll.,) Yang muncul dalam analisisnya.

Versi tertentu dari plot-plot ini kembali beberapa dekade, yang paling jelas adalah probabilitas normal atau plot skor normal. yang dalam hal ini adalah plot kuantil-kuantil, yaitu plot kuantil yang diamati versus kuantil yang diharapkan atau teoritis dari sampel dengan ukuran yang sama dari distribusi normal (Gaussian). Tetapi penulis menunjukkan, dengan sederhana namun penuh percaya diri, bahwa gagasan yang sama dapat diperluas dengan mudah - dan praktis dengan komputasi modern - untuk memeriksa jenis-jenis kuantil lain dan merencanakan hasilnya secara otomatis.

Para penulis, kemudian keduanya di Bell Telephone Laboratories, menikmati fasilitas komputasi canggih, dan bahkan banyak universitas dan lembaga penelitian membutuhkan waktu satu dekade atau lebih untuk mengejar ketinggalan. Bahkan sekarang, ide-ide dalam makalah ini layak aplikasi yang lebih luas daripada yang mereka dapatkan. Ini adalah teks atau kursus pengantar langka yang mencakup semua ide ini selain plot QQ normal. Histogram dan plot kotak (masing-masing sering sangat bermanfaat, namun demikian masing-masing canggung dan terbatas dalam beberapa cara) terus menjadi bahan pokok utama ketika plot distribusi diperkenalkan.

Pada tingkat pribadi, meskipun ide-ide utama dari makalah ini telah akrab bagi sebagian besar karir saya, saya senang membacanya kembali setiap beberapa tahun atau lebih. Salah satu alasan bagus adalah kesenangan pada cara penulis menghasilkan ide-ide sederhana tetapi kuat untuk efek yang baik dengan contoh-contoh serius. Alasan bagus lainnya adalah cara makalah itu, yang ditulis secara ringkas, tanpa jejak bombastis sedikit pun, mengisyaratkan perluasan gagasan-gagasan utama. Lebih dari sekali, saya telah menemukan tikungan pada ide-ide utama yang dibahas secara eksplisit dalam petunjuk samping dan komentar lebih lanjut.

Ini bukan hanya sebuah makalah untuk mereka yang khususnya tertarik pada grafik statistik, meskipun menurut saya itu harus mencakup semua orang yang tertarik pada statistik dalam bentuk apa pun. Ini mempromosikan cara berpikir tentang distribusi yang praktis membantu dalam mengembangkan keterampilan dan wawasan statistik siapa pun.

Nick Cox
sumber
2
Ini pilihan yang bagus. Saya sudah membaca ini beberapa kali - segera setelah saya melihat nama penulis dalam jawaban Anda, saya tahu makalah ini, dan segera saya ingin membacanya lagi. Saya pikir saya punya salinannya di sini di suatu tempat ...
Glen_b -Reinstate Monica
6

Ioannidis, John PA "Mengapa Temuan Penelitian Terbanyak Adalah Palsu." Kedokteran PLoS (2005)

Ioannidis, John PA "Bagaimana Membuat Lebih Banyak Penelitian Diterbitkan Benar." PLoS Medicine (2014)

Harus dibaca untuk setiap peneliti / ahli statistik / analis yang ingin menghindari bahaya menggunakan dan menafsirkan statistik secara tidak benar dalam penelitian. Artikel 2005 adalah yang paling banyak diakses dalam sejarah Public Library of Science, dan merangsang banyak kontroversi dan diskusi.

LindsayL
sumber
6

Tukey, JW (1960) Kesimpulan vs Keputusan Technometrics 2 (4): 423-433

Makalah ini didasarkan pada pembicaraan setelah makan malam oleh Tukey dan ada komentar bahwa 'diskusi besar terjadi' sehingga cocok dengan setidaknya sepertiga dari titik poin Anda.

Saya pertama kali membaca makalah ini ketika saya sedang menyelesaikan PhD dalam bidang teknik dan menghargai eksplorasi atas kepraktisan analisis data.

Tony Ladson
sumber
Tautan tidak berfungsi. Ini berfungsi
kjetil b halvorsen
5

Efron dan Morris, 1977, Paradox Stein dalam Statistik .

Efron dan Morris menulis serangkaian makalah teknis tentang penduga James-Stein di tahun 1970-an, membingkai "paradoks" Stein dalam konteks Empirical Bayes. Makalah 1977 adalah yang populer yang diterbitkan di Scientific American .

Ini adalah bacaan yang bagus .

amuba kata Reinstate Monica
sumber
3

Yah, meskipun minat yang lebih besar pada Roy Model adalah di antara para ekonom (tapi saya mungkin salah), makalah aslinya "Some Thoughts on Distribution of Earnings" dari tahun 1951, adalah diskusi yang mendalam dan nonteknis tentang masalah pemilihan sendiri. Makalah ini berfungsi sebagai inspirasi untuk model seleksi yang dikembangkan oleh hadiah nobel James Heckman. Meskipun tua, saya pikir itu cocok dengan tiga poin Anda.

Rodrigo Remedio
sumber