Inspirasi untuk pertanyaan ini datang dari artikel Leo-Breiman yang terkenal, Pemodelan Statistik: The Two Cultures (akses terbuka yang tersedia). Penulis membandingkan apa yang dilihatnya sebagai dua pendekatan berbeda untuk menganalisis data, menyentuh ide-ide kunci dalam statistik klasik dan pembelajaran mesin. Namun, artikel ini dapat dipahami oleh khalayak luas - dapat diperdebatkan bagi siapa saja yang bekerja dengan data, terlepas dari apakah mereka telah mengejar statistik di tingkat doktoral atau hanya mengambil kursus pengantar. Apalagi, artikel itu merangsang . Yaitu, ia dengan mudah menghasilkan diskusi (seperti yang dibuktikan oleh serangkaian komentar hidup yang diterbitkan dalam edisi yang sama).
Saya ingin tahu untuk menemukan lebih banyak artikel dengan kualitas ini. Yaitu, artikel yang:
- Menyentuh konsep dasar dalam statistik / analisis data
- Dapat dipahami oleh khalayak luas dalam hal variasi dalam fokus penelitian dan pelatihan statistik formal
- Merangsang diskusi, baik melalui wawasan atau kontroversi
sumber
Jawaban:
Shmueli, Galit. "Untuk menjelaskan atau memprediksi?" Ilmu statistik (2010): 289-310.
Saya percaya itu cocok dengan tiga poin Anda.
Ini berbicara tentang pemodelan penjelas dan penjelas prediktif (istilah harus jelas) dan mencatat bahwa perbedaan di antara mereka sering tidak diakui.
Ini menimbulkan poin bahwa tergantung pada tujuan pemodelan (eksplanatori vs prediksi), strategi membangun model yang berbeda dapat digunakan dan model yang berbeda dapat dipilih sebagai model "yang terbaik".
Ini adalah makalah yang agak komprehensif dan bacaan yang menyenangkan. Diskusi tentang hal itu dirangkum dalam posting blog Rob J. Hyndman . Diskusi terkait Cross Validated ada di utas ini (dengan banyak upvotes). Pertanyaan (tidak dijawab) lain tentang topik yang sama adalah ini .
sumber
Tidak diketahui banyak orang, tetapi ketika para raksasa profesi masih ada di antara kita, mereka tidak cocok satu sama lain. Perdebatan tentang dasar-dasar pengujian hipotesis secara khusus, apakah itu harus induktif atau deduktif, melihat beberapa penghinaan yang cukup serius terbang antara Fisher di satu sisi dan Neyman-Pearson di sisi lain. Dan masalah itu tidak pernah terjadi selama masa hidup mereka.
Lama setelah mereka semua berlalu, Lehmann mencoba menjembatani kesenjangan dan menurut saya melakukan pekerjaan dengan baik karena ia menunjukkan bahwa pendekatannya saling melengkapi daripada eksklusif. Inilah yang dipelajari siswa saat ini. Anda perlu mengetahui beberapa hal mendasar tentang pengujian hipotesis tetapi Anda dapat mengikuti makalah ini tanpa masalah.
sumber
Wilk, MB dan Gnanadesikan, R. 1968. Probabilitas merencanakan metode untuk analisis data. Biometrika 55: 1-17. Tautan Jstor jika Anda memiliki akses
Makalah ini, pada saat saya menulis, hampir 50 tahun tetapi masih terasa segar dan inovatif. Dengan menggunakan beragam contoh menarik dan substansial, penulis menyatukan dan memperluas berbagai ide untuk merencanakan dan membandingkan distribusi menggunakan kerangka QQ (quantile-quantile) dan plot PP (probabilitas-probabilitas). Distribusi di sini berarti secara luas setiap set data atau angka (residu, kontras, dll.,) Yang muncul dalam analisisnya.
Versi tertentu dari plot-plot ini kembali beberapa dekade, yang paling jelas adalah probabilitas normal atau plot skor normal. yang dalam hal ini adalah plot kuantil-kuantil, yaitu plot kuantil yang diamati versus kuantil yang diharapkan atau teoritis dari sampel dengan ukuran yang sama dari distribusi normal (Gaussian). Tetapi penulis menunjukkan, dengan sederhana namun penuh percaya diri, bahwa gagasan yang sama dapat diperluas dengan mudah - dan praktis dengan komputasi modern - untuk memeriksa jenis-jenis kuantil lain dan merencanakan hasilnya secara otomatis.
Para penulis, kemudian keduanya di Bell Telephone Laboratories, menikmati fasilitas komputasi canggih, dan bahkan banyak universitas dan lembaga penelitian membutuhkan waktu satu dekade atau lebih untuk mengejar ketinggalan. Bahkan sekarang, ide-ide dalam makalah ini layak aplikasi yang lebih luas daripada yang mereka dapatkan. Ini adalah teks atau kursus pengantar langka yang mencakup semua ide ini selain plot QQ normal. Histogram dan plot kotak (masing-masing sering sangat bermanfaat, namun demikian masing-masing canggung dan terbatas dalam beberapa cara) terus menjadi bahan pokok utama ketika plot distribusi diperkenalkan.
Pada tingkat pribadi, meskipun ide-ide utama dari makalah ini telah akrab bagi sebagian besar karir saya, saya senang membacanya kembali setiap beberapa tahun atau lebih. Salah satu alasan bagus adalah kesenangan pada cara penulis menghasilkan ide-ide sederhana tetapi kuat untuk efek yang baik dengan contoh-contoh serius. Alasan bagus lainnya adalah cara makalah itu, yang ditulis secara ringkas, tanpa jejak bombastis sedikit pun, mengisyaratkan perluasan gagasan-gagasan utama. Lebih dari sekali, saya telah menemukan tikungan pada ide-ide utama yang dibahas secara eksplisit dalam petunjuk samping dan komentar lebih lanjut.
Ini bukan hanya sebuah makalah untuk mereka yang khususnya tertarik pada grafik statistik, meskipun menurut saya itu harus mencakup semua orang yang tertarik pada statistik dalam bentuk apa pun. Ini mempromosikan cara berpikir tentang distribusi yang praktis membantu dalam mengembangkan keterampilan dan wawasan statistik siapa pun.
sumber
Ioannidis, John PA "Mengapa Temuan Penelitian Terbanyak Adalah Palsu." Kedokteran PLoS (2005)
Ioannidis, John PA "Bagaimana Membuat Lebih Banyak Penelitian Diterbitkan Benar." PLoS Medicine (2014)
Harus dibaca untuk setiap peneliti / ahli statistik / analis yang ingin menghindari bahaya menggunakan dan menafsirkan statistik secara tidak benar dalam penelitian. Artikel 2005 adalah yang paling banyak diakses dalam sejarah Public Library of Science, dan merangsang banyak kontroversi dan diskusi.
sumber
Tukey, JW (1960) Kesimpulan vs Keputusan Technometrics 2 (4): 423-433
Makalah ini didasarkan pada pembicaraan setelah makan malam oleh Tukey dan ada komentar bahwa 'diskusi besar terjadi' sehingga cocok dengan setidaknya sepertiga dari titik poin Anda.
Saya pertama kali membaca makalah ini ketika saya sedang menyelesaikan PhD dalam bidang teknik dan menghargai eksplorasi atas kepraktisan analisis data.
sumber
Efron dan Morris, 1977, Paradox Stein dalam Statistik .
Efron dan Morris menulis serangkaian makalah teknis tentang penduga James-Stein di tahun 1970-an, membingkai "paradoks" Stein dalam konteks Empirical Bayes. Makalah 1977 adalah yang populer yang diterbitkan di Scientific American .
Ini adalah bacaan yang bagus .
sumber
Yah, meskipun minat yang lebih besar pada Roy Model adalah di antara para ekonom (tapi saya mungkin salah), makalah aslinya "Some Thoughts on Distribution of Earnings" dari tahun 1951, adalah diskusi yang mendalam dan nonteknis tentang masalah pemilihan sendiri. Makalah ini berfungsi sebagai inspirasi untuk model seleksi yang dikembangkan oleh hadiah nobel James Heckman. Meskipun tua, saya pikir itu cocok dengan tiga poin Anda.
sumber