Intuisi statistik / pengertian data

20

Saya seorang mahasiswa tahun kedua sarjana, belajar Matematika, dan saya telah berbicara dengan salah satu profesor saya tentang perbedaan antara kemampuan matematika dan kemampuan statistik. Salah satu perbedaan utama yang ia kemukakan adalah "data sense" yang ia jelaskan sebagai kombinasi dari kemampuan teknis saat beroperasi dalam seperangkat apa yang secara informal akan saya sebut "pengekangan akal sehat" yaitu tidak kehilangan pandangan akan realitas masalah di tengah-tengah banyak teori. Ini adalah contoh dari apa yang saya bicarakan, yang muncul di blog Gowers:

Di beberapa bagian Inggris polisi mengumpulkan statistik di mana kecelakaan jalan terjadi, mengidentifikasi blackspot kecelakaan, menempatkan kamera kecepatan di sana, dan mengumpulkan lebih banyak statistik. Ada kecenderungan pasti jumlah kecelakaan di blackspot ini menurun setelah kecepatan kamera dipasang. Apakah ini menunjukkan secara meyakinkan bahwa kamera kecepatan meningkatkan keselamatan di jalan?

Orang yang sama yang berpendapat untuk strategi acak dalam permainan negosiasi pada dasarnya sudah tahu jawaban atas pertanyaan ini. Dia mengatakan tidak, karena jika Anda memilih kasus ekstrim maka Anda akan mengharapkan mereka menjadi kurang ekstrim jika Anda menjalankan eksperimen lagi. Saya memutuskan untuk pindah dengan cepat dari pertanyaan ini karena tidak banyak yang bisa dikatakan. Tetapi saya memberi tahu orang-orang tentang rencana yang saya miliki, yaitu melakukan eksperimen telepati palsu. Saya akan meminta mereka untuk menebak hasil dari 20 lemparan koin, yang akan saya coba sampaikan kepada mereka secara telepati. Saya kemudian akan memilih tiga pemain terbaik dan tiga terburuk, dan akan melemparkan koin lagi, kali ini meminta yang terbaik untuk membantu saya mengirimkan jawaban kepada yang terburuk. Orang-orang dapat dengan mudah melihat bahwa pertunjukan akan diharapkan meningkat dan bahwa itu tidak ada hubungannya dengan telepati.

Yang saya tanyakan adalah bagaimana mempelajari lebih lanjut tentang "pengertian data" ini , melalui publikasi apa pun tentang subjek tersebut, apakah ada, atau melalui apa yang ditemukan oleh pengguna lain yang membantu mengembangkan keterampilan ini. Maaf jika pertanyaan ini perlu diklarifikasi; jika demikian, silakan kirim pertanyaan Anda! Terima kasih.

Sedang
sumber
Bagaimana cara berbohong dengan statistik adalah tempat yang bagus untuk memulai.
MånsT
Drunkard's Walk juga menempatkan statistik dalam kerangka kerja yang masuk akal dan masuk akal.
Marcus Morrisey

Jawaban:

10

Pertama saya akan mengatakan bahwa kita tidak boleh sedikit matematika. Ini adalah alat penting dalam pengembangan teori statistik dan metode statistik dibenarkan oleh teori. Teori juga memberi tahu Anda apa yang salah dan teknik apa yang mungkin lebih baik (misalnya lebih efisien). Jadi saya pikir pengetahuan dan pemikiran matematika penting (hampir perlu) untuk menjadi ahli statistik yang baik. Tapi itu jelas tidak cukup. Saya pikir buku yang direferensikan dalam komentar itu bagus. Biarkan saya memberi yang lain.

Memahami Data: Panduan Praktis untuk Analisis Data Eksplorasi dan Penambangan Data

Memahami Data II: Panduan Praktis untuk Visualisasi Data, Metode Penambangan Data Lanjut, dan Aplikasi

Berpikir Statistik: Meningkatkan Kinerja Bisnis

Peran Statistik dalam Bisnis dan Industri

Karier dalam Statistik: Melampaui Angka

Buku-buku oleh Hahn dan Snee sangat berharga dan menarik karena ini adalah ahli statistik industri terkenal dengan keterampilan matematika dan pengalaman praktis.

Michael R. Chernick
sumber
7
Terima kasih atas tautan dan komentarnya. Saya pikir umumnya jawaban dapat ditingkatkan dengan menggunakan [manuscript title](uri) penurunan harga tautan . Setelah hari yang panjang, saya menemukan menemukan jawaban dengan hyperlink panjang bisa secara tidak sadar menggelegar, dan sayangnya mungkin bias pembaca terhadap jawaban yang baik.
jthetzel
@ jthetzel Saya bisa melihat mengapa lebih baik memiliki nama yang mengganti url dalam tautan. Ketika saya punya waktu saya akan belajar untuk melakukannya. Saya tahu itu mudah. Tetapi saya memberi tiga atau empat tautan. hampir tidak ada waktu untuk mengklik tautan dan melihat apa itu. jadi saya tidak benar-benar mengerti mengapa begitu banyak anggota masyarakat yang mempermasalahkannya.
Michael R. Chernick
6

Dalam contoh yang Anda sebutkan, masalah inti adalah inferensial kausal. Tempat yang baik untuk memulai inferensi kausal adalah review tiga buku oleh Andrew Gelman, dan buku-buku diulas di dalamnya. Selain belajar tentang inferensial kausal, Anda harus belajar tentang nilai analisis, deskripsi, dan prediksi data eksplorasi.

Saya telah belajar banyak sekali dengan mendengarkan para ilmuwan sosial saling mengkritik penelitian masing-masing dalam karya yang dipublikasikan, blog , seminar, dan dalam percakapan pribadi - ada banyak cara untuk belajar. Ikuti situs ini, dan blog Andrew Gelman.

Tentu saja, jika Anda menginginkan data-sense, Anda perlu berlatih bekerja dengan data nyata. Ada keterampilan indra data umum, tetapi ada juga indra data yang khusus untuk area masalah, atau bahkan lebih khusus, indra data khusus untuk dataset tertentu.

Michael Bishop
sumber
5

Sumber daya yang bagus dan gratis adalah Chance News Wiki . Ini memiliki banyak contoh yang diambil dari contoh nyata bersama dengan diskusi tentang poin baik dan buruk dalam bagaimana orang menginterpretasikan data dan statistik. Seringkali ada pertanyaan diskusi juga (bagian dari motivasi penglihatan adalah untuk memberikan guru statistik contoh dunia nyata untuk berdiskusi dengan siswa).

Greg Snow
sumber
5

+1 untuk pertanyaan hebat! (Dan memberi +1 kepada semua penjawab sejauh ini.)

Saya pikir ada banyak hal seperti pengertian data, tetapi saya tidak berpikir ada sesuatu yang mistis untuk itu. Analogi yang akan saya gunakan adalah mengemudi. Ketika Anda mengemudi di jalan, Anda hanya tahu apa yang sedang terjadi dengan mobil-mobil lain. Sebagai contoh, Anda tahu bahwa pria di depan Anda di samping sedang mencari tanda jalan di mana ia seharusnya berbelok, meskipun ia tidak menggunakan sinyal gilirannya. Anda secara otomatis mengidentifikasi pengemudi yang lambat, terlalu berhati-hati dan mengantisipasi bagaimana mereka akan bereaksi dalam situasi yang berbeda. Anda dapat melihat remaja yang hanya ingin balapan secepat dia bisa pergi. Anda memiliki pengakuan berbasis rasa dari apa yang semua mobil lakukan. Ini persis sama dengan pengertian data. Itu berasal dari pengalaman, banyakpengalaman. Jika Anda cukup tahu teorinya, Anda hanya perlu mulai bermain dengan dataset nyata. Anda mungkin tertarik menjelajahi situs seperti DASL . Namun satu syarat, Anda tidak harus hanya mendapatkan pengalaman dalam memuat data, menjalankan tes, dan mendapatkan nilai p. Anda perlu menjelajahi data, mungkin memplotnya dengan cara yang berbeda, menyesuaikan beberapa model, dan memikirkan apa yang terjadi. (Perhatikan bahwa EDA telah menjadi topik umum di sini.)

Satu fakta yang mungkin tidak jelas tentang proses ini, adalah bahwa indra data dapat dilokalisasi ke area topikal tertentu. Misalnya, Anda bisa mendapatkan banyak pengalaman bekerja dengan data eksperimental dan ANOVA, tetapi tidak harus memiliki perasaan yang baik untuk apa yang terjadi ketika Anda melihat data seri waktu atau data survival.

Izinkan saya menambahkan satu lagi strategi yang menurut saya sangat membantu: Saya pikir ini layak untuk waktu Anda untuk mempelajari sedikit pemrograman (statistik). Anda tidak harus sangat mahir dalam hal itu (saya dikenal karena menulis kode "sangat tidak efisien"). Namun, begitu Anda dapat menulis beberapa kode prosedural dasar (misalnya dalam R), Anda dapat mensimulasikan . Akan sulit bagi saya untuk terlalu menekankan seberapa banyak yang dapat dilakukan bahkan simulasi yang sangat sederhana dapat membantu. Satu hal yang dapat Anda gunakan untuk ini adalah, ketika dalam perjalanan studi Anda, Anda membaca tentang beberapa properti yang dapat Anda jelajahi. Misalnya, jika Anda tahu (secara abstrak) bahwa sulit untuk menentukan secara empiris apakah logit atau model probit lebih baik untuk dataset, Anda dapat membuat kode simulasi sederhana inidan bermain dengan mereka untuk memahami gagasan itu lebih lengkap. Ini juga akan memberi Anda pengalaman, tetapi dari jenis yang sedikit berbeda, dan juga akan membantu Anda mengembangkan indra data Anda.

gung - Reinstate Monica
sumber
+1 Untuk menekankan nilai belajar dari simulasi.
whuber