Saya suka buku G van Belle tentang Aturan Statistik Thumb , dan pada tingkat lebih rendah Kesalahan Umum dalam Statistik (dan Cara Menghindari Mereka) dari Phillip I Good dan James W. Hardin. Mereka mengatasi perangkap umum ketika menafsirkan hasil dari studi eksperimental dan pengamatan dan memberikan rekomendasi praktis untuk inferensi statistik, atau analisis data eksplorasi. Tapi saya merasa bahwa pedoman "modern" agak kurang, terutama dengan semakin meningkatnya penggunaan statistik komputasi dan kuat di berbagai bidang, atau pengenalan teknik dari komunitas pembelajaran mesin, misalnya biostatistik klinis atau epidemiologi genetik.
Terlepas dari trik komputasi atau perangkap umum dalam visualisasi data yang dapat diatasi di tempat lain, saya ingin bertanya: Apa aturan utama yang Anda rekomendasikan untuk analisis data yang efisien? ( tolong, satu aturan per jawaban ).
Saya sedang memikirkan pedoman yang mungkin Anda berikan kepada seorang kolega, seorang peneliti tanpa latar belakang yang kuat dalam pemodelan statistik, atau seorang siswa dalam kursus menengah hingga lanjutan. Ini mungkin berkaitan dengan berbagai tahap analisis data, misalnya strategi pengambilan sampel, pemilihan fitur atau pembuatan model, perbandingan model, estimasi pascabayar, dll.
Jaga agar analisis Anda dapat direproduksi. Seorang reviewer atau bos Anda atau orang lain pada akhirnya akan bertanya kepada Anda bagaimana sebenarnya Anda sampai pada hasil Anda - mungkin enam bulan atau lebih setelah Anda melakukan analisis. Anda tidak akan ingat bagaimana Anda membersihkan data, analisis apa yang Anda lakukan, mengapa Anda memilih model spesifik yang Anda gunakan ... Dan merekonstruksi semua ini merepotkan.
Konsekuensi: gunakan semacam bahasa skrip, beri komentar di skrip analisis Anda, dan simpan. Apa yang Anda gunakan (R, SAS, Stata, apa pun) kurang penting daripada memiliki skrip yang sepenuhnya dapat direproduksi. Tolak lingkungan di mana ini tidak mungkin atau canggung.
sumber
Tidak ada makan siang gratis
Sebagian besar kegagalan statistik dibuat dengan mengklik tombol besar mengkilap yang disebut "Hitung signifikansi" tanpa memperhitungkan beban asumsi tersembunyi.
Ulangi
Bahkan jika ada satu panggilan ke generator acak yang terlibat, seseorang mungkin memiliki keberuntungan atau nasib buruk dan dengan demikian melompat ke kesimpulan yang salah.
sumber
Satu aturan per jawaban ;-)
Bicaralah dengan ahli statistik sebelum melakukan penelitian. Jika memungkinkan, sebelum mengajukan permohonan hibah. Bantu dia untuk memahami masalah yang sedang Anda pelajari, dapatkan inputnya tentang bagaimana menganalisis data yang akan Anda kumpulkan dan pikirkan tentang apa artinya itu bagi desain studi Anda dan persyaratan data. Mungkin orang statistik menyarankan melakukan model hierarkis untuk memperhitungkan siapa yang mendiagnosis pasien - maka Anda perlu melacak siapa yang mendiagnosis siapa. Kedengarannya sepele, tetapi jauh lebih baik untuk memikirkan hal ini sebelum Anda mengumpulkan data (dan gagal mengumpulkan sesuatu yang penting) daripada sesudahnya.
Pada catatan terkait: lakukan analisis daya sebelum memulai. Tidak ada yang frustasi karena tidak dianggarkan untuk ukuran sampel yang cukup besar. Dalam memikirkan tentang ukuran efek apa yang Anda harapkan, ingatlah bias publikasi - ukuran efek yang akan Anda temukan mungkin akan lebih kecil dari apa yang Anda harapkan dengan literatur (bias).
sumber
Satu hal yang saya katakan kepada siswa saya adalah menghasilkan grafik yang sesuai untuk setiap nilai-p. misalnya, sebar jika mereka menguji korelasi, plot box berdampingan jika mereka melakukan ANOVA satu arah, dll.
sumber
Jika Anda memutuskan di antara dua cara untuk menganalisis data Anda, cobalah keduanya dan lihat apakah ada bedanya.
Ini berguna dalam banyak konteks:
Ini seharusnya tidak membebaskan seseorang dari memikirkan masalah ini, tetapi setidaknya memberikan rasa sejauh mana temuan substantif kuat untuk pilihan.
sumber
Tanyakan data Anda. Di era modern RAM murah, kita sering mengerjakan data dalam jumlah besar. Satu kesalahan 'jari gemuk' atau 'tempat desimal hilang' dapat dengan mudah mendominasi analisis. Tanpa pengecekan kewarasan dasar, (atau memplot data, seperti yang disarankan oleh orang lain di sini) orang bisa menghabiskan banyak waktu. Ini juga menyarankan menggunakan beberapa teknik dasar untuk 'ketahanan' untuk outlier.
sumber
Gunakan perangkat lunak yang menunjukkan rantai logika pemrograman dari data mentah hingga analisis / hasil akhir. Hindari perangkat lunak seperti Excel di mana satu pengguna dapat membuat kesalahan yang tidak dapat terdeteksi dalam satu sel, yang hanya akan diperiksa secara manual.
sumber
Selalu tanyakan pada diri sendiri "apa arti hasil ini dan bagaimana hasilnya?"
Biasanya tujuan menggunakan statistik adalah untuk membantu membuat keputusan di bawah ketidakpastian. Jadi penting untuk memiliki di depan pikiran Anda "Keputusan apa yang akan dibuat sebagai hasil dari analisis ini dan bagaimana analisis ini akan mempengaruhi keputusan ini?" (misalnya, mempublikasikan artikel, merekomendasikan metode baru digunakan, memberikan $ X dalam pendanaan untuk Y, mendapatkan lebih banyak data, melaporkan perkiraan kuantitas sebagai E, dll. dll)
Jika Anda tidak merasa bahwa ada keputusan yang harus dibuat, maka orang bertanya-tanya mengapa Anda melakukan analisis di tempat pertama (karena itu cukup mahal untuk melakukan analisis). Saya menganggap statistik sebagai "gangguan" karena ini adalah sarana untuk mencapai tujuan, bukan tujuan itu sendiri. Dalam pandangan saya, kami hanya mengukur ketidakpastian sehingga kami dapat menggunakannya untuk membuat keputusan yang menjelaskan ketidakpastian ini dengan cara yang tepat.
Saya pikir ini adalah salah satu alasan mengapa menjaga hal-hal sederhana adalah kebijakan yang baik secara umum, karena biasanya lebih mudah untuk menghubungkan solusi sederhana dengan dunia nyata (dan karenanya dengan lingkungan di mana keputusan sedang dibuat) daripada solusi kompleks . Biasanya juga lebih mudah untuk memahami keterbatasan jawaban yang sederhana. Anda kemudian pindah ke solusi yang lebih kompleks ketika Anda memahami keterbatasan dari solusi sederhana, dan bagaimana solusi yang kompleks mengatasinya.
sumber
Mungkin ada daftar panjang tetapi untuk menyebutkan beberapa: (tanpa urutan tertentu)
Nilai-P BUKAN probabilitas. Secara khusus, ini bukan probabilitas melakukan kesalahan Tipe I. Demikian pula, CI tidak memiliki interpretasi probabilistik untuk data yang diberikan. Mereka berlaku untuk percobaan berulang.
Masalah yang terkait dengan varians mendominasi sebagian besar waktu dalam praktik, sehingga estimasi bias dengan varians kecil lebih baik daripada estimasi bias dengan varians besar (sebagian besar waktu).
Pemasangan model adalah proses berulang. Sebelum menganalisis data, pahami sumber data dan kemungkinan model yang sesuai atau tidak sesuai dengan deskripsi. Coba juga buat model masalah desain apa pun dalam model Anda.
Gunakan alat visualisasi, lihat data (untuk kemungkinan kelainan, tren yang jelas, dll, untuk memahami data) sebelum menganalisisnya. Gunakan metode visualisasi (jika mungkin) untuk melihat bagaimana model cocok dengan data itu.
Terakhir namun tidak kalah pentingnya, gunakan perangkat lunak statistik untuk apa tujuan dibuatnya (untuk memudahkan tugas perhitungan Anda), mereka bukan pengganti pemikiran manusia.
sumber
Untuk organisasi / manajemen data, pastikan bahwa ketika Anda membuat variabel baru dalam dataset (misalnya, menghitung indeks massa tubuh dari tinggi dan berat), variabel asli tidak pernah dihapus. Pendekatan non-destruktif adalah yang terbaik dari perspektif reproduktifitas. Anda tidak pernah tahu kapan Anda salah memasukkan perintah dan selanjutnya harus mengulang pembuatan variabel Anda. Tanpa variabel asli, Anda akan kehilangan banyak waktu!
sumber
Berpikir keras tentang proses pembuatan data yang mendasarinya (DGP). Jika model yang ingin Anda gunakan tidak mencerminkan DGP, Anda perlu menemukan model baru.
sumber
Untuk histogram, aturan praktis yang baik untuk jumlah sampah dalam histogram :
akar kuadrat dari jumlah titik data
sumber
Meskipun semakin banyak dataset dan perangkat lunak yang lebih kuat, model over-fitting merupakan bahaya besar bagi para peneliti, terutama mereka yang belum dibakar oleh over-fitting. Over-fitting berarti Anda telah memasang sesuatu yang lebih rumit daripada data Anda dan canggih. Seperti cinta atau keindahan, sulit untuk didefinisikan, apalagi untuk mendefinisikan secara formal, tetapi lebih mudah untuk dikenali.
Aturan praktis minimal adalah 10 titik data untuk setiap parameter yang diperkirakan untuk sesuatu seperti regresi klasik, dan perhatikan konsekuensinya jika Anda mengabaikannya. Untuk analisis lain, Anda biasanya perlu lebih banyak untuk melakukan pekerjaan dengan baik, terutama jika ada kategori langka dalam data.
Bahkan jika Anda dapat menyesuaikan model dengan mudah, Anda harus selalu khawatir tentang apa artinya dan seberapa jauh itu dapat direproduksi bahkan dengan dataset yang sangat mirip.
sumber
sumber
Jika model tidak akan bertemu dengan mudah dan cepat, itu bisa menjadi kesalahan perangkat lunak. Namun, jauh lebih umum bahwa data Anda tidak cocok untuk model atau model tidak cocok untuk data. Mungkin sulit untuk mengatakan mana, dan para empiris dan ahli teori dapat memiliki pandangan yang berbeda. Tapi pemikiran subjek, benar-benar melihat data, dan terus-menerus berpikir tentang interpretasi model membantu sebanyak mungkin. Di atas segalanya, coba model yang lebih sederhana jika yang rumit tidak akan bertemu.
Tidak ada keuntungan dalam memaksakan konvergensi atau dalam menyatakan kemenangan dan mengambil hasil setelah banyak iterasi tetapi sebelum model Anda benar-benar telah bertemu. Paling-paling Anda membodohi diri sendiri jika melakukannya.
sumber
Dalam variabel-variabel instrumental, regresi selalu memeriksa signifikansi bersama dari instrumen Anda. Aturan praktis Staiger-Stock mengatakan bahwa F-statistik kurang dari 10 mengkhawatirkan dan menunjukkan bahwa instrumen Anda mungkin lemah, yaitu mereka tidak cukup berkorelasi dengan variabel endogen. Namun, ini tidak secara otomatis menyiratkan bahwa F di atas 10 menjamin instrumen yang kuat. Staiger dan Stock (1997) telah menunjukkan bahwa teknik variabel instrumental seperti 2SLS dapat menjadi bias buruk dalam sampel "kecil" jika instrumen hanya berkorelasi lemah dengan variabel endogen. Contoh mereka adalah penelitian oleh Angrist dan Krueger (1991) yang memiliki lebih dari 300.000 pengamatan - fakta yang mengganggu tentang gagasan sampel "kecil".
sumber
Tidak ada kriteria untuk memilih kriteria informasi.
Begitu seseorang mengatakan sesuatu seperti "IC? Menunjukkan ini, tetapi diketahui sering memberikan hasil yang salah" (di mana? Apakah ada huruf yang Anda suka), Anda tahu bahwa Anda juga harus memikirkan tentang model dan terutama apakah itu membuat pengertian ilmiah atau praktis.
Tidak ada aljabar yang bisa memberitahumu.
sumber
Saya membaca ini di suatu tempat (mungkin di lintas divalidasi) dan saya belum dapat menemukannya di mana pun, jadi begini ...
Jika Anda menemukan hasil yang menarik, itu mungkin salah.
Sangat mudah untuk bersemangat dengan prospek nilai-p yang mengejutkan atau kesalahan validasi silang yang hampir sempurna. Saya secara pribadi menyampaikan hasil yang luar biasa (salah) kepada rekan kerja hanya untuk menariknya kembali. Paling sering, jika terlihat terlalu bagus untuk menjadi kenyataan ...
ini benar. "Sama sekali benar.
sumber
Cobalah untuk menjadi gagah berani daripada berbudi luhur. Yaitu, jangan biarkan tanda-tanda kecil tentang Normal, non-kemerdekaan atau non-linearitas, dll. Menghalangi jalan Anda jika indikasi seperti itu perlu diabaikan untuk membuat data berbicara dengan keras dan jelas. . - Dalam bahasa Denmark, 'dristig' vs 'dydig' adalah kata sifat.
sumber
Saat menganalisis data longitudinal pastikan untuk memeriksa bahwa variabel dikodekan dengan cara yang sama di setiap periode waktu.
Saat menulis disertasi saya, yang mensyaratkan analisis data sekunder, ada sekitar satu minggu atau lebih kebingungan dari 1 unit pergeseran dalam skor depresi rata-rata melintasi rata-rata yang stabil berdasarkan tahun: ternyata salah satu tahun di saya kumpulan data, item skala untuk instrumen yang divalidasi telah diberi kode 1-4 bukannya 0-3.
sumber
Hipotesis Anda harus mengarahkan pilihan model Anda, bukan sebaliknya.
Mengutip Maslow, jika Anda palu, semuanya tampak seperti paku. Model spesifik datang dengan penutup mata dan asumsi tentang dunia yang dibangun di dalam: sebagai contoh model non-dinamis tersumbat pada umpan balik hasil pengobatan.
sumber
Gunakan simulasi untuk memeriksa di mana struktur model Anda mungkin menciptakan "hasil" yang hanya artefak matematika dari asumsi model Anda
Lakukan analisis Anda pada variabel yang diacak ulang, atau pada variabel yang disimulasikan yang diketahui tidak berkorelasi satu sama lain. Apakah ini berkali-kali dan kontras estimasi titik rata-rata (dan interval kepercayaan atau kredibel) dengan hasil yang Anda peroleh pada data aktual: apakah semuanya berbeda?
sumber
Saya seorang analis data daripada ahli statistik tetapi ini adalah saran saya.
1) Sebelum Anda menganalisis data, pastikan asumsi metode Anda benar. Setelah Anda melihat hasilnya, mereka mungkin sulit dilupakan bahkan setelah Anda memperbaiki masalah dan hasilnya berubah.
2) Ini membantu untuk mengetahui data Anda. Saya menjalankan time series dan mendapatkan hasil yang tidak masuk akal mengingat data tahun terakhir. Saya meninjau metode dalam terang itu dan menemukan rata-rata model dalam metode itu mendistorsi hasil untuk satu periode (dan kerusakan struktural telah terjadi).
3) Hati-hati dengan aturan praktis. Mereka mencerminkan pengalaman masing-masing peneliti dari data mereka sendiri dan jika bidang mereka sangat berbeda dengan Anda, kesimpulan mereka mungkin tidak tepat untuk data Anda. Selain itu, dan ini mengejutkan bagi saya, para ahli statistik sering tidak setuju pada poin-poin penting.
4) Cobalah untuk menganalisis data dengan metode yang berbeda dan lihat apakah hasilnya serupa. Pahami bahwa tidak ada metode yang sempurna dan berhati-hatilah untuk memeriksa kapan Anda bisa melakukan pelanggaran terhadap asumsi tersebut.
sumber