Aturan praktis untuk statistik "modern"

85

Saya suka buku G van Belle tentang Aturan Statistik Thumb , dan pada tingkat lebih rendah Kesalahan Umum dalam Statistik (dan Cara Menghindari Mereka) dari Phillip I Good dan James W. Hardin. Mereka mengatasi perangkap umum ketika menafsirkan hasil dari studi eksperimental dan pengamatan dan memberikan rekomendasi praktis untuk inferensi statistik, atau analisis data eksplorasi. Tapi saya merasa bahwa pedoman "modern" agak kurang, terutama dengan semakin meningkatnya penggunaan statistik komputasi dan kuat di berbagai bidang, atau pengenalan teknik dari komunitas pembelajaran mesin, misalnya biostatistik klinis atau epidemiologi genetik.

Terlepas dari trik komputasi atau perangkap umum dalam visualisasi data yang dapat diatasi di tempat lain, saya ingin bertanya: Apa aturan utama yang Anda rekomendasikan untuk analisis data yang efisien? ( tolong, satu aturan per jawaban ).

Saya sedang memikirkan pedoman yang mungkin Anda berikan kepada seorang kolega, seorang peneliti tanpa latar belakang yang kuat dalam pemodelan statistik, atau seorang siswa dalam kursus menengah hingga lanjutan. Ini mungkin berkaitan dengan berbagai tahap analisis data, misalnya strategi pengambilan sampel, pemilihan fitur atau pembuatan model, perbandingan model, estimasi pascabayar, dll.

modeling eda rule-of-thumb chl
sumber

62

Jangan lupa untuk melakukan pengecekan data dasar sebelum Anda memulai analisis. Secara khusus, lihat plot sebaran dari setiap variabel yang ingin Anda analisis terhadap nomor ID, tanggal / waktu pengumpulan data atau yang serupa. Mata sering dapat mengambil pola yang mengungkapkan masalah ketika statistik ringkasan tidak menunjukkan sesuatu yang tidak biasa. Dan jika Anda akan menggunakan log atau transformasi lain untuk analisis, gunakan juga untuk plot.

onestop
sumber

6

Saya belajar ini dengan cara yang sulit. Dua kali.

onestop

2

Iya! Lihatlah sebelum Anda melompat. Tolong, lihat datanya.

vqv

7

Inspeksi visual dari data dapat meningkatkan kesalahan tipe I jika keputusan dibuat pasca-hoc. Saya cenderung menjalankan analisis konfirmasi karena sudah ditentukan sebelumnya dan memasukkan hasil yang dipengaruhi oleh inspeksi sebagai analisis eksplorasi atau sensitivitas.

AdamO

51

Jaga agar analisis Anda dapat direproduksi. Seorang reviewer atau bos Anda atau orang lain pada akhirnya akan bertanya kepada Anda bagaimana sebenarnya Anda sampai pada hasil Anda - mungkin enam bulan atau lebih setelah Anda melakukan analisis. Anda tidak akan ingat bagaimana Anda membersihkan data, analisis apa yang Anda lakukan, mengapa Anda memilih model spesifik yang Anda gunakan ... Dan merekonstruksi semua ini merepotkan.

Konsekuensi: gunakan semacam bahasa skrip, beri komentar di skrip analisis Anda, dan simpan. Apa yang Anda gunakan (R, SAS, Stata, apa pun) kurang penting daripada memiliki skrip yang sepenuhnya dapat direproduksi. Tolak lingkungan di mana ini tidak mungkin atau canggung.

Stephan Kolassa
sumber

24

Jika Anda akan menggunakan R, saya akan merekomendasikan menanamkan kode R Anda dalam dokumen Sweave yang menghasilkan laporan Anda. Dengan begitu kode R tetap dengan laporan.

John D. Cook

36

Tidak ada makan siang gratis

Sebagian besar kegagalan statistik dibuat dengan mengklik tombol besar mengkilap yang disebut "Hitung signifikansi" tanpa memperhitungkan beban asumsi tersembunyi.

Ulangi

Bahkan jika ada satu panggilan ke generator acak yang terlibat, seseorang mungkin memiliki keberuntungan atau nasib buruk dan dengan demikian melompat ke kesimpulan yang salah.

pengguna88
sumber

29

Satu aturan per jawaban ;-)

Bicaralah dengan ahli statistik sebelum melakukan penelitian. Jika memungkinkan, sebelum mengajukan permohonan hibah. Bantu dia untuk memahami masalah yang sedang Anda pelajari, dapatkan inputnya tentang bagaimana menganalisis data yang akan Anda kumpulkan dan pikirkan tentang apa artinya itu bagi desain studi Anda dan persyaratan data. Mungkin orang statistik menyarankan melakukan model hierarkis untuk memperhitungkan siapa yang mendiagnosis pasien - maka Anda perlu melacak siapa yang mendiagnosis siapa. Kedengarannya sepele, tetapi jauh lebih baik untuk memikirkan hal ini sebelum Anda mengumpulkan data (dan gagal mengumpulkan sesuatu yang penting) daripada sesudahnya.

Pada catatan terkait: lakukan analisis daya sebelum memulai. Tidak ada yang frustasi karena tidak dianggarkan untuk ukuran sampel yang cukup besar. Dalam memikirkan tentang ukuran efek apa yang Anda harapkan, ingatlah bias publikasi - ukuran efek yang akan Anda temukan mungkin akan lebih kecil dari apa yang Anda harapkan dengan literatur (bias).

Stephan Kolassa
sumber

28

Satu hal yang saya katakan kepada siswa saya adalah menghasilkan grafik yang sesuai untuk setiap nilai-p. misalnya, sebar jika mereka menguji korelasi, plot box berdampingan jika mereka melakukan ANOVA satu arah, dll.

Rob Hyndman
sumber

28

Jika Anda memutuskan di antara dua cara untuk menganalisis data Anda, cobalah keduanya dan lihat apakah ada bedanya.

Ini berguna dalam banyak konteks:

Untuk mengubah atau tidak mengubah
Tes non-parametrik atau parameter
Korelasi Spearman atau Pearson
PCA atau analisis faktor
Apakah akan menggunakan rata-rata aritmatika atau estimasi rata-rata yang kuat
Apakah akan memasukkan kovariat atau tidak
Apakah akan menggunakan penghapusan daftar-bijaksana, penghapusan pasangan-bijaksana, imputasi, atau metode penggantian nilai yang hilang lainnya

Ini seharusnya tidak membebaskan seseorang dari memikirkan masalah ini, tetapi setidaknya memberikan rasa sejauh mana temuan substantif kuat untuk pilihan.

Jeromy Anglim
sumber

4

Apakah ini kutipan? Saya hanya ingin tahu bagaimana mencoba prosedur pengujian alternatif (bukan strategi analisis!) Mungkin agak tidak merusak kontrol Tipe I atau perhitungan Power awal. Saya tahu SAS secara sistematis mengembalikan hasil dari tes parametrik dan non-parametrik (setidaknya dalam perbandingan dua sampel rata-rata dan ANOVA), tetapi saya selalu menemukan hal yang menarik: Bukankah kita harus memutuskan sebelum melihat hasil tes apa yang harus diterapkan?

chl

4

@ chl poin bagus. Saya setuju bahwa aturan praktis di atas dapat digunakan untuk alasan yang salah. Yaitu, mencoba berbagai hal dan hanya melaporkan hasilnya yang memberikan jawaban yang lebih menyenangkan. Saya melihat aturan praktis yang bermanfaat sebagai alat pelatihan analis data untuk mempelajari pengaruh keputusan analisis terhadap kesimpulan substantif. Saya telah melihat banyak siswa tersesat dengan keputusan terutama di mana ada saran yang bersaing dalam literatur (misalnya, untuk mengubah atau tidak untuk mengubah) yang sering memiliki pengaruh minimal pada kesimpulan substantif.

Jeromy Anglim

1

@ chl tidak, ini bukan kutipan. Tapi saya pikir itu baik untuk membatasi aturan praktis dari alasannya dan peringatan. Saya mengubahnya menjadi berani untuk membuatnya jelas.

Jeromy Anglim

1

Ok, masuk akal bagi saya untuk mencoba berbagai transformasi dan melihat apakah itu menyediakan cara yang lebih baik untuk menjelaskan hubungan yang dipelajari; apa yang saya tidak mengerti adalah mencoba strategi analisis yang berbeda, meskipun ini adalah praktik saat ini (tetapi tidak dilaporkan dalam artikel yang diterbitkan :-), esp. ketika mereka bergantung pada asumsi yang berbeda (dalam EFA vs PCA, Anda mengasumsikan istilah kesalahan tambahan; dalam pengujian non-parametrik vs parametrik, Anda membuang sebagian dari asumsi, dll.). Tapi, saya setuju demarkasi antara analisis eksploratori dan konfirmasi tidak begitu jelas ...

chl

2

Bagi saya ini hanya berguna untuk analisis eksplorasi atau selama pelatihan dan langkah validasi. Anda akan selalu memerlukan langkah pengujian verifikasi akhir atau Anda mungkin membodohi diri sendiri dengan hasil signifikan tertentu yang bekerja dengan baik setelah Anda mendapatkan perbedaan yang diinginkan sesuai dengan keyakinan 'subjektif' Anda . Siapa yang menilai metode mana yang lebih baik? Saya pribadi, jika saya ragu metode yang berbeda, maka saya mengujinya pada data yang disimulasikan, untuk menguji hal-hal seperti varians penduga atau kekokohan, dll.

Sextus Empiricus

22

Tanyakan data Anda. Di era modern RAM murah, kita sering mengerjakan data dalam jumlah besar. Satu kesalahan 'jari gemuk' atau 'tempat desimal hilang' dapat dengan mudah mendominasi analisis. Tanpa pengecekan kewarasan dasar, (atau memplot data, seperti yang disarankan oleh orang lain di sini) orang bisa menghabiskan banyak waktu. Ini juga menyarankan menggunakan beberapa teknik dasar untuk 'ketahanan' untuk outlier.

shabbychef
sumber

2

Konsekuensi: lihat apakah seseorang mengkodekan nilai yang hilang sebagai "9999" bukan "NA". Jika perangkat lunak Anda menggunakan nilai ini pada nilai nominal, itu akan mengacaukan analisis Anda.

Stephan Kolassa

21

Gunakan perangkat lunak yang menunjukkan rantai logika pemrograman dari data mentah hingga analisis / hasil akhir. Hindari perangkat lunak seperti Excel di mana satu pengguna dapat membuat kesalahan yang tidak dapat terdeteksi dalam satu sel, yang hanya akan diperiksa secara manual.

sumber

1

VisTrails adalah salah satu sistem yang membantu proses ini. (Saya hanya menggunakan sistem homebrew; gol kelompok umum lebih penting daripada alat tertentu.)

denis

18

Selalu tanyakan pada diri sendiri "apa arti hasil ini dan bagaimana hasilnya?"

Biasanya tujuan menggunakan statistik adalah untuk membantu membuat keputusan di bawah ketidakpastian. Jadi penting untuk memiliki di depan pikiran Anda "Keputusan apa yang akan dibuat sebagai hasil dari analisis ini dan bagaimana analisis ini akan mempengaruhi keputusan ini?" (misalnya, mempublikasikan artikel, merekomendasikan metode baru digunakan, memberikan $ X dalam pendanaan untuk Y, mendapatkan lebih banyak data, melaporkan perkiraan kuantitas sebagai E, dll. dll)

Jika Anda tidak merasa bahwa ada keputusan yang harus dibuat, maka orang bertanya-tanya mengapa Anda melakukan analisis di tempat pertama (karena itu cukup mahal untuk melakukan analisis). Saya menganggap statistik sebagai "gangguan" karena ini adalah sarana untuk mencapai tujuan, bukan tujuan itu sendiri. Dalam pandangan saya, kami hanya mengukur ketidakpastian sehingga kami dapat menggunakannya untuk membuat keputusan yang menjelaskan ketidakpastian ini dengan cara yang tepat.

Saya pikir ini adalah salah satu alasan mengapa menjaga hal-hal sederhana adalah kebijakan yang baik secara umum, karena biasanya lebih mudah untuk menghubungkan solusi sederhana dengan dunia nyata (dan karenanya dengan lingkungan di mana keputusan sedang dibuat) daripada solusi kompleks . Biasanya juga lebih mudah untuk memahami keterbatasan jawaban yang sederhana. Anda kemudian pindah ke solusi yang lebih kompleks ketika Anda memahami keterbatasan dari solusi sederhana, dan bagaimana solusi yang kompleks mengatasinya.

probabilityislogic
sumber

3

Saya setuju dengan segalanya kecuali pada gagasan untuk menjaga hal-hal sederhana. Bagi saya kesederhanaan atau kerumitan harus menjadi fungsi dari biaya keputusan yang tidak tepat yang Anda jelaskan dengan fasih. Kesederhanaan dapat memiliki biaya yang dapat diabaikan di satu area (mis. Menayangkan iklan yang salah kepada pelanggan) dan biaya yang sangat berbeda di tempat lain (memberikan perawatan yang salah kepada pasien).

Thomas Speidel

18

Mungkin ada daftar panjang tetapi untuk menyebutkan beberapa: (tanpa urutan tertentu)

Nilai-P BUKAN probabilitas. Secara khusus, ini bukan probabilitas melakukan kesalahan Tipe I. Demikian pula, CI tidak memiliki interpretasi probabilistik untuk data yang diberikan. Mereka berlaku untuk percobaan berulang.
Masalah yang terkait dengan varians mendominasi sebagian besar waktu dalam praktik, sehingga estimasi bias dengan varians kecil lebih baik daripada estimasi bias dengan varians besar (sebagian besar waktu).
Pemasangan model adalah proses berulang. Sebelum menganalisis data, pahami sumber data dan kemungkinan model yang sesuai atau tidak sesuai dengan deskripsi. Coba juga buat model masalah desain apa pun dalam model Anda.
Gunakan alat visualisasi, lihat data (untuk kemungkinan kelainan, tren yang jelas, dll, untuk memahami data) sebelum menganalisisnya. Gunakan metode visualisasi (jika mungkin) untuk melihat bagaimana model cocok dengan data itu.
Terakhir namun tidak kalah pentingnya, gunakan perangkat lunak statistik untuk apa tujuan dibuatnya (untuk memudahkan tugas perhitungan Anda), mereka bukan pengganti pemikiran manusia.

suncoolsu
sumber

14

Butir 1 Anda salah: nilai P adalah probabilitas untuk memperoleh data sebagai ekstrem, atau lebih ekstrem, dengan hipotesis nol. Sejauh yang saya tahu itu berarti bahwa P adalah probabilitas - kondisional tetapi probabilitas tetap. Pernyataan Anda benar dalam situasi di mana seseorang bekerja dalam paradigma kesalahan Neyman-Pearson, tetapi tidak ada yang bekerja dalam paradigma Fisherian di mana nilai P adalah idices bukti terhadap hipotesis nol. Memang benar bahwa paradigma-paradigma tersebut secara teratur dicampur menjadi mish-mash yang tidak koheren, tetapi keduanya 'benar' ketika digunakan sendiri dan utuh.

Michael Lew

2

Untuk interval kepercayaan Anda, sekali lagi, hanya mengoreksi dalam batas-batas interval kepercayaan Neymanian. Fisher (dan lainnya sebelum dia) juga merancang dan menggunakan hal-hal yang orang akan tafsirkan sebagai interval kepercayaan, dan ada interpretasi yang benar-benar valid dari interval tersebut yang mengacu pada eksperimen tertentu yang menghasilkan interval. Menurut saya, mereka jauh lebih disukai daripada Neyman. Lihat jawaban saya untuk pertanyaan Fungsi terpisah: Cakupan interval kepercayaan? untuk lebih detail: stats.stackexchange.com/questions/8844/…

Michael Lew

@Michael Anda benar, tetapi mari kita lihat: Berapa kali Null benar? Atau lebih baik: Adakah yang bisa membuktikan apakah nol itu benar? Kita juga dapat memiliki perdebatan filosofis yang mendalam tentang hal ini tetapi bukan itu intinya. Dalam pengulangan kontrol kualitas masuk akal, tetapi dalam sains setiap aturan keputusan yang baik harus mengkondisikan data.

suncoolsu

1

Fisher tahu ini (mengkondisikan pada data yang diamati dan komentar tentang kontrol kualitas didasarkan pada itu). Dia menghasilkan banyak contoh balasan berdasarkan ini. Bayesian telah bertengkar tentang ini, katakanlah, selama lebih dari setengah abad.

suncoolsu

1

μ = 0

$\mu=0$

13

Untuk organisasi / manajemen data, pastikan bahwa ketika Anda membuat variabel baru dalam dataset (misalnya, menghitung indeks massa tubuh dari tinggi dan berat), variabel asli tidak pernah dihapus. Pendekatan non-destruktif adalah yang terbaik dari perspektif reproduktifitas. Anda tidak pernah tahu kapan Anda salah memasukkan perintah dan selanjutnya harus mengulang pembuatan variabel Anda. Tanpa variabel asli, Anda akan kehilangan banyak waktu!

pmgjones
sumber

11

Berpikir keras tentang proses pembuatan data yang mendasarinya (DGP). Jika model yang ingin Anda gunakan tidak mencerminkan DGP, Anda perlu menemukan model baru.

Jason Morgan
sumber

Bagaimana Anda tahu, bagaimana Anda bisa tahu, apa DGP itu. Sebagai contoh, saya menjalankan deret waktu di daerah di mana saya belum melihat teori yang berkembang dengan baik (mengapa jenis pengeluaran publik tertentu terjadi). Saya pikir tidak mungkin mengetahui proses yang sebenarnya dalam kasus ini.

user54285

8

Untuk histogram, aturan praktis yang baik untuk jumlah sampah dalam histogram :

akar kuadrat dari jumlah titik data

doug
sumber

6

Meskipun semakin banyak dataset dan perangkat lunak yang lebih kuat, model over-fitting merupakan bahaya besar bagi para peneliti, terutama mereka yang belum dibakar oleh over-fitting. Over-fitting berarti Anda telah memasang sesuatu yang lebih rumit daripada data Anda dan canggih. Seperti cinta atau keindahan, sulit untuk didefinisikan, apalagi untuk mendefinisikan secara formal, tetapi lebih mudah untuk dikenali.

Aturan praktis minimal adalah 10 titik data untuk setiap parameter yang diperkirakan untuk sesuatu seperti regresi klasik, dan perhatikan konsekuensinya jika Anda mengabaikannya. Untuk analisis lain, Anda biasanya perlu lebih banyak untuk melakukan pekerjaan dengan baik, terutama jika ada kategori langka dalam data.

Bahkan jika Anda dapat menyesuaikan model dengan mudah, Anda harus selalu khawatir tentang apa artinya dan seberapa jauh itu dapat direproduksi bahkan dengan dataset yang sangat mirip.

Nick Cox
sumber

Itu umumnya dilihat sebagai aturan praktis untuk model di mana responsnya bersyarat normal. Dalam kasus lain, itu terlalu liberal. Misalnya, untuk klasifikasi biner, aturan praktis yang terkait adalah 15 pengamatan dalam kategori yang jarang terjadi untuk setiap variabel; & untuk analisis survival, ini akan menjadi 10 peristiwa (yaitu, bukan data yang disensor) untuk setiap variabel.

gung - Reinstate Monica

Saya setuju. Saya akan mengedit, tetapi mengapa tidak memposting aturan praktis Anda sendiri bersama dengan komentar panjang.

Nick Cox

1

Anda harus menyoroti kalimat terakhir "Bahkan jika Anda dapat menyesuaikan model dengan mudah, Anda harus selalu khawatir tentang apa artinya dan seberapa jauh itu dapat direproduksi dengan bahkan dataset yang sangat mirip."

Sextus Empiricus

6

$Y_{t+h}$ $(Y_t,X_t)$ $t>T$ $(Y_1,X_1),\dots, (Y_T,X_T)$

$Y_{t+h}$
$Y_{t+h}$ $Y_t$

$Y_{t+h}$ $Y_t+X_t$

robin girard
sumber

5

Jika model tidak akan bertemu dengan mudah dan cepat, itu bisa menjadi kesalahan perangkat lunak. Namun, jauh lebih umum bahwa data Anda tidak cocok untuk model atau model tidak cocok untuk data. Mungkin sulit untuk mengatakan mana, dan para empiris dan ahli teori dapat memiliki pandangan yang berbeda. Tapi pemikiran subjek, benar-benar melihat data, dan terus-menerus berpikir tentang interpretasi model membantu sebanyak mungkin. Di atas segalanya, coba model yang lebih sederhana jika yang rumit tidak akan bertemu.

Tidak ada keuntungan dalam memaksakan konvergensi atau dalam menyatakan kemenangan dan mengambil hasil setelah banyak iterasi tetapi sebelum model Anda benar-benar telah bertemu. Paling-paling Anda membodohi diri sendiri jika melakukannya.

Nick Cox
sumber

"benar-benar melihat data" itu akan sangat bagus ketika kita mendapatkan NN yang berfungsi untuk kita.

Sextus Empiricus

Itu disebut JWT.

Nick Cox

5

Dalam variabel-variabel instrumental, regresi selalu memeriksa signifikansi bersama dari instrumen Anda. Aturan praktis Staiger-Stock mengatakan bahwa F-statistik kurang dari 10 mengkhawatirkan dan menunjukkan bahwa instrumen Anda mungkin lemah, yaitu mereka tidak cukup berkorelasi dengan variabel endogen. Namun, ini tidak secara otomatis menyiratkan bahwa F di atas 10 menjamin instrumen yang kuat. Staiger dan Stock (1997) telah menunjukkan bahwa teknik variabel instrumental seperti 2SLS dapat menjadi bias buruk dalam sampel "kecil" jika instrumen hanya berkorelasi lemah dengan variabel endogen. Contoh mereka adalah penelitian oleh Angrist dan Krueger (1991) yang memiliki lebih dari 300.000 pengamatan - fakta yang mengganggu tentang gagasan sampel "kecil".

Martijn Weterings
sumber

Saya telah menambahkan tautan ke artikel tersebut tetapi saya yakin jawaban ini membutuhkan beberapa pemformatan lebih lanjut, saya merasa terlalu sulit untuk menekankan 'aturan praktis' berdasarkan pemindaian artikel dengan sangat cepat, dan jawaban ini tidak terlalu intuitif.

Sextus Empiricus

3

Tidak ada kriteria untuk memilih kriteria informasi.

Begitu seseorang mengatakan sesuatu seperti "IC? Menunjukkan ini, tetapi diketahui sering memberikan hasil yang salah" (di mana? Apakah ada huruf yang Anda suka), Anda tahu bahwa Anda juga harus memikirkan tentang model dan terutama apakah itu membuat pengertian ilmiah atau praktis.

Tidak ada aljabar yang bisa memberitahumu.

Nick Cox
sumber

2

Saya membaca ini di suatu tempat (mungkin di lintas divalidasi) dan saya belum dapat menemukannya di mana pun, jadi begini ...

Jika Anda menemukan hasil yang menarik, itu mungkin salah.

Sangat mudah untuk bersemangat dengan prospek nilai-p yang mengejutkan atau kesalahan validasi silang yang hampir sempurna. Saya secara pribadi menyampaikan hasil yang luar biasa (salah) kepada rekan kerja hanya untuk menariknya kembali. Paling sering, jika terlihat terlalu bagus untuk menjadi kenyataan ...

ini benar. "Sama sekali benar.

timwiz
sumber

2

Cobalah untuk menjadi gagah berani daripada berbudi luhur. Yaitu, jangan biarkan tanda-tanda kecil tentang Normal, non-kemerdekaan atau non-linearitas, dll. Menghalangi jalan Anda jika indikasi seperti itu perlu diabaikan untuk membuat data berbicara dengan keras dan jelas. . - Dalam bahasa Denmark, 'dristig' vs 'dydig' adalah kata sifat.

Jørgen Hilden
sumber

1

Saat menganalisis data longitudinal pastikan untuk memeriksa bahwa variabel dikodekan dengan cara yang sama di setiap periode waktu.

Saat menulis disertasi saya, yang mensyaratkan analisis data sekunder, ada sekitar satu minggu atau lebih kebingungan dari 1 unit pergeseran dalam skor depresi rata-rata melintasi rata-rata yang stabil berdasarkan tahun: ternyata salah satu tahun di saya kumpulan data, item skala untuk instrumen yang divalidasi telah diberi kode 1-4 bukannya 0-3.

Alexis
sumber

1

Hipotesis Anda harus mengarahkan pilihan model Anda, bukan sebaliknya.

Mengutip Maslow, jika Anda palu, semuanya tampak seperti paku. Model spesifik datang dengan penutup mata dan asumsi tentang dunia yang dibangun di dalam: sebagai contoh model non-dinamis tersumbat pada umpan balik hasil pengobatan.

Alexis
sumber

1

Gunakan simulasi untuk memeriksa di mana struktur model Anda mungkin menciptakan "hasil" yang hanya artefak matematika dari asumsi model Anda

Lakukan analisis Anda pada variabel yang diacak ulang, atau pada variabel yang disimulasikan yang diketahui tidak berkorelasi satu sama lain. Apakah ini berkali-kali dan kontras estimasi titik rata-rata (dan interval kepercayaan atau kredibel) dengan hasil yang Anda peroleh pada data aktual: apakah semuanya berbeda?

Alexis
sumber

0

Saya seorang analis data daripada ahli statistik tetapi ini adalah saran saya.

1) Sebelum Anda menganalisis data, pastikan asumsi metode Anda benar. Setelah Anda melihat hasilnya, mereka mungkin sulit dilupakan bahkan setelah Anda memperbaiki masalah dan hasilnya berubah.

2) Ini membantu untuk mengetahui data Anda. Saya menjalankan time series dan mendapatkan hasil yang tidak masuk akal mengingat data tahun terakhir. Saya meninjau metode dalam terang itu dan menemukan rata-rata model dalam metode itu mendistorsi hasil untuk satu periode (dan kerusakan struktural telah terjadi).

3) Hati-hati dengan aturan praktis. Mereka mencerminkan pengalaman masing-masing peneliti dari data mereka sendiri dan jika bidang mereka sangat berbeda dengan Anda, kesimpulan mereka mungkin tidak tepat untuk data Anda. Selain itu, dan ini mengejutkan bagi saya, para ahli statistik sering tidak setuju pada poin-poin penting.

4) Cobalah untuk menganalisis data dengan metode yang berbeda dan lihat apakah hasilnya serupa. Pahami bahwa tidak ada metode yang sempurna dan berhati-hatilah untuk memeriksa kapan Anda bisa melakukan pelanggaran terhadap asumsi tersebut.

pengguna54285
sumber

Aturan praktis untuk statistik "modern"

Jawaban:

Tidak ada makan siang gratis

Ulangi

Jika Anda menemukan hasil yang menarik, itu mungkin salah.