Apa saja contoh praktik anakronistik dalam statistik?

55

Saya merujuk pada praktik yang masih mempertahankan keberadaan mereka, meskipun masalah (biasanya komputasi) yang mereka atasi untuk mengatasi sebagian besar telah diselesaikan.

Sebagai contoh, koreksi kontinuitas Yates ditemukan untuk memperkirakan uji pasti Fisher dengan uji , tetapi itu tidak lagi praktis karena perangkat lunak sekarang dapat menangani uji Fisher bahkan dengan sampel besar (saya tahu ini mungkin bukan contoh yang baik dari " mempertahankan keberadaannya ", karena buku teks, seperti Analisis Data Kategorikal Agresti , sering mengakui bahwa koreksi Yates" tidak lagi diperlukan ").χ2

Apa saja contoh lain dari praktik semacam itu?

Francis
sumber
Saya sebenarnya tidak begitu yakin bahwa tes chi-squared dibuat usang oleh ketersediaan daya komputasi untuk melakukan tes Fisher, misalnya, apakah margin Anda benar-benar diperbaiki? Lihat jawaban ini untuk pertanyaan lain oleh @gung, misalnya. (Saya cukup yakin bahwa kami memiliki utas yang membahas masalah ini secara lebih terperinci tetapi saya tidak dapat menemukannya karena kami memiliki banyak pertanyaan "haruskah saya menggunakan chi-kuadrat atau haruskah saya menggunakan uji pasti Fisher" yang muncul saat Saya mencari!)
Silverfish
@ Silververfish: Saya tidak bermaksud dibuat usang, hanya koreksi Andrea. Saya percaya penelitian telah menunjukkan bahwa koreksi Andrea terlalu konservatif ketika marginal tidak diperbaiki. Artikel Michael Haber Koreksi Kelangsungan dan Pengujian Statistik memberikan ulasan. χ2
Francis
menggunakan OLS, bukan LAD?
PatrickT
5
@ Patrickrick: Saya punya banyak masalah menyebut OLS anakronistis. Tentu, ada kasus khusus ketika LAD jelas lebih unggul ... tetapi hal yang sama dapat dikatakan ke arah lain.
Cliff AB

Jawaban:

49

Sangat bisa diperdebatkan bahwa penggunaan tingkat signifikansi ambang seperti atau adalah mabuk historis dari periode ketika sebagian besar peneliti bergantung pada tabel nilai kritis yang sebelumnya dihitung. Sekarang perangkat lunak yang baik akan memberikan nilai- secara langsung. Memang, perangkat lunak yang baik memungkinkan Anda menyesuaikan analisis Anda dan tidak bergantung pada tes buku teks.P=0.05P=0.01P

Ini diperdebatkan jika hanya karena beberapa masalah pengujian signifikan memerlukan keputusan, seperti dalam kontrol kualitas di mana menerima atau menolak batch adalah keputusan yang diperlukan, diikuti oleh tindakan dengan cara apa pun. Tetapi bahkan di sana ambang batas yang digunakan harus tumbuh dari analisis risiko, tidak bergantung pada tradisi. Dan sering dalam ilmu, analisis indikasi kuantitatif lebih tepat daripada keputusan: berpikir secara kuantitatif menyiratkan perhatian pada ukuran nilai- dan bukan hanya pada dikotomi mentah, signifikan versus tidak signifikan.P

Saya akan menandai bahwa saya di sini menyentuh pada masalah yang rumit dan kontroversial yang merupakan fokus dari seluruh buku dan mungkin ribuan makalah, tetapi tampaknya ini adalah contoh yang adil untuk utas ini.

Nick Cox
sumber
4
Contoh yang bagus! Untuk referensi, utas ini layak disebutkan: Mengenai nilai-p, mengapa 1% dan 5%? Kenapa tidak 6% atau 10%?
Francis
5
@ JM Saya 95% yakin Anda benar, meskipun saya tidak 99% percaya diri.
Mark L. Stone
5
Sebenarnya, saya tidak yakin ini adalah contoh yang bagus. Meskipun benar bahwa lebih mudah untuk menguji hal-hal di daripada sebelumnya, saya belum pernah melihat argumen yang bagus untuk mengapa Anda ingin , di luar kasus khusus (yaitu kontrol kualitas), dalam hal ini saya tidak tidak tahu bahwa level signifikansi arbitrer masih digunakan. α=0.038561
Cliff AB
4
@CliffAB Saya tidak berpikir poin utama dari nilai-P yang tepat adalah Anda kemudian memutuskan bahwa itu merupakan level kritis yang ingin Anda adopsi untuk suatu keputusan. Saya tentu tidak menyarankan atau menganjurkan itu. Bagian dari argumen di sini bukan hanya 0,05 dan 0,01 berada pada tingkat terbaik konvensional tetapi tes memberikan satu cara untuk menilai kekuatan bukti terhadap hipotesis nol daripada membuat keputusan biner. Dalam praktiknya tingkat 0,05 dan 0,01 tetap sangat banyak digunakan di banyak bidang.
Nick Cox
4
@Nick Cox Dan jangan lupa level 0,1 untuk kerumunan yang santai dan lembut.
Mark L. Stone
24

Salah satu metode yang saya pikir banyak pengunjung situs ini akan setuju dengan saya adalah regresi bertahap. Itu masih dilakukan sepanjang waktu, tetapi Anda tidak perlu mencari jauh untuk para ahli di situs ini mengatakan menyesalkan penggunaannya. Metode seperti LASSO lebih disukai.

Cliff AB
sumber
4
HA!! Anda merekomendasikan penggantian anakronisme (regresi bertahap) dengan anakronisme generasi berikutnya (LASSO), yang merupakan anakronisme pada masanya sendiri, yang penganutnya belum menyadarinya. Lihat stats.stackexchange.com/questions/162861/… .
Mark L. Stone
3
@ MarkL.Stone: Hei teman, setidaknya 20 tahun ke arah yang benar. Saya tidak begitu akrab dengan metode ini, jadi saya harus membaca tentang mereka sebelum saya bisa memberi mereka dukungan saya.
Cliff AB
2
Setelah membaca artikel itu dengan cepat, saya agak ragu untuk memutuskan bahwa LASSO secara resmi sudah ketinggalan zaman, meskipun itu jelas tidak selalu merupakan pilihan yang optimal. Mungkin dalam 5 tahun saya akan lebih nyaman menyebut LASSO usang.
Cliff AB
2
@amoeba: Saya pikir Mark mengacu pada praktik menggunakan LASSO sebagai alat untuk regresi subset terbaik. Sebagai contoh, saya samar-samar ingat membaca seseorang yang membahas pemasangan LASSO pertama, dan kemudian memperbaiki model yang tidak dihukum menggunakan parameter regresi non-nol. Regresi subset terbaik mungkin merupakan cara yang lebih langsung untuk melakukan ini (meskipun seperti yang Anda katakan, tidak jelas bahwa ini adalah ide yang baik bahkan jika itu yang ingin dilakukan oleh analis ).
Cliff AB
2
... dan makalah ini menyajikan setidaknya satu situasi (yaitu simulasi di bawah parameter tertentu) di mana itu jelas melakukan LASSO, meskipun saya pikir kita semua tahu persis seberapa serius kita harus mengambil hasil seperti itu sendiri.
Cliff AB
17

Pandangan saya adalah bahwa setidaknya dalam ekonometrik (diterapkan), semakin banyak norma untuk menggunakan matriks kovarians yang kuat atau empiris daripada "praktik anachronistic" mengandalkan (asimtotik) pada spesifikasi yang benar dari matriks kovarians. Ini tentu saja bukan tanpa kontroversi: lihat beberapa jawaban yang saya tautkan di sini di CrossValidated, tetapi jelas merupakan tren yang jelas.

E[uu]=σ2In

Contoh lain termasuk data panel, Imbens dan Wooldridge menulis misalnya dalam slide kuliah mereka berdebat menentang menggunakan matriks kovarians varians efek acak (secara implisit mengasumsikan beberapa kesalahan spesifikasi dalam komponen varians sebagai default):

σc2σu2

Menggunakan model linier umum (untuk distribusi yang termasuk keluarga eksponensial), sering disarankan untuk menggunakan selalu yang disebut penaksir sandwich daripada mengandalkan asumsi distribusi yang benar (praktik anakronistik di sini): lihat misalnya jawaban ini atau merujuk Cameron untuk menghitung data karena estimasi kemungkinan semu maksimum dapat cukup fleksibel dalam hal kesalahan spesifikasi (misalnya menggunakan Poisson jika binomial negatif akan benar).

Koreksi kesalahan standar [Putih] seperti itu harus dibuat untuk regresi Poisson, karena mereka dapat membuat perbedaan yang jauh lebih besar daripada koreksi heteroskedastisitas serupa untuk OLS.

Greene menulis dalam buku pelajarannya di Bab 14 (tersedia di situs webnya) misalnya dengan catatan kritis dan lebih detail tentang keuntungan dan kerugian dari praktik ini:

Ada tren dalam literatur saat ini untuk menghitung estimator [sandwich] ini secara rutin, terlepas dari fungsi kemungkinannya. * [...] * Kami sekali lagi menekankan bahwa estimator sandwich, dalam dan dari dirinya sendiri, belum tentu ada kebajikan jika fungsi kemungkinan tidak ditentukan secara spesifik dan kondisi lain untuk penaksir M tidak terpenuhi.

Arne Jonas Warnke
sumber
4
Menarik, tetapi pertanyaannya adalah apa yang anakronistis, bukan apa yang sekarang semakin standar, jadi jawabannya harus dibalik.
Nick Cox
1
Halo Nick, terima kasih atas komentar Anda (dan suntingan Anda), saya memodifikasi teks untuk menyoroti apa yang merupakan praktik anakronistis, saya harap ini menjadi sedikit lebih jelas. Saya tidak membalikkan seluruh teks, karena latihan sebelumnya hampir tidak melakukan apa-apa khusus tentang kesalahan standar.
Arne Jonas Warnke
Dalam beberapa kasus itu tidak alami dan tidak mungkin untuk menggunakan alternatif yang kuat, katakan seri waktu. Jadi saya pikir itu tidak menjadi "lebih populer" tetapi hanya "lebih populer di beberapa daerah".
Henry.L
13

m>1mm=1

m=30

Cliff AB
sumber
Datang ke sini untuk memposting ini. Juga: saya tidak yakin ada situasi di mana FWER akan lebih disukai daripada metode FDR yang lebih baru (karena skalabilitas dan kemampuan beradaptasi).
Alexis
13

Kebanyakan praktik anakronistis mungkin disebabkan oleh cara statistik diajarkan dan fakta bahwa analisis dijalankan oleh sejumlah besar orang yang hanya mengambil beberapa kelas dasar. Kita sering mengajarkan serangkaian ide statistik standar dan prosedur karena mereka membentuk urutan logis peningkatan kecanggihan konseptual yang masuk akal secara pedagogis (lih., Bagaimana kita bisa mengetahui varians populasi? ). Saya sendiri bersalah atas hal ini: Saya kadang-kadang mengajar statistik 101 dan 102, dan saya terus-menerus berkata, 'ada cara yang lebih baik untuk melakukan ini, tetapi itu di luar ruang lingkup kelas ini'. Bagi para siswa yang tidak melampaui urutan pengantar (hampir semua), mereka dibiarkan dengan strategi dasar, tetapi digantikan.

  1. Untuk contoh statistik 101, mungkin praktik anakronistik yang paling umum adalah menguji beberapa asumsi dan kemudian menjalankan analisis statistik tradisional karena tes itu tidak signifikan. Pendekatan yang lebih modern / maju / dapat dipertahankan akan menggunakan metode yang kuat untuk asumsi itu sejak awal. Beberapa referensi untuk informasi lebih lanjut:

  2. Untuk statistik 102 contoh, sejumlah praktik pemodelan telah usang:

    • Yp
    • Y
    • Menggunakan polinomial orde tinggi untuk menangkap kelengkungan vs splines kubik.
    • pR2
    • Dengan data pengukuran berulang, kategorikan variabel kontinu sehingga rmANOVA dapat digunakan atau rata-rata beberapa pengukuran vs. menggunakan model campuran linier.
    • Dll

Intinya dalam semua kasus ini adalah bahwa orang melakukan apa yang diajarkan pertama kali di kelas pengantar karena mereka tidak tahu metode yang lebih maju dan tepat.

gung
sumber
5

Contoh yang sangat menarik adalah tes unit root dalam ekonometrika. Meskipun ada banyak pilihan yang tersedia untuk menguji terhadap atau untuk unit root dalam polinomial lag dari suatu rangkaian waktu (misalnya, Tes Dickey Fuller (Augmented) atau tes KPSS), masalahnya dapat diatasi sepenuhnya ketika seseorang menggunakan analisis Bayesian . Sims menunjukkan ini dalam makalah provokatifnya yang berjudul Understanding Unit Rooters: A Helicopter Tour dari tahun 1991.

Tes unit root tetap valid dan digunakan dalam ekonometrik. Sementara saya pribadi akan mengaitkan hal ini sebagian besar dengan orang yang enggan menyesuaikan diri dengan praktik Bayesian, banyak ahli ekonometrik konservatif mempertahankan praktik uji akar unit dengan mengatakan bahwa pandangan Bayesian tentang dunia bertentangan dengan premis penelitian ekonometrik. (Artinya, para ekonom menganggap dunia sebagai tempat dengan parameter tetap, bukan parameter acak yang diatur oleh beberapa hiperparameter.)

Jeremias K
sumber
5
Saya akan tertarik dalam diskusi singkat tentang bagaimana praktik Bayesian menghindari tes ini. Dengan kata lain, bagaimana Anda membuat kasus untuk klaim ini?
Mike Hunter
Saya harus mengakui bahwa sudah lama saya tidak membaca makalahnya, tetapi poin utamanya adalah menggunakan flat sebelum analisis Bayesian dari suatu deret waktu, seseorang dapat menggunakan nilai-t standar.
Jeremias K
5

Membayar biaya lisensi untuk sistem perangkat lunak statistik berkualitas tinggi. #R

pteetor
sumber
1

Mengajar / melakukan tes dua sisi untuk perbedaan tanpa secara simultan menguji kesetaraan dalam ranah pengujian hipotesis yang sering dilakukan adalah komitmen mendalam terhadap bias konfirmasi .

Ada beberapa nuansa, di mana analisis kekuatan yang tepat dengan definisi bijaksana dari ukuran efek dapat mencegah hal ini dan memberikan kurang lebih jenis-jenis kesimpulan yang sama, tetapi (a) analisis daya sering diabaikan dalam menyajikan temuan, dan (b) saya belum pernah melihat analisis kekuatan untuk, misalnya, masing-masing koefisien diperkirakan untuk setiap variabel dalam regresi berganda, tetapi mudah untuk melakukannya untuk tes gabungan untuk perbedaan dan tes untuk kesetaraan (yaitu tes relevansi).

Alexis
sumber
0

Menggunakan model Binomial Negatif daripada model Poisson (kuat) untuk mengidentifikasi parameter yang diminati dalam variabel hitungan, hanya karena ada dispersi berlebih?

Lihat sebagai referensi: https://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/

Bukti bahwa Poisson lebih kuat dalam hal efek tetap cukup baru karena sering dibuat referensi ke: Wooldridge, JM, "Estimasi Bebas Distribusi Beberapa Model Data Panel Nonlinear," Journal of Econometrics 90 (1999), 77–97.

Alexandre Cazenave-Lacroutz
sumber
-6

Berikut adalah beberapa anakronisme:

  • Asumsi neoplatonik bahwa ada satu, "benar" populasi di luar sana dalam teori eter yang abadi, tetap dan tidak bergerak terhadap mana sampel tidak sempurna kami dapat dievaluasi tidak sedikit untuk memajukan pembelajaran dan pengetahuan.

  • Reduksionisme yang melekat dalam mandat seperti Occam's Razor tidak sesuai dengan perkembangan zaman. ATAU dapat diringkas sebagai, "Di antara hipotesis yang bersaing, yang memiliki asumsi paling sedikit harus dipilih." Alternatif termasuk Prinsip Epicurus tentang Penjelasan Berganda , yang secara kasar menyatakan, "Jika lebih dari satu teori konsisten dengan data, simpan semuanya."

  • Seluruh sistem peer-review sangat membutuhkan perbaikan.

* Sunting *

  • Dengan data masif yang berisi puluhan juta fitur, tidak perlu lagi untuk fase pemilihan variabel.

  • Selain itu, statistik inferensial tidak ada artinya.

DJohnson
sumber
Komentar bukan untuk diskusi panjang; percakapan ini telah dipindahkan ke obrolan .
Whuber