Saat memecahkan masalah bisnis menggunakan data, sudah umum bahwa setidaknya satu asumsi utama bahwa statistik klasik under-pin tidak valid. Sebagian besar waktu, tidak ada yang mengganggu untuk memeriksa asumsi-asumsi itu sehingga Anda tidak pernah benar-benar tahu.
Misalnya, bahwa begitu banyak metrik web umum "berekor panjang" (relatif terhadap distribusi normal), saat ini, telah didokumentasikan dengan sangat baik sehingga kami menganggapnya biasa saja. Contoh lain, komunitas online - bahkan di komunitas dengan ribuan anggota, didokumentasikan dengan baik bahwa sejauh ini kontribusi terbesar untuk / partisipasi dalam banyak komunitas ini disebabkan oleh sekelompok kecil 'super-kontributor'. (Misalnya, beberapa bulan yang lalu, tepat setelah SO API tersedia dalam versi beta, anggota StackOverflow menerbitkan analisis singkat dari data yang ia kumpulkan melalui API; kesimpulannya - kurang dari satu persen dari akun anggota SO untuk sebagian besar dari aktivitas di SO (mungkin mengajukan pertanyaan, dan menjawabnya), 1-2% lainnya menyumbang sisanya, dan sebagian besar anggota tidak melakukan apa-apa).
Distribusi semacam itu - sekali lagi lebih sering aturan daripada pengecualian - sering dimodelkan dengan fungsi kepadatan hukum kekuasaan . Untuk jenis distribusi ini, bahkan teorema limit pusat bermasalah untuk diterapkan.
Jadi mengingat banyaknya populasi seperti ini yang menarik bagi analis, dan mengingat bahwa model klasik menunjukkan kinerja yang buruk pada data ini, dan mengingat bahwa metode yang kuat dan tahan telah ada untuk sementara waktu (setidaknya 20 tahun, saya percaya) - mengapa bukankah mereka lebih sering digunakan? (Saya juga bertanya-tanya mengapa saya tidak sering menggunakannya, tapi itu bukan pertanyaan untuk CrossValidated .)
Ya saya tahu bahwa ada bab buku teks yang sepenuhnya ditujukan untuk statistik yang kuat dan saya tahu ada (beberapa) Paket R ( robustbase adalah yang saya kenal dan gunakan), dll.
Namun mengingat keuntungan nyata dari teknik ini, mereka seringkali jelas merupakan alat yang lebih baik untuk pekerjaan itu - mengapa mereka tidak digunakan lebih sering ? Tidakkah seharusnya kita berharap untuk melihat statistik yang kuat (dan tahan) yang digunakan jauh lebih sering (bahkan mungkin dugaan) dibandingkan dengan analog klasik?
Satu-satunya penjelasan substantif (yaitu, teknis) yang saya dengar adalah bahwa teknik yang kuat (juga untuk metode yang resisten) tidak memiliki kekuatan / sensitivitas teknik klasik. Saya tidak tahu apakah ini memang benar dalam beberapa kasus, tetapi saya tahu itu tidak benar dalam banyak kasus.
Akhir kata preemption: ya saya tahu pertanyaan ini tidak memiliki satu jawaban yang benar terbukti; sangat sedikit pertanyaan di Situs ini yang dapat dilakukan. Selain itu, pertanyaan ini adalah pertanyaan asli; itu bukan alasan untuk mengajukan sudut pandang - saya tidak punya sudut pandang di sini, hanya pertanyaan yang saya harapkan untuk beberapa jawaban mendalam.
Jawaban:
Para peneliti menginginkan nilai-p yang kecil, dan Anda bisa mendapatkan nilai-p yang lebih kecil jika Anda menggunakan metode yang membuat asumsi distribusi yang lebih kuat. Dengan kata lain, metode yang tidak kuat memungkinkan Anda menerbitkan lebih banyak makalah. Tentu saja lebih dari makalah ini mungkin positif palsu, tetapi publikasi adalah publikasi. Itu penjelasan yang sinis, tetapi kadang-kadang valid.
sumber
Jadi 'model klasik' (apa pun itu - saya berasumsi Anda bermaksud sesuatu seperti model sederhana yang diajarkan dalam buku teks dan diperkirakan oleh ML) gagal pada beberapa, mungkin banyak, kumpulan data dunia nyata.
Jika model gagal maka ada dua pendekatan dasar untuk memperbaikinya:
Statistik yang kuat, kemungkinan semu, dan pendekatan GEE mengambil pendekatan pertama dengan mengubah strategi estimasi menjadi satu di mana model tidak berlaku untuk semua titik data (kuat) atau tidak perlu mengkarakterisasi semua aspek data (QL dan GEE).
Alternatifnya adalah mencoba membangun model yang secara eksplisit memodelkan sumber titik data yang terkontaminasi, atau aspek-aspek dari model asli yang tampaknya salah, sambil menjaga metode estimasi tetap sama seperti sebelumnya.
Beberapa secara intuitif lebih menyukai yang pertama (ini sangat populer di bidang ekonomi), dan beberapa secara intuitif lebih suka yang kedua (ini sangat populer di kalangan orang Bayesian, yang cenderung lebih bahagia dengan model yang lebih kompleks, terutama sekali mereka menyadari bahwa mereka akan menggunakan alat simulasi untuk inferensi pula).
Asumsi distribusi tailed fat, misalnya menggunakan binomial negatif daripada poisson atau t daripada normal, termasuk dalam strategi kedua. Kebanyakan hal yang berlabel 'statistik kuat' termasuk dalam strategi pertama.
Sebagai masalah praktis, menurunkan estimator untuk strategi pertama untuk masalah kompleks yang realistis tampaknya cukup sulit. Bukan itu alasan untuk tidak melakukannya, tetapi mungkin penjelasan mengapa hal itu tidak dilakukan terlalu sering.
sumber
Saya akan menyarankan bahwa ini adalah keterlambatan dalam mengajar. Kebanyakan orang belajar statistik di perguruan tinggi atau universitas. Jika statistik bukan gelar pertama Anda dan bukannya gelar matematika atau ilmu komputer maka Anda mungkin hanya mencakup modul statistik dasar:
Ini berarti bahwa ketika dihadapkan dengan masalah Anda mencoba dan menggunakan apa yang Anda ketahui untuk menyelesaikan masalah.
Kecuali Anda menemukan sesuatu yang lain, maka sulit untuk melakukan sesuatu yang lebih baik. Sangat sulit menggunakan Google untuk menemukan sesuatu jika Anda tidak tahu apa namanya!
Saya pikir dengan semua teknik itu akan membutuhkan waktu sebelum teknik yang lebih baru menyaring. Berapa lama dibutuhkan tes hipotesis standar untuk menjadi bagian dari kurikulum statistik standar?
BTW, dengan gelar statistik masih akan ada jeda dalam mengajar - hanya lebih pendek!
sumber
Siapa pun yang terlatih dalam analisis data statistik pada tingkat yang wajar menggunakan konsep statistik yang kuat secara teratur. Sebagian besar peneliti cukup tahu untuk mencari outlier serius dan kesalahan perekaman data; kebijakan menghapus titik data yang dicurigai kembali ke abad ke-19 dengan Lord Rayleigh, GG Stokes, dan yang lainnya seusia mereka. Jika pertanyaannya adalah:
Mengapa peneliti tidak menggunakan metode yang lebih modern untuk menghitung lokasi, skala, regresi, dll. Estimasi?
maka jawabannya diberikan di atas - metode sebagian besar telah dikembangkan dalam 25 tahun terakhir, katakanlah 1985 - 2010. Keterlambatan untuk mempelajari faktor-faktor metode baru, serta inersia yang diperparah oleh 'mitos' bahwa tidak ada yang salah dengan secara membabi buta menggunakan metode klasik. John Tukey berkomentar bahwa metode kuat / tahan yang Anda gunakan tidak penting — yang penting adalah Anda menggunakannya. Sangat tepat untuk menggunakan kedua metode klasik dan kuat / tahan secara rutin, dan hanya khawatir ketika mereka berbeda cukup penting. Tetapi ketika mereka berbeda , Anda harus berpikir keras .
Jika sebaliknya, pertanyaannya adalah:
Mengapa para peneliti tidak berhenti dan bertanya tentang data mereka, alih-alih menerapkan secara membabi buta perkiraan yang tidak stabil?
maka jawabannya benar-benar turun ke pelatihan. Ada terlalu banyak peneliti yang tidak pernah dilatih dalam statistik dengan benar, disimpulkan oleh ketergantungan umum pada nilai-p sebagai semua-dan akhir-semua 'signifikansi statistik'.
@Kwak: perkiraan Huber dari tahun 1970-an yang kuat, dalam arti klasik kata: mereka menolak outlier. Dan penaksir redescending sebenarnya sudah ada jauh sebelum tahun 1980-an: studi ketahanan Princeton (tahun 1971) mencakup estimasi lokasi bisquare, perkiraan redescending.
sumber
Statistik adalah alat untuk peneliti yang berpikiran non-statistik, dan mereka tidak peduli.
Saya pernah mencoba membantu dengan artikel Kedokteran yang mantan istri saya ikut menulis. Saya menulis beberapa halaman yang menggambarkan data, apa yang disarankan, mengapa pengamatan tertentu telah dikeluarkan dari penelitian ... dan peneliti utama, seorang dokter, membuang semuanya dan meminta seseorang untuk menghitung nilai p, yang hanya dia (dan hampir semua orang yang akan membaca artikel) peduli.
sumber
Saya Berikan jawaban dalam dua arah:
pengembangan
Pertama, saya pikir ada banyak pendekatan yang baik dalam statistik (Anda akan menemukan mereka dalam paket R belum tentu dengan yang disebutkan di suatu tempat kuat) yang secara alami kuat dan diuji pada data nyata dan fakta bahwa Anda tidak menemukan algoritma dengan "robust "Disebutkan di suatu tempat bukan berarti tidak kuat. Pokoknya jika Anda berpikir menjadi kuat berarti universal maka Anda tidak akan pernah menemukan prosedur yang kuat (tidak ada makan siang gratis) Anda perlu memiliki pengetahuan / keahlian pada data yang Anda analisis untuk menggunakan alat yang disesuaikan atau untuk membuat model yang disesuaikan.
Di sisi lain, beberapa pendekatan dalam statistik tidak kuat karena mereka didedikasikan untuk satu jenis model tunggal. Saya pikir itu baik kadang-kadang bekerja di laboratorium untuk mencoba memahami sesuatu. Juga baik untuk memperlakukan masalah secara terpisah untuk memahami masalah apa yang menjadi solusi kita ... ini adalah cara kerja matematikawan. Contoh model Gaussian elocant: begitu banyak dikritik karena asumsi gaussian tidak pernah dipenuhi tetapi telah membawa 75% dari ide-ide yang digunakan secara praktis dalam statistik saat ini. Apakah Anda benar-benar berpikir semua ini tentang menulis makalah untuk mengikuti aturan penerbitan atau binasa (yang saya tidak suka, saya setuju)?
sumber
Sebagai seseorang yang telah belajar sedikit statistik untuk penelitian saya sendiri, saya akan menebak bahwa alasannya pedagogis dan lembam.
Saya telah mengamati dalam bidang saya sendiri bahwa urutan topik yang diajarkan mencerminkan sejarah bidang tersebut. Ide-ide yang datang pertama diajarkan terlebih dahulu, dan seterusnya. Untuk orang yang hanya mempelajari statistik untuk instruksi sepintas, ini berarti mereka akan mempelajari statistik klasik terlebih dahulu, dan mungkin yang terakhir. Kemudian, bahkan jika mereka belajar lebih banyak, barang-barang klasik dengan tongkat lebih baik karena efek keutamaan.
Juga, semua orang tahu apa uji-t dua sampel itu. Kurang dari semua orang yang tahu apa itu tes Jumlah Mann-Whitney atau Wilcoxon Rank. Ini berarti bahwa saya harus mengerahkan sedikit energi untuk menjelaskan apa tes kuat saya, dibandingkan tidak harus mengerahkan apa pun dengan tes klasik. Kondisi seperti itu jelas akan menghasilkan lebih sedikit orang menggunakan metode yang kuat dari yang seharusnya.
sumber
Wooldridge "Pengantar Ekonometrika - Pendekatan Modern" 2E hal.261.
Jika kesalahan standar Heteroskedasticity-robust lebih valid daripada kesalahan standar OLS biasa, mengapa kita repot-repot kita kesalahan standar biasa sama sekali? ... Salah satu alasan mereka masih digunakan dalam pekerjaan cross sectional adalah bahwa, jika asumsi homoskedasticity berlaku dan erro terdistribusi normal, maka t-statistik biasa memiliki distribusi t yang tepat, terlepas dari ukuran sampel. Kesalahan standar yang kuat dan statistik t yang kuat dibenarkan hanya karena ukuran sampel menjadi besar. Dengan ukuran sampel yang kecil, statistik t yang kuat dapat memiliki distribusi yang tidak terlalu dekat dengan distribusi t, dan itu dapat membuang kesimpulan kami. Dalam ukuran sampel yang besar, kami dapat membuat kasus untuk selalu melaporkan hanya kesalahan standar Heteroskedasticity-robust dalam aplikasi cross-sectional,
sumber
Meskipun mereka tidak saling eksklusif, saya pikir semakin populernya statistik Bayesian adalah bagian darinya. Statistik Bayesian dapat mencapai banyak tujuan yang sama melalui prior dan model rata-rata, dan cenderung sedikit lebih kuat dalam praktik.
sumber
Saya bukan ahli statistik, pengalaman saya dalam statistik cukup terbatas, saya hanya menggunakan statistik yang kuat dalam visi komputer / estimasi / rekonstruksi 3d. Inilah pendapat saya tentang masalah dari sudut pandang pengguna:
Pertama, statistik yang kuat banyak digunakan dalam bidang teknik dan sains tanpa menyebutnya "statistik yang kuat". Banyak orang menggunakannya secara intuitif, dalam proses menyesuaikan metode spesifik dengan masalah dunia nyata. Misalnya kuadrat berulang berulang berulang dan rata-rata terpangkas / terpangkas kuadrat digunakan secara umum, bahwa hanya pengguna tidak tahu mereka menggunakan statistik yang kuat - mereka hanya membuat metode yang bisa diterapkan untuk data nyata, non-sintetis.
Kedua, statistik kuat "intuitif" dan statistik sadar secara praktis selalu digunakan dalam kasus di mana hasilnya dapat diverifikasi, atau di mana ada metrik kesalahan yang terlihat jelas. Jika hasil yang diperoleh dengan distribusi normal jelas tidak valid atau salah, orang mulai mengutak-atik bobot, pemangkasan, pengambilan sampel, membaca beberapa kertas dan akhirnya menggunakan penduga yang kuat, apakah mereka tahu istilah atau tidak. Di sisi lain, jika hasil akhir dari penelitian hanya beberapa grafik dan diagram, dan tidak ada ketidakpekaan untuk memverifikasi hasil, atau jika statistik normal menghasilkan hasil yang cukup baik - orang tidak peduli.
Dan terakhir, tentang kegunaan statistik yang kuat sebagai teori - sementara teori itu sendiri sangat menarik itu tidak sering memberikan keuntungan praktis. Sebagian besar penaksir yang kuat cukup sepele dan intuitif, sering orang menciptakannya kembali tanpa pengetahuan statistik. Teori, seperti estimasi titik kerusakan, asimptotik, kedalaman data, heteroskedacity dll memungkinkan pemahaman yang lebih dalam tentang data, tetapi dalam kebanyakan kasus itu hanya tidak perlu. Satu pengecualian besar adalah persimpangan statistik yang kuat dan penginderaan tekan, yang menghasilkan beberapa metode praktis baru seperti "cross-and-bouquet"
sumber
Pengetahuan saya tentang estimator yang kuat semata-mata dalam hal kesalahan standar yang kuat untuk parameter regresi sehingga komentar saya hanya akan mengenai hal itu. Saya sarankan orang membaca artikel ini,
Tentang "Pengukur Sandwich Huber" dan "Kesalahan Standar yang Kuat" oleh: Freedman, A. David Ahli Statistik Amerika, Vol. 60, No. 4. (November 2006), hlm. 299-302. doi: 10.1198 / 000313006X152207 ( Versi PDF )
Khususnya apa yang saya khawatirkan dengan pendekatan ini bukanlah bahwa mereka salah, tetapi mereka hanya mengalihkan perhatian dari masalah yang lebih besar. Jadi saya sepenuhnya setuju dengan jawaban Robin Girard dan penyebutannya "tidak makan siang gratis".
sumber
Kalkulus dan probabilitas yang diperlukan untuk statistik yang kuat (biasanya) lebih sulit, jadi (a) ada lebih sedikit teori dan (b) lebih sulit untuk dipahami.
sumber
Saya terkejut melihat teorema Gauss-Markov tidak disebutkan dalam daftar panjang jawaban ini, afaics:
Dalam model linier dengan kesalahan bola (yang sepanjang itu mencakup asumsi tidak ada pencilan, melalui varians kesalahan terbatas), OLS efisien dalam kelas penaksir tidak bias linier - terdapat (membatasi, untuk memastikan) kondisi di mana " Anda tidak dapat melakukan lebih baik daripada OLS ".
Saya tidak berargumen ini harus dibenarkan menggunakan OLS hampir sepanjang waktu, tetapi tentu memberikan kontribusi mengapa (terutama karena itu adalah alasan yang baik untuk fokus pada OLS dalam mengajar).
sumber
Dugaan saya adalah bahwa statistik yang kuat tidak pernah cukup yaitu untuk menjadi kuat statistik ini melewatkan beberapa informasi tentang distribusi. Dan saya curiga itu tidak selalu baik. Dengan kata lain ada trade-off antara ketahanan dan hilangnya informasi.
sumber