Crash course dalam estimasi rata-rata yang kuat

15

Saya memiliki banyak perkiraan (sekitar 1000) dan semuanya seharusnya merupakan perkiraan elastisitas jangka panjang. Sedikit lebih dari setengahnya diperkirakan menggunakan metode A dan sisanya menggunakan metode B. Di suatu tempat saya membaca sesuatu seperti "Saya pikir metode B memperkirakan sesuatu yang sangat berbeda dari metode A, karena perkiraannya jauh (50-60%) lebih tinggi ". Pengetahuan saya tentang statistik yang kuat hampir tidak ada, jadi saya hanya menghitung rata-rata sampel dan median dari kedua sampel ... dan saya langsung melihat perbedaannya. Metode A sangat terkonsentrasi, perbedaan antara median dan rata-rata sangat sedikit, tetapi metode B sampel bervariasi liar.

Saya menyimpulkan bahwa outlier dan kesalahan pengukuran cenderung pada sampel metode B, jadi saya membuang sekitar 50 nilai (sekitar 15%) yang sangat tidak konsisten dengan teori ... dan tiba-tiba cara kedua sampel (termasuk CI mereka) sangat mirip. . Plot kepadatan juga.

(Dalam upaya menghilangkan outlier, saya melihat rentang sampel A dan menghapus semua titik sampel dalam B yang berada di luarnya.) Saya ingin Anda memberi tahu saya di mana saya bisa menemukan beberapa dasar estimasi kuat sarana yang akan izinkan saya untuk menilai situasi ini dengan lebih ketat. Dan memiliki beberapa referensi. Saya tidak perlu pemahaman yang sangat mendalam tentang berbagai teknik, melainkan membaca survei yang komprehensif tentang metodologi estimasi yang kuat.

Saya t-diuji untuk signifikansi perbedaan rata-rata setelah menghapus outlier dan nilai-p adalah 0,0559 (t sekitar 1,9), untuk sampel penuh t statistik adalah sekitar 4,5. Tapi itu bukan intinya, artinya bisa sedikit berbeda, tetapi mereka tidak boleh berbeda 50-60% seperti yang disebutkan di atas. Dan saya pikir mereka tidak melakukannya.

Ondrej
sumber
3
Apa analisis yang Anda maksudkan menggunakan data ini? Praktik menghapus outlier memiliki kredibilitas statistik yang meragukan: Anda dapat "membuat data" untuk memberikan signifikansi atau kurangnya signifikansi di tingkat mana pun dengan melakukan itu. Apakah populasi A dan B yang menerima pengukuran menggunakan metode A dan B benar-benar populasi yang homogen atau mungkin metode Anda baru saja memberi Anda populasi yang berbeda?
AdamO
Tidak akan ada perhitungan atau analisis lebih lanjut untuk dilakukan dengan data. Kedua metode yang disebutkan konsisten, menurut penelitian terbaru, sehingga populasinya harus homogen; tetapi data tidak berkualitas tinggi dan jelas beberapa nilai dalam B ada karena kesalahan (metode ini rawan kesalahan), mereka sama sekali tidak masuk akal secara ekonomi. Saya tahu penghapusan itu meragukan, itulah sebabnya saya mencari sesuatu yang lebih ketat dan kredibel.
Ondrej

Jawaban:

18

Apakah Anda mencari teorinya, atau sesuatu yang praktis?

Jika Anda mencari buku, berikut ini beberapa yang menurut saya sangat membantu:

  • FR Hampel, EM Ronchetti, PJRousseeuw, WA Stahel, Statistik Kuat: Pendekatan Berdasarkan Fungsi Fasih , John Wiley & Sons, 1986.

  • PJ Huber, Statistik Kuat , John Wiley & Sons, 1981.

  • PJ Rousseeuw, AM Leroy, Regresi Kuat dan Deteksi Outlier , John Wiley & Sons, 1987.

  • RG Staudte, SJ Sheather, Estimasi dan Pengujian Kuat , John Wiley & Sons, 1990.

Jika Anda mencari metode praktis, berikut adalah beberapa metode kuat untuk memperkirakan rata-rata ("penaksir lokasi" adalah saya kira istilah yang lebih berprinsip):

  • Mediannya sederhana, terkenal, dan cukup kuat. Ini memiliki ketahanan yang sangat baik untuk pencilan. "Harga" ketahanan adalah sekitar 25%.

  • Rata-rata terpangkas 5% adalah metode lain yang mungkin. Di sini Anda membuang nilai tertinggi 5% dan terendah 5%, lalu mengambil rata-rata (rata-rata) dari hasilnya. Ini kurang kuat untuk outlier: selama tidak lebih dari 5% dari titik data Anda rusak, itu bagus, tetapi jika lebih dari 5% rusak, tiba-tiba berubah mengerikan (tidak menurunkan anggun). "Harga" kekokohan kurang dari median, meskipun saya tidak tahu persis apa itu.

  • {(xsaya+xj)/2:1sayajn}n(n+1)/2x1,...,xnadalah pengamatan. Ini memiliki ketahanan yang sangat baik: dapat menangani korupsi hingga sekitar 29% dari titik data tanpa benar-benar berantakan. Dan "harga" ketahanannya rendah: sekitar 5%. Ini adalah alternatif yang masuk akal untuk median.

  • Mean interkuartil adalah penduga lain yang kadang-kadang digunakan. Ini menghitung rata-rata kuartil pertama dan ketiga, dan karenanya mudah untuk dihitung. Ini memiliki ketahanan yang sangat baik: dapat mentolerir korupsi hingga 25% dari titik data. Namun, "harga" dari ketahanan adalah non-sepele: sekitar 25%. Akibatnya, ini tampaknya lebih rendah daripada median.

  • Ada banyak langkah lain yang telah diusulkan, tetapi yang di atas tampaknya masuk akal.

Singkatnya, saya akan menyarankan median atau mungkin penduga Hodges-Lehmann.

PS Oh, saya harus menjelaskan apa yang saya maksud dengan "harga" ketahanan. Penaksir yang kuat dirancang untuk tetap berfungsi dengan baik meskipun beberapa titik data Anda rusak atau sebaliknya. Tetapi bagaimana jika Anda menggunakan estimator yang kuat pada set data yang tidak memiliki outlier dan tidak ada korupsi? Idealnya, kami ingin estimator tangguh menjadi seefisien mungkin dalam memanfaatkan data sebaik mungkin. Di sini kita dapat mengukur efisiensi dengan kesalahan standar (secara intuitif, jumlah khas kesalahan dalam estimasi yang dihasilkan oleh estimator). Diketahui bahwa jika pengamatan Anda berasal dari distribusi Gaussian (iid), dan jika Anda tahu Anda tidak akan membutuhkan ketahanan, maka rata-rata optimal: memiliki kesalahan estimasi sekecil mungkin. "Harga" ketahanan, di atas, adalah seberapa banyak kesalahan standar meningkat jika kita menerapkan estimator kuat khusus untuk situasi ini. Harga kekokohan 25% untuk median berarti bahwa ukuran kesalahan estimasi khas dengan median akan sekitar 25% lebih besar dari ukuran kesalahan estimasi khas dengan rata-rata. Jelas, semakin rendah "harga" itu, semakin baik.

DW
sumber
n(n+1)/2(xsaya+xj)/21sayajnwilcox.test(..., conf.int=TRUE)
+1, ini sangat bagus. Namun saya punya satu nitpick: Saya tidak akan menggunakan frasa "istilah kesalahan" pada paragraf terakhir Anda, karena sering digunakan untuk mengartikan sesuatu yang lain; Saya akan menggunakan 'standard error dari distribusi sampling', atau hanya 'standard error', sebagai gantinya.
gung - Reinstate Monica
Jawaban yang terstruktur dan ringkas, terima kasih! Tinjauan adalah apa yang saya butuhkan, saya akan membaca makalah yang disarankan oleh Henrik dan harus dibahas. Untuk hiburan malam musim panas yang panjang, saya pasti akan memeriksa buku-buku yang disarankan oleh Anda dan jbowman.
Ondrej
@caracal, Anda benar. Karakterisasi saya pada estimator HL salah. Terima kasih atas koreksinya. Saya telah memperbarui jawaban saya sesuai dengan itu.
DW
Terima kasih, @ungung! Saya telah mengedit jawaban untuk menggunakan 'kesalahan standar' seperti yang Anda sarankan.
DW
7

Jika Anda menyukai sesuatu yang pendek dan mudah dicerna, lihatlah makalah berikut dari literatur psikologis:

Erceg-Hurn, DM, & Mirosevich, VM (2008). Metode statistik kuat modern: Cara mudah untuk memaksimalkan akurasi dan kekuatan penelitian Anda. Psikolog Amerika , 63 (7), 591–601. doi: 10.1037 / 0003-066X.63.7.591

Mereka terutama mengandalkan buku-buku karya Rand R Wilcox (yang diakui juga tidak terlalu matematis):

Wilcox, RR (2001). Dasar-dasar metode statistik modern: secara substansial meningkatkan daya dan akurasi. New York; Berlin: Springer.
Wilcox, RR (2003). Menerapkan teknik statistik kontemporer. Amsterdam; Boston: Academic Press.
Wilcox, RR (2005). Pengantar estimasi kuat dan pengujian hipotesis. Pers Akademik.

Henrik
sumber
5

Satu buku yang menggabungkan teori dengan praktik dengan cukup baik adalah Metode Statistik yang Kuat dengan R, oleh Jurečková dan Picek. Saya juga suka Robust Statistics , oleh Maronna et al. Kedua hal ini mungkin memiliki lebih banyak matematika daripada yang Anda inginkan. Untuk tutorial lebih terapan yang berfokus pada R, pdf BelVenTutorial ini dapat membantu.

Jbowman
sumber
Ah, prof. Jurečková - seorang guru di universitas kami, apa kemungkinannya. Saya akan memeriksa kedua buku. Meskipun saya sedang mencari dokumen yang lebih singkat ... (karena masalah ini sangat kecil bagi saya), tidak ada salahnya untuk menggali sedikit lebih dalam. Terima kasih!
Ondrej
1
Ini dunia kecil! Ya, setidaknya saya mengoreksi ejaan dengan menyalin dari komentar Anda ...
jbowman