Mengapa pengujian hipotesis dasar fokus pada mean dan bukan pada median?

32

Dalam kursus statistik dasar tingkat bawah, siswa (biasanya?) Diajari pengujian hipotesis untuk rata-rata populasi.
Mengapa fokusnya adalah pada rata-rata dan bukan pada median? Dugaan saya adalah bahwa lebih mudah untuk menguji mean karena teorema batas pusat, tetapi saya ingin membaca beberapa penjelasan yang berpendidikan.

nafrtiti
sumber
3
Berarti memiliki sifat yang berguna untuk keunikan, perhitungan, dan kalkulus. Ini sering terkait dengan statistik yang memadai.
Henry

Jawaban:

40

Karena Alan Turing lahir setelah Ronald Fisher.

Di masa lalu, sebelum komputer, semua hal ini harus dilakukan dengan tangan atau, paling baik, dengan apa yang sekarang kita sebut kalkulator. Tes untuk membandingkan cara dapat dilakukan dengan cara ini - itu melelahkan, tetapi mungkin. Tes untuk kuantil (seperti median) akan sangat tidak mungkin dilakukan dengan cara ini.

Misalnya, regresi kuantitatif bergantung pada meminimalkan fungsi yang relatif rumit. Ini tidak mungkin dilakukan dengan tangan. Mungkin dengan pemrograman. Lihat misalnya Koenker atau Wikipedia .

Regresi kuantitatif memiliki asumsi lebih sedikit daripada regresi OLS dan memberikan lebih banyak informasi.

Peter Flom - Pasang kembali Monica
sumber
6
Pada waktu itu komputer memang ada tetapi berarti sesuatu yang sangat berbeda dari apa yang kita maksud dengannya sekarang.
Maarten Buis
6
Memang! Komputer adalah orang yang melakukan perhitungan.
Peter Flom - Kembalikan Monica
2
@nafrtiti Silabus berubah, tetapi perlahan. Ada banyak momentum untuk diatasi dan orang-orang di luar statistik tidak terbiasa dengan ide-ide baru sehingga dapat menolaknya.
Peter Flom - Pasang kembali Monica
3
@SunQingyao Sorting jauh lebih mahal daripada menambahkan. Menambahkan adalah O (n) dan ini merupakan salah satu operasi perangkat keras paling mendasar dan hanya membutuhkan satu register. Selain itu, yang perlu saya ketahui adalah total dan jumlah item untuk lebih banyak data dan menghitung rata-rata baru. Untuk menghitung median, saya membutuhkan seluruh set
JimmyJames
3
Dengan Pilih cepat (dan menggunakan median-of-5 untuk memilih pivot jika pivot buruk dipilih secara acak) Anda dapat menemukan kuantil dalam O (N), membuat jarak antara median dan rata-rata lebih kecil. Tentu saja Anda perlu tahu bahwa metode tersebut ada (yang tidak diketahui bahkan pada waktu Turings).
Surt
22

x1,xnθminθR(E(θ,x1,xn)=minθR(i=1i=nE(θ,xi))E(x,y)=(xy)2θRθR

aginensky
sumber
6
EEErr
3
x2x=0|x|
1
@Just_to_Answer - Saya pikir itu adalah alasan lain. Saya sudah memikirkan hal ini selama bertahun-tahun. Bagi saya, saya telah menyimpulkan bahwa apa yang Anda katakan terkait dengan mengapa kita umumnya menggunakan Euclidean dan bukan jarak Manhattan :)
aginensky
19

Seringkali mean dipilih daripada median bukan karena itu lebih representatif, kuat, atau bermakna tetapi karena orang membingungkan penduga dengan estimasi dan. Dengan kata lain, beberapa memilih mean populasi sebagai jumlah bunga karena dengan distribusi normal mean sampel lebih tepat daripada median sampel. Alih-alih, mereka harus berpikir lebih banyak, seperti yang telah Anda lakukan, tentang jumlah bunga yang sebenarnya.

Satu bilah sisi: kami memiliki interval kepercayaan nonparametrik untuk median populasi tetapi tidak ada metode nonparametrik (selain mungkin metode kemungkinan empiris intensif numerik) untuk mendapatkan interval kepercayaan untuk rata-rata populasi. Jika Anda ingin tetap bebas distribusi, Anda dapat berkonsentrasi pada median.

Perhatikan bahwa teorema limit pusat jauh kurang berguna daripada yang tampaknya, seperti telah dibahas di tempat lain di situs ini. Ini secara efektif mengasumsikan bahwa varians diketahui atau bahwa distribusinya simetris dan memiliki bentuk sedemikian rupa sehingga varians sampel adalah penaksir dispersi kompetitif.

Frank Harrell
sumber
2
Saya percaya itu mungkin untuk membangun interval kepercayaan nonparametrik untuk mean - katakanlah melalui tes permutasi (ini dapat dilakukan dengan asumsi simetri tanpa mengasumsikan bentuk fungsional tertentu, misalnya). Itu adalah situasi yang agak terbatas, meskipun itu juga mungkin di bawah beberapa asumsi lain selain simetri. Jika Anda siap untuk menangani perkiraan cakupan yang datang dengan bootstrap seseorang bisa mendapatkan interval nonparametrik tanpa asumsi seperti simetri.
Glen_b -Reinstate Monica
2
Jika mengasumsikan simetri, itu adalah parametrik. Belum pernah melihat ini meluas ke kasus-kasus non-simetris. Bootstrap (semua varian kecuali mungkin metode t studentized) sangat tidak akurat di bawah asimetri yang parah. Lihat stats.stackexchange.com/questions/186957
Frank Harrell
5
Simetri tidak terbatas parametrik. Tes peringkat bertanda Wilcoxon mengasumsikan simetri (untuk memiliki exhangeability tanda) di bawah nol. Anda akan memanggil parametrik itu?
Glen_b -Reinstate Monica
2
Pada pertanyaan @Glen_b tentang simetri - itu pertanyaan yang sangat bagus. Uji peringkat bertanda Wilcoxon adalah kasus yang menarik karena, tidak seperti tes 2-sampel WIlcoxon, membuat asumsi simetri berat. Saya kira Anda bisa mengatakan bahwa Anda bisa menjadi non-parametrik sementara masih memerlukan semacam asumsi umum seperti simetri. Mungkin terminologinya harus "nonparametrik dengan batasan"? Di sisi lain tes 2-sampel nonparametrik memiliki batasan sehubungan dengan apa yang mengoptimalkan kesalahan tipe II (tetapi bukan kesalahan tipe I).
Frank Harrell