Pertanyaan ini menjadi inti dari apa itu statistik dan bagaimana melakukan analisis statistik yang baik. Ini memunculkan banyak masalah, beberapa terminologi dan lain-lain teori. Untuk memperjelasnya, mari kita mulai dengan mencatat konteks implisit dari pertanyaan dan pergi dari sana untuk mendefinisikan istilah kunci "parameter," "properti," dan "penaksir." Beberapa bagian dari pertanyaan dijawab ketika mereka muncul dalam diskusi. Bagian penutup akhir merangkum ide-ide kunci.
Ruang negara
Penggunaan statistik umum "distribusi," seperti dalam "distribusi Normal dengan PDF sebanding dengan "sebenarnya merupakan penyalahgunaan (serius) bahasa Inggris, karena jelas ini bukan satu distribusi: itu adalah seluruh keluarga distribusi yangdiparameterisasioleh simbolμdanσ. Notasi standar untuk ini adalah "state space"Ω, satusetexp(−12(x−μ)/σ)2)dxμσΩdistribusi. (Saya menyederhanakan sedikit di sini demi eksposisi dan akan terus menyederhanakan saat kita melanjutkan, sambil tetap seketat mungkin.) Perannya adalah untuk menggambarkan target yang mungkin dari prosedur statistik kami: ketika kami memperkirakan sesuatu, kami memilih satu (atau terkadang lebih) elemen .Ω
Kadang-kadang spasi state secara eksplisit parameter, seperti dalam . Dalam uraian ini ada korespondensi satu-ke-satu antara set tupel { ( μ , σ ) } di bidang setengah atas dan set distribusi yang akan kami gunakan untuk memodelkan data kami. Salah satu nilai dari parameterisasi tersebut adalah bahwa kita sekarang dapat merujuk secara konkret ke distribusi dalam Ω dengan menggunakan pasangan bilangan real yang dipesan.Ω = { N( μ , σ2) | μ ∈ R , σ> 0 }{ ( μ , σ) }Ω
Dalam kasus lain, spasi negara tidak parameterisasi secara eksplisit. Contohnya adalah himpunan semua distribusi kontinu unimodal. Di bawah ini, kami akan menjawab pertanyaan apakah parameterisasi yang memadai dapat ditemukan dalam kasus tersebut.
Parameterisasi
Umumnya, parameterisasi dari adalah korespondensi (matematika fungsi ) dari subset dari R d (dengan d terbatas) ke Ω . Yaitu, ia menggunakan set d -tuple yang dipesan untuk memberi label pada distribusi. Tapi itu bukan sembarang korespondensi: itu harus "berperilaku baik." Untuk memahami hal ini, pertimbangkan set semua distribusi kontinu yang PDF-nya memiliki harapan terbatas. Ini akan secara luas dianggap sebagai "non-parametrik" dalam arti bahwa setiap upaya "alami" untuk mengukur parameter set ini akan melibatkan urutan bilangan real yang dapat dihitung (menggunakan ekspansi dalam basis ortogonal apa pun). Namun demikian, karena set ini memiliki kardinalitas ℵΩRddΩd , yang merupakan kardinalitas dari real, harus ada beberapa korespondensi satu-ke-satu antara distribusi ini dan R . Paradoksnya, yang tampaknya membuat iniruang keadaanparameterizeddenganparameter nyatatunggal!ℵ1R
Paradoks diselesaikan dengan mencatat bahwa bilangan real tunggal tidak dapat menikmati hubungan "baik" dengan distribusi: ketika kita mengubah nilai angka itu, distribusi yang bersesuaian harus dalam beberapa kasus berubah secara radikal. Kami mengesampingkan parameterisasi "patologis" seperti itu dengan mengharuskan distribusi yang sesuai dengan nilai tutup dari parameter mereka sendiri harus "dekat" satu sama lain. Membahas definisi "tutup" yang sesuai akan membawa kita terlalu jauh, tetapi saya harap uraian ini cukup untuk menunjukkan bahwa ada lebih banyak hal untuk menjadi parameter daripada sekadar menyebutkan distribusi tertentu.
Properti distribusi
Melalui aplikasi berulang, kita menjadi terbiasa memikirkan "properti" dari suatu distribusi sebagai sejumlah kuantitas yang dapat dipahami yang sering muncul dalam pekerjaan kita, seperti ekspektasi, varian, dan sebagainya. Masalah dengan ini sebagai definisi yang mungkin dari "properti" adalah bahwa itu terlalu kabur dan tidak cukup umum. (Di sinilah matematika pada pertengahan abad ke-18, di mana "fungsi" dianggap sebagai proses yang terbatas diterapkan pada objek.) Sebaliknya, tentang satu-satunya definisi yang masuk akal dari "properti" yang akan selalu berfungsi adalah menganggap properti sebagai menjadi nomor yang secara unik ditugaskan untuk setiap distribusi di Ω. Ini termasuk rata-rata, varians, setiap momen, setiap kombinasi aljabar momen, setiap kuantil, dan banyak lagi, termasuk hal-hal yang bahkan tidak dapat dihitung. Namun, itu tidak termasuk hal-hal yang tidak masuk akal untuk beberapa elemen . Misalnya, jika Ω terdiri dari semua distribusi t Student, maka mean bukan properti yang valid untuk Ω (karena t 1 tidak memiliki rata-rata). Ini mempesona pada kami sekali lagi berapa banyak ide-ide kita tergantung pada apa yang Ω benar-benar terdiri dari.ΩΩΩt1Ω
Properti tidak selalu parameter
Properti dapat berupa fungsi yang rumit sehingga tidak akan berfungsi sebagai parameter. Pertimbangkan kasus "Distribusi normal." Kita mungkin ingin tahu apakah mean distribusi sebenarnya, ketika dibulatkan ke bilangan bulat terdekat, adalah genap. Itu sebuah properti. Tapi itu tidak akan berfungsi sebagai parameter.
Parameter tidak harus sifat
Ketika parameter dan distribusi dalam korespondensi satu-ke-satu maka jelas parameter apa pun, dan fungsi parameter apa pun dalam hal ini, adalah properti menurut definisi kami. Tetapi tidak perlu ada korespondensi satu-ke-satu antara parameter dan distribusi: kadang-kadang beberapa distribusi harus dijelaskan oleh dua atau lebih nilai parameter yang berbeda. Sebagai contoh, parameter lokasi untuk titik-titik pada bola akan secara alami menggunakan garis lintang dan garis bujur. Itu baik-baik saja - kecuali pada dua kutub, yang sesuai dengan garis lintang tertentu dan setiap bujur valid. The lokasi(point on the sphere) memang merupakan properti tetapi garis bujurnya belum tentu merupakan properti. Meskipun ada berbagai dodges (hanya menyatakan garis bujur dari sebuah kutub menjadi nol, misalnya), masalah ini menyoroti perbedaan konseptual yang penting antara properti (yang secara unik terkait dengan distribusi) dan parameter (yang merupakan cara pelabelan distribusi dan mungkin tidak unik).
Prosedur statistik
Target estimasi disebut estimasi dan . Ini hanyalah sebuah properti. Ahli statistik tidak bebas memilih estimasi dan: itu adalah provinsi kliennya. Ketika seseorang mendatangi Anda dengan sampel suatu populasi dan meminta Anda untuk memperkirakan persentil ke-99 populasi, Anda kemungkinan besar akan lalai dalam menyediakan penduga rata-rata sebagai gantinya! Pekerjaan Anda, sebagai ahli statistik, adalah mengidentifikasi prosedur yang baik untuk memperkirakan estimasi dan Anda telah diberikan. (Terkadang pekerjaan Anda adalah meyakinkan klien Anda bahwa ia telah memilih estimasi yang salah dan untuk tujuan ilmiahnya, tetapi itu masalah yang berbeda ...)
Menurut definisi, prosedur adalah cara untuk mendapatkan nomor dari data. Prosedur biasanya diberikan sebagai formula untuk diterapkan pada data, seperti "tambahkan semuanya dan bagi dengan jumlah mereka." Secara harfiah setiap prosedur dapat diucapkan sebagai "penaksir" dari estimasi yang diberikan dan. Sebagai contoh, saya dapat menyatakan bahwa mean sampel (rumus yang diterapkan pada data) memperkirakan varians populasi (properti populasi, dengan asumsi klien kami telah membatasi serangkaian populasi yang mungkin hanya untuk menyertakan mereka yang benar-benar memiliki varian).Ω
Pengukur
Estimator tidak perlu memiliki koneksi yang jelas ke estimasi dan. Misalnya, apakah Anda melihat hubungan antara mean sampel dan varians populasi? Saya juga tidak. Namun demikian, mean sampel sebenarnya adalah penaksir yang baik dari varians populasi untuk tertentuΩ (seperti himpunan semua distribusi Poisson). Di sinilah terletak satu kunci untuk memahami penduga: kualitas mereka bergantung pada set keadaan yang memungkinkan . Tapi itu hanya sebagian saja.Ω
Seorang ahli statistik yang kompeten ingin mengetahui seberapa baik prosedur yang mereka rekomendasikan akan benar-benar dilakukan. Mari kita sebut prosedur " " dan biarkan estimasi dan θ . Tidak mengetahui distribusi mana yang sebenarnya adalah yang benar, ia akan merenungkan kinerja prosedur untuk setiap kemungkinan distribusi F ∈ Ω . Mengingat seperti F , dan diberikan setiap kemungkinan hasil s (yaitu, satu set data), dia akan membandingkan t ( s ) (apa perkiraan prosedur nya) untuk θ ( F ) (nilai estimand untuk F ). tθ F∈ΩFst(s)θ(F)FAdalah tanggung jawab kliennya untuk mengatakan seberapa dekat atau jauh jarak keduanya. (Ini sering dilakukan dengan fungsi "kehilangan".) Ia kemudian dapat merenungkan harapan jarak antara dan θ ( F ) . Ini adalah risiko prosedurnya. Karena itu tergantung pada F , risikonya adalah fungsi yang didefinisikan pada Ω .t(s)θ(F)FΩ
(Baik) ahli statistik merekomendasikan prosedur berdasarkan perbandingan risiko. Misalnya, anggap bahwa untuk setiap , risiko prosedur t 1 lebih kecil atau sama dengan risiko t . Maka tidak ada alasan untuk menggunakan t : itu "tidak dapat diterima." Kalau tidak, itu "diterima".F∈Ωt1tt
(Seorang ahli statistik "Bayesian" akan selalu membandingkan risiko dengan rata-rata lebih dari distribusi "sebelumnya" dari negara-negara yang mungkin (biasanya disediakan oleh klien). Seorang ahli statistik "Frequentist" mungkin melakukan ini, jika ada sebelumnya yang dibenarkan ada, tetapi juga bersedia untuk bandingkan risiko dengan cara lain yang dilakukan Bayesians.)
Kesimpulan
Kami memiliki hak untuk mengatakan bahwa yang dapat diterima untuk θ adalah penduga dari θ . tθθ Kita harus, untuk tujuan praktis (karena prosedur yang dapat diterima mungkin sulit ditemukan), tekuk ini untuk mengatakan bahwa setiap yang memiliki risiko kecil yang dapat diterima (bila dibandingkan dengan θ ) di antara prosedur yang praktis adalah penaksir θ . tθθ "Dapat diterima" dan "dapat dipraktikkan" ditentukan oleh klien, tentu saja: "dapat diterima" mengacu pada risiko mereka dan "dapat dipraktikkan" mencerminkan biaya (pada akhirnya dibayar oleh mereka) untuk mengimplementasikan prosedur.
Yang mendasari definisi singkat ini adalah semua ide yang baru saja dibahas: untuk memahaminya kita harus memiliki spesifik (yang merupakan model masalah, proses, atau populasi yang diteliti), estimasi yang pasti dan (disediakan oleh klien), sebuah fungsi kerugian spesifik (yang secara kuantitatif menghubungkan t dengan estimasi dan juga diberikan oleh klien), gagasan risiko (dihitung oleh ahli statistik), beberapa prosedur untuk membandingkan fungsi risiko (tanggung jawab ahli statistik dalam konsultasi dengan klien), dan pemahaman tentang prosedur apa yang sebenarnya dapat dilakukan (masalah "kepraktisan"), meskipun tidak ada satupun yang secara eksplisit disebutkan dalam definisi.Ωt
Seperti halnya banyak pertanyaan tentang definisi, jawaban perlu memperhatikan prinsip-prinsip yang mendasarinya dan tentang cara istilah-istilah digunakan dalam praktik, yang sering kali paling tidak sedikit longgar atau tidak konsisten, bahkan oleh individu yang memiliki informasi yang cukup, dan lebih banyak lagi. yang penting, variabel dari komunitas ke komunitas.
Salah satu prinsip umum adalah bahwa statistik adalah properti dari sampel, dan konstanta yang diketahui, dan parameter adalah properti yang sesuai dari populasi, sehingga konstanta yang tidak diketahui. Kata "korespondensi" harus dipahami cukup elastis di sini. Secara kebetulan, tepatnya pembedaan ini dan tepatnya terminologi ini kurang dari seabad, diperkenalkan oleh RA Fisher.
Tapi
Kumpulan sampel dan populasi tidak mencirikan semua masalah kita sendiri. Rangkaian waktu adalah salah satu kelas contoh utama di mana idenya lebih merupakan proses pembangkit yang mendasarinya, dan sesuatu seperti itu bisa dibilang ide yang lebih dalam dan lebih umum.
Ada pengaturan di mana parameter berubah. Sekali lagi, analisis deret waktu memberikan contoh.
Untuk poin utama di sini, dalam praktiknya kita tidak menganggap semua properti populasi atau proses sebagai parameter. Jika beberapa prosedur mengasumsikan model distribusi normal, maka minimum dan maksimum bukan parameter. (Memang, menurut model, angka minimum dan maksimum adalah angka negatif dan positif yang besar secara sewenang-wenang, bukan berarti itu yang membuat kita khawatir.)
Saya akan mengatakan bahwa untuk sekali Wikipedia menunjuk ke arah yang benar di sini, dan praktik dan prinsip sama-sama dihormati jika kita mengatakan bahwa parameter adalah apa pun yang kita perkirakan .
Ini juga membantu dengan pertanyaan lain yang menyebabkan kebingungan. Misalnya, jika kita menghitung rata-rata 25% yang dipangkas, apa yang kita perkirakan? Jawaban yang masuk akal adalah properti yang sesuai dari populasi, yang pada dasarnya ditentukan oleh metode estimasi. Satu terminologi adalah bahwa estimator memiliki estimasi dan, apa pun yang diperkirakan. Dimulai dengan beberapa ide Platonis tentang properti "di luar sana" (katakanlah mode distribusi) dan pikirkan cara memperkirakan yang masuk akal, seperti memikirkan resep yang baik untuk menganalisis data dan memikirkan apa yang tersirat ketika dianggap sebagai kesimpulan.
Seperti sering dalam matematika atau sains terapan, ada aspek dua kali lipat untuk parameter. Kita sering menganggapnya sebagai sesuatu yang nyata di luar sana yang kita temukan, tetapi juga benar bahwa itu adalah sesuatu yang ditentukan oleh model proses kita, sehingga tidak memiliki makna di luar konteks model.
Dua poin yang sangat berbeda:
Banyak ilmuwan menggunakan kata "parameter" dalam cara para ahli statistik menggunakan variabel. Saya memiliki kepribadian ilmuwan dan statistik, dan saya akan mengatakan itu tidak menguntungkan. Variabel dan properti adalah kata-kata yang lebih baik.
Sangat umum dalam penggunaan bahasa Inggris yang lebih luas bahwa parameter dianggap berarti batas atau batas, yang dapat berasal dari beberapa kebingungan asli antara "parameter" dan "perimeter".
Catatan tentang estimasi dan sudut pandang
Posisi klasik adalah bahwa kami mengidentifikasi parameter terlebih dahulu dan kemudian memutuskan bagaimana memperkirakannya, dan ini tetap menjadi praktik mayoritas, tetapi membalikkan prosesnya tidak masuk akal dan dapat membantu untuk beberapa masalah. Saya menyebutnya estimasi dan sudut pandang. Itu telah ada dalam literatur selama setidaknya 50 tahun. Tukey (1962, p.60) mendesak itu
"Kita harus memberi lebih banyak perhatian untuk memulai dengan estimator dan menemukan apa yang merupakan estimasi yang masuk akal, dan untuk menemukan apa yang masuk akal untuk menganggap estimator sebagai estimasi."
Sudut pandang yang serupa telah diuraikan secara formal dalam rincian dan kedalaman yang cukup oleh Bickel dan Lehmann (1975) dan secara informal dengan kejernihan yang cukup besar oleh Mosteller dan Tukey (1977, pp.32-34).
Ada juga versi dasar. Menggunakan (katakanlah) median sampel atau rata-rata geometrik untuk memperkirakan parameter populasi yang sesuai masuk akal terlepas dari apakah distribusi yang mendasarinya simetris, dan niat baik yang sama dapat diperluas ke (misalnya) sampel yang dipangkas, yang dianggap sebagai penduga dari mitra populasi mereka .
Bickel, PJ dan EL Lehmann. 1975. Statistik deskriptif untuk model nonparametrik. II Lokasi . Annals of Statistics 3: 1045-1069.
Mosteller, F. dan JW Tukey. 1977. Analisis dan Regresi Data. Membaca, MA: Addison-Wesley.
Tukey, JW 1962. Masa depan analisis data . Sejarah Statistik Matematika 33: 1-67.
sumber
(Semua ini mengasumsikan, tentu saja, bahwa model saya tentang distribusi populasi atau proses menghasilkan data adalah benar. Seperti biasa, patut diingat bahwa "semua model salah, tetapi beberapa berguna" - George Box .)
Untuk menjawab pertanyaan Anda secara lebih eksplisit, saya akan mengatakan:
sumber
Ada beberapa jawaban yang bagus untuk pertanyaan ini, saya hanya berpikir saya akan meringkas referensi menarik yang menyediakan diskusi yang cukup ketat tentang penduga.
Halaman laboratorium virtual tentang penaksir menentukan
Konsep fungsi distribusi adalah ide yang sangat umum. Dengan demikian, setiap contoh yang diberikan di atas dapat dilihat sebagai fungsi dari distribusi tertentu.
sumber