Apa perbedaan antara estimator dan statistik?

30

Saya belajar bahwa statistik adalah atribut yang dapat Anda peroleh dari sampel. Mengambil banyak sampel dengan ukuran yang sama, menghitung atribut ini untuk semuanya dan memplot pdf, kami mendapatkan distribusi atribut yang sesuai atau distribusi statistik yang sesuai.

Saya juga mendengar bahwa statistik dibuat menjadi penduga, bagaimana perbedaan kedua konsep ini?

gutto
sumber
2
Terima kasih atas semua jawabannya ... Konsepnya jauh lebih jelas bagi saya sekarang ..
gutto

Jawaban:

17

Definisi

Dari Wikipedia:

Sebuah statistik [...] adalah ukuran tunggal beberapa atribut dari sampel (misalnya, rata-rata nilai aritmatika nya).

Dan

[A] n estimator adalah aturan untuk menghitung estimasi jumlah tertentu [dari distribusi yang mendasarinya] berdasarkan data yang diamati.

Perbedaan penting adalah:

  • Sebuah statistik merupakan fungsi dari sampel.
  • Sebuah estimator adalah fungsi dari sampel terkait dengan beberapa kuantitas distribusi .

(Untuk arti "Kuantitas", lihat bagian di bawah ini.)

Statistik bukan merupakan penaksir

Sebuah estimator adalah statistik dengan sesuatu yang ditambahkan. Untuk mengubah statistik menjadi penaksir, Anda cukup menguraikan jumlah target yang ingin Anda perkirakan. Ini membingungkan, karena Anda tidak menambahkan sesuatu yang "nyata" ke dalam statistik, tetapi hanya beberapa bermaksud.

Untuk melihat bahwa perbedaan itu penting, Anda harus menyadari bahwa Anda tidak dapat menghitung properti estimator (misalnya bias , varians , dll.) Hanya untuk statistik. Untuk menghitung bias , Anda harus menemukan perbedaan antara nilai yang diberikan statistik kepada Anda dan nilai sebenarnya. Hanya estimator yang dilengkapi dengan "nilai sebenarnya" yang memungkinkan untuk menghitung bias. Statistik hanyalah fungsi dari data, dan itu tidak benar atau salah.

Penduga yang berbeda berdasarkan statistik yang sama

Anda dapat menguraikan jumlah target yang berbeda untuk statistik yang sama, sehingga menghasilkan penaksir yang berbeda. Setiap penaksir tersebut memiliki biasnya sendiri, meskipun semuanya (berdasarkan) nilai yang sama, statistik yang sama.

  • Anda dapat menggunakan mean sampel sebagai penaksir untuk mean distribusi . Estimator ini memiliki bias nol .
  • Anda juga dapat menggunakan mean sampel sebagai penaksir untuk varians distribusi . Estimator ini bias untuk sebagian besar distribusi.

Jadi mengatakan "sampel rata-rata tidak bias" tidak masuk akal. Rata-rata sampel tidak bias ketika Anda menggunakannya untuk memperkirakan rata-rata distribusi. Tetapi pada saat yang sama itu bias ketika menggunakannya untuk memperkirakan varian distribusi.

Jumlah distribusi dan jumlah sampel

Di sini kuantitas mengacu pada beberapa sifat distribusi, yang biasanya tidak diketahui dan karenanya harus diperkirakan. Ini berbeda dengan statistik , yang merupakan properti dari sampel, misalnya mean distribusi adalah jumlah distribusi Anda, sedangkan mean sampel adalah statistik (jumlah sampel Anda).

ziggystar
sumber
1
Tidak ada yang salah dengan kutipan ini, tetapi mereka membuat saya bingung tentang apa yang sebenarnya dimaksud dengan "kuantitas." Sebagai contoh, kutipan tampaknya tidak mengesampingkan kemungkinan bahwa "kuantitas" adalah statistik lain berdasarkan data yang sama atau mungkin statistik lain berdasarkan pada set data terpisah yang serupa. (Dalam kasus terakhir, statistik pertama dapat digunakan sebagai prediktor. Dalam kasus sebelumnya saya tidak berpikir ada nama untuk itu, tetapi jelas bukan "penaksir.")
whuber
@whuber Lihat edit. Awalnya saya ingin memberikan jawaban singkat ... :(
ziggystar
Agaknya mean sampel dan median sampel hanya akan memperkirakan nilai dasar yang sama jika distribusinya adalah di mana median = rata-rata ...
Stumpy Joe Pete
Kritik saya kurang masuk akal mengingat hasil edit Anda. Saya hanya mengatakan bahwa dalam banyak distribusi median! = Rata-rata, jadi rata-rata sampel dan rata-rata sampel tidak akan menyatu dengan nilai yang sama dalam kasus-kasus seperti itu (yaitu, jangan memperkirakan hal yang sama).
Stumpy Joe Pete
1
@ Kekar ​​Saya pikir Anda memiliki sedikit kesalahpahaman di sini. Tidak masalah apakah median dan berarti "bertemu" dengan hal yang sama (atau apa pun juga). Untuk memperjelas ini, izinkan saya sedikit konyol: saya dapat, jika saya mau, menggunakan varians sampel untuk memperkirakan rata-rata. Sama sekali tidak ada batasan teoretis - juga tidak ada - yang mengatakan saya tidak bisa melakukan ini. Prosedur saya memenuhi semua bagian dari definisi: varians sampel benar-benar statistik dan rata-rata adalah benar-benar properti dari distribusi yang mendasarinya. Untuk definisi, tidak relevan bahwa ini (sering) merupakan prosedur yang mengerikan.
Whuber
15

Utas ini agak lama, tetapi tampaknya Wikipedia mungkin telah mengubah definisinya dan jika akurat, ia menjelaskannya dengan lebih jelas kepada saya:

"Estimator" atau "estimasi titik" adalah statistik (yaitu, fungsi data) yang digunakan untuk menyimpulkan nilai parameter yang tidak diketahui dalam model statistik.

Jadi statistik mengacu pada data itu sendiri dan perhitungan dengan data itu. Sedangkan estimator mengacu pada parameter dalam suatu model.

Jika saya memahaminya dengan benar, maka, mean adalah statistik dan mungkin juga merupakan penaksir. Rata-rata sampel adalah statistik (jumlah sampel dibagi dengan ukuran sampel). Rata-rata sampel juga merupakan penaksir rata-rata populasi, dengan asumsi terdistribusi normal.

Saya akan bertanya pada @ whuber dan orang lain yang benar-benar mengetahui hal ini jika kutipan Wikipedia (baru?) Akurat.

Wayne
sumber
6
+1 Saya pikir pada dasarnya Anda benar. Anda mungkin tertarik untuk mengetahui bahwa target estimator tidak selalu harus menjadi tertentu "parameter" dari model: bisa setiap properti dari model, seperti fungsi dari parameter. Sebagai contoh, bukanlah parameter untuk model Normal ( μ , σ 2 ) , tetapi dapat diperkirakan. μ2(μ,σ2)
whuber
5

Karena jawaban lain yang mengatakan bahwa mereka sama tidak memberikan referensi resmi, izinkan saya memberi Anda dua kutipan dari buku pegangan inferensi statistik oleh Casella dan Berger:

Definisi 5.2.1 Misalkan menjadi sampel acak berukuran n dari suatu populasi dan misalkan T ( x 1 , , x n ) menjadi fungsi bernilai-nyata atau bernilai vektor yang domainnya mencakup ruang sampel dari ( X 1 , ... , X n ) . Kemudian variabel acak atau vektor acak Y = T ( X 1 , ... , XX1,...,XnnT(x1,...,xn)(X1,...,Xn) statistikY=T(X1,...,Xn) dipanggil. Distribusi probabilitas dari statistik disebut distribusi sampling dari Y .YY

dan

Definisi 7.1.1 Sebuah titik estimator adalah fungsi dari sampel; yaitu, setiap statistik adalah penduga titik.W(X1,...,Xn)

Saya tidak mengatakan di sini bahwa ini adalah jawaban yang pasti untuk pertanyaan itu, karena saya tampaknya setuju dengan dua jawaban yang paling banyak dipilih yang menunjukkan bahwa ada perbedaan, hanya memberikan referensi yang mengatakan sebaliknya untuk menekankan bahwa ini bukan kasus yang jelas.

Tim
sumber
4

"6" adalah contoh estimator. Katakan pertanyaan Anda, "apa kemiringan pemetaan fungsi linear terbaik x ke y?" Jawaban Anda bisa "6". Atau bisa juga . Keduanya adalah penaksir. Mana yang lebih baik diserahkan kepada Anda untuk memutuskan. (XX)-1XY

TA yang sangat bagus sekali menjelaskan konsep estimator kepada saya seperti itu.

Pada dasarnya, estimator adalah hal yang Anda terapkan pada data untuk mendapatkan kuantitas yang Anda tidak tahu nilainya. Anda tahu nilai statistik - ini adalah fungsi data tanpa "terbaik" atau "optimal" tentangnya. Tidak ada maksud "terbaik". Hanya ada maksud.

Katakanlah Anda memiliki dataset tentang jumlah kambing yang dimiliki per orang, dan kebahagiaan setiap orang. Anda tertarik pada bagaimana kebahagiaan orang berubah dengan jumlah kambing yang mereka miliki. Penaksir dapat membantu Anda memperkirakan hubungan itu dari data Anda. Statistik hanyalah fungsi dari data yang Anda miliki. Misalnya, varians kepemilikan kambing mungkin sama dengan 7. Forula untuk menghitung varians akan sama antara kambing dan pemanggang roti, atau apakah Anda tertarik pada kebahagiaan atau kecenderungan untuk terkena kanker. Dalam pengertian itu, semua penaksir yang masuk akal adalah statistik.

generic_user
sumber
3

Pertanyaan menarik. Estimator dan statistik tidak perlu hal yang berbeda. Mereka adalah konsep yang berbeda.

Statistik adalah fungsi (dalam arti luas) di mana inputnya adalah (statistik) data. Efeknya adalah Anda memperoleh hasil, biasanya angka, dari statistik ini. Dalam istilah yang lebih abstrak, suatu statistik dapat menghasilkan lebih dari satu angka. Statistik tergantung pada data, tetapi prosedurnya deterministik. Jadi statistiknya mungkin: "Jumlahkan semua angka dan bagi dengan hitungan" atau, dalam arti yang lebih luas "ambil data gdp dan siapkan laporannya".
Dalam pengertian statistik kita tentu saja berbicara tentang fungsi matematika sebagai statistik.

Signifikansi ini adalah bahwa jika Anda mengetahui properti data yang Anda input (misalnya itu menjadi variabel acak), maka Anda dapat menghitung properti statistik Anda, tanpa benar-benar memasukkan data empiris.

Pengukur adalah penaksir karena niat Anda: untuk memperkirakan properti. Ternyata, beberapa statistik adalah penduga yang baik.
Misalnya jika Anda menarik poin data dari kumpulan variabel iid, maka mean aritmatika - statistik berdasarkan data yang Anda tarik, mungkin akan menjadi penaksir yang baik untuk nilai yang diharapkan dari distribusi itu. Tetapi sekali lagi segala hal yang menghasilkan estimasi adalah estimator.

Dalam praktiknya, penaksir yang Anda gunakan adalah statistik, tetapi ada statistik yang bukan penaksir. Misalnya statistik uji - meskipun orang dapat memperdebatkan semantik pernyataan ini dan memperburuk keadaan, statistik uji mungkin tidak hanya berupa tetapi juga menyertakan penduga. Meskipun secara konseptual hal ini tidak harus terjadi.

Dan tentu saja Anda dapat memiliki estimator yang bukan statistik, meskipun mereka mungkin tidak pandai memperkirakan.

IMA
sumber
1
2nnn+1
Ya saya berpendapat bahwa "memilih nilai" adalah statistik deterministik dan semuanya sebelumnya terkait dengan modifikasi sampel yang Anda pilih. Kemudian lagi karena "prosedur" jika Anda mau - bersifat deterministik, saya dapat mengizinkan elemen stokastik seperti ini dalam definisi statistik saya ... Tunjukkan bahwa penaksir yang bukan statistik bisa setidaknya mereka yang tidak bergantung pada data apa pun. Misalnya angka "6" pada jawaban di bawah ini. Harap dicatat bahwa saya tidak mengatakan bahwa penaksir non-statistik selalu buruk.
IMA
1
Saya pikir mungkin Anda membuat terlalu banyak perbedaan yang tidak perlu dan, pada akhirnya, mempersulit eksposisi Anda. Sebagai contoh, "1/2" adalah penaksir yang hebat dari parameter variabel Bernoulli (ini adalah minimum untuk kerugian kuadratik), jadi akan memalukan untuk mengesampingkannya hanya karena tidak tergantung pada data. (Itu akan analog dengan mengesampingkan kuadrat sebagai contoh persegi panjang dalam geometri Euclidean: Anda bisa melakukan itu, tetapi itu kemudian akan menggandakan panjang sebagian besar pernyataan tentang sifat-sifat persegi panjang.) Ini juga membantu untuk tidak mengesampingkan statistik acak.
whuber
Saya tidak berpikir kita benar-benar berbicara tentang hal yang sama. Di mana saya mengesampingkan sesuatu? Jika satu-setengah adalah penaksir yang bagus, maka itu adalah kasus di mana itu. Saya hanya tidak berpikir bahwa sebagian besar penaksir yang mungkin tidak menggunakan statistik cukup besar. Untuk variabel Bernoulli "1/2" adalah baik. Tapi-cukup- beberapa penaksir lain dari kelas "Bilangan real" tidak terlalu baik, tidakkah Anda setuju? Soal statistik acak masih berdasarkan data - saya tidak mengesampingkannya karena saya masih mengatakan Anda akan memerlukan prosedur deterministik. Tetapi saya mengakui bahwa saya harus menambahkan ini di atas.
IMA
2

Saya pikir pemahaman yang lebih baik tentang apa yang membantu sampel .

[Diperbarui: Sampel adalah konsep yang sangat luas, saya berbicara tentang "sampel acak". Saya tidak tahu apakah estimator masuk akal atau tidak ketika sampel tidak acak .]

dari wikipedia :

Sampel acak didefinisikan sebagai sampel di mana setiap anggota individu dari populasi memiliki peluang yang diketahui dan tidak nol untuk dipilih sebagai bagian dari sampel.

nnnnn sampel.

Kami mengganti sampel dalam estimator dengan nilai sampel. Kami mendapatkan nilai estimator, ini adalah ukuran khusus. Dan ukuran spesifik ini adalah statistik.

(Periksa tautan ini untuk definisi penaksir, kalimat terakhir mengungkapkan mengapa kita selalu bingung.)

alexyangfox
sumber
1

Tujuan Tulisan Ini:

Yang ingin saya lakukan di sini adalah untuk memberi Anda persamaan dan perbedaan antara dua konsep yang saling terkait yang disebut "statistik" dan "penaksir". Namun, saya tidak ingin membahas perbedaan antara parameter dan statistik, yang saya anggap cukup jelas bagi semua orang yang berjuang dengan perbedaan antara statistik dan estimator. Jika tidak demikian halnya dengan Anda, Anda harus mempelajari posting sebelumnya terlebih dahulu, dan kemudian mulai mempelajari posting ini.

Hubungan:

Pada dasarnya, setiap fungsi bernilai nyata dari variabel acak yang dapat diamati dalam sampel disebut statistik. Ada beberapa statistik bahwa jika mereka dirancang dengan baik, dan memiliki beberapa sifat yang baik (misalnya konsistensi, ...), mereka dapat digunakan untuk memperkirakan parameter distribusi yang mendasari populasi. Oleh karena itu, statistik adalah himpunan besar, dan penduga adalah himpunan bagian dalam himpunan statistik. Karenanya, setiap estimator adalah statistik, tetapi tidak setiap statistik adalah estimator.

Kesamaan:

Berbicara tentang kesamaan, seperti yang disebutkan sebelumnya, keduanya adalah fungsi dari variabel acak. Selain itu, keduanya memiliki distribusi yang disebut "distribusi sampel."

Perbedaan:

Berbicara tentang perbedaan, mereka berbeda dalam hal tujuan dan tugas mereka. Tujuan dan tugas statistik dapat meringkas informasi dalam sampel (dengan menggunakan statistik yang cukup), dan kadang-kadang melakukan tes hipotesis, dll. Sebaliknya, tujuan utama dan tugas penduga, seperti namanya, adalah memperkirakan parameter populasi yang diteliti. Penting untuk menyebutkan bahwa ada berbagai macam penaksir, yang masing-masing memiliki logika komputasi sendiri di belakang, seperti MOME, MLE, penduga OLS, dan sebagainya. Perbedaan lain antara kedua konsep ini berkaitan dengan sifat yang diinginkan. Sementara salah satu sifat yang paling diinginkan dari suatu statistik adalah "kecukupan", sifat yang diinginkan dari penaksir adalah hal-hal seperti "konsistensi", "tidak memihak", "presisi", dll.

Peringatan:

Karena itu, Anda harus berhati-hati dalam menggunakan terminologi dengan benar ketika berhadapan dengan statistik dan estimator. Sebagai contoh, tidak masuk akal untuk berbicara tentang bias dari statistik belaka, yang tidak berarti penduga, karena tidak ada parameter yang terlibat dalam konteks seperti itu agar kita dapat menghitung bias, dan bicarakan itu. Jadi, Anda perlu berhati-hati tentang terminologi!

Garis bawah:

Singkatnya, setiap fungsi variabel acak yang dapat diamati dalam sampel adalah statistik. Jika suatu statistik memiliki kemampuan untuk mengestimasi parameter populasi, maka kami menyebutnya sebagai estimator (dari parameter yang diminati). Namun, ada beberapa statistik yang tidak dirancang untuk memperkirakan parameter, jadi statistik ini bukan penaksir, dan di sini kami menyebutnya "sekadar statistik".

Apa yang saya tawarkan di atas adalah cara saya memandang dan memikirkan dua konsep ini, dan saya mencoba yang terbaik untuk menuliskannya dengan kata-kata sederhana. Saya harap ini membantu!

Ali Zeytoon Nejad
sumber
0

Jawaban baru untuk Q lama:

Definisi 1. Sebuah statistik adalah fungsi yang memetakan setiap sampel ke nomor nyata.

Setiap estimator adalah statistik.

Tetapi kami cenderung menyebut hanya statistik yang digunakan untuk menghasilkan taksiran ("tebakan") beberapa parameter sebagai penduga.

Jadi misalnya, t-statistik dan mean sampel adalah KEDUA statistik. Sampel rata-rata juga merupakan penaksir (karena kita sering menggunakannya untuk memperkirakan rata-rata populasi sebenarnya).

Sebaliknya, kita jarang / tidak pernah menyebut statistik-t sebagai penduga, karena kita jarang / tidak pernah menggunakannya untuk memperkirakan parameter apa pun.

PQ

Contoh_

θ

θ adalah bilangan real tetap yang mungkin hanya diketahui oleh Allah. Meskipun demikian, kita dapat mencoba memperkirakannya.

Inilah salah satu metode yang mungkin. Kami melempar dadu 3 kali.

s=(x1,x2,x3)x1x2x3 dari ketiga.

s1=(5,4,1)s2=(4,1,6)s3=(6,3,2)

PQPQs=(x1,x2,x3)

P(s)=x1dalam(x2+x3),
Q(s)=x1+x2+x33.

P

Qθ

Pθ

Kenny LJ
sumber
1
Jawaban ini menuju ke arah yang baik. "Definisi 2," meskipun demikian, tampaknya bukan definisi yang valid, karena sifatnya yang bundar (definisi "penduga" dalam hal "perkiraan" tanpa menjelaskan yang terakhir). Agar efektif, Anda perlu menjelaskan apa "perkiraan parameter" dalam detail dan kejelasan yang cukup bahwa orang dapat merumuskan pengukuran kuantitatif tentang seberapa baik penduga bekerja.
whuber
θθ5
2
Sayangnya, seperti yang saya coba sarankan, sesuatu yang esensial tampaknya telah hilang dalam penyederhanaan, karena definisi kedua Anda tidak membedakan penduga dari statistik lain sama sekali.
whuber
@whuber: Benar. Secara formal, estimator hanyalah sebuah statistik. Tetapi kita cenderung menggunakan kata "penaksir" untuk merujuk ke suatu statistik jika statistik itu digunakan untuk memperkirakan beberapa parameter yang menarik. Saya telah mengedit jawaban saya untuk memperjelas hal ini.
Kenny LJ
-3

Dalam pengujian hipotesis :

Suatu uji-statistik adalah tentang pengujian hipotesis. Uji-statistik adalah variabel acak yang diberikan / di bawah hipotesis nol. Sekarang, beberapa orang mungkin menyebut statistik nilai / ukuran uji-statistik yang diberikan sampel.

Dengan dua ini Anda bisa mendapatkan nilai-p yang merupakan ukuran yang membantu untuk menolak atau tidak menolak hipotesis nol. Secara keseluruhan, statistik adalah perkiraan seberapa jauh / dekat dengan hipotesis Anda.

Tautan ini mungkin bermanfaat.

dfhgfh
sumber
2
Anda tampaknya menjawab pertanyaan yang berbeda, sesuatu yang berkaitan dengan tes hipotesis daripada estimasi. Definisi "statistik" Anda jauh lebih terbatas cakupannya daripada definisi standar: statistik berlaku untuk semua bentuk pengambilan keputusan, bukan hanya pada kasus pengujian hipotesis dan hipotesis nol yang sangat terbatas. Selain itu, tes hipotesis tidak sama dengan penduga dan sebagian besar statistik tidak digunakan sebagai penduga kedekatan dengan beberapa hipotesis.
whuber
Saya tidak akan mengatakan itu pertanyaan yang berbeda. Ini memberikan gambaran tentang apa itu dalam konteks pengujian hipotesis setidaknya!
dfhgfh
2
Karena jawaban ini berfokus pada versi pertanyaan yang terbatas dan khusus dan menggunakan istilah kunci "penaksir" dan "statistik" dengan cara yang tidak konvensional, tanpa mengingatkan pembaca akan fakta itu, saya khawatir hal itu dapat menyesatkan atau membingungkan orang.
Whuber
Saya pikir pengujian Hipotesis jauh menjadi bidang statistik yang terbatas dan terspesialisasi.
dfhgfh