Kata-kata umum yang memiliki arti statistik tertentu

12

Saya bukan ahli statistik tetapi pekerjaan penelitian saya melibatkan statistik (menganalisis data, membaca literatur, dll.). Saya diingatkan kembali dari komentar pada salah satu pertanyaan saya yang diposting di sini bahwa ada beberapa kata umum yang memiliki makna atau konotasi khusus bagi mereka yang terlatih baik dalam bidang statistik.

Akan sangat membantu untuk memiliki daftar kata-kata seperti itu dan mungkin frasa bersama dengan beberapa komentar.

terminology user4045
sumber

1

Kedengarannya seperti kandidat Wiki Komunitas .

Glen_b -Reinstate Monica

@ Glen_b Ini bisa berubah menjadi sangat besar, mengingat hampir semua istilah dalam statistik atau matematika akan memenuhi syarat. Apakah ada cara untuk mempersempit ruang lingkup pertanyaan ini secara bermakna?

whuber

3

@whuber Ya, ada bahaya itu menjadi terlalu luas. Apakah sesuatu seperti "yang biasanya menimbulkan kebingungan" cukup untuk mempersempit ruang lingkup?

Glen_b -Reinstate Monica

Saya pikir bahwa ahli statistik yang kompeten biasanya memiliki bahasa ibu mereka yang baik dan akan sangat sadar ketika mereka menggunakan jargon yang perlu dijelaskan dengan baik kepada audiens awam.

Robert Jones

@ Glen_b saya tidak yakin. Ini sangat luas sehingga saya hampir tidak dapat memulai daftar kata yang harus dibahas: akurasi, bias, kalibrasi, diskriminasi, terus menerus, distribusi, bahaya, kelangsungan hidup, spline, model, respons, bootstrap, penyesuaian, klaster, kondisional, kepercayaan, kepadatan , estimasi, variabel, kanonik, korelasi, prediksi, inferensi, sensor, risiko, konkordansi, logistik, batas, cakupan, perancu, kontingensi, konvergensi, korespondensi, kebebasan, penyimpangan, eksponensial, ekstrem, rentang, normal, drop-in, dummy , menjelaskan [variasi], faktor, kegagalan, pengisian, kecocokan, fungsi, ...

whuber

12

" signifikan " - di sini penggunaan bahasa yang umum dari kata ini adalah untuk mengartikan sesuatu seperti 'penting' atau 'bermakna'. Makna statistik secara informal lebih dekat ke "dapat dilihat dari variasi acak tentang nol"; itu tidak menandakan bahwa perbedaan itu cukup besar.

Berikut adalah beberapa contoh di mana perbedaan ini mungkin menjadi penyebab kebingungan: 1 2

" parameter " - sepertinya sering terjadi - khususnya dalam percobaan ilmiah - bahwa kata 'parameter' digunakan dalam cara seorang ahli statistik akan menggunakan kata 'variabel'. Wikipedia menyatakannya sebagai berikut:

Parameter statistik adalah parameter yang mengindeks keluarga distribusi probabilitas. Ini dapat dianggap sebagai karakteristik numerik dari suatu populasi atau model

Contoh di mana ini mungkin menjadi masalah: 1 - mungkin pos yang mengarah ke pertanyaan ini. (Saya melihat yang lain baru-baru ini tetapi saya tidak dapat menemukannya sekarang)

Glen_b
sumber

11

"Kesalahan" - Dalam statistik seringkali berarti penyimpangan antara nilai yang diamati dan yang diperkirakan. Dalam kehidupan nyata itu berarti kesalahan.

Harvey Motulsky
sumber

11

Saya menemukan kertas referensi dari 2010 yang membahas pertanyaan ini.

Anderson-Cook CM. Jargon tersembunyi: Kata sehari-hari dengan makna khusus untuk statistik. ICOTS8, Konferensi Internasional tentang Statistik Pengajaran, Ljubljana, Slovenia, 11-17 Juli 2010.

Makalah ini tersedia secara online gratis , jadi saya hanya memberikan sebagian daftar istilah yang penulis bahas:

 confounding, control, factor, independent, random, uniform

pengguna4045
sumber

10

Saya telah menemukan masalah dalam menggunakan "pemalsuan" seperti dalam "memalsukan hipotesis", sementara yang lain berpikir saya mengacu pada "membuat data". Juga " bias " hampir tidak mungkin untuk disebutkan tanpa menimbulkan kebingungan.

Labu
sumber

6

"normal" - Dalam pembicaraan umum, normal berarti seperti yang diharapkan, bukan di luar kebiasaan. Dalam statistik, jika suatu variabel terdistribusi secara normal, itu merujuk pada distribusi Gaussian. Saya tidak percaya itu standar untuk menggunakan huruf besar kata "normal" untuk membedakannya dari makna ucapan umum.

"normalisasi / standarisasi" - Dalam statistik, untuk menormalkan variabel berarti mengurangi rata-rata dan membagi dengan standar deviasi.

"standar deviasi versus kesalahan standar" - Standar deviasi biasanya dihitung menggunakan seluruh populasi sedangkan kesalahan standar dihitung menggunakan sampel.

rocinante
sumber

1

Saya benar-benar ragu bahwa "kesalahan standar" adalah "kata umum [konvensional, non-statistik]" dengan makna statistik khusus yang berbeda dari penggunaan kata tersebut (frasa, sungguh). Ditto untuk "normalisasi" dan "standar deviasi."

whuber

Mungkin bukan "normalisasi," tetapi "normal" adalah poin yang baik, dan akan menjadi "standar," yang juga digunakan untuk menggambarkan tes yang dimaksudkan untuk menetapkan standar nasional (misalnya, dalam pendidikan, seperti di Amerika Serikat setelah No Child Left) Dibelakang). Saya setuju bahwa "standar deviasi" tidak mungkin menyebabkan kebingungan, meskipun "penyimpangan" dengan sendirinya dalam bahasa umum mungkin lebih cenderung membawa konotasi negatif (terutama sebagai sinonim untuk "penyimpangan").

Nick Stauner

Berikut ini cara lain untuk membedakan SD dan SEM. Deviasi standar menghitung variasi atau sebaran. Kesalahan standar mengukur ketepatan nilai yang dihitung.

Harvey Motulsky

@ HarveyMotulsky Saya pikir cara terbaik adalah memikirkan asteroid (bentuk tidak teratur). Apa pusat massa asteroid? Ini adalah titik yang berjarak sama dari semua titik lainnya. Itu artinya. Apa standar deviasi? Ini adalah jarak "rata-rata" dari setiap titik dari pusat, ukuran ukuran. Apa itu SEM? Ini memberi tahu Anda seberapa yakin Anda tentang lokasi pusat asteroid.

Labu

Saya menemukan mengatakan bahwa kesalahan standar adalah standar deviasi yang dihitung menggunakan "sampel" agak disayangkan. Itu akan menjadi akar kuadrat dari varians sampel untuk saya, sedangkan kesalahan standar adalah standar deviasi statistik uji. Juga, dari istilah di atas hanya "normal" yang tampaknya sangat umum. Tapi kurasa itu normal ...

artinya pada

2

"Parametrik" versus "Non-Parametrik": kategori tes yang membutuhkan data "Normal" atau "bukan Normal". Tes parametrik lebih disukai daripada non-parametrik.

Tes umum: T-test (berpasangan), Mann-Whitney U, ANOVA, Anderson-Darling, dll.

Istilah lain termasuk "signifikan". Ini adalah ukuran apakah data menunjukkan hipotesis Anda valid atau tidak. Ketika Anda menguji hipotesis Anda ke tingkat kemungkinan tertentu (biasanya 95%), "nilai-p" kurang dari 0,05 akan menunjukkan bahwa Anda akan menolak "hipotesis nol" Anda (yaitu kumpulan data tidak berbeda) dan menerima Anda " hipotesis alternatif "(yaitu kumpulan data berbeda).

pengguna36904
sumber

2

Statistik yang condong menyiratkan asimetris dalam distribusi.

Dalam bahasa biasa, dan bahkan dalam sains, kecondongan sering digunakan (dan semakin?) Untuk mengartikan apa yang oleh orang statistik biasa disebut bias , seperti dalam "Hasil untuk tinggi rata-rata condong dengan memasukkan begitu banyak pemain bola basket".

Nick Cox
sumber

2

Perkirakan - Dalam statistik ini adalah hasil perhitungan. Misalnya, rata-rata sampel adalah perkiraan rata-rata populasi, dan interval kepercayaan rata-rata adalah estimasi interval dari rata-rata populasi. Ini adalah hasil perhitungan yang tepat. "Estimasi" adalah generalisasi yang tepat untuk mencoba membuat kesimpulan tentang populasi dari data dalam sampel.

Dalam penggunaan biasa, perkiraan kata berarti perkiraan atau dugaan terinformasi, atau hasil dari perkiraan perkiraan.

Harvey Motulsky
sumber

2

Kemungkinan - dalam bahasa biasa, sinonim dari probabilitas , tetapi dalam statistik memiliki hubungan terbalik khusus dengan probabilitas, dalam hal itu, untuk setiap set parameter dan set data , . $\theta$ $X$ $\mathcal{L}(\theta|X)=\Pr(X|\theta)$

Representatif - memiliki sejumlah makna yang terkadang saling bertentangan baik dalam keseharian maupun ilmiah. Lihat Kruskal & Mosteller 1979a , 1979b , 1979c dan 1980 . Kebanyakan ahli statistik yang saya tahu akan mempertimbangkan sampel yang representatif jika sampel tersebut diambil sampelnya dengan probabilitas yang diketahui; kebanyakan orang awam yang saya kenal akan menganggapnya representatif jika distribusi marjinal sama dengan populasi.

abaumann
sumber

2

Sampel : sementara dalam statistik ini merujuk pada serangkaian kasus , dalam banyak disiplin ilmu lain sampel adalah satu spesimen fisik . Tentu saja, ukuran sampel juga ambigu, merujuk pada jumlah kasus dalam sampel statistik atau ukuran fisik (massa, volume, ...) dari spesimen.
Sensitivitas : untuk diagnosa medis, fraksi dari kasus yang sakit yang dikenali oleh tes. Dalam kimia analitik: kemiringan kurva kalibrasi (lihat di bawah).
Spesifisitas : dalam diagnosis medis, fraksi kasus non-penyakit ini dikenali dengan benar oleh tes. Dalam kimia analitik, metode tertentu jika tidak ada sensitivitas silang.
Kalibrasi : sebenarnya, dua makna sudah terdaftar untuk statistik dalam artikel Wiki. Dalam kimia dan fisika, makna regresi terbalik adalah yang biasa. Namun, kebingungan muncul:
- Dalam chemometrics, model kalibrasi (maju) sinyal terukur bergantung pada konsentrasi : . Prediksi kemudian dipecahkan untuk konsentrasi : . Model kalibrasi terbalik . Dengan demikian, model maju setuju dengan kausalitas (konsentrasi analit menyebabkan sinyal, bukan sebaliknya), tetapi model terbalik arah yang digunakan untuk prediksi. (Dalam praktiknya, sering kali mungkin untuk mengatakan bahwa kesalahan pada atau kesalahan pada jauh lebih besar dari yang lain, dan arah pemodelan yang sesuai adalah / harus dipilih dari itu) $I$ $c$ $I = f (c)$ $c$ $c = f^{-1} (I)$ $c = f (I)$
  $c$ $I$
- Saya telah melihat plot probabilitas yang diprediksi atas probabilitas sebenarnya yang disebut "plot kalibrasi" (statistik orang). Dalam kimia analitik, plot kalibrasi yang sesuai akan diprediksi probabilitas dari sinyal yang diukur (biasanya beberapa unit lain). Plot prediksi atas variabel dependen sejati biasanya akan disebut kurva pemulihan .
Kumpulan validasi : di sini saya ingin menarik perhatian pada kemungkinan penggunaan istilah yang menurut saya sudah muncul dalam bidang terkait statistik yang berbeda, meskipun saya sekali lagi kontras. Dalam konteks nested / double validation atau optimization vs. validation / testing, satu baris terminologi membagi pelatihan - validasi - tes dan menggunakan set "validasi" untuk optimalisasi hyperparameters.
Misalnya dalam Elemen Pembelajaran Statistik, hal. 222 dalam edisi ke-2. :

... bagi dataset menjadi tiga bagian: satu set pelatihan, satu set validasi, dan satu set tes. Set pelatihan digunakan agar sesuai dengan model; set validasi digunakan untuk memperkirakan kesalahan prediksi untuk pemilihan model; set tes digunakan untuk penilaian kesalahan generalisasi dari model yang dipilih akhir.

Sebaliknya, misalnya dalam validasi kimia analitik adalah prosedur yang menunjukkan bahwa model (sebenarnya, penilaian model akhir hanya bagian dari validasi metode analitik) berfungsi dengan baik untuk aplikasi, dan mengukur kinerjanya, lihat misalnya John K. Taylor: Validasi metode analitik, Analytical Chemistry 1983 55 (6), 600A-608A atau pedoman oleh institusi seperti FDA. Ini akan menjadi "pengujian" di baris terminologi lain, di mana "validasi" sebenarnya digunakan untuk optimasi.
Perbedaan penting adalah, bahwa hasil "optimasi-validasi" akan digunakan untuk mengubah (pilih) model, sedangkan perubahan dalam metode analitik yang divalidasi (termasuk model analitik data) berarti bahwa Anda harus memvalidasi ulang (yaitu membuktikan bahwa metode ini masih berfungsi sebagaimana mestinya bekerja).

Jika Anda harus berbicara dengan ahli kimia, referensi yang baik tentang terminologi kimia analitik adalah Danzer: Kimia Analitik - Dasar-dasar Teoretis dan Metrologi, DOI 10.1007 / b103950

cbeleites
sumber

Kata-kata umum yang memiliki arti statistik tertentu

Jawaban: