Statistik ada di mana-mana; Namun, penggunaan istilah statistik yang umum sering tidak jelas.
Istilah probabilitas dan peluang digunakan secara bergantian dalam bahasa Inggris awam meskipun ekspresi matematisnya berbeda dan berbeda.
Tidak memisahkan istilah kemungkinan dari probabilitas secara rutin membingungkan dokter yang mencoba mengukur kemungkinan kanker payudara dengan mamografi positif, “Oh, omong kosong. Saya tidak bisa melakukan ini. Anda harus menguji putriku; dia sedang belajar kedokteran. ”
Penyebaran yang sama adalah penggunaan korelasi, bukan asosiasi . Atau korelasi yang menyiratkan sebab-akibat .
Dalam film dokumenter terkenal Al Gore, An Inconvenient Truth , slide menggambarkan korelasi inti es dan suhu, meninggalkan pekerjaan yang lebih teknis untuk membuktikan penyebab dari diskusi:
PERTANYAAN: Istilah statistik mana yang menimbulkan masalah penafsiran ketika digunakan tanpa ketelitian matematis, dan oleh karena itu, layak untuk diperbaiki?
sumber
Jawaban:
Akan sia-sia untuk berjuang melawan perubahan bahasa. Tapi
parameter tidak berarti variabel
Dalam statistik klasik, yang dalam hal ini dimulai tepat dengan RA Fisher yang pertama kali menggunakan istilah dengan makna ini, parameter adalah konstanta yang tidak diketahui untuk diperkirakan, misalnya rata-rata populasi atau korelasi. Dalam matematika, ada makna yang terkait tetapi tidak identik, seperti ketika kurva diberikan secara parametrik. Dalam banyak ilmu pengetahuan, parameter hanyalah kata lain untuk ukuran (itu sendiri istilah padat dengan makna matematika), properti atau variabel, katakanlah panjang atau konduktivitas atau porositas atau kebajikan, seperti kasusnya. Secara alami, panjang atau kebajikan individu tidak diketahui sebelum diukur. tetapi orang yang berpikiran statistik dapat dibuat bingung oleh penggunaannya untuk seperangkat pengukuran tersebut. Dalam bahasa biasa atau vulgar, parameter(hampir selalu jamak) sering berarti batas-batas sesuatu, katakanlah hubungan pribadi atau kebijakan politik, mungkin berasal dari beberapa kebingungan asli dengan perimeter . Dengan probabilitas tinggi sebelumnya harus dianggap bahwa Bayesians akan berbicara sendiri atas penggunaan mereka sendiri (anggukan berterima kasih kepada @conjugateprior).
condong bukan berarti bias
Selama satu abad atau lebih, kecondongan memiliki pengertian statistik tertentu yang merujuk pada asimetri distribusi, baik dinilai secara grafis, diukur secara numerik, atau dianggap secara teoritis sebagai masalah iman atau harapan. Untuk lebih lama, atau lebih bisa ditebak, bias berarti salah rata-rata, yang - selama kita tahu kebenaran, yang berarti nilai benar atau benar - dapat dikuantifikasi sebagai kesalahan sistematis. Kecondongan dalam bahasa biasa memiliki akal sehat yang bengkok atau menyimpang, dan dengan demikian menjadi tidak benar, salah dan juga bias. Perasaan itu (sejauh yang saya perhatikan, baru-baru ini saja) telah mulai menyaring kembali ke dalam diskusi statistik, sehingga makna asli dari skewness ada dalam beberapa bahaya menjadi kabur atau tenggelam.
korelasi tidak berarti persetujuan
Korelasi telah menarik beberapa pengertian yang tepat dalam statistik, yang memiliki kesamaan gagasan tentang hubungan bivariat yang sempurna dalam beberapa pengertian yang tepat: kasus-kasus utama adalah hubungan linear dan monoton. Sering dilemahkan, bahkan dalam diskusi statistik, berarti hampir semua jenis hubungan atau asosiasi. Apa korelasi tidak berarti, tentu saja, adalah kesepakatan: sehingga menyiratkan korelasi Pearson atau selama , tetapi perjanjian memerlukan kondisi yang sangat ketat .y=a+bx 1 −1 b≠0 y=x a=0,b=1
unik bukan berarti berbeda
Sangat umum untuk berbicara tentang nilai-nilai yang berbeda dari data sebagai unik , tetapi unik masih idealnya lebih baik dipertahankan sebagai makna yang terjadi sekali saja. Dugaan saya sendiri adalah bahwa beberapa kesalahan berasal dari utilitas Unix
uniq
dan penirunya, yang mengurangi nilai yang mungkin diulang menjadi satu set di mana setiap nilai benar-benar unik. Penggunaan, pada tebakan ini, mengonfigurasi input dan output dari suatu program. (Sebaliknya, jika kita berbicara tentang duplikat dalam data, kita jarang membatasi diri kita sendiri hingga doubletons yang terjadi tepat dua kali. Istilah ini mereplikasiakan lebih masuk akal secara linguistik tetapi telah disiapkan untuk replikasi kontrol yang disengaja dalam eksperimen; nilai-nilai respons yang dihasilkan biasanya sama sekali tidak identik, yang sebagian besar intinya.)sampel jarang diulang
Dalam statistik, sampel mencakup beberapa nilai, dan pengambilan sampel berulang adalah nilai teoretis yang tinggi, tetapi jarang dilakukan, kecuali dengan simulasi, yang merupakan istilah umum kami untuk segala jenis pemalsuan silico . Dalam banyak ilmu, sampel adalah objek tunggal, yang terdiri dari benjolan, potongan atau sekumpulan air, tanah, sedimen, batuan, darah, jaringan, atau zat lain yang bervariasi dari menarik hingga jinak sampai menjijikkan; jauh dari menjadi luar biasa, mengambil banyak sampel mungkin penting untuk analisis serius. Di sini terminologi setiap bidang masuk akal bagi orang-orangnya, tetapi penerjemahan terkadang diperlukan.
kesalahan biasanya tidak berarti kesalahan; seperti yang ditunjukkan oleh Harold Jeffreys, indra utamanya tidak menentu, tidak keliru.
Namun demikian, kita harus waspada terhadap dosa-dosa kita sendiri atau kebiasaan istilah:
regresi tidak mundur
stasioner tidak berarti tidak bergerak atau diperbaiki
kepercayaan diri tidak ada hubungannya dengan kondisi mental atau psikologis siapa pun
Signifikansi kadang-kadang hanya memiliki makna sehari-hari
tepat sering merupakan istilah kehormatan, merujuk pada solusi atau perhitungan yang mudah ditelusuri daripada yang tepat untuk masalah
distribusi miring kanan ke banyak tampak miring ke kiri, dan sebaliknya
yang lognormal disebut demikian karena itu sebuah exponentiated yang normal
tetapi lognormal lebih normal daripada normal
yang Gaussian ditemukan oleh De Moivre
Poisson tidak menemukan Poisson , apalagi regresi Poisson
yang bootstrap tidak akan membantu Anda dengan alas kaki Anda
yang berlipat tidak dipotong
kurtosis bukan kondisi medis
plot batang dan daun tidak mengacu pada tanaman
sebuah variabel dummy berguna, tidak sia-sia atau bodoh
siapa di Bumi (atau di mana pun) yang berpikir bahwa heteroskedastisitas adalah istilah yang lebih disukai daripada variabilitas yang tidak setara ?
robust sekarang memiliki setidaknya dua makna teknis utama untuk kelompok yang berbeda, yang keduanya tidak menghambat penggunaannya yang sering, bahkan dalam diskusi teknis, hanya berarti sesuatu seperti "menegaskan untuk berperilaku baik"
IV sekarang memiliki setidaknya dua makna utama untuk kelompok yang berbeda
Faktor sekarang memiliki setidaknya dua makna utama untuk kelompok yang berbeda
menormalkan dan menstandarisasi memiliki banyak makna (kita benar-benar perlu membakukan di sana)
versus menggambarkan grafik berarti variabel vertikal versus variabel horisontal , kecuali jika itu berarti sebaliknya
dan (last but not least, untuk membuat frase) statistik memiliki setidaknya tiga makna utama.
Catatan:
Meskipun ada penampilan yang bertentangan, saya pikir ini adalah pertanyaan yang bagus dan serius.
Mode bergeser. Menjelang abad kedua puluh, tampaknya banyak orang (tanpa nama, tanpa bor, tetapi Karl Pearson dapat disebutkan) hanya dapat menciptakan istilah-istilah dengan meraih kamus bahasa Yunani dan Latin mereka. (Tidaklah adil untuk tidak memberinya kredit untuk sebaran plot .) Tetapi RA Fisher memang membajak banyak kata bahasa Inggris yang sudah ada sebelumnya, termasuk varians , kecukupan , efisiensi , dan kemungkinan . Baru-baru ini, JW Tukey adalah ahli dalam menggunakan istilah-istilah sederhana, tetapi hanya sedikit yang merasa tertekan karena gangguan dan kesalahan tidak berhasil.
Satu komentar didasarkan pada ingatan "Hidup adalah [...] Multiplikatif daripada aditif: distribusi log normal lebih normal daripada normal." Segera. 1962. Aturan kerja Bloggins. Dalam Good, IJ (Ed.) Ilmuwan berspekulasi: antologi ide-ide yang sebagian dipanggang. London: Heinemann, 212-213 (kutipan pada hlm.213).
sumber
Beberapa hal yang saya temui:
Memperlakukan tingkat signifikansi dan probabilitas cakupan CI sebagai yang dapat dipertukarkan, sehingga orang akhirnya melakukan hal-hal seperti berbicara tentang "signifikansi 95%".
[Yang lebih buruk adalah ketika orang yang membuat kesalahan seperti itu menunjuk pada catatan kuliah mereka - atau bahkan buku teks - sebagai dukungan untuk ini; dengan kata lain kesalahan itu bukan kesalahan mereka, tetapi sedang diperparah seratus kali lipat atau ribuan kali lipat, dan lebih buruk, bahkan jika mereka memahaminya dengan benar, mereka mungkin sebenarnya harus mengulangi kesalahan itu, untuk melewati subjek.]
Ada juga kecenderungan umum untuk berpikir bahwa "signifikansi" entah bagaimana ada di luar hipotesis / pertanyaan spesifik (mengarah ke pertanyaan seperti "adalah data saya signifikan" tanpa gagasan yang jelas tentang pertanyaan apa yang harus ditangani). [Masalah terkait adalah "tes apa yang harus saya gunakan untuk data ini?" seolah-olah itu adalah data - alih-alih pertanyaan yang harus dijawab - itulah pendorong pilihan analisis. (Sementara "desain" penelitian ini dapat memengaruhi tes khusus yang digunakan, pertanyaan yang menarik lebih penting - misalnya, jika Anda memiliki tiga kelompok yang tersedia tetapi pertanyaan Anda yang menarik hanya berkaitan dengan perbandingan dua di antaranya, namun fakta bahwa Anda memiliki tiga tidak memaksa Anda untuk melakukan analisis jenis satu arah daripada perbandingan langsung dari dua kelompok minat ... selama pilihan analisis Anda tidak berasal dari data yang ditampilkan. Idealnya Anda merencanakan pertanyaan dan analisis Anda sebelum Anda memiliki data, alih-alih melemparkan analisis pada data dan melihat tongkat apa, yang tampaknya pertanyaan analisis post-hoc - termasuk "tes apa yang harus saya gunakan untuk data ini?" - cenderung mengarah ke.)
Kecenderungan sesekali untuk menyebut pelengkap nilai-p sebagai semacam "kepercayaan pada", atau "probabilitas" dari alternatif.
"data nonparametrik"; sayangnya satu lagi ditemukan di beberapa buku (dan, sayangnya, dalam sebuah artikel yang dimaksudkan untuk memperbaiki kesalahan umum) yang satu ini muncul begitu sering sehingga ada dalam daftar pendek komentar yang dihasilkan secara otomatis (yang dimulai "Data bukan parametrik maupun nonparametric; itu adalah kata sifat yang berlaku untuk model atau teknik ... ") (terima kasih Nick Cox karena mengingatkan saya pada bugbear khusus ini)
Biasanya yang dimaksud adalah "data tidak normal" tetapi parametrik tidak menyiratkan normal, dan memiliki perkiraan normalitas tidak menyiratkan kita memerlukan prosedur parametrik. Demikian pula, non-normalitas tidak menyiratkan kita memerlukan prosedur non-parametrik. Kadang-kadang, yang dimaksudkan adalah "data ordinal" atau "data nominal" tetapi dalam kedua kasus itu tidak menyiratkan bahwa model parametrik-terbatas tidak tepat.
Kecenderungan umum untuk salah memahami arti "linier" dalam "model linier" dengan cara yang tidak konsisten dengan penggunaan istilah "linier" dalam "model linier umum". Ini sebagian adalah kesalahan cara kita menggunakan terminologi.
mengkombinasikan kemiringan median mean-minus-median dengan kemiringan momen ketiga, dan menggabungkan nol pada salah satu (atau bahkan keduanya) dengan simetri. Kedua kesalahan sering ditemukan dalam teks dasar yang banyak digunakan di beberapa area aplikasi tertentu. [Ada kesalahan terkait dalam memperlakukan nol skewness dan nol kelebihan kurtosis sebagai menyiratkan normalitas]
ini sangat umum sehingga sulit untuk menyebutnya kesalahan lagi (sebagian karena upaya program tertentu) - menyebut kelebihan kurtosis hanya "kurtosis"; kesalahan cukup banyak dijamin menyebabkan masalah komunikasi.
sumber
" Data " jamak . (Singular adalah "datum").
sumber
Meskipun tidak sepenuhnya istilah statistik, saya memilih untuk pensiun dari endogenitas . Ini digunakan untuk merujuk pada segala sesuatu dari penyebab terbalik hingga mengacaukan seleksi dan bias collider, ketika semua orang benar-benar ingin lakukan adalah mengatakan: "Efek itu tidak diidentifikasi".
sumber
"Regresi terhadap rata-rata" tidak berarti bahwa jika kami telah mengamati sejumlah sampel iid di bawah nilai yang diharapkan, sampel iid berikutnya cenderung berada di atas nilai yang diharapkan.
sumber
Persen vs Persentase Poin : Jika sesuatu meningkat dari 1% menjadi 2%, itu meningkat sebesar 100%. Atau: Anda dapat mengatakan bahwa itu meningkat sebesar 1 poin persentase.
Menyatakan bahwa kenaikannya 1% sangat menyesatkan.
sumber
Saya menemukan singkatan yang tidak ditunjukkan dengan jelas adalah masalah nyata. Sebagai contoh, saya melihat hal-hal seperti GLM dan tidak ditentukan apakah ini berarti model linier umum atau model linier umum. Sekali biasanya dapat mengetahui apa yang sedang dirujuk setelah menggali ke dalam konteks, tetapi saya menemukan ini sangat menyusahkan bagi siswa yang baru mulai belajar tentang model statistik.
Contoh lain dari ini adalah IV. Apakah ini berarti variabel instrumental atau variabel independen? Sering kali itu tidak diperjelas sampai Anda memeriksa konteksnya.
Hal lain yang saya lihat adalah kebingungan "moderator" dan "interaksi." Juga, populasi (seperti pada populasi pada umumnya) dan populasi yang menarik tampaknya membingungkan siswa baru kecuali jika dibuat sangat jelas.
sumber
Bahasa yang umum dalam bahasa sehari-hari:
rata-rata
Bagi kebanyakan orang di luar sana (ironi pahit yang dimaksudkan sepenuhnya), nilai tengah, median, modus, dan nilai yang diharapkan dari apa pun tampaknya sama. Mereka memiliki kecenderungan alami untuk melakukan estimasi titik, dengan asumsi tidak sadar dan tidak dapat disangkal bahwa ada distribusi normal yang mendasarinya. Dan asumsi varians yang sangat tidak sadar sama-sama kecil. Keyakinan bahwa estimasi 1) ada dan 2) akan sangat berguna bagi mereka, karena mereka dapat menganggapnya sebagai prediktor praktis tertentu, sudah berurat berakar, sehingga pada dasarnya tidak mungkin untuk meyakinkan mereka sebaliknya.
Sebagai contoh di dunia nyata, cobalah berbicara dengan juru masak yang bertanya "berapa ukuran rata-rata kentang", benar-benar yakin bahwa jika Anda memberi tahu nomornya, ia akan dapat menggunakan yang ini untuk resep apa pun yang menentukan nomor. kentang, dan keluar sempurna setiap waktu. Dan menjadi marah pada Anda karena mencoba memberitahunya "tidak ada nomor seperti itu". Sayangnya, itu terjadi dalam situasi dengan taruhan yang jauh lebih tinggi daripada membuat sup.
sumber
Kurtosis tidak mengukur "puncaknya".
Menurut definisi, ini adalah nilai yang diharapkan (rata-rata) dari * Jadi,-nilai kurang dari 1 (sesuai dengan nilai data dalam satu standar deviasi dari rata-rata, di mana "puncak" akan ada) berkontribusi sangat sedikit untuk kurtosis; hampir semua kontribusi untuk kurtosis adalah dari-nilai lebih besar dari 1 (outlier khususnya). Lihat http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ , Gambar 2 dan 3 secara khusus.| Z | | Z |Z4 |Z| |Z|
* Kurangi 3 atau tidak; tidak ada bedanya dengan titik ini.
sumber
Linear artinya:
Linear artinya kebalikan dari dinamis . Seperti dalam variabel dependen apa pun adalah fungsi, itu bukan fungsi dari nilai sebelumnya sendiri. Dalam hal ini, nonlinear berarti hal-hal seperti , dan .y t - y t - 1 = a + b ( y t - 1 - x t - x ) + c ( x t - x t - 1 ) + d x t - 1yt=a+byt−1+cx yt−yt−1=a+b(yt−1−xt−x)+c(xt−xt−1)+dxt−1
Di mana adalah variabel dependen, adalah variabel independen, dan , dan adalah parameter dalam semua contoh di atas.x a , b , c , d θy x a,b,c,d θ
sumber
Pertanyaannya adalah tentang penggunaan istilah statistik yang harus kita CARE untuk perbaiki. Saya telah mengoreksi anak-anak milenium saya 'menggunakan istilah' acak 'untuk mengartikan hal-hal yang berlawanan dengan acak selama 10 tahun sekarang. Mengingat berapa banyak peserta pelatihan saya berjuang untuk menghasilkan sampel data acak yang sebenarnya acak, yang terjadi bahkan sebelum penggunaan kata ini, kebingungan istilah ini dalam bahasa gaul sehari-hari adalah krisis.
Dari Kamus OnlineSlang:
sumber
Sudah terlalu banyak contoh hebat yang disebutkan oleh Glen dan Nick ... tidak banyak yang tersisa!
Beberapa aspek regresi
istilah kesalahan dan residu (agak lucu ketika orang-orang bangga bahwa residu mereka tidak berkorelasi dengan regressor)
prediksi dan estimasi (haruskah kita berhenti membuat perbedaan ketika mereka tentang efek acak yang diprediksi?)
interval prediksi / perkiraan versus interval kepercayaan. Saya pikir ada probabilitas> 0,5 untuk mengutip yang salah.
regressor (kolom dalam matriks desain) versus covariable et al. Terutama dalam situasi teknis di mana perbedaan itu penting, banyak orang (termasuk saya) cenderung tidak tepat.
sumber
Dalam lingkungan asuransi khususnya, adalah umum untuk menggunakan varians untuk merujuk pada segala jenis perbedaan, daripada rata-rata perbedaan kuadrat antara setiap titik data dan rata-rata dari kumpulan data.
sumber
Bayesian
Siswa yang mempelajarinya mungkin tidak mengalami kesulitan memberi tahu Anda apakah sesuatu "terlihat" Bayesian, tetapi minta mereka untuk memecahkan masalah dengan pendekatan yang sering dan Bayesian dan mereka mungkin akan gagal.
Dalam pengalaman saya, para siswa akhirnya diajari bahwa itu hanyalah perbedaan filosofis, tanpa contoh konkret yang menunjukkan masalah yang sama diserang dengan kedua pendekatan.
Sekarang tanyakan kepada mereka mengapa seseorang mungkin mengambil pendekatan yang sering dalam contoh mereka; kemungkinan penjelasan terbaik mereka adalah "ya, di masa lalu, komputer tidak ada ..."
sumber
Risiko
Risiko tidak berarti probabilitas
Risiko adalah jumlah biaya semua hasil, masing-masing biaya ini dikalikan dengan probabilitas terjadinya.
Risiko biasanya ditimbang dengan imbalan yang merupakan keuntungan yang ingin kita capai.
Berikut ini salah satu contohnya: Bagaimana Mematikan Kilowatt Anda . Di sini risiko - jumlah orang mati untuk berbagai sumber energi - ditimbang dengan imbalan - jam terawatt energi yang dihasilkan oleh sumber energi ini.
Jadi misalnya: risiko tenaga nuklir bukanlah probabilitas bahwa kehancuran akan terjadi; itu adalah probabilitas bahwa kehancuran akan terjadi, dikalikan dengan jumlah orang yang mati karenanya, disimpulkan dengan jumlah orang yang meninggal akibat operasi normal dikalikan dengan probabilitas bahwa operasi tetap normal.
sumber
Efek tetap dan efek acak dapat memiliki arti berbeda untuk orang yang berbeda. Dalam ekonometrik, efek tetap sebenarnya acak dan ketika Anda memikirkannya, setiap efek dalam statistik adalah acak sehingga penamaan sesuatu yang acak tidak memberikan informasi tambahan yang berarti.
sumber