Apa istilah statistik yang disalahgunakan yang perlu diperbaiki?

103

Statistik ada di mana-mana; Namun, penggunaan istilah statistik yang umum sering tidak jelas.

Istilah probabilitas dan peluang digunakan secara bergantian dalam bahasa Inggris awam meskipun ekspresi matematisnya berbeda dan berbeda.

Tidak memisahkan istilah kemungkinan dari probabilitas secara rutin membingungkan dokter yang mencoba mengukur kemungkinan kanker payudara dengan mamografi positif, “Oh, omong kosong. Saya tidak bisa melakukan ini. Anda harus menguji putriku; dia sedang belajar kedokteran. ”

Penyebaran yang sama adalah penggunaan korelasi, bukan asosiasi . Atau korelasi yang menyiratkan sebab-akibat .

Dalam film dokumenter terkenal Al Gore, An Inconvenient Truth , slide menggambarkan korelasi inti es dan suhu, meninggalkan pekerjaan yang lebih teknis untuk membuktikan penyebab dari diskusi:CO2

masukkan deskripsi gambar di sini

PERTANYAAN: Istilah statistik mana yang menimbulkan masalah penafsiran ketika digunakan tanpa ketelitian matematis, dan oleh karena itu, layak untuk diperbaiki?

Antoni Parellada
sumber
4
Peluang vs probabilitas di antara orang awam tampaknya tidak menjadi masalah bagi saya karena orang awam tidak akan menghitungnya, mereka hanya akan mengatakan nilainya rendah atau tinggi, dan keduanya berkorelasi langsung.
Mehrdad
@Madrdad saya setuju. Sebenarnya, ini intinya ... apakah ada situasi di mana penyalahgunaan kata-kata ini, yang telah diadopsi dan diolah dalam batas-batas statistik, menghasilkan masalah. Misalnya, jelas bahwa ada badan penelitian penting di balik perubahan iklim, tetapi dalam banyak keadaan lain klaim palsu dapat dibuat dengan menyarankan bahwa korelasi sama dengan sebab-akibat. Dalam hal peluang dan probabilitas, salah satu dapat dikonversi menjadi yang lain, sehingga satu-satunya risiko adalah salah paham taruhan Anda.
Antoni Parellada
3
@Mehrdad Poin tentang peluang adalah hal yang menarik, tapi saya pikir ini lebih rumit daripada yang terlihat. Ketika orang awam berbicara tentang peluang, mereka biasanya berarti peluang perjudian, dan ini sangat sering dinyatakan dalam format "peluang melawan". Jadi dalam sistem yang kebanyakan orang kenal, nilai tinggi untuk peluang dikaitkan dengan probabilitas rendah , meskipun untuk seorang ahli statistik peluang tinggi dikaitkan dengan probabilitas tinggi. Karenanya ini cukup matang untuk kebingungan: lihat juga posting kami di Odds Made Simple
Silverfish
5
Mungkin perlu diingat bahwa beberapa istilah ini sudah ada sebelumnya dalam bahasa Inggris (dengan makna yang longgar), sebelum disesuaikan dengan statistik dan diberikan definisi teknis yang ketat. Agak sulit untuk mengambil kata, mengubah makna, dan kemudian berkeliling menyalahkan orang lain karena menggunakannya salah ketika mereka hanya menggunakannya dengan definisi yang lebih tua, non-teknis.
RM
Saya benar-benar tidak suka menyebut tes "post hoc" walaupun sudah direncanakan sebelumnya. Saya pikir ini dimulai dengan beberapa paket stat tetapi sekarang meresap.
David Lane

Jawaban:

101

Akan sia-sia untuk berjuang melawan perubahan bahasa. Tapi

parameter tidak berarti variabel

Dalam statistik klasik, yang dalam hal ini dimulai tepat dengan RA Fisher yang pertama kali menggunakan istilah dengan makna ini, parameter adalah konstanta yang tidak diketahui untuk diperkirakan, misalnya rata-rata populasi atau korelasi. Dalam matematika, ada makna yang terkait tetapi tidak identik, seperti ketika kurva diberikan secara parametrik. Dalam banyak ilmu pengetahuan, parameter hanyalah kata lain untuk ukuran (itu sendiri istilah padat dengan makna matematika), properti atau variabel, katakanlah panjang atau konduktivitas atau porositas atau kebajikan, seperti kasusnya. Secara alami, panjang atau kebajikan individu tidak diketahui sebelum diukur. tetapi orang yang berpikiran statistik dapat dibuat bingung oleh penggunaannya untuk seperangkat pengukuran tersebut. Dalam bahasa biasa atau vulgar, parameter(hampir selalu jamak) sering berarti batas-batas sesuatu, katakanlah hubungan pribadi atau kebijakan politik, mungkin berasal dari beberapa kebingungan asli dengan perimeter . Dengan probabilitas tinggi sebelumnya harus dianggap bahwa Bayesians akan berbicara sendiri atas penggunaan mereka sendiri (anggukan berterima kasih kepada @conjugateprior).

condong bukan berarti bias

Selama satu abad atau lebih, kecondongan memiliki pengertian statistik tertentu yang merujuk pada asimetri distribusi, baik dinilai secara grafis, diukur secara numerik, atau dianggap secara teoritis sebagai masalah iman atau harapan. Untuk lebih lama, atau lebih bisa ditebak, bias berarti salah rata-rata, yang - selama kita tahu kebenaran, yang berarti nilai benar atau benar - dapat dikuantifikasi sebagai kesalahan sistematis. Kecondongan dalam bahasa biasa memiliki akal sehat yang bengkok atau menyimpang, dan dengan demikian menjadi tidak benar, salah dan juga bias. Perasaan itu (sejauh yang saya perhatikan, baru-baru ini saja) telah mulai menyaring kembali ke dalam diskusi statistik, sehingga makna asli dari skewness ada dalam beberapa bahaya menjadi kabur atau tenggelam.

korelasi tidak berarti persetujuan

Korelasi telah menarik beberapa pengertian yang tepat dalam statistik, yang memiliki kesamaan gagasan tentang hubungan bivariat yang sempurna dalam beberapa pengertian yang tepat: kasus-kasus utama adalah hubungan linear dan monoton. Sering dilemahkan, bahkan dalam diskusi statistik, berarti hampir semua jenis hubungan atau asosiasi. Apa korelasi tidak berarti, tentu saja, adalah kesepakatan: sehingga menyiratkan korelasi Pearson atau selama , tetapi perjanjian memerlukan kondisi yang sangat ketat .y=a+bx11b0y=xa=0,b=1

unik bukan berarti berbeda

Sangat umum untuk berbicara tentang nilai-nilai yang berbeda dari data sebagai unik , tetapi unik masih idealnya lebih baik dipertahankan sebagai makna yang terjadi sekali saja. Dugaan saya sendiri adalah bahwa beberapa kesalahan berasal dari utilitas Unix uniqdan penirunya, yang mengurangi nilai yang mungkin diulang menjadi satu set di mana setiap nilai benar-benar unik. Penggunaan, pada tebakan ini, mengonfigurasi input dan output dari suatu program. (Sebaliknya, jika kita berbicara tentang duplikat dalam data, kita jarang membatasi diri kita sendiri hingga doubletons yang terjadi tepat dua kali. Istilah ini mereplikasiakan lebih masuk akal secara linguistik tetapi telah disiapkan untuk replikasi kontrol yang disengaja dalam eksperimen; nilai-nilai respons yang dihasilkan biasanya sama sekali tidak identik, yang sebagian besar intinya.)

sampel jarang diulang

Dalam statistik, sampel mencakup beberapa nilai, dan pengambilan sampel berulang adalah nilai teoretis yang tinggi, tetapi jarang dilakukan, kecuali dengan simulasi, yang merupakan istilah umum kami untuk segala jenis pemalsuan silico . Dalam banyak ilmu, sampel adalah objek tunggal, yang terdiri dari benjolan, potongan atau sekumpulan air, tanah, sedimen, batuan, darah, jaringan, atau zat lain yang bervariasi dari menarik hingga jinak sampai menjijikkan; jauh dari menjadi luar biasa, mengambil banyak sampel mungkin penting untuk analisis serius. Di sini terminologi setiap bidang masuk akal bagi orang-orangnya, tetapi penerjemahan terkadang diperlukan.

kesalahan biasanya tidak berarti kesalahan; seperti yang ditunjukkan oleh Harold Jeffreys, indra utamanya tidak menentu, tidak keliru.

Namun demikian, kita harus waspada terhadap dosa-dosa kita sendiri atau kebiasaan istilah:

regresi tidak mundur

stasioner tidak berarti tidak bergerak atau diperbaiki

kepercayaan diri tidak ada hubungannya dengan kondisi mental atau psikologis siapa pun

Signifikansi kadang-kadang hanya memiliki makna sehari-hari

tepat sering merupakan istilah kehormatan, merujuk pada solusi atau perhitungan yang mudah ditelusuri daripada yang tepat untuk masalah

distribusi miring kanan ke banyak tampak miring ke kiri, dan sebaliknya

yang lognormal disebut demikian karena itu sebuah exponentiated yang normal

tetapi lognormal lebih normal daripada normal

yang Gaussian ditemukan oleh De Moivre

Poisson tidak menemukan Poisson , apalagi regresi Poisson

yang bootstrap tidak akan membantu Anda dengan alas kaki Anda

yang berlipat tidak dipotong

kurtosis bukan kondisi medis

plot batang dan daun tidak mengacu pada tanaman

sebuah variabel dummy berguna, tidak sia-sia atau bodoh

siapa di Bumi (atau di mana pun) yang berpikir bahwa heteroskedastisitas adalah istilah yang lebih disukai daripada variabilitas yang tidak setara ?

robust sekarang memiliki setidaknya dua makna teknis utama untuk kelompok yang berbeda, yang keduanya tidak menghambat penggunaannya yang sering, bahkan dalam diskusi teknis, hanya berarti sesuatu seperti "menegaskan untuk berperilaku baik"

IV sekarang memiliki setidaknya dua makna utama untuk kelompok yang berbeda

Faktor sekarang memiliki setidaknya dua makna utama untuk kelompok yang berbeda

menormalkan dan menstandarisasi memiliki banyak makna (kita benar-benar perlu membakukan di sana)

versus menggambarkan grafik berarti variabel vertikal versus variabel horisontal , kecuali jika itu berarti sebaliknya

dan (last but not least, untuk membuat frase) statistik memiliki setidaknya tiga makna utama.

Catatan:

  1. Meskipun ada penampilan yang bertentangan, saya pikir ini adalah pertanyaan yang bagus dan serius.

  2. Mode bergeser. Menjelang abad kedua puluh, tampaknya banyak orang (tanpa nama, tanpa bor, tetapi Karl Pearson dapat disebutkan) hanya dapat menciptakan istilah-istilah dengan meraih kamus bahasa Yunani dan Latin mereka. (Tidaklah adil untuk tidak memberinya kredit untuk sebaran plot .) Tetapi RA Fisher memang membajak banyak kata bahasa Inggris yang sudah ada sebelumnya, termasuk varians , kecukupan , efisiensi , dan kemungkinan . Baru-baru ini, JW Tukey adalah ahli dalam menggunakan istilah-istilah sederhana, tetapi hanya sedikit yang merasa tertekan karena gangguan dan kesalahan tidak berhasil.

  3. Satu komentar didasarkan pada ingatan "Hidup adalah [...] Multiplikatif daripada aditif: distribusi log normal lebih normal daripada normal." Segera. 1962. Aturan kerja Bloggins. Dalam Good, IJ (Ed.) Ilmuwan berspekulasi: antologi ide-ide yang sebagian dipanggang. London: Heinemann, 212-213 (kutipan pada hlm.213).

Nick Cox
sumber
Komentar bukan untuk diskusi panjang; percakapan ini telah dipindahkan ke obrolan .
whuber
Heteroscedasticity benar-benar mengguncang kotak kucing! "Variabilitas yang tidak sama?" [Phuagh!]) (+1 sangat bagus sebaliknya;)
Alexis
1
Mungkin perlu ditambahkan bahwa pengujian regresi sering digunakan dalam konteks pengembangan perangkat lunak, di mana, secara umum, mengacu pada mundur.
Konrad
@Konrad Menarik, tapi kemudian (koreksi saya jika saya salah) (a) itu tidak akan menyalahgunakan kata dan (b) kata di sana tidak memiliki arti statistik.
Nick Cox
@NickCox Benar.
Konrad
33

Beberapa hal yang saya temui:

  1. Memperlakukan tingkat signifikansi dan probabilitas cakupan CI sebagai yang dapat dipertukarkan, sehingga orang akhirnya melakukan hal-hal seperti berbicara tentang "signifikansi 95%".

    [Yang lebih buruk adalah ketika orang yang membuat kesalahan seperti itu menunjuk pada catatan kuliah mereka - atau bahkan buku teks - sebagai dukungan untuk ini; dengan kata lain kesalahan itu bukan kesalahan mereka, tetapi sedang diperparah seratus kali lipat atau ribuan kali lipat, dan lebih buruk, bahkan jika mereka memahaminya dengan benar, mereka mungkin sebenarnya harus mengulangi kesalahan itu, untuk melewati subjek.]

  2. Ada juga kecenderungan umum untuk berpikir bahwa "signifikansi" entah bagaimana ada di luar hipotesis / pertanyaan spesifik (mengarah ke pertanyaan seperti "adalah data saya signifikan" tanpa gagasan yang jelas tentang pertanyaan apa yang harus ditangani). [Masalah terkait adalah "tes apa yang harus saya gunakan untuk data ini?" seolah-olah itu adalah data - alih-alih pertanyaan yang harus dijawab - itulah pendorong pilihan analisis. (Sementara "desain" penelitian ini dapat memengaruhi tes khusus yang digunakan, pertanyaan yang menarik lebih penting - misalnya, jika Anda memiliki tiga kelompok yang tersedia tetapi pertanyaan Anda yang menarik hanya berkaitan dengan perbandingan dua di antaranya, namun fakta bahwa Anda memiliki tiga tidak memaksa Anda untuk melakukan analisis jenis satu arah daripada perbandingan langsung dari dua kelompok minat ... selama pilihan analisis Anda tidak berasal dari data yang ditampilkan. Idealnya Anda merencanakan pertanyaan dan analisis Anda sebelum Anda memiliki data, alih-alih melemparkan analisis pada data dan melihat tongkat apa, yang tampaknya pertanyaan analisis post-hoc - termasuk "tes apa yang harus saya gunakan untuk data ini?" - cenderung mengarah ke.)

  3. Kecenderungan sesekali untuk menyebut pelengkap nilai-p sebagai semacam "kepercayaan pada", atau "probabilitas" dari alternatif.

  4. "data nonparametrik"; sayangnya satu lagi ditemukan di beberapa buku (dan, sayangnya, dalam sebuah artikel yang dimaksudkan untuk memperbaiki kesalahan umum) yang satu ini muncul begitu sering sehingga ada dalam daftar pendek komentar yang dihasilkan secara otomatis (yang dimulai "Data bukan parametrik maupun nonparametric; itu adalah kata sifat yang berlaku untuk model atau teknik ... ") (terima kasih Nick Cox karena mengingatkan saya pada bugbear khusus ini)

    Biasanya yang dimaksud adalah "data tidak normal" tetapi parametrik tidak menyiratkan normal, dan memiliki perkiraan normalitas tidak menyiratkan kita memerlukan prosedur parametrik. Demikian pula, non-normalitas tidak menyiratkan kita memerlukan prosedur non-parametrik. Kadang-kadang, yang dimaksudkan adalah "data ordinal" atau "data nominal" tetapi dalam kedua kasus itu tidak menyiratkan bahwa model parametrik-terbatas tidak tepat.

  5. Kecenderungan umum untuk salah memahami arti "linier" dalam "model linier" dengan cara yang tidak konsisten dengan penggunaan istilah "linier" dalam "model linier umum". Ini sebagian adalah kesalahan cara kita menggunakan terminologi.

  6. mengkombinasikan kemiringan median mean-minus-median dengan kemiringan momen ketiga, dan menggabungkan nol pada salah satu (atau bahkan keduanya) dengan simetri. Kedua kesalahan sering ditemukan dalam teks dasar yang banyak digunakan di beberapa area aplikasi tertentu. [Ada kesalahan terkait dalam memperlakukan nol skewness dan nol kelebihan kurtosis sebagai menyiratkan normalitas]

  7. ini sangat umum sehingga sulit untuk menyebutnya kesalahan lagi (sebagian karena upaya program tertentu) - menyebut kelebihan kurtosis hanya "kurtosis"; kesalahan cukup banyak dijamin menyebabkan masalah komunikasi.

Glen_b
sumber
2
+1. Saya ingin mengingatkan Anda tentang "data non-parametrik" yang aneh, yang termasuk dalam daftar ini daripada milik saya. Kelt kurtosis adalah saudara jelek dari kurtosis kasar.
Nick Cox
@Nick Terima kasih, saya telah duduk di sini menatap daftar saya mengatakan "ada hal lain yang benar-benar mengganggu saya yang saya tahu milik di sini". Itu dia.
Glen_b
3
Yang lain adalah "uji statistik" yang diperluas begitu luas sehingga menjadi pertanyaan pembuka: tes apa yang harus saya terapkan pada data saya? sering dalam keyakinan bahwa akan ada jawaban tunggal dari bentuk "Student's t", "Mann-Whitney" atau "chi-square". Jawaban saya biasanya lebih sering, mungkin tidak sama sekali, atau kita harus melihat dengan cermat data Anda dan membahas apa pertanyaan Anda yang sebenarnya sebelum kita dapat memikirkannya.
Nick Cox
@nick Yang itu berkaitan erat dengan item saya 2. Saya ingin tahu apakah ada cara yang baik untuk memperluas item itu.
Glen_b
1
Saya khawatir banyak teks statistik (tampaknya) mendorong pemikiran seperti itu.
Nick Cox
31

" Data " jamak . (Singular adalah "datum").

gung
sumber
2
Apakah Anda benar-benar berbicara tentang datum? Lebih biasanya, titik itu ... nilai itu ..., pengamatan itu ..., setidaknya di sini.
Nick Cox
5
Data juga merupakan android tunggal, yang mengasimilasi data tentang manusia yang ia amati untuk datang ke data yang didorong kesimpulan data, seringkali dengan efek lucu.
Matthew Drury
2
Anda harus menempuh perjalanan jauh untuk mendengarnya.
Nick Cox
5
Data jamak tidak hanya membutuhkan persetujuan kata kerja - "data adalah" daripada "data adalah", tetapi dari kuantifiers - "banyak data" daripada "banyak data", "lebih sedikit data" daripada "lebih sedikit data". Begitu sedikit orang yang berhasil konsisten sehingga tampaknya menjadi penyebab yang hilang.
Scortchi
5
Meskipun bertahun-tahun (bahkan beberapa dekade) melawan ini (guru-guru Latin saya akan senang), saya sampai pada pandangan yang mirip dengan @ Scortchi. Tapi saya mencoba menggunakan dataset kata jika memungkinkan, terutama dipengaruhi oleh praktik StataCorp. Itu memecahkan beberapa kesulitan.
Nick Cox
14

Meskipun tidak sepenuhnya istilah statistik, saya memilih untuk pensiun dari endogenitas . Ini digunakan untuk merujuk pada segala sesuatu dari penyebab terbalik hingga mengacaukan seleksi dan bias collider, ketika semua orang benar-benar ingin lakukan adalah mengatakan: "Efek itu tidak diidentifikasi".

conjugateprior
sumber
Komentar bukan untuk diskusi panjang; percakapan ini telah dipindahkan ke obrolan .
Glen_b
13

"Regresi terhadap rata-rata" tidak berarti bahwa jika kami telah mengamati sejumlah sampel iid di bawah nilai yang diharapkan, sampel iid berikutnya cenderung berada di atas nilai yang diharapkan.

Benjamin Lindqvist
sumber
3
+1 Ini penting. Orang-orang terkenal sangat bingung dengan hal ini. Misalnya, buku populer Peter Bernstein tentang analisis risiko, Against the Gods . mencirikan regresi dengan rata-rata dalam banyak cara berbeda - tidak ada satupun yang benar.
Whuber
10

Persen vs Persentase Poin : Jika sesuatu meningkat dari 1% menjadi 2%, itu meningkat sebesar 100%. Atau: Anda dapat mengatakan bahwa itu meningkat sebesar 1 poin persentase.

Menyatakan bahwa kenaikannya 1% sangat menyesatkan.

SPhadler
sumber
7

Saya menemukan singkatan yang tidak ditunjukkan dengan jelas adalah masalah nyata. Sebagai contoh, saya melihat hal-hal seperti GLM dan tidak ditentukan apakah ini berarti model linier umum atau model linier umum. Sekali biasanya dapat mengetahui apa yang sedang dirujuk setelah menggali ke dalam konteks, tetapi saya menemukan ini sangat menyusahkan bagi siswa yang baru mulai belajar tentang model statistik.

Contoh lain dari ini adalah IV. Apakah ini berarti variabel instrumental atau variabel independen? Sering kali itu tidak diperjelas sampai Anda memeriksa konteksnya.

Hal lain yang saya lihat adalah kebingungan "moderator" dan "interaksi." Juga, populasi (seperti pada populasi pada umumnya) dan populasi yang menarik tampaknya membingungkan siswa baru kecuali jika dibuat sangat jelas.

StatsStudent
sumber
5
Saya juga melihat GLM dulu berarti "Model Global Linear" oleh beberapa orang di kerumunan pembelajaran mesin. Hanya untuk menambah kebingungan pada istilah yang sudah kelebihan beban
Glen_b
1
Saya sebagian mendukung jawaban / pengamatan ini. Saya pikir "Generalized" (apa pun itu) harus disingkat menjadi Gz, bukan ke G. Seperti GzLM (model linear umum).
ttnphns
2
@ttnphns: sebagian dari kita menulis generalisasi dengan s
Henry
Saya ingin tahu @ttnphns, bagian mana dari jawaban ini yang tidak Anda dukung dan mengapa? Sangat mungkin saya memiliki kesalahpahaman tentang sesuatu, jadi saya ingin tahu lebih banyak jika Anda memiliki sesuatu untuk ditawarkan lebih lanjut. Terima kasih!
StatsStudent
1
Huh, saya pikir IV berarti in vitro. = P
Mehrdad
7

Bahasa yang umum dalam bahasa sehari-hari:

rata-rata

Bagi kebanyakan orang di luar sana (ironi pahit yang dimaksudkan sepenuhnya), nilai tengah, median, modus, dan nilai yang diharapkan dari apa pun tampaknya sama. Mereka memiliki kecenderungan alami untuk melakukan estimasi titik, dengan asumsi tidak sadar dan tidak dapat disangkal bahwa ada distribusi normal yang mendasarinya. Dan asumsi varians yang sangat tidak sadar sama-sama kecil. Keyakinan bahwa estimasi 1) ada dan 2) akan sangat berguna bagi mereka, karena mereka dapat menganggapnya sebagai prediktor praktis tertentu, sudah berurat berakar, sehingga pada dasarnya tidak mungkin untuk meyakinkan mereka sebaliknya.

Sebagai contoh di dunia nyata, cobalah berbicara dengan juru masak yang bertanya "berapa ukuran rata-rata kentang", benar-benar yakin bahwa jika Anda memberi tahu nomornya, ia akan dapat menggunakan yang ini untuk resep apa pun yang menentukan nomor. kentang, dan keluar sempurna setiap waktu. Dan menjadi marah pada Anda karena mencoba memberitahunya "tidak ada nomor seperti itu". Sayangnya, itu terjadi dalam situasi dengan taruhan yang jauh lebih tinggi daripada membuat sup.

rumtscho
sumber
3
Saya pikir ini agak berlebihan. Misalnya, jutaan atau bahkan milyaran orang tampaknya memiliki sedikit kesulitan dengan rata-rata dalam olahraga.
Nick Cox
1
@NickCox tentu tergantung konteks. Terutama perhitungan rata-rata aritmatika untuk data yang diberikan tidak bermasalah. Saya telah melihat masalah secara khusus dalam kasus-kasus yang saya jelaskan, di mana mereka membutuhkan estimasi titik dan menganggap bahwa "rata-rata" adalah yang sangat tepat. Juga, mereka menganggap "rata-rata" ini dihitung sebagai rata-rata, tetapi jika Anda meminta mereka untuk menjelaskan apa yang mereka maksud dengan rata-rata, mereka secara kasar menggambarkan suatu mode.
rumtscho
@rumtscho, kamu benar. Joe Average mungkin cenderung menganggap rata-rata sebagai mode, atau tipikal.
Mark L. Stone
Ketika orang berbicara tentang harga rumah "rata-rata" di Inggris, mereka tidak dapat memberi tahu saya jenis rata-rata yang mereka gunakan, atau jika outliner telah dikecualikan.
Ian Ringrose
1
Tidak ada yang mengatakan cara tidak dapat dihitung untuk distribusi multimoda, hanya saja sering, itu bukan ukuran terbesar untuk menggambarkan distribusi. Juga, saya tidak yakin itu akan melakukan hal-hal besar bagi citra ahli statistik untuk memberi tahu semua orang "Anda tidak tahu apa arti kata rata-rata!" dan kemudian ketika mereka menunjuk ke definisi kamus, kami membalas "Ya, kamus juga tidak!"
Cliff AB
7

Kurtosis tidak mengukur "puncaknya".

Menurut definisi, ini adalah nilai yang diharapkan (rata-rata) dari * Jadi,-nilai kurang dari 1 (sesuai dengan nilai data dalam satu standar deviasi dari rata-rata, di mana "puncak" akan ada) berkontribusi sangat sedikit untuk kurtosis; hampir semua kontribusi untuk kurtosis adalah dari-nilai lebih besar dari 1 (outlier khususnya). Lihat http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ , Gambar 2 dan 3 secara khusus.| Z | | Z |Z4|Z||Z|

* Kurangi 3 atau tidak; tidak ada bedanya dengan titik ini.

Peter Westfall
sumber
1
ZZ
1
Saya mempunyai seorang profesor statistik Yunani-Siprus, yang mengajari kami bahwa leptokurtik, dalam bahasa Yunani, berarti "berbahu sempit" atau "bungkuk". Dengan demikian, distribusi leptokurtik (misalnya, Laplace atau eksponensial ganda) memiliki massa kurang dari Gaussian (dengan varian yang sama) di daerah "bahu" - dan dengan demikian lebih banyak massa di daerah kepala dan ekor. Sebaliknya, distribusi platykurtic (mis. Seragam) memiliki lebih banyak massa di bahu, dan lebih sedikit massa di daerah kepala dan ekor, daripada normal.
Mico
2
Penjelasan yang baik dari kata-kata, tetapi dalam kenyataannya mereka tidak ada hubungannya dengan statistik kurtosis yang dikembangkan Pearson. Pearson salah, tetapi dengan menggunakan kata-kata Yunani yang terdengar mewah itu, dia membuat orang lain berpikir dia tertarik pada sesuatu yang mendalam. Kesalahannya telah merusak pendidikan statistik dan melek huruf selama lebih dari 100 tahun, sayangnya. Lihat kertas saya untuk distribusi pointy ("lepto") di mana kurtosis kecil, dan distribusi flat-top ("platy") di mana kurtosis hampir tak terbatas. Kurtosis Pearson tidak memberi tahu Anda tentang "lepto" atau "platy". ncbi.nlm.nih.gov/pmc/articles/PMC4321753
Peter Westfall
5

Linear artinya:

  • y=a+bxy=a+bx+cx2y=axb

  • y=ea+bx1+ea+bxy=a+bx+xmax(xθ,0)

  • Linear artinya kebalikan dari dinamis . Seperti dalam variabel dependen apa pun adalah fungsi, itu bukan fungsi dari nilai sebelumnya sendiri. Dalam hal ini, nonlinear berarti hal-hal seperti , dan .y t - y t - 1 = a + b ( y t - 1 - x t - x ) + c ( x t - x t - 1 ) + d x t - 1yt=a+byt1+cxytyt1=a+b(yt1xtx)+c(xtxt1)+dxt1

Di mana adalah variabel dependen, adalah variabel independen, dan , dan adalah parameter dalam semua contoh di atas.x a , b , c , d θyxa,b,c,dθ

Alexis
sumber
5

Pertanyaannya adalah tentang penggunaan istilah statistik yang harus kita CARE untuk perbaiki. Saya telah mengoreksi anak-anak milenium saya 'menggunakan istilah' acak 'untuk mengartikan hal-hal yang berlawanan dengan acak selama 10 tahun sekarang. Mengingat berapa banyak peserta pelatihan saya berjuang untuk menghasilkan sampel data acak yang sebenarnya acak, yang terjadi bahkan sebelum penggunaan kata ini, kebingungan istilah ini dalam bahasa gaul sehari-hari adalah krisis.

Dari Kamus OnlineSlang:

Definition of random


random

adjective
  • tak terduga dan mengejutkan.
    All of the sudden this guy jumped out from behind the bushes, it was so random!
    The street cleaner never comes down our street. How random.
    
  • luar biasa hebat.
    The party was totally random.
    
SASmom
sumber
4

Sudah terlalu banyak contoh hebat yang disebutkan oleh Glen dan Nick ... tidak banyak yang tersisa!

Beberapa aspek regresi

  • istilah kesalahan dan residu (agak lucu ketika orang-orang bangga bahwa residu mereka tidak berkorelasi dengan regressor)

  • prediksi dan estimasi (haruskah kita berhenti membuat perbedaan ketika mereka tentang efek acak yang diprediksi?)

  • interval prediksi / perkiraan versus interval kepercayaan. Saya pikir ada probabilitas> 0,5 untuk mengutip yang salah.

  • regressor (kolom dalam matriks desain) versus covariable et al. Terutama dalam situasi teknis di mana perbedaan itu penting, banyak orang (termasuk saya) cenderung tidak tepat.

Michael M
sumber
Maaf saya bingung. Apakah ada perbedaan antara prediksi dan estimasi? Bisakah Anda menjelaskan lebih lanjut tentang dua poin terakhir Anda juga? Terima kasih!
yuqian
3

Dalam lingkungan asuransi khususnya, adalah umum untuk menggunakan varians untuk merujuk pada segala jenis perbedaan, daripada rata-rata perbedaan kuadrat antara setiap titik data dan rata-rata dari kumpulan data.

Clarinetist
sumber
6
Saya juga telah bertemu varians yang digunakan dalam pengertian yang berbeda ini, tetapi perhatikan bahwa varians adalah kata bahasa Inggris yang ada ketika RA Fisher membajaknya untuk tujuan ini pada tahun 1918. Jadi ini adalah penggunaan yang berbeda; orang statistik tidak dapat mengklaim kepemilikan atas arti sebenarnya.
Nick Cox
3

Bayesian

Siswa yang mempelajarinya mungkin tidak mengalami kesulitan memberi tahu Anda apakah sesuatu "terlihat" Bayesian, tetapi minta mereka untuk memecahkan masalah dengan pendekatan yang sering dan Bayesian dan mereka mungkin akan gagal.

Dalam pengalaman saya, para siswa akhirnya diajari bahwa itu hanyalah perbedaan filosofis, tanpa contoh konkret yang menunjukkan masalah yang sama diserang dengan kedua pendekatan.

Sekarang tanyakan kepada mereka mengapa seseorang mungkin mengambil pendekatan yang sering dalam contoh mereka; kemungkinan penjelasan terbaik mereka adalah "ya, di masa lalu, komputer tidak ada ..."

Mehrdad
sumber
Bisakah Anda membagikan penjelasan Anda mengapa seseorang mungkin mengambil pendekatan yang sering? Terima kasih!
yuqian
4
@yuqian: Ya. Bagi saya, yang terpenting adalah Anda melakukannya ketika Anda ingin orang lain setuju secara objektif dengan Anda. Pendekatan Bayesian memerlukan distribusi sebelumnya, yang secara inheren subyektif, dan dalam masalah dunia nyata tidak ada sebelumnya yang benar secara objektif ... yang berarti dua orang dapat menghitung jawaban yang berbeda untuk masalah yang sama tergantung pada apa yang mereka pikir seharusnya menjadi prioritas mereka. Dengan pendekatan yang kerap ada, tidak ada ambiguitas seperti itu, dan itu memungkinkan untuk membandingkan hasil Anda dengan orang lain dengan cara yang objektif.
Mehrdad
2

Risiko

Risiko tidak berarti probabilitas

Risiko adalah jumlah biaya semua hasil, masing-masing biaya ini dikalikan dengan probabilitas terjadinya.

Risiko biasanya ditimbang dengan imbalan yang merupakan keuntungan yang ingin kita capai.

Berikut ini salah satu contohnya: Bagaimana Mematikan Kilowatt Anda . Di sini risiko - jumlah orang mati untuk berbagai sumber energi - ditimbang dengan imbalan - jam terawatt energi yang dihasilkan oleh sumber energi ini.

Jadi misalnya: risiko tenaga nuklir bukanlah probabilitas bahwa kehancuran akan terjadi; itu adalah probabilitas bahwa kehancuran akan terjadi, dikalikan dengan jumlah orang yang mati karenanya, disimpulkan dengan jumlah orang yang meninggal akibat operasi normal dikalikan dengan probabilitas bahwa operasi tetap normal.

Michael Karnerfors
sumber
4
"Risiko" tidak memiliki definisi standar yang diterima secara universal. Tetapi, "jumlah biaya [kerugian] dari semua hasil, masing-masing biaya [kerugian] ini dikalikan dengan probabilitas terjadinya" adalah definisi dari biaya yang diperkirakan [kerugian]. Risiko, di sisi lain, umumnya mengacu pada penyimpangan (merugikan) dari kerugian yang diharapkan. Jadi, definisi Anda adalah ekspektasi, sementara saya pikir definisi khas tentang risiko berhubungan dengan dispersi.
A. Webb
Misalnya, ketika kita membeli asuransi, tujuannya adalah untuk mengurangi risiko (mengurangi dampak peristiwa yang tidak terduga), tetapi biaya yang diharapkan sebenarnya lebih tinggi untuk tertanggung, perbedaannya adalah biaya dan keuntungan perusahaan asuransi. Kerugian ekstrim di bagian ekor telah diperdagangkan dengan biaya premi yang lebih stabil.
A. Webb
3
@ A.Webb FWIW, Masyarakat (Internasional) untuk Analisis Risiko mendefinisikan risiko sebagai "Potensi realisasi konsekuensi yang tidak diinginkan, merugikan bagi kehidupan manusia, kesehatan, properti, atau lingkungan; estimasi risiko biasanya didasarkan pada nilai yang diharapkan dari probabilitas bersyarat dari peristiwa yang terjadi kali konsekuensi dari peristiwa mengingat bahwa itu telah terjadi. " Dengan demikian, risiko tampaknya memiliki definisi standar - dan ini menunjukkan Anda benar untuk membedakan risiko dari cara memperkirakan atau mengukurnya.
whuber
1
Risiko, seperti yang digunakan oleh para ahli epidemiologi, juga berarti tingkat di mana kemungkinan suatu peristiwa terjadi , atau . P(A)/t
Alexis
2

Efek tetap dan efek acak dapat memiliki arti berbeda untuk orang yang berbeda. Dalam ekonometrik, efek tetap sebenarnya acak dan ketika Anda memikirkannya, setiap efek dalam statistik adalah acak sehingga penamaan sesuatu yang acak tidak memberikan informasi tambahan yang berarti.

mpiktas
sumber