Teori apa yang harus diketahui oleh setiap ahli statistik?

30

Saya memikirkan ini dari perspektif persyaratan yang sangat mendasar dan minimal. Apa teori-teori kunci yang harus diketahui, dipahami, dan dimanfaatkan oleh pakar statistik industri (bukan akademis)?

Yang besar yang terlintas dalam pikiran adalah Hukum angka besar . Apa yang paling penting untuk menerapkan teori statistik pada analisis data?

bnjmn
sumber

Jawaban:

41

Terus terang, saya pikir hukum jumlah besar tidak memiliki peran besar dalam industri. Sangat membantu untuk memahami justifikasi asimptotik dari prosedur umum, seperti estimasi kemungkinan maksimum dan tes (termasuk GLM omniimportan dan regresi logistik, khususnya), bootstrap, tetapi ini adalah masalah distribusi daripada kemungkinan mengenai masalah sampel yang buruk. .

Di luar topik yang telah disebutkan (GLM, inferensi, bootstrap), model statistik yang paling umum adalah regresi linier, sehingga pemahaman menyeluruh tentang model linier adalah suatu keharusan. Anda mungkin tidak pernah menjalankan ANOVA dalam kehidupan industri Anda, tetapi jika Anda tidak memahaminya, Anda tidak boleh disebut sebagai ahli statistik.

Ada berbagai jenis industri. Dalam pharma, Anda tidak dapat mencari nafkah tanpa uji coba acak dan regresi logistik. Dalam statistik survei, Anda tidak dapat mencari nafkah tanpa estimator Horvitz-Thompson dan penyesuaian non-respons. Dalam statistik yang terkait dengan ilmu komputer, Anda tidak dapat mencari nafkah tanpa pembelajaran statistik dan penggalian data. Dalam lembaga think tank kebijakan publik (dan, semakin, statistik pendidikan), Anda tidak dapat mencari nafkah tanpa penaksir kausalitas dan efek pengobatan (yang, semakin, melibatkan uji coba secara acak). Dalam riset pemasaran, Anda harus memiliki campuran latar belakang ekonomi dengan teori pengukuran psikometrik (dan Anda tidak dapat mempelajari keduanya dalam penawaran departemen statistik yang khas). Statistik industri beroperasi dengan paradigma six sigma anehnya sendiri yang agak terhubung dengan statistik arus utama; ikatan yang lebih kuat dapat ditemukan dalam desain bahan percobaan. Materi Wall Street akan menjadi ekonometrika finansial, sampai kalkulus stokastik. Ini adalah keterampilan yang SANGAT berbeda, dan istilah "industri" bahkan lebih buruk didefinisikan daripada "akademisi". Saya tidak berpikir siapa pun dapat mengklaim mengetahui lebih dari dua atau tiga hal di atas pada saat yang sama.

Akan tetapi, keterampilan terbaik yang secara universal diperlukan dalam "industri" (apa pun artinya bagi Anda) adalah manajemen waktu, manajemen proyek, dan komunikasi dengan klien yang kurang berpengalaman secara statistik. Jadi, jika Anda ingin mempersiapkan diri untuk penempatan industri, ambil kelas di sekolah bisnis tentang topik ini.

UPDATE: Posting asli ditulis pada bulan Februari 2012; hari ini (Maret 2014), Anda mungkin harus menyebut diri Anda "seorang ilmuwan data" daripada "seorang ahli statistik" untuk mencari pekerjaan panas di industri ... dan lebih baik belajar beberapa Hadoop untuk mengikuti dengan proklamasi diri itu.

StasK
sumber
1
Jawaban yang bagus Terima kasih telah menyoroti beberapa perbedaan besar antara ahli statistik dalam industri. Ini membantu memotivasi pertanyaan saya karena saya percaya banyak orang memiliki ide yang berbeda tentang apa yang dilakukan seorang ahli statistik. Saya kira saya sedang berusaha mencari tahu di mana semua ini berpotongan dari pemahaman dasar. Juga, saya sangat menghargai paragraf terakhir Anda tentang topik bisnis dan betapa pentingnya hal itu. Poin bagus tapi saya masih ingin melihat apakah ada yang bisa menambah percakapan sebelum menerima.
bnjmn
Saya bingung dengan "paradigma Six Sigma yang aneh" ini, "yang terhubung dari jauh ke Statistik umum" yang dengannya Anda mengatakan Statistik Industri beroperasi. Tampaknya sepenuhnya ortodoks bagi saya, mengesampingkan perbedaan dalam terminologi yang ditemukan di antara semua sub-bidang ini.
Scortchi
4
10-9
Cukup adil: Saya akan mengatakan analisis sistem pengukuran (perjanjian antar-penilai, studi reproduktifitas & pengulangan pengukuran), kontrol proses statistik, analisis reliabilitas (analisis survival), & desain faktorial desain (fraksional) desain eksperimental, metodologi respon-permukaan ) adalah karakteristik dari statistik industri.
Scortchi
12

Saya pikir pemahaman yang baik tentang masalah yang berkaitan dengan tradeoff bias-varians . Sebagian besar ahli statistik pada akhirnya akan menganalisis set data yang cukup kecil untuk varians estimator atau parameter model menjadi cukup tinggi sehingga bias menjadi pertimbangan sekunder.

Dikran Marsupial
sumber
11

Untuk menunjukkan yang sangat jelas:

Teorema Batas Pusat

halhal

Bootstrap

Makro
sumber
8

Saya tidak akan mengatakan ini sangat mirip dengan sesuatu seperti hukum angka besar atau teorema batas pusat, tetapi karena membuat kesimpulan tentang kausalitas sering merupakan hal yang sentral, memahami pekerjaan Judea Pearl tentang penggunaan grafik terstruktur untuk memodelkan kausalitas adalah sesuatu yang orang harus terbiasa dengan. Ini memberikan cara untuk memahami mengapa studi eksperimental dan observasional berbeda sehubungan dengan kesimpulan kausal yang mereka mampu, dan menawarkan cara untuk berurusan dengan data pengamatan. Untuk ikhtisar yang bagus, bukunya ada di sini .

gung - Pasang kembali Monica
sumber
2
Ada juga kerangka kerja kontrafakta Rubin; ada juga pemodelan persamaan struktural dan teknik variabel instrumental ekonometrik ... beberapa di antaranya dijelaskan dalam Mostly Harmless Econometrics yang merupakan buku statistik terbaik yang ditulis oleh non-ahli statistik.
Tugas
7

Pemahaman yang kuat tentang masalah substantif yang akan ditangani sama pentingnya dengan pendekatan statistik tertentu. Seorang ilmuwan yang baik dalam industri ini lebih mungkin daripada ahli statistik tanpa pengetahuan seperti itu untuk mendapatkan solusi yang masuk akal untuk masalah mereka. Seorang ahli statistik dengan pengetahuan substantif dapat membantu.

Brett
sumber
6

Metode Delta, bagaimana menghitung varian statistik yang aneh dan menemukan efisiensi relatif asimptotiknya, untuk merekomendasikan perubahan variabel dan menjelaskan peningkatan efisiensi dengan "memperkirakan hal yang benar". Dalam hubungannya dengan itu, Ketimpangan Jensen untuk memahami GLM dan jenis bias aneh yang muncul dalam transformasi seperti di atas. Dan, sekarang bias dan varians disebutkan, konsep trade-off bias-varians dan MSE sebagai ukuran objektif dari akurasi prediksi.

AdamO
sumber
6

Dalam pandangan saya, kesimpulan statistik adalah yang paling penting bagi seorang praktisi. Inferensi memiliki dua bagian: 1) Estimasi & 2) Pengujian hipotesis. Pengujian hipotesis adalah yang penting. Karena dalam estimasi sebagian besar prosedur unik, estimasi kemungkinan maksimum, diikuti dan tersedia sebagian besar paket statistik (sehingga tidak ada kebingungan).

Pertanyaan yang sering diajukan oleh praktisi adalah seputar pengujian perbedaan atau analisis sebab-akibat yang signifikan. Tes hipotesis penting dapat ditemukan di tautan ini .

Mengetahui tentang model Linear, GLM atau dalam pemodelan statistik umum diperlukan untuk interpretasi sebab-akibat. Saya berasumsi masa depan analisis data termasuk inferensi Bayesian.

vinux
sumber
0

Kesimpulan biasa adalah keharusan. Dan bagaimana mengatasinya adalah masalah mendasar, Anda tidak bisa kembali ke masa lalu dan tidak memberi seseorang perawatan. Baca artikel tentang rubin, nelayan pendiri mahasiswa statistik modern.) .... Apa yang harus dipelajari untuk mengatasi masalah ini, pengacakan yang tepat, dan bagaimana Undang-undang dalam jumlah besar mengatakan berbagai hal diacak dengan semestinya, Pengujian hipotesis, Hasil potensial (berpegang pada asumsi hetroscastisty) dan hebat dengan ketiadaan), padanan (bagus untuk ketiadaan tetapi hasil potensial lebih baik karena lebih digeneralisasi, maksud saya mengapa mempelajari banyak hal rumit ketika Anda hanya dapat mempelajari satu hal rumit), Bootstrap, statistik Bayesian tentu saja (regresi Bayesian , regresi Bayesian naif, faktor Bayesian), dan alternatif Non papmetrik.

Biasanya dalam praktek cukup ikuti langkah-langkah umum ini,

Mengenai komentar sebelumnya, Anda harus memulai dengan ANOVA secara umum (efek acak atau efek tetap, dan mengubah tipe kontinu menjadi sampah) kemudian menggunakan regresi (yang jika Anda mengubah dan mengubah kadang-kadang bisa sebagus ANOVA tetapi tidak pernah mengalahkannya) untuk melihat perawatan spesifik mana yang signifikan, (tampaknya melakukan uji t multipel dan menggunakan beberapa koreksi seperti Holm methid) gunakan regresi.

Dalam kasus di mana Anda harus memprediksi hal-hal menggunakan regresi bayasian.

Ketinggalan lebih dari 5% menggunakan hasil potensial

Cabang lain dari analisis data adalah pembelajaran mesin yang diawasi yang harus disebutkan

Kheagan Eckley
sumber