Terus terang, saya pikir hukum jumlah besar tidak memiliki peran besar dalam industri. Sangat membantu untuk memahami justifikasi asimptotik dari prosedur umum, seperti estimasi kemungkinan maksimum dan tes (termasuk GLM omniimportan dan regresi logistik, khususnya), bootstrap, tetapi ini adalah masalah distribusi daripada kemungkinan mengenai masalah sampel yang buruk. .
Di luar topik yang telah disebutkan (GLM, inferensi, bootstrap), model statistik yang paling umum adalah regresi linier, sehingga pemahaman menyeluruh tentang model linier adalah suatu keharusan. Anda mungkin tidak pernah menjalankan ANOVA dalam kehidupan industri Anda, tetapi jika Anda tidak memahaminya, Anda tidak boleh disebut sebagai ahli statistik.
Ada berbagai jenis industri. Dalam pharma, Anda tidak dapat mencari nafkah tanpa uji coba acak dan regresi logistik. Dalam statistik survei, Anda tidak dapat mencari nafkah tanpa estimator Horvitz-Thompson dan penyesuaian non-respons. Dalam statistik yang terkait dengan ilmu komputer, Anda tidak dapat mencari nafkah tanpa pembelajaran statistik dan penggalian data. Dalam lembaga think tank kebijakan publik (dan, semakin, statistik pendidikan), Anda tidak dapat mencari nafkah tanpa penaksir kausalitas dan efek pengobatan (yang, semakin, melibatkan uji coba secara acak). Dalam riset pemasaran, Anda harus memiliki campuran latar belakang ekonomi dengan teori pengukuran psikometrik (dan Anda tidak dapat mempelajari keduanya dalam penawaran departemen statistik yang khas). Statistik industri beroperasi dengan paradigma six sigma anehnya sendiri yang agak terhubung dengan statistik arus utama; ikatan yang lebih kuat dapat ditemukan dalam desain bahan percobaan. Materi Wall Street akan menjadi ekonometrika finansial, sampai kalkulus stokastik. Ini adalah keterampilan yang SANGAT berbeda, dan istilah "industri" bahkan lebih buruk didefinisikan daripada "akademisi". Saya tidak berpikir siapa pun dapat mengklaim mengetahui lebih dari dua atau tiga hal di atas pada saat yang sama.
Akan tetapi, keterampilan terbaik yang secara universal diperlukan dalam "industri" (apa pun artinya bagi Anda) adalah manajemen waktu, manajemen proyek, dan komunikasi dengan klien yang kurang berpengalaman secara statistik. Jadi, jika Anda ingin mempersiapkan diri untuk penempatan industri, ambil kelas di sekolah bisnis tentang topik ini.
UPDATE: Posting asli ditulis pada bulan Februari 2012; hari ini (Maret 2014), Anda mungkin harus menyebut diri Anda "seorang ilmuwan data" daripada "seorang ahli statistik" untuk mencari pekerjaan panas di industri ... dan lebih baik belajar beberapa Hadoop untuk mengikuti dengan proklamasi diri itu.
Saya pikir pemahaman yang baik tentang masalah yang berkaitan dengan tradeoff bias-varians . Sebagian besar ahli statistik pada akhirnya akan menganalisis set data yang cukup kecil untuk varians estimator atau parameter model menjadi cukup tinggi sehingga bias menjadi pertimbangan sekunder.
sumber
Untuk menunjukkan yang sangat jelas:
Teorema Batas Pusat
Bootstrap
sumber
Saya tidak akan mengatakan ini sangat mirip dengan sesuatu seperti hukum angka besar atau teorema batas pusat, tetapi karena membuat kesimpulan tentang kausalitas sering merupakan hal yang sentral, memahami pekerjaan Judea Pearl tentang penggunaan grafik terstruktur untuk memodelkan kausalitas adalah sesuatu yang orang harus terbiasa dengan. Ini memberikan cara untuk memahami mengapa studi eksperimental dan observasional berbeda sehubungan dengan kesimpulan kausal yang mereka mampu, dan menawarkan cara untuk berurusan dengan data pengamatan. Untuk ikhtisar yang bagus, bukunya ada di sini .
sumber
Pemahaman yang kuat tentang masalah substantif yang akan ditangani sama pentingnya dengan pendekatan statistik tertentu. Seorang ilmuwan yang baik dalam industri ini lebih mungkin daripada ahli statistik tanpa pengetahuan seperti itu untuk mendapatkan solusi yang masuk akal untuk masalah mereka. Seorang ahli statistik dengan pengetahuan substantif dapat membantu.
sumber
Metode Delta, bagaimana menghitung varian statistik yang aneh dan menemukan efisiensi relatif asimptotiknya, untuk merekomendasikan perubahan variabel dan menjelaskan peningkatan efisiensi dengan "memperkirakan hal yang benar". Dalam hubungannya dengan itu, Ketimpangan Jensen untuk memahami GLM dan jenis bias aneh yang muncul dalam transformasi seperti di atas. Dan, sekarang bias dan varians disebutkan, konsep trade-off bias-varians dan MSE sebagai ukuran objektif dari akurasi prediksi.
sumber
Dalam pandangan saya, kesimpulan statistik adalah yang paling penting bagi seorang praktisi. Inferensi memiliki dua bagian: 1) Estimasi & 2) Pengujian hipotesis. Pengujian hipotesis adalah yang penting. Karena dalam estimasi sebagian besar prosedur unik, estimasi kemungkinan maksimum, diikuti dan tersedia sebagian besar paket statistik (sehingga tidak ada kebingungan).
Pertanyaan yang sering diajukan oleh praktisi adalah seputar pengujian perbedaan atau analisis sebab-akibat yang signifikan. Tes hipotesis penting dapat ditemukan di tautan ini .
Mengetahui tentang model Linear, GLM atau dalam pemodelan statistik umum diperlukan untuk interpretasi sebab-akibat. Saya berasumsi masa depan analisis data termasuk inferensi Bayesian.
sumber
Kesimpulan biasa adalah keharusan. Dan bagaimana mengatasinya adalah masalah mendasar, Anda tidak bisa kembali ke masa lalu dan tidak memberi seseorang perawatan. Baca artikel tentang rubin, nelayan pendiri mahasiswa statistik modern.) .... Apa yang harus dipelajari untuk mengatasi masalah ini, pengacakan yang tepat, dan bagaimana Undang-undang dalam jumlah besar mengatakan berbagai hal diacak dengan semestinya, Pengujian hipotesis, Hasil potensial (berpegang pada asumsi hetroscastisty) dan hebat dengan ketiadaan), padanan (bagus untuk ketiadaan tetapi hasil potensial lebih baik karena lebih digeneralisasi, maksud saya mengapa mempelajari banyak hal rumit ketika Anda hanya dapat mempelajari satu hal rumit), Bootstrap, statistik Bayesian tentu saja (regresi Bayesian , regresi Bayesian naif, faktor Bayesian), dan alternatif Non papmetrik.
Biasanya dalam praktek cukup ikuti langkah-langkah umum ini,
Mengenai komentar sebelumnya, Anda harus memulai dengan ANOVA secara umum (efek acak atau efek tetap, dan mengubah tipe kontinu menjadi sampah) kemudian menggunakan regresi (yang jika Anda mengubah dan mengubah kadang-kadang bisa sebagus ANOVA tetapi tidak pernah mengalahkannya) untuk melihat perawatan spesifik mana yang signifikan, (tampaknya melakukan uji t multipel dan menggunakan beberapa koreksi seperti Holm methid) gunakan regresi.
Dalam kasus di mana Anda harus memprediksi hal-hal menggunakan regresi bayasian.
Ketinggalan lebih dari 5% menggunakan hasil potensial
Cabang lain dari analisis data adalah pembelajaran mesin yang diawasi yang harus disebutkan
sumber