Melakukan statistik yang benar di lingkungan kerja?

20

Saya tidak yakin dari mana pertanyaan ini berasal: Cross Validated, atau The Workplace. Tapi pertanyaan saya agak terkait dengan statistik.

Pertanyaan ini (atau saya kira pertanyaan) muncul selama saya bekerja sebagai "magang ilmu data". Saya sedang membangun model regresi linier ini dan memeriksa plot residual. Saya melihat tanda heteroskedastisitas yang jelas. Saya ingat bahwa heteroskedastisitas mengubah banyak statistik uji seperti interval kepercayaan dan uji-t. Jadi saya menggunakan kuadrat terkecil tertimbang, mengikuti apa yang telah saya pelajari di perguruan tinggi. Manajer saya melihat itu dan menyarankan saya untuk tidak melakukan itu karena "Saya membuat segalanya menjadi rumit", yang sama sekali bukan alasan yang meyakinkan bagi saya.

Contoh lain adalah "menghapus variabel penjelas karena nilai p-nya tidak signifikan". Untuk menjadi, saran ini tidak masuk akal dari sudut pandang logis. Menurut apa yang telah saya pelajari, nilai-p yang tidak signifikan dapat disebabkan oleh berbagai alasan: kesempatan, menggunakan model yang salah, melanggar asumsi, dll.

Contoh lain adalah bahwa, saya menggunakan validasi k-fold cross untuk mengevaluasi model saya. Menurut hasilnya, jauh lebih baik daripada . Tapi kami memiliki lebih rendah untuk model 1, dan alasannya ada hubungannya dengan intersep . Supervisor saya, tampaknya, lebih suka model 2 karena memiliki lebih tinggi . Alasannya (seperti kuat, atau lintas-validasi adalah pendekatan pembelajaran mesin, bukan pendekatan statistik) sepertinya tidak cukup meyakinkan untuk mengubah pikiran saya.CVmodel1CVmodel2R2R2R2

Sebagai seseorang yang baru lulus kuliah, saya sangat bingung. Saya sangat bersemangat menerapkan statistik yang benar untuk memecahkan masalah dunia nyata, tetapi saya tidak tahu mana yang benar:

  1. Statistik yang saya pelajari sendiri salah, jadi saya hanya membuat kesalahan.
  2. Ada perbedaan besar antara statistik teoritis dan model bangunan di perusahaan. Dan meskipun teori statistik benar, orang tidak mengikutinya.
  3. Manajer tidak menggunakan statistik dengan benar.

Pembaruan pada 4/17/2017: Saya telah memutuskan untuk mengejar gelar Ph.D. dalam statistik. Terima kasih atas balasan Anda.

3x89g2
sumber
1
Terkait dengan pertanyaan Anda adalah komentar (terutama yang di akhir) di bawah jawaban ini: stats.stackexchange.com/questions/229193/…
Diskusi ini juga bisa relevan . Dalam praktiknya, Anda kadang-kadang dapat menggunakan model di mana data Anda melanggar beberapa asumsi yang diperlukan (misalnya, Naif Bayes pada variabel dependen) dan masih memiliki hasil yang menarik. Tetapi Anda harus sangat berhati-hati dengan kesimpulan yang Anda buat, dan di situlah masalah utamanya: kebanyakan orang tidak peduli tentang arti hasil Anda selama Anda mendapatkan hasil. Terbit atau musnah ...
gaborous
1
Jawaban "Anda benar dan dia salah" mungkin benar dan berlaku untuk kasus Anda. Bagaimanapun, berhati-hatilah bahwa kadang-kadang jawabannya bisa "dia salah tetapi caranya yang salah berfungsi untuk tujuannya - mungkin itu bekerja lebih baik daripada cara yang benar akan lakukan untuk keperluan non-statistik menjalankan bisnis". Saya pikir itu sering terjadi dengan semua jenis pengetahuan ilmiah, bukan hanya statistik. Mungkin di SE Workplace mereka dapat memberi Anda contoh-contoh non statistik.
Pere
3
@Aksakal: Dari apa yang OP jelaskan secara statistik dia lebih mungkin benar. Anekdot pribadi Anda, hanyalah sebuah anekdot. Saya bisa mengatasinya dengan mengatakan saya pindah ke pekerjaan di mana pengujian A / B akan dilakukan hanya dengan 30 sampel; menunjukkan perhitungan daya dasar mengubah seluruh pola pikir tim tentang ukuran sampel dan pengambilan keputusan. Kembali ke pertanyaan OP, saya setuju bahwa apa yang diuraikan tidak berarti bahwa supervisor OP melakukan panggilan yang salah. Alur kerja bisnis memiliki inersia tertentu yang terkait dengan mereka dan "orang baru" harus membuktikan dirinya sebagai seorang pengkhotbah sebelum menjadi seorang nabi ...
usεr11852 mengatakan Reinstate Monic
1
@ usεr11852, komentar saya adalah kata-kata kasar :) tetapi ada benarnya, saya pikir: untuk seseorang yang baru di bidang ini, lebih aman untuk mengasumsikan bahwa bos tahu lebih baik. dengan pengalaman dia bisa mengendurkan asumsi ini, mungkin memberi bobot lebih untuk pendapatnya sendiri dan lebih sedikit untuk bos '. untuk pekerja magang, bobot berdasarkan pendapat sendiri harus mendekati NOL.
Aksakal

Jawaban:

12

Singkatnya, Anda benar dan dia salah. Tragedi analisis data adalah bahwa banyak orang melakukannya, tetapi hanya sebagian kecil orang melakukannya dengan baik, sebagian karena pendidikan yang lemah dalam analisis data dan sebagian karena apatis. Arahkan pandangan kritis ke hampir semua artikel penelitian yang diterbitkan yang tidak memiliki ahli statistik atau ahli pembelajaran mesin pada daftar penulis dan Anda akan segera menemukan kesalahan mendasar seperti menafsirkan nilai- sebagai probabilitas bahwa hipotesis nol benar. .hal

Saya pikir satu-satunya hal yang harus dilakukan, ketika dihadapkan dengan situasi semacam ini, adalah dengan hati-hati menjelaskan apa yang salah tentang praktik yang salah kepala, dengan satu atau dua contoh.

Kodiologis
sumber
3
Terima kasih balasannya. Saya kira "pertanyaan langkah selanjutnya" adalah, adakah pekerjaan di luar sana yang benar-benar melakukan statistik yang benar? Saya mengerti bahwa ilmu data sangat populer saat ini, tetapi entah bagaimana saya mendapat kesan bahwa banyak "ilmuwan data" tidak begitu peduli melakukan statistik yang benar ...
3x89g2
1
@Misakov Saya pikir ini sangat tergantung pada orang atau organisasi. Tapi kata kunci seperti "ilmu data", "analitik", dan "intelijen bisnis" adalah tanda bahaya. Dan jangan lupa bahwa dalam wawancara kerja, Anda mewawancarai mereka juga. Itu tidak hanya membuat Anda. Saya terlihat baik untuk mengajukan pertanyaan terperinci tentang bagaimana hal-hal dilakukan; itu memungkinkan Anda melihat seberapa serius mereka tentang analisis data.
Kodiologist
@Misakov Anda mungkin harus masuk ke dunia akademis jika Anda benar-benar ingin melakukan statistik yang benar. Sebagian besar (lihat jawaban saya di atas) penggunaan industri akan salah.
Mooks
@Kodiologist: Saya pikir Anda mengambil pendekatan " benar " sedikit tentang ini dan Anda tidak membantu OP dengan hanya mengkonfirmasi biasnya terhadap statistik industri. Juga gagasan untuk menentang anggota senior setelah dia memberikan keputusan langsung (" Pergi dengan " yang lebih tinggiR2 ) agak naif ... Mengingat bahwa perusahaan masih ada, keputusan manajer tidak begitu salah dan penyederhanaan berlebihan dari beberapa aturan mungkin tidak terlalu bencana dalam konteks pekerjaan mereka. Orang-orang baru (seperti OP) ikut bergabung dan tim berevolusi; evolusi adalah proses Wiener, bukan penerbangan Lévy!
usεr11852 mengatakan Reinstate Monic
1
@ usεr11852 Manajer yang baik (yaitu, tidak berambut runcing) akan tunduk kepada karyawan ketika mereka tahu lebih baik daripada dia. "Mengingat bahwa perusahaan masih ada, keputusan manajer tidak begitu salah " - Perlombaan tidak dengan cepat.
Kodiologist
11

Kodiologist benar - Anda benar, dia salah. Namun sayangnya ini adalah masalah tempat yang lebih umum daripada apa yang Anda temui. Anda sebenarnya berada di industri yang relatif baik.

meSebuahn+3σ

Sekarang, terlepas dari fakta bahwa interval kepercayaan ini tidak memberi tahu mereka apa yang sebenarnya mereka butuhkan (mereka membutuhkan interval toleransi untuk itu), hal ini dilakukan secara membabi buta pada parameter yang berada di dekat beberapa nilai maksimum atau minimum (tetapi di mana interval menang ' t sebenarnya melebihi nilai-nilai itu). Karena Excel akan menghitung apa yang mereka butuhkan (ya, saya katakan Excel), mereka menetapkan spesifikasi mereka sesuai dengan itu, terlepas dari kenyataan bahwa parameternya tidak akan mendekati distribusi normal. Orang-orang ini telah diajarkan statistik dasar, tetapi bukan plot qq atau sejenisnya. Salah satu masalah terbesar adalah bahwa statistik akan memberi Anda angka, bahkan ketika digunakan secara tidak tepat - sehingga kebanyakan orang tidak tahu kapan mereka melakukannya.

Dengan kata lain, spesifikasi sebagian besar produk, di sebagian besar industri, tidak masuk akal.

Salah satu contoh terburuk yang saya miliki tentang orang-orang yang secara membabi buta mengikuti statistik, tanpa pemahaman, adalah penggunaan Cpk dalam industri otomotif. Satu perusahaan menghabiskan waktu sekitar satu tahun untuk berdebat tentang produk dengan pemasok mereka, karena mereka pikir pemasok dapat mengendalikan produk mereka ke tingkat yang sama sekali tidak mungkin. Mereka hanya menetapkan spesifikasi maksimum (tidak ada minimum) pada parameter dan menggunakan Cpk untuk membenarkan klaim mereka - sampai ditunjukkan bahwa perhitungan mereka (ketika digunakan untuk menetapkan tingkat minimum teoritis - mereka tidak ingin jadi belum memeriksa ) menyiratkan nilai negatif besar. Ini, pada parameter yang tidak pernah bisa kurang dari 0. Cpk menganggap normal, proses tidak memberikan mendekati data normal. Butuh waktu lama untuk mendapatkan itu meresap. Semua itu membuang-buang waktu dan uang karena orang tidak Saya tidak mengerti apa yang mereka hitung - dan itu bisa menjadi jauh lebih buruk jika itu tidak diperhatikan. Ini mungkin merupakan faktor penyebab mengapa ada penarikan reguler di industri otomotif!

Saya sendiri berasal dari latar belakang sains, dan, sejujurnya, pengajaran statistik dalam sains dan teknik sangat tidak mencukupi. Saya belum pernah mendengar sebagian besar dari apa yang perlu saya gunakan sekarang - itu semua sudah dipelajari sendiri dan ada (dibandingkan dengan ahli statistik yang tepat) kesenjangan besar dalam pengetahuan saya bahkan sekarang. Untuk alasan itu, saya tidak menyesalkan orang menyalahgunakan statistik (saya mungkin masih melakukannya secara teratur), ini adalah pendidikan yang buruk.

Jadi, kembali ke pertanyaan awal Anda, itu benar-benar tidak mudah. Saya akan setuju dengan rekomendasi Kodiologist untuk mencoba menjelaskan hal-hal ini dengan lembut sehingga statistik yang tepat digunakan. Tapi , saya akan menambahkan peringatan tambahan untuk itu dan juga menyarankan Anda untuk memilih pertempuran Anda dengan bijak, demi karir Anda.

Sangat disayangkan, tetapi fakta bahwa Anda tidak akan bisa membuat semua orang melakukan statistik terbaik setiap saat. Pilih untuk memperbaikinya ketika itu benar-benar penting untuk kesimpulan keseluruhan akhir (yang terkadang berarti melakukan hal-hal dua cara berbeda untuk memeriksa). Ada saat-saat (misalnya model Anda 1,2 contoh) di mana menggunakan cara "salah" dapat mengarah pada kesimpulan yang sama. Hindari mengoreksi terlalu banyak orang.

Saya tahu itu membuat frustrasi secara intelektual dan dunia harus bekerja secara berbeda - sayangnya tidak. Untuk tingkat tertentu Anda harus belajar untuk menilai pertempuran Anda berdasarkan kepribadian individu rekan Anda. Sasaran (karier) Anda adalah menjadi ahli yang mereka tuju ketika mereka benar-benar membutuhkan bantuan, bukan orang yang pilih-pilih selalu berusaha untuk memperbaikinya. Dan, pada kenyataannya, jika Anda menjadi orang itu, mungkin di situlah Anda akan paling sukses membuat orang mendengarkan dan melakukan hal-hal dengan cara yang benar. Semoga berhasil.

Mooks
sumber
Excel sangat mungkin perangkat lunak analisis data yang paling banyak digunakan. Tidak perlu untuk komentar " ya, aku mengatakannya! ". Kecuali jika seseorang tidak keluar dari dunia akademis (dan mungkin pharma besar) dia tidak akan peduli dengan pernyataan asli Anda. (Jawaban yang bagus, +1)
usεr11852 mengatakan Reinstate Monic
1
Ini adalah yang paling banyak digunakan, dan saya pikir itu menyoroti poin asli saya. Excel memiliki kekurangan besar untuk analisis data. Jika apa yang Anda lakukan sedang dilakukan di Excel, Anda tidak bisa benar-benar menyebutnya analisis data - kecuali jika Anda sendiri yang memasukkan semua perhitungan secara manual. Tidak ada yang menentang Excel sebagai spreadsheet, tetapi ini adalah alat analisis data yang belum sempurna. Tetapi orang tidak tahu yang lebih baik, karena mereka tidak diajarkan lebih baik. Saya tidak berasal dari latar belakang statistik, tetapi saya beruntung seseorang menyebutkan R kepada saya karena membuat grafik yang lebih baik - dan itu, secara kebetulan, membawa saya ke statistik yang lebih baik.
Mooks
"Saya setuju dengan rekomendasi Kodiologist untuk mencoba menjelaskan hal-hal ini dengan lembut sehingga statistik yang tepat digunakan." - Saya ingin menjadi saksi. Magang menjelaskan kepada majikannya bagaimana melakukan bisnis.
Aksakal
1
Ini akan membantu, periksa # 9. Itu adalah saran umum yang datang dalam daftar semacam ini sepanjang waktu. 100 hari pertama di tempat kerja: jangan menyarankan untuk mengubah hal-hal, cari tahu dulu mengapa orang melakukan hal-hal seperti yang mereka lakukan, sering kali ada alasan yang sah. Anda akan membodohi diri sendiri, dan saya telah melihat ini terjadi dengan cowok baru berulang kali. Hanya tutup mulut dan amati selama beberapa bulan
Aksakal
@Aksakal Apa yang Anda katakan jelas masuk akal. Saya bertindak sedikit "berani" dalam situasi saya terutama karena saya magang dan saya tahu saya akan segera pergi.
3x89g2
3

Apa yang digambarkan muncul seperti pengalaman yang agak buruk. Namun demikian itu tidak boleh menjadi sesuatu yang menyebabkan seseorang untuk segera mempertanyakan latar belakang pendidikan mereka sendiri atau penilaian statistik dari atasan / manajer mereka.

R2pekerjaan, daripada perilaku asimptotik di suatu tempat di masa depan, tidak berarti banyak. Orang akan enggan menerimanya; mengapa menghabiskan energi untuk berubah ketika semuanya (agak) berfungsi? Manajer Anda tidak selalu salah dari perspektif bisnis. Dia bertanggung jawab atas statistik serta keputusan bisnis departemen Anda; keputusan tersebut tidak selalu bertepatan dan kemungkinan besar tidak bertepatan dengan hasil jangka pendek (kendala waktu adalah faktor yang sangat penting dalam analisis data industri).

Saran saya adalah tetap berpegang pada senjata (statistik) Anda tetapi terbuka untuk apa yang dilakukan orang, bersabarlah dengan orang-orang yang mungkin terlepas dari praktik statistik baru dan menawarkan saran / pendapat ketika ditanya , menumbuhkan kulit yang lebih tebal dan belajar dari lingkungan Anda. Jika Anda melakukan hal yang benar, ini akan perlahan-lahan menunjukkan, orang akan menginginkan pendapat Anda karena mereka akan tahu Anda dapat menawarkan solusi di mana alur kerja mereka saat ini tidak. Akhirnya, ya tentu saja, jika setelah jangka waktu yang wajar (setidaknya beberapa bulan) Anda merasa bahwa Anda didevaluasi dan tidak dihargai, teruskan saja.

Tak perlu dikatakan bahwa sekarang Anda berada di industri Anda tidak bisa duduk dan berpikir Anda tidak perlu mengasah pendidikan Statistik Anda. Pemodelan prediktif, strategi regresi, algoritma pengelompokan terus berkembang. Misalnya, menggunakan Regresi Proses Gaussian dalam pengaturan industri dekat dengan fiksi ilmiah 10 tahun yang lalu; sekarang bisa terlihat hampir seperti hal yang tidak perlu dicoba.

usεr11852 kata Reinstate Monic
sumber