Saya tidak yakin dari mana pertanyaan ini berasal: Cross Validated, atau The Workplace. Tapi pertanyaan saya agak terkait dengan statistik.
Pertanyaan ini (atau saya kira pertanyaan) muncul selama saya bekerja sebagai "magang ilmu data". Saya sedang membangun model regresi linier ini dan memeriksa plot residual. Saya melihat tanda heteroskedastisitas yang jelas. Saya ingat bahwa heteroskedastisitas mengubah banyak statistik uji seperti interval kepercayaan dan uji-t. Jadi saya menggunakan kuadrat terkecil tertimbang, mengikuti apa yang telah saya pelajari di perguruan tinggi. Manajer saya melihat itu dan menyarankan saya untuk tidak melakukan itu karena "Saya membuat segalanya menjadi rumit", yang sama sekali bukan alasan yang meyakinkan bagi saya.
Contoh lain adalah "menghapus variabel penjelas karena nilai p-nya tidak signifikan". Untuk menjadi, saran ini tidak masuk akal dari sudut pandang logis. Menurut apa yang telah saya pelajari, nilai-p yang tidak signifikan dapat disebabkan oleh berbagai alasan: kesempatan, menggunakan model yang salah, melanggar asumsi, dll.
Contoh lain adalah bahwa, saya menggunakan validasi k-fold cross untuk mengevaluasi model saya. Menurut hasilnya, jauh lebih baik daripada . Tapi kami memiliki lebih rendah untuk model 1, dan alasannya ada hubungannya dengan intersep . Supervisor saya, tampaknya, lebih suka model 2 karena memiliki lebih tinggi . Alasannya (seperti kuat, atau lintas-validasi adalah pendekatan pembelajaran mesin, bukan pendekatan statistik) sepertinya tidak cukup meyakinkan untuk mengubah pikiran saya.
Sebagai seseorang yang baru lulus kuliah, saya sangat bingung. Saya sangat bersemangat menerapkan statistik yang benar untuk memecahkan masalah dunia nyata, tetapi saya tidak tahu mana yang benar:
- Statistik yang saya pelajari sendiri salah, jadi saya hanya membuat kesalahan.
- Ada perbedaan besar antara statistik teoritis dan model bangunan di perusahaan. Dan meskipun teori statistik benar, orang tidak mengikutinya.
- Manajer tidak menggunakan statistik dengan benar.
Pembaruan pada 4/17/2017: Saya telah memutuskan untuk mengejar gelar Ph.D. dalam statistik. Terima kasih atas balasan Anda.
Jawaban:
Singkatnya, Anda benar dan dia salah. Tragedi analisis data adalah bahwa banyak orang melakukannya, tetapi hanya sebagian kecil orang melakukannya dengan baik, sebagian karena pendidikan yang lemah dalam analisis data dan sebagian karena apatis. Arahkan pandangan kritis ke hampir semua artikel penelitian yang diterbitkan yang tidak memiliki ahli statistik atau ahli pembelajaran mesin pada daftar penulis dan Anda akan segera menemukan kesalahan mendasar seperti menafsirkan nilai- sebagai probabilitas bahwa hipotesis nol benar. .hal
Saya pikir satu-satunya hal yang harus dilakukan, ketika dihadapkan dengan situasi semacam ini, adalah dengan hati-hati menjelaskan apa yang salah tentang praktik yang salah kepala, dengan satu atau dua contoh.
sumber
Kodiologist benar - Anda benar, dia salah. Namun sayangnya ini adalah masalah tempat yang lebih umum daripada apa yang Anda temui. Anda sebenarnya berada di industri yang relatif baik.
Sekarang, terlepas dari fakta bahwa interval kepercayaan ini tidak memberi tahu mereka apa yang sebenarnya mereka butuhkan (mereka membutuhkan interval toleransi untuk itu), hal ini dilakukan secara membabi buta pada parameter yang berada di dekat beberapa nilai maksimum atau minimum (tetapi di mana interval menang ' t sebenarnya melebihi nilai-nilai itu). Karena Excel akan menghitung apa yang mereka butuhkan (ya, saya katakan Excel), mereka menetapkan spesifikasi mereka sesuai dengan itu, terlepas dari kenyataan bahwa parameternya tidak akan mendekati distribusi normal. Orang-orang ini telah diajarkan statistik dasar, tetapi bukan plot qq atau sejenisnya. Salah satu masalah terbesar adalah bahwa statistik akan memberi Anda angka, bahkan ketika digunakan secara tidak tepat - sehingga kebanyakan orang tidak tahu kapan mereka melakukannya.
Dengan kata lain, spesifikasi sebagian besar produk, di sebagian besar industri, tidak masuk akal.
Salah satu contoh terburuk yang saya miliki tentang orang-orang yang secara membabi buta mengikuti statistik, tanpa pemahaman, adalah penggunaan Cpk dalam industri otomotif. Satu perusahaan menghabiskan waktu sekitar satu tahun untuk berdebat tentang produk dengan pemasok mereka, karena mereka pikir pemasok dapat mengendalikan produk mereka ke tingkat yang sama sekali tidak mungkin. Mereka hanya menetapkan spesifikasi maksimum (tidak ada minimum) pada parameter dan menggunakan Cpk untuk membenarkan klaim mereka - sampai ditunjukkan bahwa perhitungan mereka (ketika digunakan untuk menetapkan tingkat minimum teoritis - mereka tidak ingin jadi belum memeriksa ) menyiratkan nilai negatif besar. Ini, pada parameter yang tidak pernah bisa kurang dari 0. Cpk menganggap normal, proses tidak memberikan mendekati data normal. Butuh waktu lama untuk mendapatkan itu meresap. Semua itu membuang-buang waktu dan uang karena orang tidak Saya tidak mengerti apa yang mereka hitung - dan itu bisa menjadi jauh lebih buruk jika itu tidak diperhatikan. Ini mungkin merupakan faktor penyebab mengapa ada penarikan reguler di industri otomotif!
Saya sendiri berasal dari latar belakang sains, dan, sejujurnya, pengajaran statistik dalam sains dan teknik sangat tidak mencukupi. Saya belum pernah mendengar sebagian besar dari apa yang perlu saya gunakan sekarang - itu semua sudah dipelajari sendiri dan ada (dibandingkan dengan ahli statistik yang tepat) kesenjangan besar dalam pengetahuan saya bahkan sekarang. Untuk alasan itu, saya tidak menyesalkan orang menyalahgunakan statistik (saya mungkin masih melakukannya secara teratur), ini adalah pendidikan yang buruk.
Jadi, kembali ke pertanyaan awal Anda, itu benar-benar tidak mudah. Saya akan setuju dengan rekomendasi Kodiologist untuk mencoba menjelaskan hal-hal ini dengan lembut sehingga statistik yang tepat digunakan. Tapi , saya akan menambahkan peringatan tambahan untuk itu dan juga menyarankan Anda untuk memilih pertempuran Anda dengan bijak, demi karir Anda.
Sangat disayangkan, tetapi fakta bahwa Anda tidak akan bisa membuat semua orang melakukan statistik terbaik setiap saat. Pilih untuk memperbaikinya ketika itu benar-benar penting untuk kesimpulan keseluruhan akhir (yang terkadang berarti melakukan hal-hal dua cara berbeda untuk memeriksa). Ada saat-saat (misalnya model Anda 1,2 contoh) di mana menggunakan cara "salah" dapat mengarah pada kesimpulan yang sama. Hindari mengoreksi terlalu banyak orang.
Saya tahu itu membuat frustrasi secara intelektual dan dunia harus bekerja secara berbeda - sayangnya tidak. Untuk tingkat tertentu Anda harus belajar untuk menilai pertempuran Anda berdasarkan kepribadian individu rekan Anda. Sasaran (karier) Anda adalah menjadi ahli yang mereka tuju ketika mereka benar-benar membutuhkan bantuan, bukan orang yang pilih-pilih selalu berusaha untuk memperbaikinya. Dan, pada kenyataannya, jika Anda menjadi orang itu, mungkin di situlah Anda akan paling sukses membuat orang mendengarkan dan melakukan hal-hal dengan cara yang benar. Semoga berhasil.
sumber
Apa yang digambarkan muncul seperti pengalaman yang agak buruk. Namun demikian itu tidak boleh menjadi sesuatu yang menyebabkan seseorang untuk segera mempertanyakan latar belakang pendidikan mereka sendiri atau penilaian statistik dari atasan / manajer mereka.
Saran saya adalah tetap berpegang pada senjata (statistik) Anda tetapi terbuka untuk apa yang dilakukan orang, bersabarlah dengan orang-orang yang mungkin terlepas dari praktik statistik baru dan menawarkan saran / pendapat ketika ditanya , menumbuhkan kulit yang lebih tebal dan belajar dari lingkungan Anda. Jika Anda melakukan hal yang benar, ini akan perlahan-lahan menunjukkan, orang akan menginginkan pendapat Anda karena mereka akan tahu Anda dapat menawarkan solusi di mana alur kerja mereka saat ini tidak. Akhirnya, ya tentu saja, jika setelah jangka waktu yang wajar (setidaknya beberapa bulan) Anda merasa bahwa Anda didevaluasi dan tidak dihargai, teruskan saja.
Tak perlu dikatakan bahwa sekarang Anda berada di industri Anda tidak bisa duduk dan berpikir Anda tidak perlu mengasah pendidikan Statistik Anda. Pemodelan prediktif, strategi regresi, algoritma pengelompokan terus berkembang. Misalnya, menggunakan Regresi Proses Gaussian dalam pengaturan industri dekat dengan fiksi ilmiah 10 tahun yang lalu; sekarang bisa terlihat hampir seperti hal yang tidak perlu dicoba.
sumber