Saya bekerja terutama dengan non-ahli statistik di bidang-bidang seperti kedokteran, ilmu sosial dan pendidikan.
Apakah saya berkonsultasi dengan mahasiswa pascasarjana, membantu peneliti dengan artikel atau meninjau artikel untuk jurnal, saya sering memiliki masalah yang seseorang (klien, penulis, komite disertasi, editor jurnal) ingin menggunakan beberapa teknik yang relatif terkenal ketika itu baik sepenuhnya tidak pantas atau ketika metode yang lebih baik tetapi kurang dikenal ada. Seringkali, saya akan menjelaskan teknik alternatif tetapi kemudian diberitahu "semua orang melakukannya dengan cara lain".
Saya akan tertarik pada bagaimana orang lain menghadapi kesulitan semacam ini.
TAMBAHAN
@MichaelChernick menyarankan saya untuk berbagi beberapa cerita, jadi saya akan melakukannya
Saat ini saya bekerja dengan satu orang yang menduplikasi makalah sebelumnya dan menambahkan satu variabel independen untuk melihat apakah itu membantu. Makalah sebelumnya, sejujurnya, mengerikan. Ini memperlakukan data dependen seolah-olah mereka independen; itu sangat berlebihan dan ada masalah lain juga. Namun dia (klien saya) mengajukan versi sebelumnya sebagai disertasi dan tidak hanya mendapatkan gelarnya tetapi juga dipuji untuk penelitian ini.
Sering kali saya mencoba meyakinkan orang untuk tidak mendikotomisasi variabel. Ini sangat sering muncul dalam pengobatan. Saya dengan sabar menunjukkan bahwa dicohotomisasi (katakanlah) berat lahir menjadi rendah dan normal (biasanya pada 2.500 g) berarti memperlakukan bayi 2.499 g sama seperti bayi 1.400 g; tetapi memperlakukan bayi 2,501 gram sangat berbeda. Dokter setuju dengan saya bahwa ini konyol. Kemudian mengatakan untuk melakukannya dengan cara itu.
Saya memiliki klien mahasiswa pascasarjana sejak dulu yang komite bersikeras pada analisis cluster. Siswa tidak mengerti metodenya, metodenya tidak menjawab pertanyaan yang berguna, tetapi itulah yang diinginkan panitia, jadi itulah yang mereka dapatkan.
Seluruh bidang grafik statistik adalah satu tempat, bagi banyak orang, "ini adalah bagaimana kakek melakukannya" sudah cukup.
Lalu ada orang yang sepertinya hanya menekan tombol. Saya ingat satu presentasi (bukan oleh seseorang yang saya bantu!) Yang telah mengambil seluruh kuesioner dan faktor menganalisisnya. Salah satu variabel yang ia sertakan adalah nomor ID!
Oy.
sumber
Jawaban:
Ini pertanyaan yang sulit!
Pertama, beberapa pemikiran tentang mengapa ini terjadi. Saya bekerja di bidang yang (atau paling tidak seharusnya ) menggunakan statistik secara ekstensif, tetapi di mana sebagian besar praktisi bukan ahli statistik. Akibatnya orang melihat banyak "Saya memasukkan vektor ke dalam fungsi uji-t excel dan angka ini jatuh. Karena itu, makalah saya didukung oleh statistik."
Alasan utama yang saya lihat untuk kejadian ini adalah karena kurangnya pengetahuan statistik yang dimulai dari atas. Jika pengulas dan komite tesis Anda tidak mengikuti perkembangan teknik statistik, maka Anda perlu menjustifikasi penggunaan apa pun yang "tidak konvensional". Misalnya, dalam tesis, saya memilih untuk menggunakan plot biola alih-alih plot kotak untuk menunjukkan bentuk distribusi. Penggunaan teknik ini membutuhkan dokumentasi yang luas dalam tesis ini, serta diskusi yang berkepanjangan di pembelaan saya di mana semua anggota komite ingin tahu apa maksud plot aneh ini, terlepas dari deskripsi dalam teks dan referensi ke bahan sumber. . Seandainya saya baru saja menggunakan plot kotak (yang menunjukkan sangat sedikit informasi dalam kasus ini, dan dapat dengan mudah menipu pemirsa tentang bentuk distribusi jika multi-modal) tidak ada yang akan mengatakan apa-apa, dan pertahanan saya akan lebih mudah.
Intinya adalah, di bidang non-statistik, praktisi menghadapi pilihan yang sulit: Kita dapat membaca tentang dan kemudian menggunakan metode yang benar , yang melibatkan banyak pekerjaan yang tidak tertarik oleh atasan kita; atau kita bisa mengikuti arus, menempelkan stempel karet pada kertas dan tesis kita, dan tetap menggunakan metode yang salah tetapi konvensional .
Sekarang, untuk menjawab pertanyaan Anda:
Saya pikir pendekatan yang baik adalah dengan menekankan konsekuensi dari kegagalan untuk menggunakan teknik yang benar. Ini mungkin memerlukan:
Memberikan contoh dunia nyata tentang bagaimana seseorang di bidangnya mengalami konsekuensi dari kesimpulan yang buruk. Ini lebih mudah di beberapa bidang daripada yang lain. Contoh-contoh di mana karier rusak sangat bagus.
Menjelaskan bahwa melakukan analisis yang salah dapat meninggalkan Anda dalam situasi di mana hasil Anda sangat tidak mungkin untuk ditransfer ke dunia nyata, yang dapat menyebabkan bahaya (misalnya Di bidang saya, jika prototipe sistem AI Anda tampak secara statistik lebih baik daripada pesaing, tetapi kenyataannya adalah sama, lalu menghabiskan 6 bulan ke depan membangun implementasi penuh adalah ide yang sangat buruk.
Pilih teknik yang akan menghemat banyak waktu bagi pengguna. Cukup waktu sehingga mereka dapat menghabiskan apa yang mereka hemat untuk menjelaskan teknik kepada atasan.
sumber
Berbicara dari sudut pandang seorang psikolog dengan hanya sedikit kecanggihan statistik: Ketika Anda memperkenalkan metode ini, perkenalkan juga alat-alatnya. Jika Anda memberi tahu sebagian besar peneliti di bidang saya sebuah cerita panjang tentang metode baru yang hebat, mereka akan menghabiskan seluruh waktu khawatir bahwa lucunya adalah "dan yang harus Anda lakukan adalah memoles kalkulus diferensial Anda dan kemudian mengambil dua kursus pelatihan minggu! " (atau "dan beli paket statistik $ 2000!" atau "dan sesuaikan 5000 baris kode Python dan R!"). Sedangkan jika ada implementasi metode yang tersedia dalam paket statistik yang sudah mereka gunakan, atau dalam perangkat lunak gratis dengan GUI yang dapat dipahami, dan mereka dapat mempercepatnya dalam satu atau dua hari, mereka mungkin bersedia memberikan itu coba.
Saya sadar bahwa pendekatan ini bisa keliru dan tidak ilmiah, tetapi mudah bagi orang untuk jatuh hati ketika mereka khawatir tentang hibah dan publikasi, dan tidak melihat belajar matematika dalam jumlah yang sangat besar untuk membantu mereka mempertahankan pekerjaan mereka.
sumber
Terima kasih untuk pertanyaan yang bagus ini, Peter. Saya bekerja di lembaga penelitian medis dan berurusan dengan dokter yang melakukan penelitian dan menerbitkan di jurnal medis. Seringkali mereka lebih tertarik untuk menerbitkan makalah mereka daripada "melakukan statistik sepenuhnya benar". Jadi ketika saya mengusulkan teknik asing mereka akan menunjuk ke makalah yang sama dan berkata "lihat mereka melakukannya dengan cara ini dan hasilnya dipublikasikan."
Ada masalah saya pikir ketika makalah yang diterbitkan benar-benar buruk dan memiliki kesalahan. Sulit untuk berdebat meskipun saya memiliki reputasi yang hebat. Beberapa dokumen memiliki ego besar dan berpikir mereka dapat mempelajari hampir semua hal. Jadi mereka pikir mereka mengerti statistik ketika mereka tidak dan bisa memaksa. Itu bisa membuat frustrasi. Ketika tes dan Wilcoxon lebih tepat, saya meminta mereka untuk melakukan tes Wilk Shapiro dan jika normalitas ditolak, kami memasukkan kedua metode dan menjelaskan mengapa Wilcoxon lebih baik. Saya kadang-kadang dapat meyakinkan mereka dan seringkali mereka bergantung pada saya untuk statistik, jadi saya memiliki pengaruh yang lebih besar daripada yang mungkin dimiliki konsultan umum.
Saya juga mengalami situasi di mana saya melakukan kurva Kaplan-Meier untuk mereka dan kami menggunakan tes peringkat log tetapi Wilcoxon memberikan hasil yang berbeda. Sulit bagi saya untuk memutuskan dan dalam situasi seperti itu saya pikir yang terbaik adalah menyajikan kedua metode dan menjelaskan mengapa mereka berbeda. Hal yang sama berlaku untuk menggunakan interval kepercayaan Peto vs Greenwood untuk kurva survival. Menjelaskan asumsi bahaya proporsi Cox bisa sulit dan mereka sering salah mengartikan rasio odds dan risiko relatif.
Tidak ada jawaban sederhana. Saya punya bos di sini yang merupakan peneliti medis terkemuka di bidang kardiologi dan dia terkadang menjadi referensi untuk jurnal. Dia melihat kertas yang membahas diagnosis dan menggunakan AUC sebagai alat ukur. Dia belum pernah melihat kurva AUC sebelumnya dan datang kepada saya untuk melihat apakah saya pikir itu valid. Dia ragu. Ternyata itu sesuai dan saya jelaskan kepadanya sebaik mungkin.
Saya telah mencoba memberi kuliah tentang biostatistik kepada dokter dan telah mengajarkan biostatistik di sekolah kesehatan umum. Saya mencoba untuk melakukannya lebih baik daripada yang lain dan menghasilkan sebuah buku untuk kursus pengantar jurusan ilmu kesehatan pada tahun 2002 dengan seorang ahli epidemiologi sebagai penulis pendamping. Wiley ingin aku membuat edisi kedua sekarang. Pada tahun 2011 saya menerbitkan buku yang lebih ringkas yang saya coba sampaikan hanya hal-hal yang penting sehingga MDs yang sibuk dapat meluangkan waktu untuk mereasdnya dan referensi. Begitulah cara saya menghadapinya. Mungkin Anda bisa berbagi cerita dengan kami.
sumber
Dalam karir saya, saya melakukan banyak penelitian interdisipliner dan telah mengarahkan saya untuk bekerja dengan erat dengan peneliti penyalahgunaan zat, ahli epidemiologi, ahli biologi, kriminolog dan dokter di berbagai waktu. Ini biasanya melibatkan analisis data di mana pendekatan "kalengan" yang biasa akan gagal karena berbagai alasan (misalnya beberapa kombinasi pengambilan sampel yang bias dan data yang dikelompokkan, secara longitudinal dan / atau spasial). Saya juga menghabiskan beberapa tahun berkonsultasi paruh waktu di sekolah pascasarjana, di mana saya bekerja dengan orang-orang dari berbagai bidang. Jadi, saya harus banyak memikirkan hal ini.
Pengalaman saya adalah bahwa hal yang paling penting adalah untuk menjelaskan mengapa pendekatan kalengan yang biasa tidak sesuai dan menarik keinginan orang untuk melakukan "ilmu yang baik". Tidak ada peneliti terhormat yang ingin menerbitkan sesuatu yang sangat menyesatkan dalam kesimpulannya karena analisis statistik yang tidak tepat. Saya tidak pernah bertemu seseorang yang mengatakan sesuatu seperti "Saya tidak peduli apakah analisisnya benar atau tidak, saya hanya ingin menerbitkan ini" meskipun saya yakin orang-orang seperti itu ada - tanggapan saya akan ada untuk akhiri hubungan profesional jika memungkinkan. Sebagai ahli statistik, reputasi saya bisa rusak jika seseorang yang benar-benar tahu apa yang mereka bicarakan kebetulan membaca koran.
Saya akui bahwa mungkin sulit untuk meyakinkan seseorang bahwa analisis tertentu tidak tepat, tetapi saya berpikir bahwa sebagai ahli statistik kita harus (a) memiliki pengetahuan yang diperlukan untuk mengetahui secara tepat apa yang salah dengan pendekatan "kalengan" dan (b) memiliki kemampuan untuk menjelaskannya adalah cara yang cukup dapat dipahami. Kecuali jika Anda bekerja sebagai profesor statistik atau matematika, bagian dari pekerjaan Anda adalah bekerja dengan non-ahli statistik (dan bahkan kadang-kadang jika Anda adalah ahli stat / matematika).
Mengenai (a) , jika ahli statistik tidak memiliki pengetahuan ini, mengapa mereka mengecilkan pendekatan kalengan? Jika ahli statistik mengatakan "menggunakan model efek acak" tetapi tidak bisa menjelaskan mengapa menganggap independensi adalah masalah, maka bukankah mereka bersalah karena menyerah pada dogma dengan cara yang sama seperti klien? Setiap pengulas, ahli statistik atau tidak, dapat membuat kritik pedas terhadap pendekatan pemodelan statistik karena, mari kita hadapi itu - semua model salah. Tapi, itu membutuhkan keahlian untuk tahu persis apa yang bisa salah.
Mengenai (b) , saya telah menemukan bahwa penggambaran grafis tentang apa yang bisa salah biasanya paling "hit home". Contoh:
Situasi umum lainnya (juga disebutkan oleh Peter) menjelaskan mengapa menganggap kemerdekaan adalah ide yang buruk. Misalnya, Anda dapat menunjukkan dengan plot bahwa autokorelasi positif biasanya akan menghasilkan data yang lebih "berkerumun" dan varians akan diremehkan karena alasan itu, memberikan beberapa intuisi mengapa kesalahan standar yang naif cenderung terlalu kecil. Atau, Anda juga dapat memplot data dengan kurva yang dipasang yang mengasumsikan independensi dan seseorang dapat secara visual melihat bagaimana cluster memengaruhi kecocokan (secara efektif menurunkan ukuran sampel) dengan cara yang tidak ada dalam data independen.
Ada sejuta contoh lain tapi saya bekerja dengan batasan ruang / waktu di sini :) Ketika gambar tidak akan melakukan apa pun (misalnya menunjukkan mengapa satu pendekatan kurang bertenaga) maka contoh simulasi juga merupakan pilihan yang telah saya gunakan dari waktu ke waktu.
sumber
Beberapa pemikiran acak karena ini adalah masalah yang kompleks ...
Saya merasa bahwa masalah besar adalah kurangnya pendidikan matematika di berbagai disiplin ilmu profesional dan program yang lulus.
Tanpa pemahaman statistik matematika, itu menjadi banyak formula yang harus diterapkan sesuai kasus.
Juga, untuk mendapatkan pemahaman nyata tentang masalah ini, profesor harus berbicara tentang masalah asli yang dihadapi penulis asli pada saat mereka menerbitkan pendekatan mereka. Orang bisa belajar lebih banyak dari itu daripada membaca ribuan buku tentang masalah ini.
Statistik adalah kotak peralatan untuk memecahkan masalah, tetapi juga merupakan seni dan menghadapi masalah yang sama dari seni lainnya.
Seseorang dapat belajar bagaimana membuat suara dengan instrumen. Tetapi dengan bisa"memainkan" instrumen yang tidak menjadi musisi.
Namun, tidak jarang menemukan orang yang melihat diri mereka sebagai musisi tanpa pernah mempelajari konsep tunggal ritme, melodi dan harmoni.
Di baris yang sama, untuk menerbitkan makalah, kebanyakan orang tidak perlu tahu atau memahami konsep di balik formula ... saat ini para ilmuwan hanya perlu tahu kunci apa yang harus mereka tekan dan kapan harus ditekan, titik.
Jadi ini tidak ada hubungannya dengan "ego" MDs. Ini adalah masalah subkultur, masalah yang lebih terkait dengan pendidikan, adat istiadat dan nilai-nilai komunitas ilmiah.
Apa yang bisa diharapkan seseorang di era di mana ada ribuan dan ribuan kertas dan buku yang tidak berguna diterbitkan untuk memenuhi beberapa persyaratan / kebijakan akademik? Di era di mana jumlah makalah yang diterbitkan lebih penting daripada kualitasnya?
Ilmuwan arus utama tidak lagi khawatir tentang sains yang baik. Mereka adalah budak angka. Mereka dipengaruhi (atau terinfeksi) oleh bug administratif di zaman kita ...
Jadi, dari sudut pandang saya, kursus statistik yang baik harus mencakup dasar matematika, historis dan filosofis dari pendekatan yang sedang dipelajari, selalu menyoroti beberapa jalur yang dapat dilakukan ambil untuk memecahkan satu masalah.
Akhirnya, jika saya adalah seorang profesor di bidang statistik / probabilitas kuliah pertama saya akan didedikasikan untuk masalah sepertimengocok kartu atau melempar koin . Itu akan menempatkan audiens pada posisi yang tepat untuk mendengarkan ... mungkin.
sumber