Intinya , semakin banyak saya belajar tentang statistik, semakin sedikit saya percaya makalah yang diterbitkan di bidang saya; Saya hanya percaya bahwa para peneliti tidak melakukan statistik mereka dengan cukup baik.
Saya seorang awam, untuk berbicara. Saya dilatih dalam biologi tetapi saya tidak memiliki pendidikan formal dalam statistik atau matematika. Saya menikmati R dan sering berusaha membaca (dan memahami ...) beberapa dasar teori dari metode yang saya terapkan ketika melakukan penelitian. Tidak akan mengejutkan saya jika mayoritas orang yang melakukan analisis hari ini sebenarnya tidak terlatih secara formal. Saya telah menerbitkan sekitar 20 makalah asli, beberapa di antaranya telah diterima oleh jurnal dan ahli statistik yang diakui sering terlibat dalam proses peninjauan. Analisis saya umumnya mencakup analisis survival, regresi linier, regresi logistik, model campuran. Tidak pernah ada pengulas bertanya tentang asumsi model, kecocokan atau evaluasi.
Jadi, saya tidak pernah terlalu peduli tentang asumsi model, kecocokan, dan evaluasi. Saya mulai dengan sebuah hipotesis, menjalankan regresi dan kemudian mempresentasikan hasilnya. Dalam beberapa kasus saya berusaha mengevaluasi hal-hal ini, tetapi saya selalu berakhir dengan " baik itu tidak memenuhi semua asumsi, tapi saya percaya hasilnya (" pengetahuan materi pelajaran ") dan mereka masuk akal, jadi tidak apa-apa " dan ketika berkonsultasi dengan ahli statistik, mereka sepertinya selalu setuju.
Sekarang, saya sudah bicara dengan ahli statistik dan non-ahli statistik lain (ahli kimia, dokter, dan ahli biologi) yang melakukan analisis sendiri; tampaknya orang tidak terlalu peduli tentang semua asumsi dan evaluasi formal ini. Tetapi di sini, di CV, ada banyak orang yang bertanya tentang residu, model fit, cara untuk mengevaluasinya, nilai eigen, vektor dan daftarnya terus berlanjut. Biarkan saya begini, ketika lme4 memperingatkan tentang nilai eigen besar, saya benar-benar ragu bahwa banyak penggunanya peduli untuk mengatasinya ...
Apakah ini sepadan dengan usaha ekstra? Apakah tidak mungkin bahwa sebagian besar dari semua hasil yang dipublikasikan tidak menghargai asumsi-asumsi ini dan mungkin bahkan belum menilai mereka? Ini mungkin masalah yang berkembang karena basis data tumbuh lebih besar setiap hari dan ada anggapan bahwa semakin besar data, semakin tidak penting asumsi dan evaluasi.
Saya bisa saja benar-benar salah, tetapi ini adalah bagaimana saya merasakan ini.
Pembaruan: Kutipan yang dipinjam dari StasK (di bawah): http://www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15509
sumber
Jawaban:
Saya dilatih sebagai ahli statistik, bukan sebagai ahli biologi atau dokter. Tetapi saya melakukan sedikit penelitian medis (bekerja dengan ahli biologi dan dokter medis), sebagai bagian dari penelitian saya, saya telah belajar sedikit tentang pengobatan beberapa penyakit yang berbeda. Apakah ini berarti bahwa jika seorang teman bertanya kepada saya tentang penyakit yang telah saya teliti, saya bisa menuliskan resep untuk obat yang saya tahu biasa digunakan untuk penyakit itu? Jika saya melakukan ini (saya tidak), maka dalam banyak kasus mungkin akan berhasil OK (karena dokter hanya akan meresepkan obat yang sama), tetapi selalu ada kemungkinan bahwa mereka memiliki alergi / obat interaksi / lainnya yang dokter ingin tanyakan, yang tidak saya lakukan dan akhirnya menyebabkan lebih banyak kerusakan daripada kebaikan.
Jika Anda melakukan statistik tanpa memahami apa yang Anda asumsikan dan apa yang bisa salah (atau berkonsultasi dengan ahli statistik sepanjang jalan yang akan mencari hal-hal ini) maka Anda mempraktikkan malpraktek statistik. Sebagian besar waktu mungkin akan baik-baik saja, tetapi bagaimana dengan kesempatan di mana asumsi penting tidak berlaku, tetapi Anda mengabaikannya?
Saya bekerja dengan beberapa dokter yang kompeten secara statistik dan dapat melakukan banyak dari analisis mereka sendiri, tetapi mereka masih akan melewati saya. Seringkali saya mengkonfirmasi bahwa mereka melakukan hal yang benar dan bahwa mereka dapat melakukan analisis sendiri (dan mereka umumnya berterima kasih atas konfirmasi) tetapi kadang-kadang mereka akan melakukan sesuatu yang lebih kompleks dan ketika saya menyebutkan pendekatan yang lebih baik mereka biasanya akan menyerahkan analisis kepada saya atau tim saya, atau setidaknya membawa saya untuk peran yang lebih aktif.
Jadi jawaban saya untuk pertanyaan judul Anda adalah "Tidak" kami tidak melebih-lebihkan, tapi kami harus lebih menekankan beberapa hal sehingga orang awam akan lebih cenderung untuk setidaknya memeriksa prosedur / hasil mereka dengan ahli statistik.
Sunting
Ini adalah tambahan berdasarkan komentar Adam di bawah ini (akan agak lama untuk komentar lain).
Adam, Terima kasih atas komentar Anda. Jawaban singkatnya adalah "Saya tidak tahu". Saya pikir kemajuan sedang dibuat dalam meningkatkan kualitas statistik artikel, tetapi banyak hal telah bergerak begitu cepat dalam banyak cara yang berbeda sehingga akan memakan waktu cukup lama untuk mengejar dan menjamin kualitasnya. Bagian dari solusinya adalah berfokus pada asumsi dan konsekuensi dari pelanggaran dalam kursus statistik intro. Ini lebih mungkin terjadi ketika kelas diajarkan oleh ahli statistik, tetapi perlu terjadi di semua kelas.
Beberapa jurnal berkinerja lebih baik, tetapi saya ingin melihat peninjau statistik tertentu menjadi standar. Ada sebuah artikel beberapa tahun yang lalu (maaf tidak memiliki referensi yang berguna, tetapi ada di JAMA atau New England Journal of Medicine) yang menunjukkan kemungkinan yang lebih tinggi untuk dipublikasikan (walaupun perbedaannya tidak sebesar yang seharusnya) menjadi) dalam JAMA atau NEJM jika biostatistika atau epidemiologis adalah salah satu penulis bersama.
Artikel menarik yang keluar baru-baru ini adalah: http://www.nature.com/news/statistics-p-values-are-just-the-tip-of-the-iceberg-1.17412 yang membahas beberapa masalah yang sama.
sumber
Ya, asumsi itu penting - jika itu tidak penting sama sekali, kita tidak perlu membuatnya, bukan?
Pertanyaannya adalah seberapa penting mereka - ini bervariasi di antara prosedur dan asumsi dan apa yang ingin Anda klaim tentang hasil Anda (dan juga seberapa toleran audiens Anda terhadap perkiraan - bahkan ketidaktepatan - dalam klaim semacam itu).
Jadi untuk contoh situasi di mana asumsi sangat penting, pertimbangkan asumsi normalitas dalam uji F varian; bahkan perubahan yang cukup sederhana dalam distribusi mungkin memiliki efek yang cukup dramatis pada properti (tingkat signifikansi aktual dan kekuatan) dari prosedur. Jika Anda mengklaim sedang melakukan tes pada level 5% padahal sebenarnya di level 28%, Anda mungkin melakukan hal yang sama dengan berbohong tentang bagaimana Anda melakukan eksperimen. Jika Anda tidak menganggap masalah statistik seperti itu penting, buatlah argumen yang tidak bergantung padanya. Di sisi lain, jika Anda ingin menggunakan informasi statistik sebagai dukungan, Anda tidak bisa salah merepresentasikan dukungan itu.
Dalam kasus lain, asumsi tertentu mungkin kurang kritis. Jika Anda memperkirakan koefisien dalam regresi linier dan Anda tidak peduli jika itu signifikan secara statistik dan Anda tidak peduli tentang efisiensi, yah, itu tidak masalah jika asumsi homoskedasticity berlaku. Tetapi jika Anda ingin mengatakan itu signifikan secara statistik, atau menunjukkan interval kepercayaan, ya, tentu saja itu penting.
sumber
Sementara Glen_b memberikan jawaban yang bagus , saya ingin menambahkan beberapa sen untuk itu.
Salah satu pertimbangan adalah apakah Anda benar-benar ingin mendapatkan kebenaran ilmiah, yang akan membutuhkan pemolesan hasil Anda dan mencari tahu semua detail apakah pendekatan Anda dapat dipertahankan, vs. menerbitkan di "ah, tidak ada yang memeriksa nilai eigen ini dalam disiplin saya pula." mode. Dengan kata lain, Anda harus menanyakan hati nurani profesional batin Anda apakah Anda melakukan pekerjaan sebaik mungkin. Mengacu pada melek statistik yang rendah dan praktik statistik lemah dalam disiplin Anda tidak membuat argumen yang meyakinkan. Para pengulas sering kali paling tidak membantu jika mereka berasal dari disiplin yang sama dengan standar yang lemah ini, meskipun beberapa outlet top memiliki inisiatif eksplisit untuk membawa keahlian statistik ke dalam proses peninjauan.
Tetapi bahkan jika Anda seorang pengiris salami "publikasikan atau binasa" sinis, pertimbangan lain pada dasarnya adalah keselamatan reputasi penelitian Anda. Jika model Anda gagal, dan Anda tidak mengetahuinya, Anda mengekspos diri Anda pada risiko bantahan oleh orang-orang yang dapat datang dan mendorong kapak ke celah-celah model, memeriksa dengan instrumen yang lebih halus. Memang, kemungkinan yang tampaknya rendah, sebagai komunitas sains, meskipun persyaratan filosofis nominal reputasi dan reproduksibilitas, jarang terlibat dalam upaya untuk mereproduksi penelitian orang lain. (Saya terlibat dalam menulis beberapa makalah yang pada dasarnya dimulai dengan, "Ya Tuhan, benarkah demikiantulis itu? ", dan menawarkan kritik dan penyempurnaan dari pendekatan semi-statistik yang diterbitkan peer-review.) Namun, kegagalan analisis statistik, ketika diekspos , sering membuat percikan besar dan tidak menyenangkan.
sumber
Sifat pelanggaran asumsi bisa menjadi petunjuk penting untuk penelitian di masa depan. Sebagai contoh, pelanggaran asumsi bahaya proporsional dalam analisis survival Cox mungkin disebabkan oleh variabel dengan efek besar pada survival jangka pendek tetapi sedikit efek dalam jangka panjang. Itu adalah jenis informasi tak terduga tetapi berpotensi penting yang dapat Anda peroleh dengan memeriksa validitas asumsi Anda dalam uji statistik.
Jadi, Anda melakukannya sendiri, bukan hanya literatur, potensi kerugian jika Anda tidak menguji asumsi yang mendasarinya. Saat jurnal berkualitas tinggi mulai membutuhkan peninjauan statistik yang lebih canggih, Anda akan lebih sering dipanggil untuk melakukannya. Anda tidak ingin berada dalam posisi di mana tes yang diperlukan oleh peninjau statistik merongrong apa yang Anda pikir telah menjadi titik kunci dari makalah Anda.
sumber
Saya akan menjawab dari perspektif perantara. Saya bukan ahli statistik, saya ahli kimia. Namun, saya telah menghabiskan 10 tahun terakhir yang berspesialisasi dalam chemometrics = analisis data statistik untuk data terkait kimia.
Mungkin itu masalahnya.
Versi pendek:
Sekarang tentang asumsi. IMHO situasinya di sini terlalu heterogen untuk menghadapinya dalam satu pernyataan. Memahami baik apa tepatnya asumsi yang diperlukan untuk dan dengan cara apa kemungkinan dilanggar oleh aplikasi diperlukan untuk menilai apakah pelanggaran itu tidak berbahaya atau kritis. Dan ini membutuhkan statistik serta pengetahuan aplikasi.
Akan tetapi, sebagai seorang praktisi yang menghadapi asumsi-asumsi yang tidak dapat diraih, saya membutuhkan sesuatu yang lain: Saya ingin memiliki "garis pertahanan ke-2" yang misalnya memungkinkan saya untuk menilai apakah pelanggaran itu benar-benar menyebabkan masalah atau apakah itu tidak berbahaya.
Versi panjang:
Dari sudut pandang praktis, beberapa asumsi tipikal hampir tidak pernah dipenuhi. Kadang-kadang saya dapat merumuskan asumsi yang masuk akal tentang data, tetapi sering kali masalah menjadi begitu rumit dari sudut pandang statistik sehingga solusi belum diketahui. Sekarang saya percaya bahwa melakukan sains berarti bahwa Anda akan mencapai batas dari apa yang diketahui kemungkinan tidak hanya dalam disiplin khusus Anda tetapi mungkin juga dalam disiplin ilmu lain (di sini: statistik terapan).
Ada situasi lain di mana pelanggaran tertentu diketahui biasanya tidak berbahaya - misalnya normalitas multivariat dengan kovarians yang sama untuk LDA diperlukan untuk menunjukkan bahwa LDA optimal, tetapi diketahui bahwa proyeksi mengikuti heuristik yang sering berkinerja baik juga jika asumsi tidak terpenuhi. Dan pelanggaran mana yang cenderung menyebabkan masalah: Diketahui juga bahwa ekor yang berat dalam distribusi menyebabkan masalah dengan LDA dalam praktiknya.
Sayangnya, pengetahuan seperti itu jarang membuatnya menjadi tulisan terkondensasi dari sebuah makalah, sehingga pembaca tidak memiliki petunjuk apakah penulis memutuskan untuk model mereka setelah mempertimbangkan dengan baik sifat-sifat aplikasi serta model atau apakah mereka hanya memilih model apa pun mereka datang.
Kadang-kadang pendekatan praktis (heuristik) berkembang yang ternyata sangat berguna dari sudut pandang praktis, bahkan jika itu membutuhkan waktu puluhan tahun sampai sifat statistiknya dipahami (Saya sedang memikirkan PLS).
Hal lain yang terjadi (dan harus terjadi lebih banyak) adalah bahwa kemungkinan konsekuensi pelanggaran dapat dipantau (diukur), yang memungkinkan untuk memutuskan apakah ada masalah atau tidak. Untuk aplikasinya, mungkin saya tidak peduli apakah model saya optimal asalkan cukup baik.
Dalam chemometrics, kami memiliki fokus yang agak kuat pada prediksi. Dan ini menawarkan pelarian yang sangat bagus jika asumsi pemodelan tidak terpenuhi: terlepas dari asumsi tersebut, kita dapat mengukur apakah model itu berfungsi dengan baik. Dari sudut pandang seorang praktisi, saya akan mengatakan bahwa Anda diizinkan untuk melakukan apa pun yang Anda suka selama pemodelan Anda jika Anda melakukannya dan melaporkan validasi state-of-the-art yang jujur.
Untuk analisis chemometrik data spektroskopi, kita berada pada titik di mana kita tidak melihat residu karena kita tahu bahwa model mudah disesuaikan. Alih-alih, kami melihat kinerja data uji (dan mungkin perbedaan untuk data kinerja latihan prediktif).
Ada situasi lain di mana sementara kami tidak dapat memprediksi dengan tepat berapa banyak pelanggaran yang mana asumsi mengarah ke pemecahan model, tetapi kami dapat mengukur konsekuensi dari pelanggaran serius terhadap asumsi tersebut secara langsung.
Contoh berikutnya: data studi yang biasanya saya tangani adalah urutan besarnya di bawah ukuran sampel yang direkomendasikan oleh aturan statistik untuk kasus per varian (untuk menjamin estimasi yang stabil). Tetapi buku statistik biasanya tidak terlalu peduli tentang apa yang harus dilakukan dalam praktik jika asumsi ini tidak dapat dipenuhi. Atau bagaimana mengukur apakah Anda benar-benar dalam masalah dalam hal ini. Tetapi: pertanyaan semacam itu diperlakukan dalam disiplin ilmu yang lebih terapan. Ternyata, seringkali cukup mudah untuk secara langsung mengukur stabilitas model atau setidaknya apakah prediksi Anda tidak stabil (baca di sini di CV tentang resampling validasi dan stabilitas model). Dan ada cara untuk menstabilkan model yang tidak stabil (misalnya mengantongi).
Sebagai contoh "garis pertahanan kedua", pertimbangkan untuk menguji ulang validasi. Asumsi yang biasa dan terkuat adalah bahwa semua model pengganti setara dengan model yang dilatih pada seluruh kumpulan data. Jika asumsi ini dilanggar, kita mendapatkan bias pesimistis yang terkenal. Baris ke-2 adalah bahwa setidaknya model pengganti setara satu sama lain, sehingga kami dapat mengumpulkan hasil tes.
Terakhir, saya ingin mendorong "ilmuwan pelanggan" dan ahli statistik untuk berbicara lebih banyak satu sama lain . Analisis data statistik IMHO bukanlah sesuatu yang dapat dilakukan dengan cara satu arah. Pada titik tertentu, masing-masing pihak perlu memperoleh pengetahuan tentang pihak lain. Terkadang saya membantu "menerjemahkan" antara ahli statistik dan ahli kimia dan ahli biologi. Seorang ahli statistik dapat mengetahui bahwa model tersebut membutuhkan regularisasi. Tetapi untuk memilih, katakanlah, antara LASSO dan punggung bukit, mereka perlu mengetahui sifat-sifat data yang hanya diketahui oleh ahli kimia, ahli fisika, atau ahli biologi.
sumber
Mengingat bahwa CV dihuni oleh ahli statistik dan orang-orang yang ingin tahu, jika tidak kompeten, tentang statistik, saya tidak terkejut dengan semua jawaban yang menekankan perlunya memahami asumsi. Saya juga setuju dengan jawaban-jawaban ini pada prinsipnya.
Namun, ketika mempertimbangkan tekanan untuk menerbitkan dan standar rendah untuk integritas statistik saat ini, saya harus mengatakan bahwa jawaban ini cukup naif. Kami dapat memberi tahu orang-orang apa yang harus mereka lakukan sepanjang hari (yaitu memeriksa asumsi Anda), tetapi apa yang akan mereka lakukan hanya bergantung pada insentif kelembagaan. OP sendiri menyatakan bahwa ia berhasil menerbitkan 20 artikel tanpa memahami asumsi model. Mengingat pengalaman saya sendiri, saya tidak menemukan ini sulit untuk dipercaya.
Jadi saya ingin berperan sebagai advokat iblis, langsung menjawab pertanyaan OP. Ini sama sekali bukan jawaban yang mempromosikan "praktik yang baik," tetapi itu adalah jawaban yang mencerminkan bagaimana hal-hal dipraktikkan dengan sedikit sindiran.
Tidak, jika tujuannya adalah untuk menerbitkan, itu tidak layak untuk menghabiskan seluruh waktu untuk memahami model. Cukup ikuti model yang lazim dalam literatur. Dengan begitu, 1) makalah Anda akan lulus ulasan lebih mudah, dan 2) risiko terkena "ketidakmampuan statistik" kecil, karena mengekspos Anda berarti mengekspos seluruh bidang, termasuk banyak orang senior.
Ya, kemungkinan sebagian besar hasil yang dipublikasikan tidak benar. Semakin terlibat saya dalam penelitian aktual, semakin saya berpikir kemungkinan.
sumber
Jawaban singkatnya adalah "tidak." Metode statistik dikembangkan berdasarkan serangkaian asumsi yang harus dipenuhi agar hasilnya valid. Maka masuk akal, jika asumsi tidak terpenuhi, hasilnya mungkin tidak valid. Tentu saja, beberapa perkiraan mungkin masih kuat meskipun ada pelanggaran asumsi model. Sebagai contoh, multinomial logit tampaknya berkinerja baik meskipun ada pelanggaran asumsi IIA (lihat disertasi Kropko [2011] dalam referensi di bawah).
Sebagai ilmuwan, kami memiliki kewajiban untuk memastikan bahwa hasil yang kami berikan valid, bahkan jika orang-orang di lapangan tidak peduli apakah asumsi telah dipenuhi. Ini karena sains dibangun berdasarkan asumsi bahwa para ilmuwan akan melakukan berbagai hal dengan cara yang benar dalam mengejar fakta. Kami memercayai kolega kami untuk memeriksa pekerjaan mereka sebelum mengirimkannya ke jurnal. Kami mempercayai para pemberi referensi untuk secara kompeten meninjau sebuah naskah sebelum dipublikasikan. Kami berasumsibahwa para peneliti dan wasit tahu apa yang mereka lakukan, sehingga hasil dalam makalah yang diterbitkan dalam jurnal peer-review dapat dipercaya. Kita tahu ini tidak selalu benar di dunia nyata berdasarkan pada banyaknya artikel dalam literatur di mana Anda akhirnya menggelengkan kepala dan memutar mata Anda pada hasil yang jelas-jelas dipilih dalam jurnal-jurnal terhormat (" Jama menerbitkan makalah ini ?! ").
Jadi tidak, kepentingannya tidak bisa dilebih-lebihkan, terutama karena orang-orang mempercayai Anda - ahli - telah melakukan uji tuntas Anda. Paling tidak yang dapat Anda lakukan adalah berbicara tentang pelanggaran ini di bagian "batasan" pada makalah Anda untuk membantu orang menafsirkan validitas hasil Anda.
Referensi
Kropko, J. 2011. Pendekatan Baru untuk Pilihan Diskrit dan Metodologi Penampang Seri-Waktu untuk Penelitian Politik (disertasi). UNC-Chapel Hill, Chapel Hill, NC.
sumber
Jika Anda memerlukan statistik yang sangat canggih, kemungkinan besar karena data Anda berantakan, seperti halnya sebagian besar ilmu sosial, belum lagi psikologi. Di bidang-bidang di mana Anda memiliki data yang baik, Anda memerlukan sedikit statistik. Fisika adalah contoh yang sangat bagus.
Pertimbangkan kutipan dari Galileo ini dalam eksperimen percepatan gravitasi yang terkenal:
Perhatikan teks yang saya sorot. Inilah data yang baik. Itu berasal dari percobaan yang direncanakan dengan baik berdasarkan pada teori yang baik. Anda tidak perlu statistik untuk mengekstrak apa yang Anda minati. Tidak ada statistik saat itu, juga tidak ada komputer. Hasilnya? Hubungan yang cukup mendasar, yang masih berlaku, dan dapat diuji di rumah oleh siswa kelas 6.
Saya mencuri kutipan dari halaman yang luar biasa ini .
sumber
Pertanyaan ini tampaknya merupakan kasus integritas profesional.
Masalahnya adalah: (a) tidak ada penilaian kritis yang cukup terhadap analisis statistik oleh orang awam atau (b) kasus pengetahuan umum tidak cukup untuk mengidentifikasi kesalahan statistik (seperti kesalahan Tipe 2)?
Saya cukup tahu tentang bidang keahlian saya untuk meminta masukan ahli ketika saya berada di dekat batas keahlian itu. Saya telah melihat orang menggunakan hal-hal seperti F-test (dan R-squared di Excel) tanpa pengetahuan yang memadai.
Dalam pengalaman saya, sistem pendidikan, dalam keinginan kita untuk mempromosikan statistik, terlalu menyederhanakan alat dan mengecilkan risiko / batasan. Apakah ini tema umum yang orang lain alami dan akan menjelaskan situasinya?
sumber