Bagaimana cara mengganggu wasit statistik?

102

Baru-baru ini saya mengajukan pertanyaan mengenai prinsip-prinsip umum seputar peninjauan statistik di makalah . Apa yang sekarang ingin saya tanyakan adalah apa yang secara khusus membuat Anda jengkel ketika meninjau sebuah makalah, yaitu apa cara terbaik untuk benar-benar mengganggu seorang wasit statistik!

Tolong, satu contoh per jawaban.

csgillespie
sumber
Apakah itu meluas ke justifikasi yang diterima sebagai tanggapan terhadap tinjauan awal (di mana revisi kecil dan / atau besar diminta)?
chl
@ chl: Ya, mengapa tidak.
csgillespie

Jawaban:

69

Yang secara khusus membuat saya jengkel adalah orang-orang yang jelas menggunakan paket yang ditulis pengguna untuk perangkat lunak statistik tetapi tidak mengutipnya dengan benar, atau sama sekali, sehingga gagal memberikan kredit kepada penulis. Melakukan hal itu sangat penting ketika penulis berada di dunia akademis dan pekerjaan mereka bergantung pada penerbitan makalah yang dikutip . (Mungkin saya harus menambahkan bahwa, di bidang saya, banyak pelakunya bukan ahli statistik.)

onestop
sumber
2
+1 untuk saya. Ini membuat saya frustasi, terutama ketika mereka mengutip hal yang salah dan saya telah memberikan rincian yang relevan tentang cara mengutip paket
Gavin Simpson
3
Pertanyaan: ketika mengutip suatu paket, apakah Anda mengutip sketsa (jika ada) atau paket itu sendiri?
Brandon Bertelsen
7
@Brandon: jika pembuat paket cukup peduli untuk membimbing Anda, maka mereka telah memberikan jawaban dalam bentuk yang akan diambil dengan kutipan ("some_package")
Ben Bolker
2
Selain memiliki kertas tengara, yang tidak begitu mudah dilakukan, cara termudah untuk mendapatkan kutipan adalah meninggalkan setidaknya satu kesalahan di kertas Anda. Kemudian Anda dapat menerbitkan koreksi, yang mengutip kertas asli. Tinggalkan kesalahan dalam koreksi, dan Anda dapat menerbitkan koreksi yang mereferensikan koreksi asli dan kertas asli (saya melihat hal seperti mahasiswa pascasarjana tahun pertama). Jumlah kutipan tumbuh sebagai proses O (N ^ 2), di mana N adalah jumlah koreksi.
Mark L. Stone
67

Ya ampun, banyak hal yang terlintas dalam pikiran ...

  • Regresi bertahap

  • Membagi data berkelanjutan menjadi kelompok-kelompok

  • Memberikan nilai-p tetapi tidak mengukur ukuran efek

  • Menjelaskan data menggunakan mean dan deviasi standar tanpa menunjukkan apakah data lebih atau kurang simetris dan unimodal

  • Angka-angka tanpa keterangan yang jelas (apakah kesalahan itu membatasi kesalahan standar dari rata-rata, atau standar deviasi dalam kelompok, atau apa?)

Stephan Kolassa
sumber
5
Saya sedikit ingin tahu tentang peluru regresi bertahap. Apa yang membuat regresi bertahap begitu buruk? Apakah ini masalah pengerukan data dan beberapa perbandingan?
Christopher Aden
17
Masalahnya adalah bahwa prosedur bertahap sepenuhnya membatalkan semua asumsi dan prasyarat untuk statistik inferensial "normal" berdasarkan nilai p, yang kemudian menjadi bias buruk (ke bawah menuju menjadi "lebih signifikan"). Jadi pada dasarnya, jawabannya adalah "ya", dengan peringatan bahwa seseorang pada prinsipnya dapat memperbaiki semua perbandingan ganda ini (tetapi yang belum pernah saya lihat dilakukan). Saya sangat percaya bahwa ini adalah satu-satunya alasan paling penting mengapa saya melihat begitu banyak penelitian dalam psikologi yang tidak dapat ditiru - yang pada gilirannya menyebabkan pemborosan sumber daya yang sangat besar.
Stephan Kolassa
10
@Stephan: Saya setuju, bertahap adalah ide yang buruk. Meskipun, sementara mereka mungkin belum mencapai metode psikis, tetapi ada berbagai prosedur pemilihan yang menyesuaikan bias terkait dengan overfitting dengan menyesuaikan estimasi dan kesalahan standar. Ini biasanya tidak dianggap sebagai masalah beberapa perbandingan. Mereka dikenal sebagai metode penyusutan. Lihat tanggapan saya di utas ini < stats.stackexchange.com/questions/499/... > dan "Strategi Pemodelan Regresi" Harrell atau Tibshirani tentang laso.
Brett
5
@ Brett Magill: +1 di atasnya, dan ya, saya tahu tentang susut dan laso. Sekarang yang saya butuhkan adalah beberapa cara untuk meyakinkan para psikolog bahwa ini masuk akal ... tetapi orang-orang telah berjuang dengan keberhasilan yang sangat terbatas hanya untuk membuat para psikolog melaporkan interval kepercayaan, jadi saya tidak terlalu optimis tentang menerima penyusutan psikolog di berikutnya dua puluh tahun.
Stephan Kolassa
10
Saya juga berpendapat bahwa dalam psikologi memaksimalkan prediksi bukanlah tujuan teoretis, namun regresi bertahap adalah tentang memaksimalkan prediksi, walaupun dengan cara yang semu-parsimoni. Jadi, biasanya ada keterputusan antara prosedur dan pertanyaan.
Jeromy Anglim
32

Kode yang digunakan untuk menghasilkan hasil simulasi tidak disediakan. Setelah meminta kode, itu menuntut pekerjaan tambahan untuk membuatnya berjalan pada dataset yang dihasilkan wasit.

pengguna603
sumber
2
Dan itu diformat dengan buruk, uncommented, dan menggunakan variabel dan nama fungsi yang tidak dapat diuraikan. Ooooh ya.
naught101
30

Plagiarisme (teoretis atau metodologis). Ulasan pertama saya memang untuk sebuah makalah yang mencari banyak copy / paste yang tidak direferensikan dari sebuah makalah metodologi yang diterbitkan 10 tahun yang lalu.

Baru saja menemukan beberapa makalah menarik tentang topik ini: Kepenulisan dan plagiarisme dalam sains .

Dalam nada yang sama, saya menemukan pemalsuan (data atau hasil) yang terburuk dari semua.

chl
sumber
20
Mengingatkan saya bahwa di hari-hari awal saya sebagai wasit saya menghabiskan jauh terlalu lama meninjau kertas statistik yang akhirnya ditolak oleh yang jurnal tertentu, tetapi wasit lain dan saya menyarankan aplikasi yang lebih berguna untuk metode, dan saya juga membuat sketsa bukti aljabar untuk menggantikan studi simulasi yang tidak memuaskan dalam naskah. Sejak itu penulis telah mengeluarkan dua makalah yang diterbitkan. Saya tidak terganggu oleh hal itu, tetapi pengakuan seperti "kami berterima kasih kepada wasit dari versi sebelumnya dari makalah ini atas komentar yang membantu" akan menjadi sopan santun.
onestop
1
@onestop Ya, saya bisa membayangkan betapa mengecewakannya situasi seperti itu ...
chl
24
Beberapa minggu yang lalu saya diberikan makalah untuk meninjau dan menemukan bahwa 85% dari itu telah diterbitkan dalam jurnal lain ... oleh penulis yang sama. Itu pun masih dianggap plagiarisme. Selama beberapa tahun terakhir saya telah secara rutin mengirimkan potongan kertas - terutama abstrak, perkenalan, dan kesimpulan - ke mesin pencari Web sebelum melakukan review. Saya ingin memastikan bahwa karya tersebut asli sebelum saya menginvestasikan waktu untuk membacanya.
whuber
7
+1, @whuber. Sebagai seorang editor jurnal metodologis, saya sering memiliki pekerjaan yang sulit untuk mencari tahu apakah kontribusi (sebagai aturan, dari penulis mapan; penulis yang lebih muda belum semuanya sampai ke lintasan itu) menjamin publikasi mengingat semua yang mereka miliki Yang sudah dilakukan adalah mereka memasang kembali dengan cara yang berbeda delapan blok Lego yang terdiri dari lima kertas sebelumnya. Hal ini membuat saya mempertanyakan kontribusi dalam lima puluh makalah sebelumnya yang diterbitkan oleh para penulis ini juga :(.
StasK
26

Ketika kami meminta penulis

  1. komentar kecil tentang ide yang kami miliki (dalam hal ini, ini tidak dianggap sebagai alasan untuk menolak makalah tetapi hanya untuk memastikan penulis dapat mendiskusikan POV lain), atau
  2. hasil yang tidak jelas atau bertentangan,

dan bahwa penulis tidak benar-benar menjawab dalam kasus (1) atau bahwa hasil yang diduga dalam (2) hilang dari MS.

chl
sumber
7
Hilangnya hasil yang misterius seharusnya penolakan otomatis, imo. Saya yakin ini sering terjadi "di balik layar" (yaitu sebelum makalah disampaikan), tetapi ini adalah bukti yang jelas tentang "memetik ceri" yang tidak akan pernah diketahui oleh pembaca biasa.
Makro
3
Alasan lain untuk sistem peer review terbuka.
fmark
24

Nilai p yang membingungkan dan ukuran efek (yaitu menyatakan efek saya besar karena saya memiliki nilai p yang sangat kecil).

Sedikit berbeda dari jawaban Stephan untuk mengecualikan ukuran efek tetapi memberikan nilai-p. Saya setuju Anda harus memberikan keduanya (dan semoga memahami perbedaannya!)

Andy W
sumber
23

Tidak termasuk ukuran efek.

P-ing seluruh penelitian (saya harus memuji profesor lulusan sekolah favorit saya untuk baris itu).

Memberikan jumlah digit yang tidak masuk akal (laki-laki naik 3,102019 pound lebih banyak daripada wanita)

Tidak termasuk nomor halaman (yang membuat sulit untuk ditinjau)

Angka dan tabel salah angka

(seperti yang telah disebutkan - stepwise dan kategorisasi variabel kontinu)

Peter Flom
sumber
7
(+1) tertawa terbahak-bahak pada "Memberikan angka yang tidak masuk akal (pria mendapatkan 3,102019 pound lebih banyak daripada wanita)".
Makro
19

Ketika mereka tidak cukup menjelaskan analisis mereka dan / atau memasukkan kesalahan sederhana yang membuatnya sulit untuk mengetahui apa yang sebenarnya dilakukan. Ini sering termasuk melemparkan banyak jargon, dengan cara penjelasan, yang lebih ambigu daripada yang tampaknya disadari oleh penulis dan juga dapat disalahgunakan.

anony
sumber
Setuju - berjuang untuk memahami apa yang dimaksudkan penulis sebelum mengevaluasi konten ilmiah benar-benar menjengkelkan.
Laurent
5
Saya setuju tetapi saya merasa semakin menyebalkan ketika seorang pengulas memberitahu Anda untuk menghilangkan (atau pindah ke materi tambahan) apa, secara realistis, rincian yang sangat penting tentang analisis. Masalah ini membuat begitu banyak makalah ilmu pengetahuan / sosial yang melakukan bahkan analisis yang paling rumit cukup samar dalam hal itu.
Makro
16

Menggunakan bahasa kausal untuk menggambarkan asosiasi dalam data pengamatan ketika variabel yang dihilangkan hampir pasti merupakan masalah serius.

Michael Bishop
sumber
3
Saya setuju bahwa peneliti harus memahami kewajiban desain penelitian observasional, terutama yang terkait dengan variabel yang dihilangkan, tetapi saya tidak berpikir menghindari bahasa sebab-akibat melakukan hal ini. Lihat karya Hubert Blalock, khususnya bukunya Inferensial Kausal dalam Penelitian Non-eksperimental untuk argumen yang lebih rinci dalam pembelaan menggunakan bahasa kausal.
Andy W
3
(+1) Ini mungkin masalah terbesar saya dalam penelitian epidemiologi.
Makro
14

Ketika penulis menggunakan satu uji statistik yang mereka tahu (di bidang saya, biasanya uji-t atau ANOVA), ad infinitum, terlepas dari apakah itu sesuai. Saya baru-baru ini meninjau sebuah makalah di mana penulis ingin membandingkan selusin kelompok perlakuan yang berbeda, sehingga mereka telah melakukan uji-t dua sampel untuk setiap kemungkinan pasangan perawatan ...

Freya Harrison
sumber
13

Muncul dengan kata-kata baru untuk konsep yang ada, atau, sebaliknya, menggunakan istilah yang ada untuk menunjukkan sesuatu yang berbeda.

Beberapa perbedaan terminologi yang ada telah lama dibahas dalam literatur: data longitudinal dalam biostatistik vs data panel dalam ekonometrik; indikator sebab dan akibat dalam sosiologi vs. indikator formatif dan reflektif dalam psikologi; dll. Saya masih membenci mereka, tetapi setidaknya Anda dapat menemukan beberapa ribu referensi untuk masing-masing dari mereka dalam literatur masing-masing. Yang paling baru adalah seluruh rangkaian pekerjaan ini pada grafik asiklik langsung dalam literatur sebab-akibat: sebagian besar, jika tidak semua, teori identifikasi dan estimasi dalam ini telah dikembangkan oleh para ahli ekonometrika pada 1950-an dengan nama persamaan simultan.

Istilah yang memiliki dua kali lipat, jika tidak rangkap tiga, artinya, "kuat", dan makna yang berbeda sering bertentangan. Kesalahan standar "Kuat" tidak kuat untuk pencilan jauh; Selain itu, mereka tidak kuat untuk melawan apa pun kecuali penyimpangan yang diasumsikan dari model, dan sering memiliki kinerja sampel kecil suram. Kesalahan standar White tidak kuat terhadap korelasi serial atau cluster; kesalahan standar "kuat" dalam SEM tidak kuat terhadap kesalahan spesifikasi struktur model (jalur atau variabel yang dihilangkan). Sama seperti dengan gagasan pengujian signifikansi hipotesis nol, tidak mungkin untuk menunjukkan siapa pun dan berkata: "Anda bertanggung jawab untuk membingungkan beberapa generasi peneliti untuk menciptakan konsep ini yang tidak benar-benar sesuai dengan namanya".

StasK
sumber
1
Saya harus mengakui telah melakukan kedua dosa: Saya menggambarkan data saya sebagai "memiliki struktur hierarkis: ketika saya memiliki level dengan hubungan 1: n (banyak pengukuran setiap sampel, beberapa sampel per pasien). Pada titik tertentu saya agak tidak sengaja mengetahui bahwa ini disebut struktur data "clustered" - sekarang saya menggunakan kedua istilah tersebut. Tapi saya masih tidak tahu bagaimana saya bisa menemukan istilah itu, saya benar-benar mencari kata untuk menggambarkan struktur data saya ... Sebaliknya: Saya menggunakan teknik yang disebut klasifikasi lunak dalam penginderaan jauh. Bidang saya (chemometrics) menggunakannya dengan makna yang sangat berbeda.
cbeleites
2
Tidak apa-apa - Anda dapat menambahkan "bertingkat" ke daftar cara untuk merujuk ke struktur ini juga. "Clustered" biasanya berarti bahwa pengamatan diketahui berkorelasi, tetapi tidak ada yang peduli untuk memodelkan korelasi itu karena itu bukan kepentingan utama, dan melepaskan metode yang kuat untuk korelasi tersebut, seperti GEE. Apa yang Anda miliki adalah sesuatu seperti tindakan berulang MANOVA. Ada paket Stata gllammyang menganggap data Anda sebagai data bertingkat / hierarkis, tetapi sebagian besar paket lain akan menganggap beberapa pengukuran sebagai variabel / kolom, dan sampel sebagai observasi / baris.
Tugas
Terima kasih atas masukannya. Nah, saat ini saya tentu saja akan bertanya di sini bagaimana ini disebut ... Ini bukan pengukuran yang diulang: biasanya saya mengukur angka (urutan besarnya: antara 10 ^ 2 dan 10 ^ 4) tempat yang berbeda pada sampel untuk menghasilkan peta warna-keliru dari konstituen yang berbeda, dan setiap pengukuran sudah memiliki 10 ^ 2 - 10 ^ 3 pengamatan (panjang gelombang dalam spektrum). Dalam setiap sampel, banyak spektrum sangat berkorelasi, tetapi tidak semua: sampel tidak homogen. ...
cbeleites
1
... Deskripsi "berkerumun" Anda sangat mirip dengan yang kami lakukan. Tapi saya benar-benar berhati-hati untuk membagi sampel untuk validasi, katakan saya tidak tahu tentang ukuran sampel efektif (selain itu setidaknya jumlah sampel nyata yang terlibat), dan kadang-kadang menunjukkan bahwa memiliki semua pengukuran masing-masing sampel sebenarnya membantu untuk pelatihan model.
cbeleites
1
Data yang menarik dan menantang, pasti.
Tugas
11

Tidak ada pertimbangan untuk data yang hilang.

Banyak aplikasi praktis menggunakan data yang setidaknya memiliki beberapa nilai yang hilang. Ini tentu sangat benar dalam epidemiologi. Data yang hilang menyajikan masalah bagi banyak metode statistik - termasuk model linier. Data yang hilang dengan model linier sering ditangani melalui penghapusan kasus dengan data yang hilang pada kovariat apa pun. Ini adalah masalah, kecuali jika data hilang dengan asumsi bahwa data tidak ada secara acak (MCAR).

Mungkin 10 tahun yang lalu, masuk akal untuk mempublikasikan hasil dari model linier tanpa pertimbangan lebih lanjut akan hilangnya. Saya tentu saja bersalah atas hal ini. Namun, saran yang sangat bagus tentang bagaimana menangani data yang hilang dengan imputasi ganda sekarang banyak tersedia, seperti paket statistik / model / perpustakaan / dll. untuk memfasilitasi analisis yang lebih tepat dengan asumsi yang lebih masuk akal ketika ada ketidakhadiran.

D L Dahly
sumber
1
Dalam semangat mencoba mendidik, dapatkah Anda menjelaskan lebih banyak? Apa yang Anda pertimbangkan - akui itu ada atau sesuaikan analisis statistik di hadapannya (mis. Imputasi). Ketika berlaku saya mencoba memasukkan supp. tabel nilai yang hilang oleh kovariat minat, tetapi tidak jelas apakah ini cukup untuk "pertimbangan" oleh pernyataan ini.
Andy W
8

Melaporkan efek yang "mendekati signifikansi (p <.10 misalnya) dan kemudian menulis tentang mereka seolah-olah mereka telah mencapai signifikansi pada tingkat yang lebih ketat dan dapat diterima. Menjalankan beberapa Model Persamaan Struktural yang tidak disarangkan dan kemudian menulis tentang mereka seolah-olah mereka diambil. Mengambil strategi analitik yang mapan dan menyajikannya seolah-olah tidak ada yang pernah berpikir untuk menggunakannya sebelumnya. Mungkin ini memenuhi syarat sebagai plagiarisme ke tingkat ke-9.

StatistikDoc Konsultasi
sumber
Mungkin itu menciptakan kembali roda daripada plagiarisme?
gerrit
7

Saya merekomendasikan dua artikel berikut:

Martin Bland:
Cara Mengacaukan Wasit Statistik
Ini didasarkan pada serangkaian pembicaraan yang diberikan oleh Martin Bland, bersama dengan data dari wasit statistik lain ('sampel yang mudah digunakan dengan tingkat respons yang rendah'). Itu berakhir dengan daftar 11-poin '[h] ow untuk menghindari mengecewakan wasit statistik'.

Stian Lydersen: Tinjauan
statistik: sering diberikan komentar
Makalah baru-baru ini (diterbitkan 2014/2015) mencantumkan 14 komentar ulasan paling umum penulis, berdasarkan sekitar. 200 ulasan statistik makalah ilmiah (dalam jurnal tertentu). Setiap komentar memiliki penjelasan singkat tentang masalah dan petunjuk tentang cara untuk benar melakukan analisis / pelaporan. Daftar referensi yang dikutip adalah harta karun makalah menarik.

Karl Ove Hufthammer
sumber
Daftar oleh Lydersen menarik. Saya pikir saya tidak setuju dengan beberapa dari mereka. . .
StatsStudent
6

Saya paling (dan paling sering) kesal oleh "validasi" yang mengarah pada kesalahan generalisasi model prediktif di mana data uji tidak independen (mis. Biasanya beberapa pengukuran per pasien dalam data, out-of-bootstrap atau lintas memecah validasi pengukuran tidak pasien ).

Bahkan lebih menjengkelkan, makalah yang memberikan hasil validasi silang cacat tersebut ditambah satu set tes independen yang menunjukkan bias optimisasi silang yang berlebihan tetapi tidak satu kata pun bahwa desain validasi silang salah ...

(Saya akan sangat senang jika data yang sama akan disajikan, "kami tahu validasi silang harus membagi pasien, tetapi kami terjebak dengan perangkat lunak yang tidak memungkinkan ini. Oleh karena itu kami menguji serangkaian pasien uji yang benar-benar independen sebagai tambahan. ")

(Saya juga sadar bahwa bootstrap = resampling dengan penggantian biasanya berkinerja lebih baik daripada cross validation = resampling tanpa penggantian. Namun, kami menemukan data spektroskopi (simulasi spektra dan pengaturan model sedikit buatan tetapi spektra nyata) yang mengulangi / mengulangi validasi silang dan keluar -of-bootstrap memiliki ketidakpastian keseluruhan yang serupa; oob memiliki lebih banyak bias tetapi lebih sedikit varians - untuk rewetting, saya melihat ini dari perspektif yang sangat pragmatis: validasi silang berulang vs out-of-bootstrap tidak masalah selama banyak makalah tidak membagi pasien-bijaksana atau melaporkan / mendiskusikan / menyebutkan ketidakpastian acak karena ukuran sampel tes terbatas.)

Selain salah, ini juga memiliki efek samping bahwa orang yang melakukan validasi yang tepat sering kali harus membela mengapa hasil mereka jauh lebih buruk daripada semua hasil lainnya dalam literatur.

cbeleites
sumber
1
Tidak yakin apakah Anda bermaksud mengatakan ini tetapi bootstrap "optimisme" adalah salah satu cara terbaik untuk memvalidasi model, dan pelatihan serta sampel pengujiannya tumpang tindih.
Frank Harrell
1
@ Frank Harrell - Saya tidak yakin saya mengerti maksud Anda. Mungkin kesulitannya adalah bahwa dalam kemometrik "validasi model prediktif" selalu tentang kinerja untuk kasus baru yang tidak diketahui di masa mendatang (dalam contoh: mendiagnosis pasien baru). Saya menggunakan out-of-bootstrap atau validasi silang berulang / iterated sepanjang waktu. Bisakah Anda menjelaskan apa keuntungan memiliki tes & kereta set tumpang tindih dibandingkan dengan pemisahan di tingkat pasien (saya berasumsi "tumpang tindih" berarti pengukuran pemisahan sehingga pengukuran tes & pelatihan bisa milik pasien yang sama, selalu berbicara tentang model antar-pasien )?
cbeleites
... Dan ya, beberapa poin validasi model dapat dijawab tanpa memisahkan data dalam kasus uji dan pelatihan yang berbeda (misalnya stabilitas model dalam hal koefisien). Tapi sudah model stabilitas wrt. untuk prediksi harus diukur menggunakan pasien yang tidak dikenal (tidak diketahui: tidak pernah muncul dalam proses membangun model termasuk pra-pemrosesan data-driven yang memperhitungkan semua kasus). Sebenarnya, untuk kuantisasi tradisional dalam chemometrics, validasi memiliki langkah-langkah yang memerlukan data tes yang diukur lebih lanjut secara independen: ...
cbeleites
praktik yang baik memerlukan operator instrumen yang tidak dikenal dan satu karakteristik penting dari metode analitik yang akan ditentukan selama validasi adalah seberapa sering kalibrasi perlu dilakukan kembali (atau menunjukkan bahwa penyimpangan instrumental dapat diabaikan selama waktu tertentu) - beberapa penulis bahkan berbicara tentang "penyalahgunaan resampling" yang mengarah pada pengabaian set tes independen tersebut .
cbeleites
1
Jika peralatan atau teknik pengukuran membutuhkan validasi, maka sampel independen diperlukan. Tetapi kesalahan umum adalah menggunakan pemisahan data untuk mencoba mensimulasikan validasi independen. Ini masih validasi internal. Untuk menjawab pertanyaan @cbeleites di atas, sampel yang tumpang tindih yang terlibat dengan bootstrap akan menghasilkan perkiraan kinerja model masa depan yang lebih akurat daripada pemisahan data di sebagian besar dataset yang cenderung dilihat. Saya memiliki pemisahan data berkinerja buruk dengan n = 17.000 dan tingkat kejadian 0,30.
Frank Harrell
4

Menggunakan "data" dalam arti tunggal. Data ADALAH, mereka tidak pernah ada.

Peter
sumber
2
Mungkin ahli statistik Prancis;)
Stéphane Laurent
9
Harus saya akui, saya baru-baru ini meninggalkan penggunaan data jamak setelah bertahan selama 10 tahun atau lebih. Saya biasanya menulis untuk audiens non-teknis dan saya khawatir saya sombong. APA tampaknya masih memiliki pembacaan yang ketat tentang bentuknya yang jamak tetapi menariknya Royal Statistics Society tampaknya tidak memiliki pandangan tertentu. Ada diskusi yang menarik di sini: guardian.co.uk/news/datablog/2010/jul/16/data-plural-singular
Chris Beeley
1
Saya bukan penutur bahasa Inggris, tetapi masalah dengan karya seperti "data" atau "media" dalam bahasa tunggal adalah bahwa bahasa Inggris telah meminjam banyak kata Latin lainnya dan Anda perlu menggunakan semua kata Latin dengan cara yang konsisten. Apa berikutnya? "Kurikulumnya" atau "Kurikulumnya"? "Sedang"? Jika "data" adalah bahasa Latin, maka itu adalah jamak. Akhir dari diskusi. Tidak peduli berapa banyak orang yang ingin mengabaikannya sekarang.
Fran
Mungkin saya menyalahgunakannya, tetapi saya beralih antara bentuk tunggal dan bentuk jam tergantung pada konteksnya.
StatsStudent
Penggunaan kata 'datum' rendah dan hanya dalam keadaan khusus, saya menganggap kata 'data' sebagai sesuatu yang setara dengan kata 'paket' sehubungan dengan 'serigala'. Tentu bisa diterima untuk menggunakan kata 'paket' dalam bentuk tunggal untuk menggambarkan banyak serigala. Kata 'Data' secara bertahap berubah menjadi kata benda kolektifnya sendiri ...
Robert de Graaf
3

Bagi saya sejauh ini, menghubungkan sebab tanpa analisis sebab akibat yang tepat atau ketika ada inferensi kausal yang tidak tepat.

Saya juga benci ketika tidak ada perhatian diberikan pada bagaimana data yang hilang ditangani. Saya melihat begitu banyak makalah juga di mana penulis hanya melakukan analisis kasus lengkap dan tidak menyebutkan apakah hasilnya dapat digeneralisasikan kepada populasi dengan nilai yang hilang atau bagaimana populasi dengan nilai yang hilang mungkin secara sistematis berbeda dari populasi dengan data lengkap.

StatsStudent
sumber
3

Menggunakan Microsoft Word daripada LaTeX.

Simone
sumber