Saya sedang menulis contoh dan telah membuat beberapa data. Saya ingin menjadi jelas bagi pembaca ini bukan data nyata, tetapi saya juga tidak ingin memberikan kesan kedengkian, karena itu hanya berfungsi sebagai contoh.
Tidak ada komponen acak (pseudo) untuk data khusus ini, jadi bagi saya sepertinya 'disimulasikan' tidak sesuai. Jika saya menyebutnya fiktif atau palsu, apakah itu memberi kesan penipuan data? Apakah 'dibuat-buat' adalah kata yang cocok dengan konteks ilmiah?
Apa terminologi dalam literatur statistik untuk data buatan yang tidak disimulasikan?
terminology
synthetic-data
Frans Rodenburg
sumber
sumber
Jawaban:
Saya mungkin akan menyebutnya "sintetis" atau "buatan" data, meskipun saya mungkin juga menyebutnya "disimulasikan" (simulasi hanya sangat sederhana).
sumber
Jika Anda ingin menyebut data Anda sebagai fiktif, Anda akan berada di perusahaan yang baik, karena itulah istilah yang digunakan Francis Anscombe untuk menggambarkan kuartetnya yang sekarang terkenal .
Dari Anscombe, FJ (1973). " Grafik dalam Analisis Statistik ", Am. Stat. 27 (1):
Tapi saya pikir hati-hati Anda ditempatkan dengan baik, karena OED saya (v4) tampaknya menunjukkan bahwa penggunaan fiktif ini sudah usang
sumber
Dalam IT kita sering menyebutnya data mockup , yang dapat disajikan melalui mockup (aplikasi).
Data mockup juga dapat disajikan melalui aplikasi yang berfungsi penuh, misalnya untuk menguji fungsionalitas aplikasi secara terkendali.
sumber
Saya telah melihat saran berulang untuk istilah "data sintetik". Namun istilah itu memiliki arti yang digunakan secara luas, dan sangat berbeda dari apa yang ingin Anda ungkapkan: https://en.wikipedia.org/wiki/Synthetic_data
Saya tidak yakin ada istilah ilmiah yang diterima secara umum, tetapi istilah "data contoh" tampaknya sulit untuk disalahpahami?
sumber
Saya telah menemukan istilah 'data palsu' dalam jumlah yang wajar. Saya kira itu bisa memiliki konotasi negatif tetapi saya sudah cukup sering mendengarnya sehingga tidak mendaftar negatif sama sekali untuk saya.
FWIW, Andrew Gelman juga menggunakannya:
https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/
https://statmodeling.stat.columbia.edu/2019/03/23/yes-i-really-really-really-like-fake-data-simulation-and-i-cant-stop-talking-about-it/
https://books.google.dk/books?id=lV3DIdV0F9AC&pg=PA155&lpg=PA155&dq=fake+data+simulation&source=bl&ots=6ljKB6StQ4&sig=ACfU3U17GLP_84q_HfIQB4u5O6wV0yA2Aw&hl=en&sa=X&ved=2ahUKEwiF2_eB0uvjAhWswcQBHSn5Cn04ChDoATAAegQICRAB#v=onepage&q=fake%20data%20simulation&f=false
Pencarian google cepat untuk 'data palsu' menghasilkan banyak hasil yang tampaknya menggunakan istilah yang sama:
https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/
http://modernstatributionworkflow.blogspot.com/2017/04/an-easy-way-to-simulate-fake-data-from.html
https://clayford.github.io/dwir/dwr_12_generating_data.html
Dan bahkan ada
fakeR
paket, yang menunjukkan bahwa ini relatif umum: https://cran.r-project.org/web/packages/fakeR/fakeR.pdfsumber
Saya menggunakan kata yang berbeda tergantung pada cara saya menggunakan data. Jika saya telah menemukan set-up dataset yang ada di sekitar dan telah menunjuk algoritma saya padanya dengan cara konfirmasi, maka kata "sintetis" baik-baik saja.
Namun, seringkali setiap kali saya menggunakan data jenis ini, saya telah menemukan data dengan maksud khusus untuk memamerkan kemampuan algoritma saya. Dengan kata lain, saya menemukan data untuk tujuan khusus mendapatkan "hasil yang baik". Dalam keadaan seperti itu, saya menyukai istilah "dibikin" bersama dengan penjelasan tentang harapan saya untuk data. Ini karena saya tidak ingin ada orang yang membuat kesalahan dengan berpikir bahwa saya menunjuk algoritma saya pada beberapa set data sintetik acak yang saya temukan tergeletak di sekitar dan itu benar-benar bekerja dengan baik. Jika saya memiliki data cherry-pick (sampai benar-benar mengada-ada) khusus untuk membuat algoritma saya bekerja dengan baik, saya katakan begitu. Ini karena hasil seperti itu memberikan bukti bahwa algoritma saya bisabekerja dengan baik, tetapi hanya memberikan bukti yang sangat lemah bahwa orang mungkin mengharapkan algoritma bekerja dengan baik secara umum . Kata "dibikin" benar-benar merangkum fakta bahwa saya telah memilih data dengan "hasil yang baik" dalam pikiran, apriori.
Tidak, tapi, penting untuk menjadi jelas tentang sumber dataset apapun dan Anda sebuah harapan apriori sebagai eksperimen ketika melaporkan hasil Anda pada dataset apapun. Istilah "penipuan" secara eksplisit mencakup aspek telah menutupi sesuatu atau telah langsung berbohong. Cara # 1 untuk menghindari komisi penipuan dalam sains adalah dengan bersikap jujur dan terus terang tentang sifat data Anda dan harapan Anda. Dengan kata lain, jika data Anda dibuat dan Anda gagal mengatakan banyak hal dengan cara apa pun , dan ada semacam harapan bahwa data tersebut tidak dibuat atau, lebih buruk lagi, Anda mengklaim bahwa data dikumpulkan dalam beberapa jenis yang tidak dibuat. dari jalan, maka itu adalah"penipuan". Jangan lakukan itu. Jika Anda ingin menggunakan beberapa sinonim untuk istilah "fabrikasi" yang "terdengar lebih baik", seperti "sintetis", tidak ada yang akan menyalahkan Anda, tetapi pada saat yang sama saya tidak berpikir bahwa ada orang yang akan melihat perbedaannya kecuali Anda.
Catatan tambahan:
Yang kurang jelas adalah keadaan di mana seseorang mengklaim memiliki harapan apriori yang sebenarnya merupakan penjelasan post hoc . Ini juga analisis penipuan data.
Ada bahaya ini ketika seseorang memilih data secara khusus dengan maksud "memamerkan" kemampuan suatu algoritma, yang sering terjadi dengan data sintetis.
Tidak ada masalah dengan melakukan ini, selama Anda jujur dan terus terang tentang apa yang telah Anda lakukan. Jika Anda telah melalui rasa sakit untuk membuat dataset yang memberikan "hasil yang baik", katakan saja. Selama Anda membiarkan pembaca mengetahui langkah-langkah yang telah Anda ambil dalam analisis data Anda, mereka memiliki informasi yang diperlukan untuk secara efektif menimbang bukti untuk atau menentang hipotesis Anda. Ketika Anda tidak jujur atau tidak berterus terang , maka ini mungkin memberi kesan bahwa bukti Anda lebih kuat dari yang sebenarnya. Ketika Anda TAHU kurang dari jujur dan terus terang demi membuat bukti Anda tampak lebih kuat dari yang sebenarnya, maka itu, memang, penipuan.
Bagaimanapun, inilah mengapa saya lebih suka istilah "dibuat-buat" untuk dataset seperti itu, bersama dengan penjelasan singkat bahwa mereka memang dipilih dengan hipotesis dalam pikiran. "Contrived" menyampaikan pengertian bahwa saya tidak hanya membuat dataset sintetik, tetapi saya juga melakukannya dengan maksud tertentu yang mencerminkan fakta bahwa hipotesis saya sudah ada sebelum penciptaan dataset saya.
tl; dr
Gunakan istilah apa pun yang Anda suka, "sintetis", "dibuat-buat", "dibuat-buat", "fiktif". Namun, istilah yang Anda gunakan tidak cukup untuk memastikan bahwa hasil Anda tidak menyesatkan . Pastikan bahwa Anda jelas dalam laporan Anda tentang bagaimana data muncul, termasuk harapan Anda untuk data dan alasan mengapa Anda memilih data yang Anda pilih.
sumber
Pertama, tidak ada alasan untuk tidak menyebutnya "dataset". Tidak ada istilah yang disepakati secara universal untuk data "palsu" vs "disimulasikan" vs .... Jika tujuannya benar-benar jelas, yang terbaik adalah benar-benar mencurahkan kalimat, daripada kata, untuk memenuhi syarat apa dataset ini. Setelah itu, Anda dapat melonggarkan penunjukan dan hanya merujuk ke data Anda sebagai data.
"Sintetis", "buatan" tidak membedakan dari set data "simulasi" MCMC lain dalam pikiran saya. Menggunakan generator nomor quasirandom dengan seed tetap (seperti pelatihan yang tepat akan menentukan) juga membuat dataset sintetis atau buatan.
Jika titik kurasi dataset untuk ilustrasi tertentu, daripada menghasilkan instance atau realisasi dari model probabilitas, saya pikir lebih baik untuk memanggil dataset tersebut sebagai " contoh dataset ". Data seperti ini mirip dengan kuartet Anscombe: benar-benar abstrak dan tidak masuk akal, tetapi dimaksudkan untuk menggambarkan suatu hal.
sumber
Dalam biologi, analisis kadang-kadang ditunjukkan dengan menggunakan dataset hewan mitos. Apakah atau tidak menyatakan secara eksplisit bahwa data disimulasikan terserah penulis / reviewer.
Panduan ekologis untuk model hewan, 2009
Varians efek tetap dan estimasi pengulangan dan heritabilitas: Masalah dan solusi, 2017
sumber
Secara intuitif saya akan pergi ke istilah 'data Dummy', dalam arti yang sama bahwa "Lorem ipsum ..." disebut 'teks Dummy'. Kata 'Dummy' cukup umum dan mudah dimengerti bagi orang-orang dari berbagai latar belakang dan karenanya lebih kecil kemungkinannya untuk disalahartikan oleh pembaca dengan latar belakang yang kurang statistik.
sumber
Data adalah bahasa Latin untuk diberikan , yang digunakan di zaman modern sebagai singkatan untuk serangkaian fakta yang direkam . Jadi dengan cara merujuk pada rekaman palsu sebagai semacam fakta yang diberikan akan menjadi kontradiksi terbuka.
Namun, karena meningkatnya penggunaan data untuk merujuk hanya pada rekaman - terlepas dari anggapan asli dari catatan menjadi fakta - kami dengan senang hati memahami satu sama lain ketika berbicara tentang rekaman yang mungkin atau mungkin tidak benar - maka data asli / palsu.
Saya akan merangkum pengalaman saya tentang cara mengatasi rekaman palsu di bawah ini. Label yang digunakan tergantung apakah kita berasumsi bahwa kita berbicara tentang data sebagai rekaman palsu yang dimaksudkan agar terlihat realistis untuk memungkinkan analisis lebih lanjut, atau data sebagai beban komputasi.
sumber