Istilah terbaik untuk data buatan?

23

Saya sedang menulis contoh dan telah membuat beberapa data. Saya ingin menjadi jelas bagi pembaca ini bukan data nyata, tetapi saya juga tidak ingin memberikan kesan kedengkian, karena itu hanya berfungsi sebagai contoh.

Tidak ada komponen acak (pseudo) untuk data khusus ini, jadi bagi saya sepertinya 'disimulasikan' tidak sesuai. Jika saya menyebutnya fiktif atau palsu, apakah itu memberi kesan penipuan data? Apakah 'dibuat-buat' adalah kata yang cocok dengan konteks ilmiah?

Apa terminologi dalam literatur statistik untuk data buatan yang tidak disimulasikan?

Frans Rodenburg
sumber
9
Hanya dengan menambahkan komentar yang tersebar di beberapa jawaban: "sintetis" adalah kata yang baik untuk data buatan yang mencoba terlihat serealistis mungkin, sementara "mock up" menyarankan data yang telah dibuat untuk menunjukkan sesuatu yang khusus. Misalnya, data "mock up" mungkin mengandung outlier yang absurd, hanya untuk menunjukkan betapa pentingnya menangani outlier dengan benar.
Cort Ammon - Pasang kembali Monica
Saya pribadi lebih suka istilah "disimulasikan" dan paling sering menemukannya dalam literatur statistik (yaitu, "kami melakukan simulasi untuk membandingkan model kami dengan X, Y, Z ...."
Samir Rachid Zaim

Jawaban:

45

Saya mungkin akan menyebutnya "sintetis" atau "buatan" data, meskipun saya mungkin juga menyebutnya "disimulasikan" (simulasi hanya sangat sederhana).

Louis Cialdella
sumber
30
Seseorang mendengar "data mainan," "contoh mainan," dan "data boneka." Saya juga setuju bahwa "simulasi" mungkin cocok bahkan tanpa adanya angka acak.
rolando2
7
"Data ilustrasi" atau "data contoh" mungkin juga berfungsi
Henry
8
+1 ' data sintetis ' dan ' contoh mainan ' adalah istilah yang mungkin saya gunakan, jika ada kesempatan, seperti 'contoh konstruksi'. Kadang-kadang saya mengatakan "contoh ilustratif" atau sesuatu yang serupa, terutama ketika contoh tersebut secara eksplisit dibangun untuk memiliki fitur tertentu (misalnya ketika dirancang sebagai sampel tandingan terhadap beberapa gagasan yang keliru).
Glen_b -Reinstate Monica
1
Saya cenderung menggunakan data mainan (tanpa buatan atau disimulasikan ) untuk set data nyata (diukur) yang saya "penyalahgunaan" untuk menunjukkan sesuatu.
cbeleites mendukung Monica
1
Tergantung sedikit pada aplikasi Anda apa yang akan bekerja paling baik. Sebagai contoh, saya juga melakukan proyek dengan data "palsu", tetapi bagian lain dari proyek ini melibatkan penggunaan simulasi model komputer. Jadi mungkin membingungkan pembaca bagi saya untuk menyebut data palsu sebagai "disimulasikan", secara salah menyiratkan data berasal dari simulasi. Jadi saya telah mengandalkan "buatan", dan kadang-kadang saya menggambarkan data sebagai "buatan". Saya pribadi akan menghindari "sintetis" karena bagi saya istilah ini akan menyiratkan bahwa data adalah semacam kombinasi dari sumber data lain ("sintesis" misalnya data A dan data B).
Ceph
12

Jika Anda ingin menyebut data Anda sebagai fiktif, Anda akan berada di perusahaan yang baik, karena itulah istilah yang digunakan Francis Anscombe untuk menggambarkan kuartetnya yang sekarang terkenal .

Dari Anscombe, FJ (1973). " Grafik dalam Analisis Statistik ", Am. Stat. 27 (1):

Beberapa poin ini diilustrasikan oleh empat set data fiktif, masing-masing terdiri dari sebelas (x, y) pasangan, ditunjukkan pada tabel.

Tapi saya pikir hati-hati Anda ditempatkan dengan baik, karena OED saya (v4) tampaknya menunjukkan bahwa penggunaan fiktif ini sudah usang

fiktif , a.

(fɪkˈtɪʃəs)

[f. L. fictīci-us (f. Jari mode, berpura-pura) + -ous: see -itious.]

1.1 † a.1.a Buatan bukan alami (obs.). b.1.b Palsu, 'tiruan', palsu; tidak asli.

AkselA
sumber
Dalam hal keterbacaan saran pertama & komentar adalah alternatif yang jauh lebih baik. Tidak perlu menggunakan kata-kata rumit dan tidak biasa.
Tim
1
@Tim: Saya ingin setuju, tapi saya tidak sepenuhnya yakin dengan apa saya akan setuju. Apakah Anda mengatakan bahwa fiktif akan menjadi pilihan yang buruk, meskipun telah digunakan dalam konteks yang sama sebelumnya? Karena itulah yang saya katakan.
AkselA
7

Dalam IT kita sering menyebutnya data mockup , yang dapat disajikan melalui mockup (aplikasi).

Data mockup juga dapat disajikan melalui aplikasi yang berfungsi penuh, misalnya untuk menguji fungsionalitas aplikasi secara terkendali.

ErikE
sumber
5
Poin bagus, tapi saya percaya bahwa data mockup dan data simulasi tidak persis sama. Saat membuat data mockup untuk pengujian unit, Anda hanya perlu menyimpan beberapa sifat dasar dari data nyata, sementara saat menggunakan data simulasi untuk analisis statistik, Anda biasanya menggunakan contoh data yang lebih canggih.
Tim
2
Namun saya masih percaya bahwa ErikE benar, ketika Anda menulis kode analitis, Anda memerlukan data asli atau data tiruan. Data tiruan bisa sebesar yang Anda inginkan.
Mathijs Segers
1
Praktik mungkin berbeda seperti halnya penggunaan terminologi, saya kira. Untuk banyak pengujian dan analisis kami, kami menggunakan data langsung yang telah "dijinakkan" karena alasan keamanan dan anonimitas. Untuk yang lain, kami membuat data tulang kosong seperti yang dijelaskan Tim. Saya tidak memiliki pendapat yang kuat tetapi kami menggunakan istilah mockup dengan cukup longgar.
ErikE
3

Saya telah melihat saran berulang untuk istilah "data sintetik". Namun istilah itu memiliki arti yang digunakan secara luas, dan sangat berbeda dari apa yang ingin Anda ungkapkan: https://en.wikipedia.org/wiki/Synthetic_data

Saya tidak yakin ada istilah ilmiah yang diterima secara umum, tetapi istilah "data contoh" tampaknya sulit untuk disalahpahami?

srass
sumber
1
Artikel itu agak membingungkan - hubungan dengan anonimisasi sangat lemah.
Matt Krause
+1 tetapi saya setuju dengan komentar sebelumnya: selain dari paragraf kedua (mengatakan bahwa data yang disintesis adalah jenis data yang dianonimkan), sisa artikel Wikipedia itu sepertinya menggambarkan apa yang diinginkan si penanya. Yaitu data buatan yang tampak realistis.
Darren Cook
3

Saya telah menemukan istilah 'data palsu' dalam jumlah yang wajar. Saya kira itu bisa memiliki konotasi negatif tetapi saya sudah cukup sering mendengarnya sehingga tidak mendaftar negatif sama sekali untuk saya.

FWIW, Andrew Gelman juga menggunakannya:

https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/

https://statmodeling.stat.columbia.edu/2019/03/23/yes-i-really-really-really-like-fake-data-simulation-and-i-cant-stop-talking-about-it/

https://books.google.dk/books?id=lV3DIdV0F9AC&pg=PA155&lpg=PA155&dq=fake+data+simulation&source=bl&ots=6ljKB6StQ4&sig=ACfU3U17GLP_84q_HfIQB4u5O6wV0yA2Aw&hl=en&sa=X&ved=2ahUKEwiF2_eB0uvjAhWswcQBHSn5Cn04ChDoATAAegQICRAB#v=onepage&q=fake%20data%20simulation&f=false

Pencarian google cepat untuk 'data palsu' menghasilkan banyak hasil yang tampaknya menggunakan istilah yang sama:

https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/

http://modernstatributionworkflow.blogspot.com/2017/04/an-easy-way-to-simulate-fake-data-from.html

https://clayford.github.io/dwir/dwr_12_generating_data.html

Dan bahkan ada fakeRpaket, yang menunjukkan bahwa ini relatif umum: https://cran.r-project.org/web/packages/fakeR/fakeR.pdf

mkt - Pasang kembali Monica
sumber
2

Saya menggunakan kata yang berbeda tergantung pada cara saya menggunakan data. Jika saya telah menemukan set-up dataset yang ada di sekitar dan telah menunjuk algoritma saya padanya dengan cara konfirmasi, maka kata "sintetis" baik-baik saja.

Namun, seringkali setiap kali saya menggunakan data jenis ini, saya telah menemukan data dengan maksud khusus untuk memamerkan kemampuan algoritma saya. Dengan kata lain, saya menemukan data untuk tujuan khusus mendapatkan "hasil yang baik". Dalam keadaan seperti itu, saya menyukai istilah "dibikin" bersama dengan penjelasan tentang harapan saya untuk data. Ini karena saya tidak ingin ada orang yang membuat kesalahan dengan berpikir bahwa saya menunjuk algoritma saya pada beberapa set data sintetik acak yang saya temukan tergeletak di sekitar dan itu benar-benar bekerja dengan baik. Jika saya memiliki data cherry-pick (sampai benar-benar mengada-ada) khusus untuk membuat algoritma saya bekerja dengan baik, saya katakan begitu. Ini karena hasil seperti itu memberikan bukti bahwa algoritma saya bisabekerja dengan baik, tetapi hanya memberikan bukti yang sangat lemah bahwa orang mungkin mengharapkan algoritma bekerja dengan baik secara umum . Kata "dibikin" benar-benar merangkum fakta bahwa saya telah memilih data dengan "hasil yang baik" dalam pikiran, apriori.

"Apakah itu memberi kesan data penipuan ?"

Tidak, tapi, penting untuk menjadi jelas tentang sumber dataset apapun dan Anda sebuah harapan apriori sebagai eksperimen ketika melaporkan hasil Anda pada dataset apapun. Istilah "penipuan" secara eksplisit mencakup aspek telah menutupi sesuatu atau telah langsung berbohong. Cara # 1 untuk menghindari komisi penipuan dalam sains adalah dengan bersikap jujur dan terus terang tentang sifat data Anda dan harapan Anda. Dengan kata lain, jika data Anda dibuat dan Anda gagal mengatakan banyak hal dengan cara apa pun , dan ada semacam harapan bahwa data tersebut tidak dibuat atau, lebih buruk lagi, Anda mengklaim bahwa data dikumpulkan dalam beberapa jenis yang tidak dibuat. dari jalan, maka itu adalah"penipuan". Jangan lakukan itu. Jika Anda ingin menggunakan beberapa sinonim untuk istilah "fabrikasi" yang "terdengar lebih baik", seperti "sintetis", tidak ada yang akan menyalahkan Anda, tetapi pada saat yang sama saya tidak berpikir bahwa ada orang yang akan melihat perbedaannya kecuali Anda.

Catatan tambahan:

Yang kurang jelas adalah keadaan di mana seseorang mengklaim memiliki harapan apriori yang sebenarnya merupakan penjelasan post hoc . Ini juga analisis penipuan data.

Ada bahaya ini ketika seseorang memilih data secara khusus dengan maksud "memamerkan" kemampuan suatu algoritma, yang sering terjadi dengan data sintetis.

DHHDD

HDHD . Jika Anda menguji suatu algoritma, misalnya, maka hipotesis bahwa algoritma baru mewah Anda "melakukan pekerjaan yang baik" mungkin terjadi sebelum penemuan dataset sintetik. Jika ini masalahnya, Anda harus menyebutkannya. Paling tidak Anda tidak boleh mengatakan bahwa peristiwa terjadi dengan cara "konfirmasi", karena itu akan membuat pembaca menyimpulkan bahwa bukti Anda lebih kuat daripada yang sebenarnya.

Tidak ada masalah dengan melakukan ini, selama Anda jujur dan terus terang tentang apa yang telah Anda lakukan. Jika Anda telah melalui rasa sakit untuk membuat dataset yang memberikan "hasil yang baik", katakan saja. Selama Anda membiarkan pembaca mengetahui langkah-langkah yang telah Anda ambil dalam analisis data Anda, mereka memiliki informasi yang diperlukan untuk secara efektif menimbang bukti untuk atau menentang hipotesis Anda. Ketika Anda tidak jujur atau tidak berterus terang , maka ini mungkin memberi kesan bahwa bukti Anda lebih kuat dari yang sebenarnya. Ketika Anda TAHU kurang dari jujur dan terus terang demi membuat bukti Anda tampak lebih kuat dari yang sebenarnya, maka itu, memang, penipuan.

Bagaimanapun, inilah mengapa saya lebih suka istilah "dibuat-buat" untuk dataset seperti itu, bersama dengan penjelasan singkat bahwa mereka memang dipilih dengan hipotesis dalam pikiran. "Contrived" menyampaikan pengertian bahwa saya tidak hanya membuat dataset sintetik, tetapi saya juga melakukannya dengan maksud tertentu yang mencerminkan fakta bahwa hipotesis saya sudah ada sebelum penciptaan dataset saya.

ADx.y (opsi 2), ketika, dalam kasus opsi 1, mereka tidak. Oleh karena itu, pembaca dalam opsi 1 telah diberi kesan bahwa bukti lebih kuat dari yang sebenarnya.

tl; dr

Gunakan istilah apa pun yang Anda suka, "sintetis", "dibuat-buat", "dibuat-buat", "fiktif". Namun, istilah yang Anda gunakan tidak cukup untuk memastikan bahwa hasil Anda tidak menyesatkan . Pastikan bahwa Anda jelas dalam laporan Anda tentang bagaimana data muncul, termasuk harapan Anda untuk data dan alasan mengapa Anda memilih data yang Anda pilih.

Scott
sumber
Meskipun jawaban di sini tumpang tindih dan hampir semuanya memberikan poin bagus, saya pikir yang terbaik adalah menyampaikan poin kunci bahwa tidak ada istilah tunggal yang akan menyampaikan kepada semua pembaca niat di balik pembuatan data. Alasannya bisa berkisar dari tidak hanya sesuai tetapi penting untuk tujuan melalui kemalasan (teks pengantar yang buruk) untuk menipu dan penipuan. Menjelaskan mengapa Anda melakukannya cukup lama mungkin merupakan ide yang bagus.
Nick Cox
... alasan ...
Nick Cox
1

Pertama, tidak ada alasan untuk tidak menyebutnya "dataset". Tidak ada istilah yang disepakati secara universal untuk data "palsu" vs "disimulasikan" vs .... Jika tujuannya benar-benar jelas, yang terbaik adalah benar-benar mencurahkan kalimat, daripada kata, untuk memenuhi syarat apa dataset ini. Setelah itu, Anda dapat melonggarkan penunjukan dan hanya merujuk ke data Anda sebagai data.

"Sintetis", "buatan" tidak membedakan dari set data "simulasi" MCMC lain dalam pikiran saya. Menggunakan generator nomor quasirandom dengan seed tetap (seperti pelatihan yang tepat akan menentukan) juga membuat dataset sintetis atau buatan.

Jika titik kurasi dataset untuk ilustrasi tertentu, daripada menghasilkan instance atau realisasi dari model probabilitas, saya pikir lebih baik untuk memanggil dataset tersebut sebagai " contoh dataset ". Data seperti ini mirip dengan kuartet Anscombe: benar-benar abstrak dan tidak masuk akal, tetapi dimaksudkan untuk menggambarkan suatu hal.

AdamO
sumber
1

Dalam biologi, analisis kadang-kadang ditunjukkan dengan menggunakan dataset hewan mitos. Apakah atau tidak menyatakan secara eksplisit bahwa data disimulasikan terserah penulis / reviewer.

Panduan ekologis untuk model hewan, 2009

Tutorial ini menjelaskan serangkaian analisis genetik kuantitatif pada populasi gryphon (mencerminkan kompromi antara bias burung dan mamalia penulis). Karena gryphon adalah binatang mitos, data yang diberikan harus disimulasikan.

Varians efek tetap dan estimasi pengulangan dan heritabilitas: Masalah dan solusi, 2017

Untuk menggambarkan hal ini, mari kita kembali ke dataset unicorn Wilson (2008). Ini adalah fakta yang diketahui bahwa di unicorn, panjang tanduk bervariasi sesuai dengan massa tubuh individu (kemiringan: β = 0,403 untuk model lengkap termasuk usia, jenis kelamin dan interaksinya).

DA Wells
sumber
1
Pendekatan yang menarik! Saya pikir ini bisa bagus untuk mengajar statistik siswa biologi. Ketika mempresentasikan kepada publik, saya tidak yakin apakah ini akan memberikan kesan yang tepat
Frans Rodenburg
0

Secara intuitif saya akan pergi ke istilah 'data Dummy', dalam arti yang sama bahwa "Lorem ipsum ..." disebut 'teks Dummy'. Kata 'Dummy' cukup umum dan mudah dimengerti bagi orang-orang dari berbagai latar belakang dan karenanya lebih kecil kemungkinannya untuk disalahartikan oleh pembaca dengan latar belakang yang kurang statistik.

Mathijs
sumber
2
Jika berada dalam konteks regresi, saya akan menghindari overloading "dummy", jangan sampai Anda memiliki variabel dummy yang menyandikan data dummy.
Matt Krause
Saya setuju, saya pribadi akan menghindarinya karena "Dummy" sudah memiliki konotasi dalam regresi. Mengingat ada banyak istilah yang tersedia, mungkin yang terbaik adalah menghindari istilah-istilah yang dapat berarti hal yang berbeda untuk orang yang berbeda.
Samir Rachid Zaim
0

Data adalah bahasa Latin untuk diberikan , yang digunakan di zaman modern sebagai singkatan untuk serangkaian fakta yang direkam . Jadi dengan cara merujuk pada rekaman palsu sebagai semacam fakta yang diberikan akan menjadi kontradiksi terbuka.

Namun, karena meningkatnya penggunaan data untuk merujuk hanya pada rekaman - terlepas dari anggapan asli dari catatan menjadi fakta - kami dengan senang hati memahami satu sama lain ketika berbicara tentang rekaman yang mungkin atau mungkin tidak benar - maka data asli / palsu.

Saya akan merangkum pengalaman saya tentang cara mengatasi rekaman palsu di bawah ini. Label yang digunakan tergantung apakah kita berasumsi bahwa kita berbicara tentang data sebagai rekaman palsu yang dimaksudkan agar terlihat realistis untuk memungkinkan analisis lebih lanjut, atau data sebagai beban komputasi.

  • Dalam lingkaran analitik / sains data / konsultasi strategis, orang-orang paling sering menangani serangkaian rekaman yang dibuat dengan asumsi realistis sebagai data sintetis - dan terkadang data yang disimulasikan . Rekaman fabrikasi yang dibuat menggunakan asumsi kasar disebut sebagai dataset mainan .
  • Di antara insinyur perangkat lunak, data yang palsu , data dummy , data yang dibuat-buat dan data yang mock-up adalah label sering yang terutama petunjuk untuk rekaman tidak selalu dimaksudkan untuk memiliki sifat realistis, tetapi hanya berbagi sifat dasar dengan data asli (data umur selalu numerik , alamat email selalu berupa string yang mengandung "@").
  • Peneliti akademis akan merujuk pada set realistis rekaman buatan sebagai data semu , atau data simulasi . Di beberapa kalangan, jika serangkaian pengamatan yang dibuat adalah hasil dari simulasi Monte Carlo, itu dapat disebut bahasa sehari-hari sebagai Monte Carlo . Rekaman semi-realistis biasanya digunakan untuk tujuan ilustrasi atau menguji hipotesis alternatif, dan disebut sebagai dataset mainan
famargar
sumber
2
"Monte Carlo" adalah nama metode, jadi nama "sehari-hari" akan sangat menyesatkan.
Tim
@Tim memang, itu bisa dilihat sebagai menyesatkan. Namun, bahasa hanyalah alat yang didasarkan pada konsensus dalam komunitas sebagai cara untuk merujuk pada sesuatu. Sedemikian rupa sehingga kami merujuk pada situs ini untuk rekaman dan pengukuran sebagaimana diberikan (Bahasa Inggris untuk data Latin ). Jika saya mengadopsi sudut pandang Anda, saya akan menemukan bahwa pengukuran yang disimulasi palsu itu sangat dipertanyakan.
famargar
Saya harap Anda akan melihat bahwa merujuk pada "simulasi Monte Carlo" hanya sebagai "Monte Carlo" adalah versi modern yang merujuk pada "pengamatan yang diberikan" sebagai "diberikan". Saya mengedit jawaban saya untuk memasukkan ini dan lebih banyak pertimbangan tentang arti vs penggunaan aktual dari kata "data".
famargar
1
"Para peneliti akademis akan merujuk pada serangkaian rekaman palsu yang paling realistis sebagai data semu": Saya tidak ingat pernah melihat istilah ini dalam 40+ tahun penelitian akademik. "Akademisi biasanya tidak menggunakan rekaman yang tidak realistis": maaf, tetapi itu dianggap salah. Akademisi di banyak bidang menggunakan simulasi dari beberapa jenis. Bahkan simulasi yang tidak realistis dapat bermanfaat, misalnya variabilitas sampel normal adalah konteks penting untuk menilai non-normalitas.
Nick Cox
@NickCox Pseudodata sering digunakan dalam fisika, dan saya telah melihatnya dalam biologi dan statistik. Ingin tahu apa bidang Anda dan bagaimana bidang Anda mengacu pada simulasi. Adapun data yang tidak realistis, saya membuat perbedaan antara tidak realistis dan semi-realistis. Apakah saya melewatkan case use Anda?
famargar