Apakah ada cara yang lebih ilmiah untuk menentukan jumlah digit signifikan untuk dilaporkan dengan rata-rata atau interval kepercayaan dalam situasi yang cukup standar - misalnya kelas tahun pertama di perguruan tinggi.
Saya telah melihat Jumlah angka penting untuk dimasukkan ke dalam tabel , Mengapa kita tidak menggunakan angka signifikan dan Jumlah angka signifikan dalam chi square , tetapi ini tampaknya tidak menyentuh masalah.
Di kelas saya, saya mencoba menjelaskan kepada siswa saya bahwa membuang-buang tinta untuk melaporkan 15 digit signifikan ketika mereka memiliki kesalahan standar yang begitu luas dalam hasil mereka - firasat saya adalah bahwa itu harus dibulatkan ke sekitar suatu tempat dari urutan . Ini tidak jauh berbeda dari apa yang dikatakan oleh ASTM - Hasil Uji Pelaporan mengacu pada E29 di mana mereka mengatakan itu harus antara dan .
EDIT:
Ketika saya memiliki satu set angka seperti di x
bawah ini, berapa angka yang harus saya gunakan untuk mencetak mean dan standar deviasi?
set.seed(123)
x <- rnorm(30) # default mean=0, sd=1
# R defaults to 7 digits of precision options(digits=7)
mean(x) # -0.04710376 - not far off theoretical 0
sd(x) # 0.9810307 - not far from theoretical 1
sd(x)/sqrt(length(x)) # standard error of mean 0.1791109
PERTANYAAN: Jabarkan secara terperinci apa presisi itu (ketika ada vektor angka presisi ganda) untuk mean dan standar deviasi dalam hal ini dan tuliskan fungsi pedagogis R sederhana yang akan mencetak mean dan standar deviasi ke sejumlah besar digit yang tercermin dalam vektor x
.
R
(dan juga hampir semua perangkat lunak), pencetakan dikendalikan oleh nilai global (lihatoptions(digits=...)
), bukan dengan pertimbangan presisi.Jawaban:
Panduan untuk Ketidakpastian dalam Pengukuran (GUM) merekomendasikan bahwa ketidakpastian dilaporkan dengan tidak lebih dari 2 digit dan bahwa hasilnya dilaporkan dengan jumlah digit signifikan yang diperlukan untuk membuatnya konsisten dengan ketidakpastian. Lihat Bagian 7.2.2 di bawah
http://www.bipm.org/utils/common/documents/jcgm/JCGM_100_2008_E.pdf
Kode berikut ini adalah upaya saya untuk mengimplementasikan rekomendasi ini di R. Noe bahwa R dapat menjadi tidak kooperatif dengan upaya untuk mempertahankan nol di belakang dalam output, bahkan jika mereka signifikan.
sumber
> gumr(x.val,x.unc) $value [1] 8170 $uncert [1] 340
val = 8165.666
danunc = 338.9741
, pengukuran harus dilaporkan sebagaival = 8.17(34)*10^3
(bukanval = 8170
denganunc = 340
seperti yang diberikan), untuk memperjelas bahwa hanya dua digit ketidakpastian yang signifikan.Jika Anda menunjukkan interval kepercayaan serta nilai statistik, maka tidak ada masalah dengan memberikan angka signifikan sebanyak yang Anda inginkan, karena dalam kasus itu sejumlah besar angka signifikan tidak menyiratkan ketelitian palsu seperti interval kepercayaan memberikan sebuah indikasi dari presisi yang sebenarnya mungkin (interval kredibel akan lebih baik). Ini pada dasarnya adalah masalah membuat tabel rapi, ringkas dan mudah dibaca, jadi pada dasarnya tidak ada aturan sederhana yang cocok untuk semua kesempatan.
Replikabilitas penting dalam studi ilmiah, jadi idealnya dimungkinkan untuk mereproduksi hasilnya ke sejumlah angka penting (apakah mereka signifikansi praktis atau tidak). Membulatkan ke sejumlah kecil angka signifikan dapat mengurangi kepercayaan diri dalam replikasi studi karena kesalahan dapat ditutup oleh pembulatan hasil, sehingga ada kemungkinan downside ke pembulatan dalam beberapa keadaan.
Alasan lain untuk tidak terlalu jauh adalah bahwa hal itu tidak memungkinkan orang lain untuk memperpanjang studi Anda tanpa benar-benar mengulanginya. Sebagai contoh, saya mungkin menerbitkan makalah yang membandingkan berbagai algoritma pembelajaran mesin menggunakan uji Friedman, yang tergantung pada peringkat algoritma yang berbeda pada satu set dataset patokan. Jika statistik untuk masing-masing pengklasifikasi pada setiap dataset diberikan kepada sejumlah angka signifikan tergantung pada kesalahan standar mereka, ini tidak diragukan lagi akan membuat banyak ikatan yang jelas dalam peringkat. Ini berarti bahwa (i) pembaca / peninjau makalah tidak akan dapat meniru tes Friedman dari hasil yang diberikan dalam makalah dan (ii) orang lain kemudian tidak akan dapat mengevaluasi algoritma mereka pada dataset patokan dan menggunakan Friedman tes untuk memasukkannya ke dalam konteks hasil dari penelitian saya.
sumber
Tentunya setiap keputusan, yang dibuat secara objektif atau subyektif, akan sangat bergantung pada apa yang Anda ukur, dan seberapa tepat instrumen pengukuran Anda. Yang terakhir hanyalah salah satu bagian dari variasi yang diamati, dan tidak selalu mudah untuk membedakan atau menemukan bukti yang ada. Jadi saya sangat curiga tidak ada keputusan yang objektif dan dapat diterapkan secara universal. Anda hanya perlu menggunakan otak Anda dan membuat penilaian terbaik dalam setiap situasi.
sumber