Jumlah digit signifikan untuk dilaporkan

12

Apakah ada cara yang lebih ilmiah untuk menentukan jumlah digit signifikan untuk dilaporkan dengan rata-rata atau interval kepercayaan dalam situasi yang cukup standar - misalnya kelas tahun pertama di perguruan tinggi.

Saya telah melihat Jumlah angka penting untuk dimasukkan ke dalam tabel , Mengapa kita tidak menggunakan angka signifikan dan Jumlah angka signifikan dalam chi square , tetapi ini tampaknya tidak menyentuh masalah.

Di kelas saya, saya mencoba menjelaskan kepada siswa saya bahwa membuang-buang tinta untuk melaporkan 15 digit signifikan ketika mereka memiliki kesalahan standar yang begitu luas dalam hasil mereka - firasat saya adalah bahwa itu harus dibulatkan ke sekitar suatu tempat dari urutan . Ini tidak jauh berbeda dari apa yang dikatakan oleh ASTM - Hasil Uji Pelaporan mengacu pada E29 di mana mereka mengatakan itu harus antara dan .0,25σ0,05σ0,5σ

EDIT:

Ketika saya memiliki satu set angka seperti di xbawah ini, berapa angka yang harus saya gunakan untuk mencetak mean dan standar deviasi?

set.seed(123)
x <- rnorm(30) # default mean=0, sd=1
# R defaults to 7 digits of precision options(digits=7)
mean(x) # -0.04710376 - not far off theoretical 0
sd(x) # 0.9810307 - not far from theoretical 1
sd(x)/sqrt(length(x)) # standard error of mean 0.1791109

PERTANYAAN: Jabarkan secara terperinci apa presisi itu (ketika ada vektor angka presisi ganda) untuk mean dan standar deviasi dalam hal ini dan tuliskan fungsi pedagogis R sederhana yang akan mencetak mean dan standar deviasi ke sejumlah besar digit yang tercermin dalam vektor x.

Sean
sumber
Saya tidak mengerti mengapa "Jumlah angka penting untuk dimasukkan ke dalam tabel" tidak sepenuhnya menjawab pertanyaan Anda: poin apa yang dilewatkan oleh pertanyaan itu?
whuber
Saya suka jawaban Anda untuk pertanyaan itu @whuber, tapi saya ingin sedikit lebih detail.
Sean
1
Tapi detail tentang apa? Bagaimanapun, sepertinya pertanyaan Anda benar-benar duplikat dari pertanyaan itu dan apa yang Anda inginkan adalah melihat peningkatan pada jawabannya. Apakah saya benar? BTW, jika Anda mencari panduan pedagogis, saya ingin mengarahkan Anda ke satu (khusus) contoh saya diposting di gis.stackexchange.com/questions/8650 tentang pelaporan koordinat geografis: ide ada untuk mengaitkan jumlah signifikan digit dengan objek yang ukurannya akan dipahami oleh sebagian besar pembaca dan secara intuitif. Pendekatan serupa mungkin bekerja dengan baik di aplikasi lain.
whuber
1
@whuber ya Anda benar, dan saya suka contoh itu. Saya kira saya sedang mencari lebih detail tentang bagaimana presisi terkait dengan standar deviasi. Misalnya dalam R, x <- rnorm (30); berarti (x); sd (x) # di sini jelas sdnya sekitar 1 tetapi di R rata-rata dicetak secara default dengan 7 digit presisi. sd (x) / 30 adalah sekitar 0,18. Terima kasih
Sean
Dalam R(dan juga hampir semua perangkat lunak), pencetakan dikendalikan oleh nilai global (lihat options(digits=...)), bukan dengan pertimbangan presisi.
whuber

Jawaban:

9

Panduan untuk Ketidakpastian dalam Pengukuran (GUM) merekomendasikan bahwa ketidakpastian dilaporkan dengan tidak lebih dari 2 digit dan bahwa hasilnya dilaporkan dengan jumlah digit signifikan yang diperlukan untuk membuatnya konsisten dengan ketidakpastian. Lihat Bagian 7.2.2 di bawah

http://www.bipm.org/utils/common/documents/jcgm/JCGM_100_2008_E.pdf

Kode berikut ini adalah upaya saya untuk mengimplementasikan rekomendasi ini di R. Noe bahwa R dapat menjadi tidak kooperatif dengan upaya untuk mempertahankan nol di belakang dalam output, bahkan jika mereka signifikan.

gumr <- function(x.n,x.u) {
  z2 <- trunc(log10(x.u))+1
  z1 <- round(x.u/(10^z2),2)
  y1 <- round(x.n*10^(-z2),2)
  list(value=y1*10^z2,uncert=z1*10^z2)
}

x.val <- 8165.666
x.unc <- 338.9741
gumr(x.val,x.unc)
Tom
sumber
Untuk kelengkapan: > gumr(x.val,x.unc) $value [1] 8170 $uncert [1] 340
rhombidodecahedron
@ rhombidodecahedron bukankah ketidakpastian hanya memiliki satu angka penting di sini? 82 ± 3 (× 10²)
jfs
@ jfs rekomendasi mengatakan untuk menggunakan dua angka penting dalam ketidakpastian, bukan?
rhombidodecahedron
@rhombidodecahedron jawabannya mengatakan "tidak lebih dari 2" Kriteria dalam GUM tidak jelas bagi saya. Tabel 3 dari arxiv.org/pdf/1301.1034.pdf menyarankan 1 digit signifikan untuk dilaporkan kurang dari 7 pengukuran.
jfs
Contoh kode tidak mengikuti aturan GUM yang disarankan. Jika val = 8165.666dan unc = 338.9741, pengukuran harus dilaporkan sebagai val = 8.17(34)*10^3(bukan val = 8170dengan unc = 340seperti yang diberikan), untuk memperjelas bahwa hanya dua digit ketidakpastian yang signifikan.
divenex
6

Jika Anda menunjukkan interval kepercayaan serta nilai statistik, maka tidak ada masalah dengan memberikan angka signifikan sebanyak yang Anda inginkan, karena dalam kasus itu sejumlah besar angka signifikan tidak menyiratkan ketelitian palsu seperti interval kepercayaan memberikan sebuah indikasi dari presisi yang sebenarnya mungkin (interval kredibel akan lebih baik). Ini pada dasarnya adalah masalah membuat tabel rapi, ringkas dan mudah dibaca, jadi pada dasarnya tidak ada aturan sederhana yang cocok untuk semua kesempatan.

Replikabilitas penting dalam studi ilmiah, jadi idealnya dimungkinkan untuk mereproduksi hasilnya ke sejumlah angka penting (apakah mereka signifikansi praktis atau tidak). Membulatkan ke sejumlah kecil angka signifikan dapat mengurangi kepercayaan diri dalam replikasi studi karena kesalahan dapat ditutup oleh pembulatan hasil, sehingga ada kemungkinan downside ke pembulatan dalam beberapa keadaan.

Alasan lain untuk tidak terlalu jauh adalah bahwa hal itu tidak memungkinkan orang lain untuk memperpanjang studi Anda tanpa benar-benar mengulanginya. Sebagai contoh, saya mungkin menerbitkan makalah yang membandingkan berbagai algoritma pembelajaran mesin menggunakan uji Friedman, yang tergantung pada peringkat algoritma yang berbeda pada satu set dataset patokan. Jika statistik untuk masing-masing pengklasifikasi pada setiap dataset diberikan kepada sejumlah angka signifikan tergantung pada kesalahan standar mereka, ini tidak diragukan lagi akan membuat banyak ikatan yang jelas dalam peringkat. Ini berarti bahwa (i) pembaca / peninjau makalah tidak akan dapat meniru tes Friedman dari hasil yang diberikan dalam makalah dan (ii) orang lain kemudian tidak akan dapat mengevaluasi algoritma mereka pada dataset patokan dan menggunakan Friedman tes untuk memasukkannya ke dalam konteks hasil dari penelitian saya.

Dikran Marsupial
sumber
4

Tentunya setiap keputusan, yang dibuat secara objektif atau subyektif, akan sangat bergantung pada apa yang Anda ukur, dan seberapa tepat instrumen pengukuran Anda. Yang terakhir hanyalah salah satu bagian dari variasi yang diamati, dan tidak selalu mudah untuk membedakan atau menemukan bukti yang ada. Jadi saya sangat curiga tidak ada keputusan yang objektif dan dapat diterapkan secara universal. Anda hanya perlu menggunakan otak Anda dan membuat penilaian terbaik dalam setiap situasi.

DL Dahly
sumber