Saya punya beberapa dataset dengan urutan ribuan poin. Nilai dalam setiap dataset adalah X, Y, Z yang mengacu pada koordinat dalam ruang. Nilai Z mewakili perbedaan ketinggian pada pasangan koordinat (x, y).
Biasanya di bidang SIG saya, kesalahan ketinggian dirujuk dalam RMSE dengan mengurangi titik ground-truth ke titik pengukuran (titik data LiDAR). Biasanya minimum 20 titik pemeriksaan ground-truthing digunakan. Dengan menggunakan nilai RMSE ini, menurut NDEP (National Digital Elevation Guidelines) dan pedoman FEMA, ukuran akurasi dapat dihitung: Akurasi = 1,96 * RMSE.
Akurasi ini dinyatakan sebagai: "Akurasi vertikal mendasar adalah nilai dimana akurasi vertikal dapat dinilai secara adil dan dibandingkan di antara set data. Akurasi mendasar dihitung pada tingkat kepercayaan 95 persen sebagai fungsi dari RMSE vertikal."
Saya mengerti bahwa 95% dari area di bawah kurva distribusi normal terletak pada 1,96 * std.deviation, namun itu tidak berhubungan dengan RMSE.
Secara umum saya mengajukan pertanyaan ini: Menggunakan RMSE dihitung dari 2-dataset, bagaimana saya bisa menghubungkan RMSE dengan semacam akurasi (yaitu 95 persen dari titik data saya berada dalam +/- X cm)? Juga, bagaimana saya bisa menentukan apakah dataset saya terdistribusi secara normal menggunakan tes yang berfungsi baik dengan dataset yang begitu besar? Apa "cukup baik" untuk distribusi normal? Haruskah p <0,05 untuk semua tes, atau haruskah itu cocok dengan bentuk distribusi normal?
Saya menemukan beberapa informasi yang sangat baik tentang topik ini di makalah berikut:
http://paulzandbergen.com/PUBLICATIONS_files/Zandbergen_TGIS_2008.pdf
sumber
Jawaban:
Lihatlah pertanyaan hampir duplikat: Interval kepercayaan RMSE ?
Awal yang baik adalah mengamati distribusi
z
nilai - nilai empiris . Ini adalah contoh yang bisa direproduksi.Pada pandangan pertama, itu terlihat normal, bukan? (sebenarnya, kita tahu itu normal karena
rnorm
perintah yang kita gunakan).Jika seseorang ingin menganalisis sampel kecil pada dataset ada Uji Normalitas Shapiro-Wilk.
Satu juga dapat mengulangi tes SW berkali-kali pada sampel kecil yang berbeda, dan kemudian, lihat distribusi
p-values
.Sadarilah bahwa uji normalitas pada dataset besar tidak begitu berguna seperti yang dijelaskan dalam jawaban yang diberikan oleh Greg Snow ini.
Jadi, mari kita buat plot QQ:
Jika titik-titik sejajar dalam
y=x
garis itu berarti distribusi empiris cocok dengan distribusi teoritis, yang dalam hal ini adalah distribusi normal.sumber