Saya ingin memperkirakan ketidakpastian atau keandalan kurva yang dipasang. Saya sengaja tidak menyebutkan jumlah matematis yang tepat yang saya cari, karena saya tidak tahu apa itu.
Di sini (energi) adalah variabel dependen (respons) dan (volume) adalah variabel independen. Saya ingin mencari kurva Energy-Volume, , dari beberapa bahan. Jadi saya membuat beberapa perhitungan dengan program komputer kimia kuantum untuk mendapatkan energi untuk beberapa volume sampel (lingkaran hijau dalam plot).V E ( V )
Kemudian saya melengkapi sampel data ini dengan fungsi Birch – Murnaghan : yang tergantung pada empat parameter: . Saya juga berasumsi bahwa ini adalah fungsi pemasangan yang benar, jadi semua kesalahan hanya berasal dari kebisingan sampel. Dalam apa yang berikut, fungsi dipasang akan ditulis sebagai fungsi .E 0 , V 0 , B 0 , B ' 0 ( E ) V
Di sini Anda dapat melihat hasilnya (pas dengan algoritma kuadrat terkecil). Variabel y-axis adalah dan variabel x-sumbu . Garis biru cocok dan lingkaran hijau adalah titik sampel.V
Sekarang saya membutuhkan ukuran keandalan (paling tidak tergantung pada volume) dari kurva yang pas ini, , karena saya perlu menghitung kuantitas lebih lanjut seperti tekanan transisi atau entalpi.
Intutisi saya memberi tahu saya bahwa kurva yang pas paling dapat diandalkan di tengah, jadi saya kira ketidakpastian (katakanlah rentang ketidakpastian) akan meningkat mendekati akhir data sampel, seperti dalam sketsa ini:
Namun, ukuran seperti apa yang saya cari dan bagaimana saya bisa menghitungnya?
Lebih tepatnya, sebenarnya hanya ada satu sumber kesalahan di sini: Sampel yang dihitung berisik karena batas komputasi. Jadi jika saya akan menghitung satu set sampel data yang padat mereka akan membentuk kurva bergelombang.
Gagasan saya untuk menemukan perkiraan ketidakpastian yang diinginkan adalah menghitung 'kesalahan' berikut berdasarkan parameter saat Anda mempelajarinya di sekolah ( penyebaran ketidakpastian ):
ΔE0,ΔV0,ΔB0ΔB′0
Apakah itu pendekatan yang dapat diterima atau saya salah melakukannya?
PS: Saya tahu bahwa saya juga bisa meringkas kotak-kotak residu antara sampel data saya dan kurva untuk mendapatkan semacam '' kesalahan standar '' tetapi ini tidak tergantung volume.
Jawaban:
Ini adalah masalah kuadrat biasa!
Mendefinisikan
model dapat ditulis ulang
R
sumber
Ini dapat dilakukan untuk variabel dependen apa pun dalam Pembuat Model AD. Satu menyatakan variabel di tempat yang sesuai dalam kode seperti ini
dan menulis kode, evaluasi variabel dependen seperti ini
Catatan ini dievaluasi untuk nilai variabel independen 2 kali yang terbesar yang diamati dalam pemasangan model. Pas dengan model dan satu memperoleh deviasi standar untuk variabel dependen ini
Saya telah memodifikasi program untuk memasukkan kode untuk menghitung batas kepercayaan untuk fungsi entalpi-volume File kode (TPL) terlihat seperti
Kemudian saya memasang kembali model untuk mendapatkan devs standar untuk perkiraan H.
Ini dihitung untuk nilai V yang Anda amati, tetapi dapat dengan mudah dihitung untuk nilai V. apa pun
Telah ditunjukkan bahwa ini sebenarnya adalah model linier yang ada kode R sederhana untuk melakukan estimasi parameter melalui OLS. Ini sangat menarik terutama bagi pengguna yang naif. Namun sejak karya Huber lebih dari tiga puluh tahun yang lalu kita tahu atau harus tahu bahwa seseorang mungkin hampir selalu menggantikan OLS dengan alternatif yang cukup kuat. Alasan mengapa hal ini tidak dilakukan secara rutin, saya percaya bahwa metode yang kuat pada dasarnya tidak linier. Dari sudut pandang ini, metode OLS menarik sederhana di R lebih merupakan jebakan, bukan fitur. Sebuah kemajuan dari pendekatan AD Model Builder dibangun untuk mendukung pemodelan nonlinear. Untuk mengubah kode kuadrat terkecil menjadi campuran normal yang kuat, hanya satu baris kode yang perlu diubah. Garis
diubah menjadi
Jumlah penyebaran berlebih dalam model diukur dengan parameter a. Jika a sama dengan 1.0, variansnya sama dengan untuk model normal. Jika ada inflasi varians oleh outlier kami berharap bahwa a akan lebih kecil dari 1,0. Untuk data ini, estimasi a adalah sekitar 0,23 sehingga variansnya sekitar 1/4 varians untuk model normal. Interpretasinya adalah bahwa outlier telah meningkatkan estimasi varians dengan faktor sekitar 4. Efeknya adalah meningkatkan ukuran batas kepercayaan untuk parameter untuk model OLS. Ini merupakan hilangnya efisiensi. Untuk model campuran normal, estimasi standar deviasi untuk fungsi volume entalpi adalah
Orang melihat bahwa ada perubahan kecil dalam estimasi titik, sementara batas kepercayaan telah dikurangi menjadi sekitar 60% dari yang diproduksi oleh OLS.
Poin utama yang ingin saya sampaikan adalah bahwa semua perhitungan yang dimodifikasi terjadi secara otomatis begitu seseorang mengubah satu baris kode dalam file TPL.
sumber
Validasi silang adalah cara sederhana untuk memperkirakan keandalan kurva Anda: https://en.wikipedia.org/wiki/Cross-validation_(statistics)
Anda dapat menghitung kesalahan validasi 1 kali lipat dengan membiarkan salah satu dari poin Anda tidak pas dan menggunakan kurva yang pas untuk memprediksi nilai dari poin yang ditinggalkan. Ulangi ini untuk semua poin sehingga masing-masing dibiarkan begitu saja. Kemudian, hitung kesalahan validasi kurva akhir Anda (kurva yang dilengkapi dengan semua titik) sebagai rata-rata kesalahan prediksi.
Ini hanya akan memberi tahu Anda seberapa sensitif model Anda untuk setiap titik data baru. Misalnya, tidak akan memberi tahu Anda seberapa akurat model energi Anda. Namun, ini akan menjadi estimasi kesalahan yang jauh lebih realistis hanya kesalahan pemasangan.
Selain itu, Anda dapat merencanakan kesalahan prediksi sebagai fungsi volume jika diinginkan.
sumber