Bagaimana saya bisa membandingkan model tanpa pemasangan?

Regresi dan pembelajaran mesin digunakan dalam ilmu alam untuk menguji hipotesis, memperkirakan parameter, dan membuat prediksi dengan mencocokkan model dengan data. Namun, ketika saya memiliki model apriori , saya tidak ingin melakukan fitting --- misalnya, model sistem fisik deterministik yang dihitung dari prinsip pertama. Saya hanya ingin tahu seberapa baik model saya cocok dengan data, dan kemudian memahami bagian mana dari model yang memberikan kontribusi signifikan untuk pertandingan. Bisakah seseorang mengarahkan saya ke arah cara yang ketat secara statistik dalam melakukan ini?

Dalam istilah yang lebih spesifik, anggaplah saya memiliki sistem fisik di mana saya mengukur variabel dependen $y_i$ ( $i$ berkisar dari 1 hingga $n$ , ukuran sampel) dalam berbagai kondisi yang dijelaskan oleh tiga variabel independen $x_{1,i}$ , $x_{2,i}$ , dan $x_{3,i}$ . Meskipun sistem nyata yang menghasilkan data rumit, saya membuat beberapa asumsi penyederhanaan untuk mendapatkan model teoritis $f$ untuk sistem, sedemikian rupa

$y_i = f(x_{1,i}, x_{2,i}, x_{3,i}) + \epsilon_i$ ,

dimana $f$ adalah fungsi non-linear (dan tidak linierisasi) dari variabel independen dan $\epsilon_i$ adalah perbedaan antara model yang diprediksi dan nilai yang diukur. $f$ sepenuhnya ditentukan sebelumnya; tidak ada pemasangan yang dilakukan dan tidak ada parameter yang diperkirakan. Tujuan pertama saya adalah menentukan apakah $f$ adalah model yang masuk akal untuk proses yang menghasilkan nilai yang diukur $y_i$ .

Saya juga mengembangkan model yang disederhanakan $g(x_{1,i}, x_{2,i})$ dan $h(x_{1,i})$ , yang bersarang di $f$ (jika itu penting dalam kasus ini). Tujuan kedua saya adalah menentukan apakah $f$ cocok dengan data secara signifikan lebih baik daripada $g$ atau $h$ , menunjukkan bahwa fitur yang membedakan model $f$ dari model $g$ dan $h$ memainkan peran penting dalam proses yang menghasilkan $y_i$ .

Ide sejauh ini

Mungkin jika ada beberapa cara untuk menentukan jumlah parameter atau jumlah derajat kebebasan untuk model matematika saya, akan mungkin untuk menggunakan prosedur yang ada seperti tes rasio kemungkinan atau perbandingan AIC. Namun, mengingat bentuk nonlinear dari $f$ dan tidak adanya parameter yang jelas, saya tidak yakin apakah itu wajar untuk menetapkan parameter atau untuk mengasumsikan apa yang merupakan derajat kebebasan.

Saya pernah membaca bahwa ukuran good-of-fit, seperti koefisien determinasi ( $R^2$ ), dapat digunakan untuk membandingkan kinerja model. Namun, tidak jelas bagi saya apa ambang batas untuk perbedaan yang berarti antara $R^2$ nilai mungkin. Lebih lanjut, karena saya tidak mencocokkan model dengan data, rata-rata residu tidak nol dan mungkin berbeda untuk masing-masing model. Dengan demikian, model yang cocok yang cenderung underpredict data mungkin menghasilkan nilai yang buruk $R^2$ sebagai model yang tidak bias tetapi tidak cocok dengan data.

Saya juga sudah membaca sedikit tentang tes good-of-fit (misalnya, Anderson-Darling), tetapi karena statistik bukan bidang saya, saya tidak yakin seberapa baik jenis tes ini sesuai dengan tujuan saya. Bimbingan apa pun akan dihargai.

modeling simulation goodness-of-fit model-comparison kemunduran
sumber

Apakah ada nilai parameter untuk fungsi nonlinear f()yang perlu ditentukan dari kecocokan dengan data, atau apakah fungsi f()sepenuhnya ditentukan sebelumnya?

EdM

@ EDM Terima kasih untuk itu! Mengedit pertanyaan untuk mengklarifikasi yang fsepenuhnya ditentukan sebelumnya. Ini seperti kotak hitam yang menghasilkan respons ydari variabel input, dan saya ingin tahu seberapa baik kinerjanya dibandingkan dengan kotak hitam yang bersaing. Situasi analagous mungkin mencoba untuk mengevaluasi kecocokan antara output dari simulasi numerik dan pengukuran yang dibuat dalam sistem fisik nyata.

jbacks

Jawaban:

Dalam situasi ini Anda pada dasarnya membandingkan distribusi $\epsilon_i$ di antara 3 model. Jadi, Anda perlu memeriksa masalah seperti:

Apakah nilai rata-rata dari $\epsilon_i$ berbeda di antara 3 model, dan apakah ada nilai rata-rata yang berbeda dari 0? (Yaitu, apakah ada bias dalam salah satu model dan apakah 3 model berbeda dalam bias?)
Apakah ada hubungan sistematis dari $\epsilon_i$ untuk nilai-nilai yang diprediksi dari model yang sesuai, atau ke nilai-nilai variabel independen $x_{1,i},x_{2,i}, x_{3,1}$ ? Anda harus mempertimbangkan ketiga variabel independen di sini bahkan jika model tertentu hanya menggunakan 1 atau 2 dari mereka.
Apakah ada perbedaan yang signifikan dalam varian $\epsilon_i$ di antara 3 model?

Rincian cara terbaik untuk mendekati pertanyaan-pertanyaan ini akan tergantung pada sifat data Anda. Misalnya, jika nilai $y_i$ selalu positif dan memiliki kesalahan pengukuran khas sebanding dengan nilai-nilainya (seperti yang sering terjadi dalam praktiknya), mungkin masuk akal untuk melakukan analisis ini pada perbedaan antara log-transformed $y_i$ dan prediksi log-transformasi dari masing-masing model Anda.

Analisis visual dari distribusi $\epsilon_i$ di antara 3 model, misalnya dengan plot kerapatan, akan menjadi langkah pertama yang penting.

Tergantung pada sifat data, uji statistik parametrik standar atau non-parametrik untuk perbedaan nilai rata-rata, diterapkan pada $\epsilon_i$ untuk 3 model, akan membahas Masalah 1.

Masalah 2 pada dasarnya adalah apa yang dilakukan untuk memeriksa kualitas model yang dipasang; dalam kasus Anda, analisis ini mungkin memperlihatkan domain variabel independen di mana satu atau lebih dari model yang ditentukan sebelumnya tidak berfungsi dengan baik. Plot $\epsilon_i$ versus nilai prediksi dan nilai variabel independen, dengan kurva loess untuk menyoroti tren, untuk setiap model Anda akan berguna.

Jika tidak ada bias dalam model apa pun dan analisis Edisi 2 tidak menunjukkan masalah, maka Isu 3 lainnya adalah apakah ada model yang lebih unggul dalam hal presisi / varians. Dalam kasus ideal dengan terdistribusi normal $\epsilon_i$ dalam setiap model, uji-F dapat menguji kesetaraan varian.

EdM
sumber

Memikirkan distribusi residu sebagai objek perbandingan adalah perubahan perspektif yang bermanfaat! a) Apakah Anda tahu ada analisis yang dipublikasikan yang menggunakan metode serupa? Saya merasa situasi saya tidak biasa. Setiap preseden yang diterbitkan akan membantu. b) Rata-rata dari setiap distribusi residu adalah nol dan terlihat berbeda untuk dua model saya, dan saya berharap ANOVA akan mengkonfirmasi ini. Mengetahui hal ini, apakah masih masuk akal untuk memeriksa perbedaan di antara varian dari setiap distribusi residu (Edisi 3)? Bisakah pola yang diekspos melalui Edisi 2 membatalkan perbandingan varian?

jbacks

@ mundur Saya tidak tahu tentang preseden yang diterbitkan tetapi saya tidak berpikir pendekatan ini akan sulit dijual jika ada dasar teori yang kuat untuk model Anda. Dalam analisis berbasis teori ini, fokuslah pada alasan bias sistematis (kesalahan bukan nol, Isu I) antara prediksi dan pengamatan. Tampaknya akan mendapatkan paling langsung pada nilai relatif dari model. Edisi II (semua pola besaran / arah kesalahan yang terkait dengan nilai variabel independen atau nilai prediksi) harus menggambarkan di mana model Anda akan tersesat. Perbandingan varian model kurang menarik.

EdM

@jbacks juga mempertimbangkan untuk bekerja dengan pengamatan / prediksi dalam skala transformasi seperti logaritmik. Bias dalam hal kesalahan dalam skala non-transformasi dapat dikurangi atau dihapus setelah transformasi. Perhatikan bahwa penggunaan persen kesalahan, disarankan dalam jawaban lain, setara dengan melihat perbedaan antara prediksi dan pengamatan yang diubah log. Anda harus menilai apakah itu sesuai untuk situasi ini.

EdM

Ini tampaknya masuk akal, dan saya akan mencobanya. Sekali lagi terima kasih atas wawasan Anda.

jbacks

Perbandingan probabilistik dari model, misalnya melibatkan beberapa kemungkinan dihitung dari $\epsilon$ dengan beberapa data (dan berasal dari tes AIC atau rasio ini), tidak masuk akal.

Hal ini karena

Anda sudah tahu pasti bahwa modelnya akan salah.
Sisa yang Anda dapatkan tidak memiliki hubungan dengan distribusi kesalahan yang Anda gunakan untuk menguji berbagai hipotesis. (Anda tidak memiliki model statistik / probabilisitc)
Tujuan Anda bukan untuk menguji hipotesis (ilmu dasar / murni), tetapi untuk mengkarakterisasi kinerja prediksi model yang disederhanakan (ilmu terapan).

Paling sering orang menggambarkan model dalam hal persentase kesalahan untuk prediksi.

Contoh:

Prediksi penurunan tekanan aliran pipa lumpur menggunakan faktor gesekan hukum-kekuatan gabungan-korelasi bilangan Reynolds berdasarkan bilangan Reynolds non-Newtonian yang berbeda

Terlihat bahwa korelasi ini dapat digunakan untuk memprediksi penurunan tekanan hingga dalam ± 20% untuk konsentrasi lumpur dan kondisi operasi yang diberikan.
Memprediksi viskositas efektif nanofluida berdasarkan reologi suspensi partikel padat

Model ini sesuai dengan nilai viskositas 501 dengan penyimpangan rata-rata lebih rendah dari 5% dan 75% di antaranya berada dalam koefisien korelasi 0,78-1.
Penerapan kecerdasan buatan untuk pemodelan aspal - viskositas karet

Gambar 2 menyajikan perbandingan antara viskositas yang diukur ( $\rho$ ) dan viskositas dihitung dengan model Einstein. Perbedaan antara nilai yang dihitung dan yang diukur menegaskan bahwa ada interaksi fisik yang meningkat antara dasar aspal dan partikel karet.
Metode kontribusi obligasi untuk memperkirakan konstanta hukum henry

Koefisien korelasi (r2) sebesar 0,94 ditentukan untuk hubungan antara LWAPC yang diketahui (koefisien partisi air ke udara) dan estimasi LWAPC untuk 345 kumpulan data senyawa.

Pada dasarnya Anda dapat google model apa pun yang merupakan penyederhanaan realitas dan Anda akan menemukan orang-orang menggambarkan perbedaan mereka dengan kenyataan dalam hal koefisien korelasi, atau persen variasi.

Saya ingin menguji hipotesis bahwa "fenomena A" yang melibatkan x_3,i berkontribusi secara terukur terhadap produksi y. Model fmemasukkan fenomena A sementara g dan htidak, jadi jika hipotesis saya benar, saya akan memprediksi bahwa model fberperforma lebih baik daripada salah satu g atau h.

Untuk perbandingan seperti itu, Anda dapat mempertimbangkan kinerja yang diukur sebagai sampel, sampel yang diambil dari populasi kinerja yang lebih besar (hipotetis).

Jadi, Anda ingin menggambarkan parameter distribusi populasi kesalahan $\epsilon$ dan bandingkan itu. Ini mungkin Anda anggap probabilistik. Misalnya, Anda dapat menyebutnya sebagai 'kesalahan rata-rata model $y \pm x$ ' . Hipotesis Anda adalah tentang parameter-parameter yang menggambarkan distribusi kesalahan.

Namun pandangan ini agak bermasalah, karena seringkali "sampel" yang digunakan untuk mengukur kinerja, sebenarnya bukan pilihan acak (misalnya pengukuran sepanjang rentang yang telah ditentukan atau di antara set item praktis yang dipilih). Maka setiap kuantifikasi kesalahan dalam estimasi kinerja umum tidak boleh didasarkan pada model untuk pemilihan acak (misalnya menggunakan varians dalam sampel untuk menggambarkan kesalahan estimasi). Jadi masih masuk akal untuk menggunakan model probabilistik untuk menggambarkan perbandingan. Mungkin cukup untuk hanya menyatakan data deskriptif, dan membuat "perkiraan" Anda tentang generalisasi berdasarkan argumen logis.

Sextus Empiricus
sumber

Contoh-contoh ini sangat membantu! Saya agak bingung dengan pernyataan Anda bahwa tujuan saya tidak melibatkan tes hipotesis. Ketika saya membingkainya, saya ingin menguji hipotesis bahwa "fenomena A" yang melibatkan x_3,iberkontribusi secara terukur terhadap produksi y. Model fmemasukkan fenomena A sementara gdan htidak, jadi jika hipotesis saya benar, saya akan memprediksi bahwa model fberperforma lebih baik daripada salah satu gatau h.

jbacks

@ mundur untuk perbandingan seperti itu, Anda dapat mempertimbangkan kinerja yang diukur sebagai sampel yang diambil dari populasi besar kinerja. Jadi Anda ingin menggambarkan parameter distribusi populasi kesalahan

ϵ

$\epsilon$ dan bandingkan itu. Ini mungkin Anda anggap probabilistik. Misalnya, Anda dapat menyebutnya sebagai 'kesalahan rata-rata model

x \pm y

$x \pm y$ ' Hipotesis Anda adalah tentang parameter - parameter itu.

Sextus Empiricus

Terima kasih telah memperluas komentar itu dengan hasil edit Anda. Antara perspektif ini dan jawaban yang lain, saya pikir saya memiliki jalan masuk yang masuk akal. Sangat dihargai!

jbacks