Bagaimana saya bisa membandingkan model tanpa pemasangan?

8

Regresi dan pembelajaran mesin digunakan dalam ilmu alam untuk menguji hipotesis, memperkirakan parameter, dan membuat prediksi dengan mencocokkan model dengan data. Namun, ketika saya memiliki model apriori , saya tidak ingin melakukan fitting --- misalnya, model sistem fisik deterministik yang dihitung dari prinsip pertama. Saya hanya ingin tahu seberapa baik model saya cocok dengan data, dan kemudian memahami bagian mana dari model yang memberikan kontribusi signifikan untuk pertandingan. Bisakah seseorang mengarahkan saya ke arah cara yang ketat secara statistik dalam melakukan ini?

Dalam istilah yang lebih spesifik, anggaplah saya memiliki sistem fisik di mana saya mengukur variabel dependen ysaya (saya berkisar dari 1 hingga n, ukuran sampel) dalam berbagai kondisi yang dijelaskan oleh tiga variabel independen x1,saya, x2,saya, dan x3,saya. Meskipun sistem nyata yang menghasilkan data rumit, saya membuat beberapa asumsi penyederhanaan untuk mendapatkan model teoritisf untuk sistem, sedemikian rupa

ysaya=f(x1,saya,x2,saya,x3,saya)+ϵsaya,

dimana f adalah fungsi non-linear (dan tidak linierisasi) dari variabel independen dan ϵsaya adalah perbedaan antara model yang diprediksi dan nilai yang diukur. fsepenuhnya ditentukan sebelumnya; tidak ada pemasangan yang dilakukan dan tidak ada parameter yang diperkirakan. Tujuan pertama saya adalah menentukan apakahf adalah model yang masuk akal untuk proses yang menghasilkan nilai yang diukur ysaya.

Saya juga mengembangkan model yang disederhanakan g(x1,saya,x2,saya) dan h(x1,saya), yang bersarang di f(jika itu penting dalam kasus ini). Tujuan kedua saya adalah menentukan apakahf cocok dengan data secara signifikan lebih baik daripada g atau h, menunjukkan bahwa fitur yang membedakan model f dari model g dan h memainkan peran penting dalam proses yang menghasilkan ysaya.

Ide sejauh ini

Mungkin jika ada beberapa cara untuk menentukan jumlah parameter atau jumlah derajat kebebasan untuk model matematika saya, akan mungkin untuk menggunakan prosedur yang ada seperti tes rasio kemungkinan atau perbandingan AIC. Namun, mengingat bentuk nonlinear darif dan tidak adanya parameter yang jelas, saya tidak yakin apakah itu wajar untuk menetapkan parameter atau untuk mengasumsikan apa yang merupakan derajat kebebasan.

Saya pernah membaca bahwa ukuran good-of-fit, seperti koefisien determinasi (R2), dapat digunakan untuk membandingkan kinerja model. Namun, tidak jelas bagi saya apa ambang batas untuk perbedaan yang berarti antaraR2nilai mungkin. Lebih lanjut, karena saya tidak mencocokkan model dengan data, rata-rata residu tidak nol dan mungkin berbeda untuk masing-masing model. Dengan demikian, model yang cocok yang cenderung underpredict data mungkin menghasilkan nilai yang burukR2 sebagai model yang tidak bias tetapi tidak cocok dengan data.

Saya juga sudah membaca sedikit tentang tes good-of-fit (misalnya, Anderson-Darling), tetapi karena statistik bukan bidang saya, saya tidak yakin seberapa baik jenis tes ini sesuai dengan tujuan saya. Bimbingan apa pun akan dihargai.

kemunduran
sumber
Apakah ada nilai parameter untuk fungsi nonlinear f()yang perlu ditentukan dari kecocokan dengan data, atau apakah fungsi f()sepenuhnya ditentukan sebelumnya?
EdM
@ EDM Terima kasih untuk itu! Mengedit pertanyaan untuk mengklarifikasi yang fsepenuhnya ditentukan sebelumnya. Ini seperti kotak hitam yang menghasilkan respons ydari variabel input, dan saya ingin tahu seberapa baik kinerjanya dibandingkan dengan kotak hitam yang bersaing. Situasi analagous mungkin mencoba untuk mengevaluasi kecocokan antara output dari simulasi numerik dan pengukuran yang dibuat dalam sistem fisik nyata.
jbacks

Jawaban:

4

Dalam situasi ini Anda pada dasarnya membandingkan distribusi ϵsayadi antara 3 model. Jadi, Anda perlu memeriksa masalah seperti:

  1. Apakah nilai rata-rata dari ϵsayaberbeda di antara 3 model, dan apakah ada nilai rata-rata yang berbeda dari 0? (Yaitu, apakah ada bias dalam salah satu model dan apakah 3 model berbeda dalam bias?)
  2. Apakah ada hubungan sistematis dari ϵsaya untuk nilai-nilai yang diprediksi dari model yang sesuai, atau ke nilai-nilai variabel independen x1,saya,x2,saya,x3,1? Anda harus mempertimbangkan ketiga variabel independen di sini bahkan jika model tertentu hanya menggunakan 1 atau 2 dari mereka.
  3. Apakah ada perbedaan yang signifikan dalam varian ϵsaya di antara 3 model?

Rincian cara terbaik untuk mendekati pertanyaan-pertanyaan ini akan tergantung pada sifat data Anda. Misalnya, jika nilaiysaya selalu positif dan memiliki kesalahan pengukuran khas sebanding dengan nilai-nilainya (seperti yang sering terjadi dalam praktiknya), mungkin masuk akal untuk melakukan analisis ini pada perbedaan antara log-transformed ysaya dan prediksi log-transformasi dari masing-masing model Anda.

Analisis visual dari distribusi ϵsaya di antara 3 model, misalnya dengan plot kerapatan, akan menjadi langkah pertama yang penting.

Tergantung pada sifat data, uji statistik parametrik standar atau non-parametrik untuk perbedaan nilai rata-rata, diterapkan pada ϵsaya untuk 3 model, akan membahas Masalah 1.

Masalah 2 pada dasarnya adalah apa yang dilakukan untuk memeriksa kualitas model yang dipasang; dalam kasus Anda, analisis ini mungkin memperlihatkan domain variabel independen di mana satu atau lebih dari model yang ditentukan sebelumnya tidak berfungsi dengan baik. Plotϵsaya versus nilai prediksi dan nilai variabel independen, dengan kurva loess untuk menyoroti tren, untuk setiap model Anda akan berguna.

Jika tidak ada bias dalam model apa pun dan analisis Edisi 2 tidak menunjukkan masalah, maka Isu 3 lainnya adalah apakah ada model yang lebih unggul dalam hal presisi / varians. Dalam kasus ideal dengan terdistribusi normalϵsayadalam setiap model, uji-F dapat menguji kesetaraan varian.

EdM
sumber
Memikirkan distribusi residu sebagai objek perbandingan adalah perubahan perspektif yang bermanfaat! a) Apakah Anda tahu ada analisis yang dipublikasikan yang menggunakan metode serupa? Saya merasa situasi saya tidak biasa. Setiap preseden yang diterbitkan akan membantu. b) Rata-rata dari setiap distribusi residu adalah nol dan terlihat berbeda untuk dua model saya, dan saya berharap ANOVA akan mengkonfirmasi ini. Mengetahui hal ini, apakah masih masuk akal untuk memeriksa perbedaan di antara varian dari setiap distribusi residu (Edisi 3)? Bisakah pola yang diekspos melalui Edisi 2 membatalkan perbandingan varian?
jbacks
1
@ mundur Saya tidak tahu tentang preseden yang diterbitkan tetapi saya tidak berpikir pendekatan ini akan sulit dijual jika ada dasar teori yang kuat untuk model Anda. Dalam analisis berbasis teori ini, fokuslah pada alasan bias sistematis (kesalahan bukan nol, Isu I) antara prediksi dan pengamatan. Tampaknya akan mendapatkan paling langsung pada nilai relatif dari model. Edisi II (semua pola besaran / arah kesalahan yang terkait dengan nilai variabel independen atau nilai prediksi) harus menggambarkan di mana model Anda akan tersesat. Perbandingan varian model kurang menarik.
EdM
1
@jbacks juga mempertimbangkan untuk bekerja dengan pengamatan / prediksi dalam skala transformasi seperti logaritmik. Bias dalam hal kesalahan dalam skala non-transformasi dapat dikurangi atau dihapus setelah transformasi. Perhatikan bahwa penggunaan persen kesalahan, disarankan dalam jawaban lain, setara dengan melihat perbedaan antara prediksi dan pengamatan yang diubah log. Anda harus menilai apakah itu sesuai untuk situasi ini.
EdM
Ini tampaknya masuk akal, dan saya akan mencobanya. Sekali lagi terima kasih atas wawasan Anda.
jbacks
1

Perbandingan probabilistik dari model, misalnya melibatkan beberapa kemungkinan dihitung dari ϵ dengan beberapa data (dan berasal dari tes AIC atau rasio ini), tidak masuk akal.

Hal ini karena

  1. Anda sudah tahu pasti bahwa modelnya akan salah.
  2. Sisa yang Anda dapatkan tidak memiliki hubungan dengan distribusi kesalahan yang Anda gunakan untuk menguji berbagai hipotesis. (Anda tidak memiliki model statistik / probabilisitc)
  3. Tujuan Anda bukan untuk menguji hipotesis (ilmu dasar / murni), tetapi untuk mengkarakterisasi kinerja prediksi model yang disederhanakan (ilmu terapan).

Paling sering orang menggambarkan model dalam hal persentase kesalahan untuk prediksi.

Contoh:

Pada dasarnya Anda dapat google model apa pun yang merupakan penyederhanaan realitas dan Anda akan menemukan orang-orang menggambarkan perbedaan mereka dengan kenyataan dalam hal koefisien korelasi, atau persen variasi.


Saya ingin menguji hipotesis bahwa "fenomena A" yang melibatkan  x_3,i berkontribusi secara terukur terhadap produksi  y. Model  fmemasukkan fenomena A sementara  g dan  htidak, jadi jika hipotesis saya benar, saya akan memprediksi bahwa model  fberperforma lebih baik daripada salah satu  g atau  h.

Untuk perbandingan seperti itu, Anda dapat mempertimbangkan kinerja yang diukur sebagai sampel, sampel yang diambil dari populasi kinerja yang lebih besar (hipotetis).

Jadi, Anda ingin menggambarkan parameter distribusi populasi kesalahan ϵ dan bandingkan itu. Ini mungkin Anda anggap probabilistik. Misalnya, Anda dapat menyebutnya sebagai 'kesalahan rata-rata model y±x' . Hipotesis Anda adalah tentang parameter-parameter yang menggambarkan distribusi kesalahan.

Namun pandangan ini agak bermasalah, karena seringkali "sampel" yang digunakan untuk mengukur kinerja, sebenarnya bukan pilihan acak (misalnya pengukuran sepanjang rentang yang telah ditentukan atau di antara set item praktis yang dipilih). Maka setiap kuantifikasi kesalahan dalam estimasi kinerja umum tidak boleh didasarkan pada model untuk pemilihan acak (misalnya menggunakan varians dalam sampel untuk menggambarkan kesalahan estimasi). Jadi masih masuk akal untuk menggunakan model probabilistik untuk menggambarkan perbandingan. Mungkin cukup untuk hanya menyatakan data deskriptif, dan membuat "perkiraan" Anda tentang generalisasi berdasarkan argumen logis.

Sextus Empiricus
sumber
Contoh-contoh ini sangat membantu! Saya agak bingung dengan pernyataan Anda bahwa tujuan saya tidak melibatkan tes hipotesis. Ketika saya membingkainya, saya ingin menguji hipotesis bahwa "fenomena A" yang melibatkan x_3,iberkontribusi secara terukur terhadap produksi y. Model fmemasukkan fenomena A sementara gdan htidak, jadi jika hipotesis saya benar, saya akan memprediksi bahwa model fberperforma lebih baik daripada salah satu gatau h.
jbacks
2
@ mundur untuk perbandingan seperti itu, Anda dapat mempertimbangkan kinerja yang diukur sebagai sampel yang diambil dari populasi besar kinerja. Jadi Anda ingin menggambarkan parameter distribusi populasi kesalahanϵdan bandingkan itu. Ini mungkin Anda anggap probabilistik. Misalnya, Anda dapat menyebutnya sebagai 'kesalahan rata-rata modelx±y' Hipotesis Anda adalah tentang parameter - parameter itu.
Sextus Empiricus
Terima kasih telah memperluas komentar itu dengan hasil edit Anda. Antara perspektif ini dan jawaban yang lain, saya pikir saya memiliki jalan masuk yang masuk akal. Sangat dihargai!
jbacks