Menentukan fungsi pemasangan kurva fitting terbaik dari fungsi linier, eksponensial, dan logaritmik

18

Konteks:

Dari pertanyaan tentang Pertukaran Matematika Stack (Dapatkah saya membangun program) , seseorang memiliki satu set poin , dan ingin menyesuaikan kurva untuk itu, linier, eksponensial atau logaritmik. Metode yang biasa adalah memulai dengan memilih salah satu dari ini (yang menentukan model), dan kemudian melakukan perhitungan statistik.x-y

Tetapi yang benar-benar diinginkan adalah menemukan kurva 'terbaik' dari linear, eksponensial, atau logaritmik.

Seolah-olah, seseorang dapat mencoba ketiganya, dan memilih kurva yang paling pas dari ketiganya sesuai dengan koefisien korelasi terbaik.

Tapi entah kenapa aku merasa ini tidak terlalu halal. Metode yang diterima secara umum adalah memilih model Anda terlebih dahulu, salah satu dari tiga (atau beberapa fungsi tautan lainnya), kemudian dari data hitung koefisiennya. Dan memilih post facto yang terbaik dari semuanya adalah memetik ceri. Tetapi bagi saya apakah Anda menentukan suatu fungsi atau koefisien dari data itu masih merupakan hal yang sama, prosedur Anda menemukan yang terbaik ... hal (katakanlah fungsi mana yang - juga - koefisien lain yang ditemukan).

Pertanyaan:

  • Apakah pantas untuk memilih model pemasangan terbaik dari model linier, eksponensial, dan logaritmik, berdasarkan perbandingan statistik kecocokan?
  • Jika demikian, apa cara yang paling tepat untuk melakukan ini?
  • Jika regresi membantu menemukan parameter (koefisien) dalam suatu fungsi, mengapa tidak ada parameter tersendiri untuk memilih dari tiga keluarga kurva mana yang terbaik berasal?
Mitch
sumber
1
Saya telah menambahkan tag pemilihan model untuk kenyamanan Anda: menautkannya akan menghasilkan banyak utas yang relevan secara langsung. Tag lain yang layak dilihat termasuk aic . Anda akhirnya harus menemukan bahwa pernyataan matematis dari masalah ini kehilangan dua elemen penting: deskripsi tentang bagaimana dan mengapa poin mungkin menyimpang dari kurva teoretis dan indikasi biaya untuk tidak mendapatkan kurva yang tepat. Tanpa elemen-elemen itu, ada banyak pendekatan berbeda yang dapat menghasilkan jawaban berbeda, menunjukkan bahwa "terbaik" tidak jelas.
whuber
1
Anda dapat menyisihkan persentase data Anda untuk melakukan validasi pada model dan memilih model yang paling cocok dengan set data validasi tersebut. Jadi pada dasarnya Anda akan memiliki tiga set yang berbeda untuk membagi data Anda menjadi 1. data untuk melatih satu model 2. data yang memvalidasi setiap model yang memungkinkan Anda untuk memilih model terbaik dan 3. data validasi akhir aktual Anda yang tidak disentuh .
kleineg
1
@ kleineg Kedengarannya seperti arah yang benar. Pilihan model (misalnya antara lin / exp / log) seperti hyperparameter model tunggal, yang dalam beberapa hal hanyalah tahap parameter biasa lainnya, dan melangkah ke dalamnya dengan kereta terpisah / validasi / tahap pengujian dapat digeneralisasi.
Mitch
Relevan: {Cara halus untuk berpakaian berlebihan] ( johndcook.com/blog/2015/03/17/a-subtle-way-to-over-fit ) - memilih antara beberapa fungsi model (misalnya exp vs linear vs log) hanya parameter lain. Anda bisa menganggapnya sebagai hyperparameter (yang akan memerlukan langkah validasi) atau parameter reguler dalam fungsi kombinasi yang rumit (di mana ia akan diuji dalam langkah uji).
Mitch

Jawaban:

9
  • Anda mungkin ingin memeriksa perangkat lunak gratis yang disebut Eureqa . Ini memiliki tujuan khusus untuk mengotomatisasi proses menemukan bentuk fungsional dan parameter hubungan fungsional yang diberikan.
  • Jika Anda membandingkan model, dengan jumlah parameter yang berbeda, Anda biasanya ingin menggunakan ukuran kecocokan yang menghukum model dengan lebih banyak parameter. Ada literatur kaya yang ukuran pas paling cocok untuk perbandingan model, dan masalah menjadi lebih rumit ketika model tidak bersarang. Saya akan tertarik mendengar pendapat orang lain tentang indeks perbandingan model yang paling sesuai dengan skenario Anda (sebagai poin tambahan, baru-baru ini ada diskusi di blog saya tentang indeks perbandingan model dalam konteks membandingkan model untuk pemasangan kurva).
  • Dari pengalaman saya, model regresi non-linear digunakan untuk alasan di luar kesesuaian statistik murni dengan data yang diberikan:
    1. Model non-linear membuat prediksi yang lebih masuk akal di luar rentang data
    2. Model non-linear memerlukan lebih sedikit parameter untuk kesesuaian yang setara
    3. Model regresi non-linear sering diterapkan dalam domain di mana ada penelitian sebelumnya yang substansial dan pemilihan model yang memandu teori.
Jeromy Anglim
sumber
5

Ini adalah pertanyaan yang valid di domain yang sangat beragam.

Model terbaik adalah model yang dapat memprediksi titik data yang tidak digunakan selama estimasi parameter. Idealnya seseorang akan menghitung parameter model dengan subset dari kumpulan data, dan mengevaluasi kinerja kecocokan pada set data lainnya. Jika Anda tertarik dengan detailnya, lakukan pencarian dengan "validasi silang".

Jadi jawaban untuk pertanyaan pertama, adalah "Tidak". Anda tidak bisa begitu saja mengambil model pemasangan terbaik. Gambar Anda menyesuaikan polinomial dengan derajat N ke titik data N. Ini akan menjadi sangat cocok, karena semua model akan meneruskan semua titik data dengan tepat. Namun model ini tidak akan digeneralisasi ke data baru.

Cara yang paling tepat, sejauh yang bisa saya katakan, adalah menghitung berapa banyak model Anda dapat digeneralisasi ke set data lainnya menggunakan metrik yang menghukum amplitudo residu secara bersamaan dan jumlah parameter dalam model Anda. AIC dan BIC adalah beberapa metrik ini yang saya ketahui.

bonobo
sumber
3

Karena banyak orang secara rutin mengeksplorasi kecocokan berbagai kurva pada data mereka, saya tidak tahu dari mana reservasi Anda berasal. Memang, ada fakta bahwa kuadrat akan selalu cocok setidaknya sebagai linear, dan kubik, setidaknya serta kuadrat, sehingga ada cara untuk menguji signifikansi statistik dari penambahan istilah nonlinier dan dengan demikian untuk menghindari kerumitan yang tidak perlu. Tetapi praktik dasar pengujian berbagai bentuk hubungan hanyalah praktik yang baik. Bahkan, orang mungkin mulai dengan regresi loess yang sangat fleksibel untuk melihat kurva apa yang paling masuk akal.

rolando2
sumber
3
Apakah kuadrat lebih cocok, akan tergantung pada bagaimana Anda telah beroperasi sesuai dengan baik. Khususnya, jika Anda menggunakan ukuran kecocokan yang menghukum model dengan lebih banyak parameter (misalnya, AIC), maka, misalnya, kecocokan bisa lebih buruk untuk kuadratik versus linier.
Jeromy Anglim
9
@rolando, mungkin saya salah paham, tetapi, terus terang nasihat semacam ini (tidak memenuhi syarat) justru merupakan hal yang, sebagai ahli statistik, kami menghabiskan begitu banyak waktu "berjuang" melawan. Khususnya, jika OP tertarik pada apa pun di luar penyesuaian kurva sederhana, misalnya prediksi atau kesimpulan, sangat penting untuk memahami implikasi dari pendekatan "coba saja apa pun yang dapat Anda pikirkan" pada statistik.
kardinal
2
Saya mengalami kesulitan merekonsiliasi komentar-komentar ini dengan tradisi Anscombe, Tukey, Mosteller, Tufte, dan Cleveland, yang menekankan perlunya memvisualisasikan dan mengeksplorasi data dan untuk mengukur bentuk setiap hubungan sebelum membangun model, membangun koefisien, atau menghasilkan statistik lain.
rolando2
8
Ada banyak kontroversi mengenai pendekatan mereka. Cara yang terlalu disederhanakan untuk meringkas masalah-masalah ini adalah bahwa jika Anda ingin mempelajari tentang pola dan membuat penemuan baru yang memerlukan validasi nanti, analisis eksplorasi adalah tepat. Jika Anda ingin menarik kesimpulan (alasan dari sampel tertentu ke populasi umum menggunakan nilai-P, interval kepercayaan, dll.) Maka tidak terlalu banyak.
Frank Harrell
4
Ini adalah utas komentar paling produktif yang pernah saya lihat di CV, terutama pertukaran b / t rolando2 (3 ^) & @FrankHarrell. Saya juga menemukan kedua pendekatan itu sangat menarik. Resolusi saya sendiri adalah untuk merencanakan apa yang harus tes sebelumnya & hanya fit / test yang Model demi menarik kesimpulan perusahaan, tetapi juga benar-benar mengeksplorasi data (w / o percaya hasil tentu ditahan) demi menemukan apa yang mungkin menjadi kenyataan & perencanaan untuk studi selanjutnya . (Haruskah saya menjalankan studi lain & memeriksa sesuatu, apakah itu menarik / penting?) Kuncinya adalah keyakinan Anda tentang hasil analisis ini.
gung - Reinstate Monica
3

Anda benar-benar perlu menemukan keseimbangan antara sains / teori yang mengarah pada data dan apa yang dikatakan data itu kepada Anda. Seperti yang dikatakan orang lain, jika Anda membiarkan diri Anda cocok dengan segala kemungkinan transformasi (polinomial dengan derajat apa pun, dll.) Maka Anda akan berakhir overfitting dan mendapatkan sesuatu yang tidak berguna.

Salah satu cara untuk meyakinkan diri Anda tentang ini adalah melalui simulasi. Pilih salah satu model (linier, eksponensial, log) dan hasilkan data yang mengikuti model ini (dengan pilihan parameter). Jika varians bersyarat Anda dari nilai-nilai y relatif kecil terhadap penyebaran variabel x maka plot sederhana akan memperjelas model mana yang dipilih dan apa "kebenaran" itu. Tetapi jika Anda memilih satu set parameter sedemikian rupa sehingga tidak jelas dari plot (mungkin kasus di mana solusi analitik menarik) kemudian menganalisis masing-masing dari 3 cara dan melihat mana yang memberikan kecocokan "terbaik". Saya berharap Anda akan menemukan bahwa kecocokan "terbaik" seringkali bukan kecocokan "benar".

Di sisi lain, kadang-kadang kita ingin data memberi tahu kita sebanyak mungkin dan kita mungkin tidak memiliki ilmu / teori untuk sepenuhnya menentukan sifat hubungan. Makalah asli oleh Box dan Cox (JRSS B, vol. 26, no. 2, 1964) membahas cara-cara untuk membandingkan antara beberapa transformasi pada variabel y, serangkaian transformasi yang diberikan memiliki linier dan log sebagai kasus khusus (tetapi tidak eksponensial) , tetapi tidak ada dalam teori makalah ini yang membatasi Anda untuk hanya keluarga transformasi mereka, metodologi yang sama dapat diperluas untuk memasukkan perbandingan antara 3 model yang Anda minati.

Greg Snow
sumber