Konteks:
Dari pertanyaan tentang Pertukaran Matematika Stack (Dapatkah saya membangun program) , seseorang memiliki satu set poin , dan ingin menyesuaikan kurva untuk itu, linier, eksponensial atau logaritmik. Metode yang biasa adalah memulai dengan memilih salah satu dari ini (yang menentukan model), dan kemudian melakukan perhitungan statistik.
Tetapi yang benar-benar diinginkan adalah menemukan kurva 'terbaik' dari linear, eksponensial, atau logaritmik.
Seolah-olah, seseorang dapat mencoba ketiganya, dan memilih kurva yang paling pas dari ketiganya sesuai dengan koefisien korelasi terbaik.
Tapi entah kenapa aku merasa ini tidak terlalu halal. Metode yang diterima secara umum adalah memilih model Anda terlebih dahulu, salah satu dari tiga (atau beberapa fungsi tautan lainnya), kemudian dari data hitung koefisiennya. Dan memilih post facto yang terbaik dari semuanya adalah memetik ceri. Tetapi bagi saya apakah Anda menentukan suatu fungsi atau koefisien dari data itu masih merupakan hal yang sama, prosedur Anda menemukan yang terbaik ... hal (katakanlah fungsi mana yang - juga - koefisien lain yang ditemukan).
Pertanyaan:
- Apakah pantas untuk memilih model pemasangan terbaik dari model linier, eksponensial, dan logaritmik, berdasarkan perbandingan statistik kecocokan?
- Jika demikian, apa cara yang paling tepat untuk melakukan ini?
- Jika regresi membantu menemukan parameter (koefisien) dalam suatu fungsi, mengapa tidak ada parameter tersendiri untuk memilih dari tiga keluarga kurva mana yang terbaik berasal?
Jawaban:
sumber
Ini adalah pertanyaan yang valid di domain yang sangat beragam.
Model terbaik adalah model yang dapat memprediksi titik data yang tidak digunakan selama estimasi parameter. Idealnya seseorang akan menghitung parameter model dengan subset dari kumpulan data, dan mengevaluasi kinerja kecocokan pada set data lainnya. Jika Anda tertarik dengan detailnya, lakukan pencarian dengan "validasi silang".
Jadi jawaban untuk pertanyaan pertama, adalah "Tidak". Anda tidak bisa begitu saja mengambil model pemasangan terbaik. Gambar Anda menyesuaikan polinomial dengan derajat N ke titik data N. Ini akan menjadi sangat cocok, karena semua model akan meneruskan semua titik data dengan tepat. Namun model ini tidak akan digeneralisasi ke data baru.
Cara yang paling tepat, sejauh yang bisa saya katakan, adalah menghitung berapa banyak model Anda dapat digeneralisasi ke set data lainnya menggunakan metrik yang menghukum amplitudo residu secara bersamaan dan jumlah parameter dalam model Anda. AIC dan BIC adalah beberapa metrik ini yang saya ketahui.
sumber
Karena banyak orang secara rutin mengeksplorasi kecocokan berbagai kurva pada data mereka, saya tidak tahu dari mana reservasi Anda berasal. Memang, ada fakta bahwa kuadrat akan selalu cocok setidaknya sebagai linear, dan kubik, setidaknya serta kuadrat, sehingga ada cara untuk menguji signifikansi statistik dari penambahan istilah nonlinier dan dengan demikian untuk menghindari kerumitan yang tidak perlu. Tetapi praktik dasar pengujian berbagai bentuk hubungan hanyalah praktik yang baik. Bahkan, orang mungkin mulai dengan regresi loess yang sangat fleksibel untuk melihat kurva apa yang paling masuk akal.
sumber
Anda benar-benar perlu menemukan keseimbangan antara sains / teori yang mengarah pada data dan apa yang dikatakan data itu kepada Anda. Seperti yang dikatakan orang lain, jika Anda membiarkan diri Anda cocok dengan segala kemungkinan transformasi (polinomial dengan derajat apa pun, dll.) Maka Anda akan berakhir overfitting dan mendapatkan sesuatu yang tidak berguna.
Salah satu cara untuk meyakinkan diri Anda tentang ini adalah melalui simulasi. Pilih salah satu model (linier, eksponensial, log) dan hasilkan data yang mengikuti model ini (dengan pilihan parameter). Jika varians bersyarat Anda dari nilai-nilai y relatif kecil terhadap penyebaran variabel x maka plot sederhana akan memperjelas model mana yang dipilih dan apa "kebenaran" itu. Tetapi jika Anda memilih satu set parameter sedemikian rupa sehingga tidak jelas dari plot (mungkin kasus di mana solusi analitik menarik) kemudian menganalisis masing-masing dari 3 cara dan melihat mana yang memberikan kecocokan "terbaik". Saya berharap Anda akan menemukan bahwa kecocokan "terbaik" seringkali bukan kecocokan "benar".
Di sisi lain, kadang-kadang kita ingin data memberi tahu kita sebanyak mungkin dan kita mungkin tidak memiliki ilmu / teori untuk sepenuhnya menentukan sifat hubungan. Makalah asli oleh Box dan Cox (JRSS B, vol. 26, no. 2, 1964) membahas cara-cara untuk membandingkan antara beberapa transformasi pada variabel y, serangkaian transformasi yang diberikan memiliki linier dan log sebagai kasus khusus (tetapi tidak eksponensial) , tetapi tidak ada dalam teori makalah ini yang membatasi Anda untuk hanya keluarga transformasi mereka, metodologi yang sama dapat diperluas untuk memasukkan perbandingan antara 3 model yang Anda minati.
sumber