Proses pembuatan model melibatkan pembuat model yang membuat banyak keputusan. Salah satu keputusan melibatkan memilih di antara berbagai kelas model untuk dijelajahi. Ada banyak kelas model yang dapat dipertimbangkan; misalnya, model ARIMA, model ARDL, model Multiple Source of Error State-Space, model LSTAR, model Min-Max, dan lain-lain. Tentu saja, beberapa kelas model lebih luas daripada yang lain dan itu tidak umum untuk menemukan bahwa beberapa kelas model adalah sub-kelas yang lain.
Mengingat sifat pertanyaan, kami dapat fokus terutama pada hanya dua kelas model; model linear dan model non-linear .
Dengan mengingat gambaran di atas, saya akan mulai menjawab pertanyaan OP tentang kapan berguna untuk mengadopsi model non-linear dan jika ada kerangka kerja logis untuk melakukannya - dari perspektif statistik dan metodologis.
Hal pertama yang perlu diperhatikan adalah bahwa model linear adalah subkelas kecil dari model non-linear. Dengan kata lain, model linear adalah kasus khusus model non-linear. Ada beberapa pengecualian untuk pernyataan itu, tetapi, untuk tujuan saat ini, kami tidak akan kehilangan banyak dengan menerimanya untuk menyederhanakan masalah.
Biasanya, pembangun model akan memilih kelas model dan melanjutkan untuk memilih model dari dalam kelas tertentu dengan menggunakan beberapa metodologi. Contoh sederhana adalah ketika seseorang memutuskan untuk memodelkan deret waktu sebagai proses ARIMA dan kemudian mengikuti metodologi Box-Jenkins untuk memilih model dari antara kelas model ARIMA. Bekerja dengan cara ini, dengan metodologi yang terkait dengan keluarga model, adalah masalah kebutuhan praktis.
Konsekuensi dari memutuskan untuk membangun model non-linear adalah bahwa masalah pemilihan model menjadi jauh lebih besar (lebih banyak model harus dipertimbangkan dan lebih banyak keputusan yang dihadapi) bila dibandingkan dengan memilih dari antara set yang lebih kecil dari model linear, sehingga ada masalah nyata. masalah praktis yang dihadapi. Lebih jauh lagi, bahkan mungkin tidak ada metodologi yang dikembangkan sepenuhnya (diketahui, diterima, dipahami, mudah dikomunikasikan) untuk digunakan untuk memilih dari beberapa keluarga model non-linear. Lebih jauh lagi, kelemahan lain dari membangun model non-linear adalah bahwa model linear lebih mudah digunakan dan sifat probabilistiknya lebih dikenal ( Teräsvirta, Tjøstheim, dan Granger (2010) ).
Yang mengatakan, OP meminta alasan statistik untuk memandu keputusan daripada yang praktis atau teori domain, jadi saya harus melanjutkan.
Bahkan sebelum merenungkan bagaimana menangani pemilihan model non-linear yang mana untuk bekerja, seseorang harus memutuskan pada awalnya apakah akan bekerja dengan model linear atau model non-linear. Sebuah keputusan! Bagaimana cara membuat pilihan ini?
Dengan mengajukan banding ke Granger dan Terasvirta (1993) , saya mengadopsi argumen berikut, yang memiliki dua poin utama sebagai tanggapan terhadap dua pertanyaan berikut.
T: Kapan berguna untuk membangun model non-linear? Singkatnya, mungkin berguna untuk membangun model non-linier ketika kelas model linier telah dipertimbangkan dan dianggap tidak cukup untuk mengkarakterisasi hubungan yang sedang diperiksa. Prosedur pemodelan non-linear ini (proses pengambilan keputusan) dapat dikatakan berubah dari sederhana menjadi umum, dalam arti bahwa ia beralih dari linear ke non-linear.
T: Apakah ada alasan statistik yang dapat digunakan untuk membenarkan pembuatan model non-linear? Jika seseorang memutuskan untuk membangun model non-linear berdasarkan hasil tes linearitas, saya akan mengatakan, ya, ada. Jika pengujian linearitas menunjukkan bahwa tidak ada nonlinier yang signifikan dalam hubungan maka membangun model nonlinier tidak akan direkomendasikan; pengujian harus mendahului keputusan untuk membangun.
Saya akan menyempurnakan poin-poin ini dengan merujuk langsung ke Granger dan Terasvirta (1993):
Sebelum membangun model nonlinier, disarankan untuk mencari tahu apakah memang model linier cukup mencirikan hubungan [ekonomi] yang dianalisis. Jika ini masalahnya, akan ada lebih banyak teori statistik yang tersedia untuk membangun model yang masuk akal daripada jika model nonlinear sesuai. Selain itu, mendapatkan perkiraan optimal untuk lebih dari satu periode ke depan akan jauh lebih mudah jika modelnya linier. Mungkin terjadi, setidaknya ketika deret waktu pendek, bahwa penyidik berhasil memperkirakan model nonlinear meskipun hubungan yang sebenarnya antara variabel adalah linier. Bahaya karena tidak perlu merumitkan pembuatan model adalah nyata, tetapi dapat dikurangi dengan pengujian linearitas.
Dalam buku yang lebih baru, Teräsvirta, Tjøstheim, dan Granger (2010), jenis nasihat yang sama diberikan, yang sekarang saya kutip:
Dari sudut pandang praktis, berguna untuk menguji linearitas sebelum mencoba estimasi model nonlinier yang lebih rumit. Dalam banyak kasus, pengujian bahkan perlu dari sudut pandang statistik. Sejumlah model nonlinier populer tidak diidentifikasi di bawah linearitas. Jika model sebenarnya yang menghasilkan data adalah linier dan model nonlinear satu tertarik pada sarang model linier ini, parameter dari model nonlinear tidak dapat diestimasi secara konsisten. Dengan demikian pengujian linearitas harus mendahului setiap pemodelan dan estimasi nonlinier.
Biarkan saya akhiri dengan sebuah contoh.
Dalam konteks pemodelan siklus bisnis, contoh praktis menggunakan alasan statistik untuk membenarkan membangun model non-linear adalah sebagai berikut. Karena model linear univariat atau autoregresif vektor tidak dapat menghasilkan deret waktu siklis asimetris, pendekatan pemodelan non-linear, yang dapat menangani asimetri dalam data, patut dipertimbangkan. Versi yang diperluas dari contoh ini tentang reversibilitas data dapat ditemukan di Tong (1993) .
Maaf jika saya terlalu berkonsentrasi pada model seri waktu. Saya yakin, bagaimanapun, bahwa beberapa ide juga berlaku di pengaturan lain.
Masalah over-arching adalah memutuskan untuk jenis masalah apa yang diharapkan linearitas, jika tidak memungkinkan hubungan menjadi nonlinear sebagai ukuran sampel memungkinkan. Sebagian besar proses dalam biologi, ilmu sosial, dan bidang lainnya adalah nonlinier. Satu-satunya situasi di mana saya mengharapkan hubungan linear adalah:
Contoh terakhir termasuk kasus di mana seseorang memiliki variabel dependen yang juga diukur pada awal (waktu nol).Y
Saya jarang melihat hubungan yang linier di mana-mana dalam dataset besar.
Keputusan untuk memasukkan nonlinier dalam model regresi tidak datang begitu banyak dari prinsip statistik global melainkan dari cara dunia bekerja. Satu pengecualian adalah ketika kerangka kerja statistik sub-optimal telah dipilih dan istilah-istilah nonlinier atau interaksi harus diperkenalkan hanya untuk menggantikan kerangka kerja yang dipilih secara buruk. Istilah interaksi kadang-kadang diperlukan untuk mengimbangi under-modelling (misalnya, dengan mengasumsikan linearitas) efek utama. Lebih banyak efek utama mungkin diperlukan untuk mengimbangi kehilangan informasi yang dihasilkan dari pemodelan-kurang efek utama lainnya.
Para peneliti terkadang merasa kesal untuk memasukkan variabel tertentu saat mereka kekurangan sejumlah variabel lain dengan memaksa mereka untuk bertindak secara linier. Dalam pengalaman saya, asumsi linearitas adalah salah satu asumsi paling dilanggar dari semua yang sangat penting.
sumber
Ketika membangun model saya selalu mencoba kuadrat variabel bersama dengan komponen linier. Misalnya, ketika membangun model regresi sederhana saya akan memasukkan istilah persegi Jika signifikan, itu mungkin merupakan kasus untuk model nonlinear. Intuisi, tentu saja, adalah ekspansi Taylor. Jika Anda memiliki fungsi linier, hanya turunan pertama yang bukan nol. Untuk fungsi nonlinear, turunan orde tinggi akan menjadi nol.y i = α + β x i + γ x 2 i + ε i γ
Saya juga sering mencoba kandidat spesifikasi asimetris: Jika signifikan, maka itu membuat saya mempertimbangkan menjelajahi spesifikasi asimetris.
Terkadang, saya memiliki beberapa nilai atau pita khusus dalam data saya; atau histogram variabel penjelas saya memiliki ketegaran dan titik belok. Jadi, saya mencoba spline linear di sekitar titik atau wilayah khusus ini. Splines linear paling sederhana adalah: Ini akan memperkenalkan lereng yang berbeda untuk sebelum dan sesudah titik . Anda dapat memiliki beberapa lereng untuk variabel yang sama di wilayah yang berbeda. Jika linier linier saya signifikan, maka saya bermain dengan titik simpul dan menggunakannya, atau berpikir tentang model nonlinear.
Ini bukan pendekatan sistematis, tetapi itu hanya salah satu hal yang selalu saya lakukan.
sumber