Apa pentingnya perbedaan antara model linear dan non-linear? Pertanyaannya Nonlinear vs generalised model: Bagaimana Anda merujuk pada regresi logistik, Poisson, dll.? dan jawabannya adalah klarifikasi yang sangat membantu tentang linearitas / non-linearitas model linier umum. Tampaknya sangat penting untuk membedakan model linear dari model non-linear, tetapi tidak jelas bagi saya mengapa? Misalnya, pertimbangkan model regresi ini:
Kedua Model 1 dan 2 adalah linier, dan solusi untuk ada dalam bentuk tertutup, mudah ditemukan menggunakan penduga OLS standar. Tidak demikian untuk Model 3 dan 4, yang nonlinier karena (beberapa) turunan dari E [Y \ mid X] wrt \ beta masih berfungsi \ beta .E [ Y ∣ X ] β β
Salah satu solusi sederhana untuk memperkirakan dalam Model 3 adalah dengan membuat linierisasi model dengan menetapkan , perkirakan menggunakan model linier, dan kemudian hitung .
Untuk memperkirakan parameter dalam Model 4, kita dapat mengasumsikan mengikuti distribusi binomial (anggota keluarga eksponensial), dan, menggunakan fakta bahwa bentuk logistik model adalah tautan kanonik, linierisasi rhs model. Ini adalah kontribusi mani Nelder dan Wedderburn .
Tetapi mengapa non-linearitas ini menjadi masalah? Mengapa seseorang tidak bisa hanya menggunakan beberapa algoritma iteratif untuk menyelesaikan Model 3 tanpa linierisasi menggunakan fungsi akar kuadrat, atau Model 4 tanpa menggunakan GLM. Saya curiga bahwa sebelum kekuatan komputasi meluas, ahli statistik berusaha untuk meluruskan segalanya. Jika benar, maka mungkin "masalah" yang diperkenalkan oleh nonlinier adalah sisa dari masa lalu? Apakah komplikasi yang diperkenalkan oleh model non-linear hanyalah komputasi, atau adakah masalah teoritis lain yang membuat model non-linier lebih menantang untuk disesuaikan dengan data daripada model linier?
sumber
Jawaban:
Saya dapat melihat dua perbedaan utama:
linearitas membuatnya sederhana dan kuat. Misalnya, OLS (linear) adalah penduga yang tidak bias di bawah distribusi gangguan yang tidak diketahui. Secara umum, model GLM dan non-linear tidak. OLS juga tangguh untuk berbagai model struktur kesalahan (efek acak, pengelompokan, dll) di mana dalam model non-linear Anda biasanya harus mengasumsikan distribusi yang tepat dari istilah-istilah ini.
Memecahkannya mudah: cukup beberapa perkalian matriks + 1 invers. Ini berarti Anda hampir selalu dapat menyelesaikannya, bahkan dalam kasus-kasus di mana fungsi objektifnya hampir datar (multikolinieritas.) Metode berulang mungkin tidak menyatu dalam kasus-kasus bermasalah (yang, dalam arti, adalah hal yang baik.) Pemecahan yang mudah mungkin atau mungkin tidak kurang dari masalah saat ini. Komputer menjadi lebih cepat, tetapi data menjadi lebih besar. Pernah mencoba menjalankan regresi logit pada pengamatan 1G?
Selain itu, model linier lebih mudah diinterpretasikan. Dalam model linier, efek marginal sama dengan koefisien dan tidak tergantung pada nilai X (meskipun istilah polinomial mengacaukan kesederhanaan ini.)
sumber
Banyak model dalam biologi (dan bidang lainnya) adalah nonlinier, jadi paling cocok dengan regresi nonlinier. Matematika itu sangat berbeda, tentu saja. Tetapi dari sudut pandang analis data, hanya ada satu perbedaan penting.
Regresi nonlinier membutuhkan nilai estimasi awal untuk setiap parameter. Jika perkiraan awal ini tidak sesuai, program regresi nonlinier dapat bertemu pada minimum yang salah dan memberikan hasil yang tidak berguna atau menyesatkan.
sumber
Pertama saya akan mengganti kata 'model' untuk kata 'regresi'. Saya berpikir bahwa untuk kedua kata, seseorang benar-benar bertanya apa persamaan yang relevan yang menentukan model dan apa hipotesis yang relevan yang menghubungkan nilai-nilai variabel dependen dan nilai-nilai yang diprediksi oleh persamaan / model. Saya pikir istilah 'model' lebih standar. Jika Anda setuju dengan itu, baca terus.
Saya benar-benar berhutang atas refleksi atas komentar dari seorang kolega yang adalah seorang ahli statistik dan ahli statistik yang terlatih secara klasik. Dia keberatan keras terhadap sebuah buku yang disebut regresi polinomial sebagai non-linear dan saat itulah saya membaca lebih serius tentang model non-linear. Saya percaya bahwa jawaban yang benar adalah bahwa model linear mengasumsikan bahwa istilah kesalahan adalah Gaussian sedangkan model linier umum mengasumsikan bentuk yang lebih umum untuk istilah kesalahan. Jika adalah sekumpulan fungsi, maka seseorang dapat mencoba membuat model linier di . Misalnya jika , maka kita mendapatkan regresi polinomial. Ini adalah model linier jika perbedaannyaϕ 1 , … , ϕ n ϕ i = x i ϵ i = y i - ∑ a i j x jϕ1,…,ϕn ϕ1,…,ϕn ϕi=xi ϵi=yi−∑aijxj adalah Gaussian. Imho, saya pikir wikipedia memiliki penjelasan yang sangat masuk akal dari model linear umum Saya pikir ini adalah kalimat kunci - "GLM menggeneralisasikan regresi linier dengan memungkinkan model linier terkait dengan variabel respons melalui fungsi tautan dan dengan memungkinkan besarnya varian setiap pengukuran menjadi fungsi dari nilai yang diprediksi. " Jadi glm memungkinkan istilah kesalahan yang lebih umum. Ini memungkinkan fleksibilitas yang lebih besar dalam pemodelan. Harga ? Menghitung model yang benar lebih sulit. Seseorang tidak lagi memiliki metode sederhana untuk menghitung koefisien. Koefisien regresi linier dapat ditemukan dengan meminimalkan fungsional kuadratik yang memiliki mimimum unik. Dalam kata-kata Borat, untuk glm, tidak terlalu banyak. Kita harus menghitung mle,
sumber