Dalam regresi linier, solusi Maximize Likelihood Estimation (MLE) untuk memperkirakan x memiliki solusi form tertutup berikut (dengan asumsi bahwa A adalah matriks dengan peringkat kolom penuh):
x^lin=argminx∥ A x - b∥22= (ATA )- 1SEBUAHTb
Ini dibaca sebagai "temukan x yang meminimalkan fungsi objektif, ∥Ax−b∥22 ". Bagus hal tentang mewakili fungsi tujuan regresi linier dengan cara ini adalah bahwa kita dapat menjaga semuanya dalam notasi matriks dan memecahkan untuk x lin dengan tangan. Seperti yang disebutkan oleh Alex R., dalam praktiknya kita sering tidak mempertimbangkan secara langsung karena secara komputasi tidak efisien dan sering tidak memenuhi kriteria peringkat penuh. Sebaliknya, kita beralih ke pseudoinverse Moore-Penrosex^lin(ATA)−1A. Rincian penyelesaian komputasi untuk invers pseudo dapat melibatkan dekomposisi Cholesky atau Dekomposisi Nilai Singular.
Atau, solusi MLE untuk memperkirakan koefisien dalam regresi logistik adalah:
x^log=argminx∑i=1Ny(i)log(1+e−xTa(i))+(1−y(i))log(1+exTa(i))
di mana (dengan asumsi masing-masing sampel data disimpan dengan bijaksana):
x adalah vektor yang mewakili koefisien regresi
a(i) i t h A adalah vektor yang mewakili sampel / baris dalam matriks dataithA
y(i) adalah skalar dalam , dan label sesuai dengan sampel{0,1}ithith
NA adalah jumlah sampel data / jumlah baris dalam data matriks .A
Sekali lagi, ini dibaca sebagai "temukan yang meminimalkan fungsi tujuan".x
Jika Anda mau, Anda bisa melangkah lebih jauh dan mewakili dalam notasi matriks sebagai berikut:x^log
x^log=argminx⎡⎣⎢⎢1⋮1(1−y(1))⋮(1−y(N))⎤⎦⎥⎥[log(1+e−xTa(1))log(1+exTa(1))......log(1+e−xTa(N))log(1+exTa(N))]
tetapi Anda tidak mendapatkan apa-apa dari melakukan ini. Regresi logistik tidak memiliki solusi bentuk tertutup dan tidak mendapatkan manfaat yang sama dengan regresi linier dengan merepresentasikannya dalam notasi matriks. Untuk menyelesaikan teknik estimasi seperti gradient descent dan metode Newton-Raphson digunakan. Dengan menggunakan beberapa teknik ini (yaitu Newton-Raphson), diperkirakan dan direpresentasikan dalam notasi matriks ( lihat tautan yang disediakan oleh Alex R. ).x^logx^log
Jawaban @ joceratops berfokus pada masalah optimisasi kemungkinan maksimum untuk estimasi. Ini memang pendekatan yang fleksibel yang dapat menerima banyak jenis masalah. Untuk memperkirakan sebagian besar model, termasuk model regresi linier dan logistik, ada pendekatan umum lain yang didasarkan pada metode estimasi momen.
Estimator regresi linier juga dapat dirumuskan sebagai akar dari persamaan estimasi:
Dalam hal ini dilihat sebagai nilai yang mengambil residu rata-rata 0. Tidak perlu bergantung pada model probabilitas yang mendasari untuk memiliki interpretasi ini. Namun, menarik untuk mendapatkan persamaan skor untuk kemungkinan normal, Anda akan melihat bahwa mereka mengambil bentuk yang ditampilkan di atas. Memaksimalkan kemungkinan keluarga eksponensial reguler untuk model linier (misalnya regresi linier atau logistik) setara dengan memperoleh solusi untuk persamaan skor mereka.β
Di mana memiliki nilai yang diharapkan g ( X i β ) . Dalam estimasi GLM, g dikatakan sebagai kebalikan dari fungsi tautan. Dalam persamaan kemungkinan normal, g - 1 adalah fungsi identitas, dan dalam regresi logistik g - 1 adalah fungsi logit. Pendekatan yang lebih umum akan membutuhkan 0 = Σ n i = 1 Y - g ( X i β ) yang memungkinkan untuk model kesalahan spesifikasi.Yi g(Xiβ) g g−1 g−1 0=∑ni=1Y−g(Xiβ)
Selain itu, menarik untuk dicatat bahwa untuk keluarga eksponensial reguler, yang disebut hubungan mean-variance. Memang untuk regresi logistik, hubungan varians rata-rata adalah sedemikian rupa sehingga rata-ratap=g(Xβ)terkait dengan varians olehvar(Yi)=pi(1-pi)∂g(Xβ)∂β=V(g(Xβ)) p=g(Xβ) var(Yi)=pi(1−pi) . Ini menunjukkan interpretasi dari model yang salah menentukan GLM sebagai salah satu yang memberikan 0 rata-rata Pearson residual. Ini lebih lanjut menyarankan generalisasi untuk memungkinkan derivatif rata-rata fungsional yang tidak proporsional dan hubungan mean-variance.
Sebuah umum memperkirakan persamaan pendekatan akan menentukan model linear dengan cara berikut:
sumber