Pendekatan Bayesian dan Fisher untuk analisis diskriminan linier

10

Saya tahu 2 pendekatan untuk melakukan LDA, pendekatan Bayesian dan pendekatan Fisher .

Misalkan kita memiliki data (x,y) , di mana x adalah prediktor p dimensi dan y adalah variabel dependen dari kelas K

Dengan pendekatan Bayesian , kita menghitung p posterior ( y k | x ) = p ( x | y k ) p ( y k )

p(yk|x)=p(x|yk)p(yk)p(x)p(x|yk)p(yk)
, dan seperti dikatakan dalam buku-buku, asumsikanp(x|yk)adalah Gaussian, kita sekarang memiliki fungsi diskriminan untukkth kelas sebagai
fk(x)=lnp(x|yk)+lnp(yk)=ln[1(2π)p/2|Σ|1/2exp(12(xμk)TΣ1(xμk))]+lnp(yk)=xTΣ1μk12μkTΣ1μk+lnp(yk)
, saya bisa melihatfk(x)adalah fungsi linear darix, jadi untuk semuaKkelas kita memilikiKlinear fungsi diskriminan.

Namun, dengan pendekatan Fisher , kami mencoba untuk memproyeksikan ke ( K - 1 ) ruang dimensi untuk mengekstraksi fitur baru yang meminimalkan varians dalam kelas dan memaksimalkan varians antar kelas , katakanlah matriks proyeksi adalah W dengan setiap kolom menjadi proyeksi arah. Pendekatan ini lebih seperti teknik reduksi dimensi .x(K1)W

Pertanyaan saya adalah

(1) Bisakah kita melakukan pengurangan dimensi menggunakan pendekatan Bayesian? Maksudku, kita dapat menggunakan pendekatan Bayesian untuk melakukan klasifikasi dengan menemukan fungsi diskriminan yang memberikan nilai terbesar untuk baru x * , tetapi dapat fungsi-fungsi diskriminan f k ( x ) digunakan untuk proyek x untuk menurunkan dimensi subruang? Sama seperti pendekatan Fisher .fk(x)xfk(x)x

(2) Apakah dan bagaimana kedua pendekatan ini saling berhubungan? Saya tidak melihat hubungan antara mereka, karena satu tampaknya hanya untuk dapat melakukan klasifikasi dengan nilai, dan yang lainnya terutama ditujukan pada pengurangan dimensi.fk(x)

MEMPERBARUI

Berkat @amoeba, menurut buku ESL, saya menemukan ini: masukkan deskripsi gambar di sini

dan ini adalah fungsi diskriminan linier, diturunkan melalui teorema Bayes plus dengan asumsi semua kelas memiliki matriks kovarian yang sama . Dan fungsi diskriminan ini adalah SAMA dengan yang f k ( x ) saya tulis di atas.Σfk(x)

Dapatkah saya menggunakan sebagai arah untuk memproyeksikan x , untuk melakukan pengurangan dimensi? Saya tidak yakin tentang ini, karena AFAIK, pengurangan dimensi dicapai dengan melakukan analisis varians antar-dalam .Σ1μkx

PEMBARUAN LAGI

Dari bagian 4.3.3, beginilah proyeksi yang dihasilkan:

masukkan deskripsi gambar di sini

WWKW

alpukat
sumber
1
Pertanyaan Anda mencampur dua hal. Saya pikir Anda belum mencerna percakapan kami atas pertanyaan Anda sebelumnya . Apa yang Anda jelaskan pertama kali adalah pendekatan Bayesian ke klasifikasi (bukan "Bayesian approach to LDA"). Pendekatan ini dapat digunakan (1) dengan variabel asli sebagai pengklasifikasi atau (2) dengan diskriminan yang diperoleh dalam LDA sebagai pengklasifikasi. Lalu apa pendekatan Fisher?
ttnphns
1
(Lanj.) Ya, "LDA Fisher" hanyalah LDA dengan K = 2. Ketika melakukan klasifikasi dalam LDA Fisher seperti itu, menciptakan formula sendiri untuk melakukan klasifikasi. Rumus ini dapat bekerja juga untuk K> 2. Metode klasifikasinya sulit digunakan saat ini karena pendekatan Bayes lebih umum.
ttnphns
1
@ttnphns, alasan mengapa saya bingung adalah karena hampir setiap buku yang saya maksud berbicara tentang LDA menggunakan pendekatan Bayesian ini, menguliahi LDA sebagai model generatif, mereka tidak menyebutkan rasio antar-kelompok dan di dalam kelengkapan kelompok. .
alpukat
1
@loganecolss: Sudahkah Anda melihat jawaban saya di bawah ini? Apakah Anda memiliki pertanyaan tentang itu? Saya agak bingung, karena saya pikir saya menjelaskan apa yang sekarang Anda tanyakan lagi di komentar. Pendekatan "antar-dalam varians" secara matematis setara dengan "pendekatan Bayesian" dengan asumsi kovarian yang sama. Anda dapat menganggap ini sebagai teorema matematika yang mengejutkan, jika Anda mau. Buktinya diberikan dalam buku Hastie yang tersedia secara online secara gratis, dan di beberapa buku teks pembelajaran mesin lainnya juga. Jadi saya tidak yakin apa artinya "satu-satunya cara otentik untuk melakukan LDA"; dua cara yang identik ini.
amoeba
1
@loganecolss: Percayalah, mereka setara :) Ya, Anda harus dapat menurunkan proyeksi, tetapi Anda memerlukan asumsi tambahan dari matriks kovarians yang sama (seperti yang saya tulis dalam jawaban saya). Lihat komentar saya di bawah.
amoeba

Jawaban:

11

Saya hanya akan memberikan jawaban informal singkat dan merujuk Anda ke bagian 4.3 dari Elemen Pembelajaran Statistik untuk perinciannya.

Update: "The Elements" kebetulan penutup secara detail persis pertanyaan yang Anda minta di sini, termasuk apa yang Anda tulis di update Anda. Bagian yang relevan adalah 4.3, dan khususnya 4.3.2-4.3.3.

(2) Apakah dan bagaimana kedua pendekatan ini saling berhubungan?

x

xx

Wawasan penting adalah bahwa persamaan disederhanakan jika seseorang mengasumsikan bahwa semua kelas memiliki kovarian identik [ Pembaruan: jika Anda mengasumsikannya selama ini, ini mungkin merupakan bagian dari kesalahpahaman] . Dalam hal itu batas keputusan menjadi linier, dan itulah sebabnya prosedur ini disebut analisis diskriminan linier, LDA.

Diperlukan beberapa manipulasi aljabar untuk menyadari bahwa dalam kasus ini rumus-rumusnya benar-benar menjadi setara dengan apa yang dikerjakan Fisher menggunakan pendekatannya. Pikirkan itu sebagai teorema matematika. Lihat buku teks Hastie untuk semua matematika.

(1) Bisakah kita melakukan pengurangan dimensi menggunakan pendekatan Bayesian?

Jika dengan "pendekatan Bayesian" yang Anda maksud berurusan dengan matriks kovarian yang berbeda di setiap kelas, maka tidak ada. Setidaknya itu tidak akan menjadi pengurangan dimensi linear (tidak seperti LDA), karena apa yang saya tulis di atas.

Σ1μkkΣ1Mμ kMμk

amuba
sumber
1
+1. Saya mungkin juga menautkan ke jawaban saya sendiri yang menyebutkan QDA stats.stackexchange.com/a/71571/3277 .
ttnphns
X
Σ
fk(x)fk(x)xΣ1μk
Saya memperbarui posting saya, menambahkan klip bagian 4.3
alpukat