Analisis Diskriminan Linier untuk

9

Saya sedang belajar 'Pengantar Pembelajaran Statistik' oleh James, Witten, Hastie, Tibshirani.

Di halaman 139, dari buku mereka, mereka mulai dengan memperkenalkan Teorema Bayes pk(X)=P(Y=k|X=x)=πkfk(x)l=1kπlfl(x). πbukan konstanta matematika, tetapi menunjukkan probabilitas sebelumnya. Tidak ada yang aneh dalam persamaan ini.

Buku itu mengklaim bahwa ia ingin mendapatkan taksiran fk(x)bahwa itu bisa dihubungkan ke persamaan yang diberikan di atas. Untuk memperkirakanfk(x), Diasumsikan itu normal. Dalam pengaturan satu dimensi,fk(x)=12πσexp(12σ2(xμk)2)dimana μk dan σk2 adalah mean dan varians untuk kkelas th. Ini diasumsikan bahwaσ12=σ22==σK2. (Saya mulai bingung dari pernyataan terakhir.)

Mencolokkan fk ke px, Anda memiliki persamaan yang cukup berantakan ini (1):

px(k)=πk12πσexp(12σ2(xμk)2)l=1Kπl12πσexp(12σ2(xμl)2).

Sekali lagi, tidak ada kejutan di sini karena itu hanya penggantian.


The Bayes 'Classifier melibatkan menugaskan pengamatan ke kelas yang persamaan (1) terbesar. Mengambil log Persamaan (1) dan mengatur ulang istilah, tidak sulit untuk menunjukkan bahwa ini setara dengan menugaskan pengamatan ke kelas di mana yang berikut ini adalah yang terbesar:

δk(x)=xμkσ2μk22σ2+log(πk)

Pertanyaan: Saya tidak mengerti dari mana ini berasal, dan apa artinya. Saya mencoba melakukan log persamaan dan tidak menjadi seperti ini. Apakah kita mengambil turunannya di suatu tempat di sini, karena ini adalah pengamatan terbesar?

cgo
sumber

Jawaban:

5

Anda dapat menyatakan persamaan (1) hingga konstanta proporsionalitas,

px(k)πk12πσexp(12σ2(xμk)2)

jadi jika Anda kemudian mengambil log

logpx(k)logπklog(2πσ)12σ2(xμk)2

dimana log(2πσ) lagi masuk ke konstanta proporsionalitas karena tidak bergantung pada k. Kemudian perluas istilah kuadrat dan Anda ada di sana (perhatikan bahwa memperluas braket akan memberikan istilah lain yang akan hilang).

Andy
sumber
Saya tertawa ketika saya membaca jawaban Anda. Apakah sesederhana itu ?! Cemerlang! Boleh saya tahu berapa jumlahnyaδk(x)berarti (dalam istilah awam)? Latar belakang saya dalam statistik buruk, tetapi saya bisa mengikuti matematika.
cgo
2
Ya, hanya itu yang ada untuk itu. δk(x)disebut fungsi diskriminan linier. Hanya saja cara yang berbeda dalam menulis probabilitas posterior bahwa observasi milik kelask diberikan karakteristiknya x. Jadi memilih kelas dengan probabilitas posterior tertinggi dari aturan Bayes sama dengan memilih kelas dengan nilai tertinggi untuk LDA. Anda bisa mengaturδk(x)=δl(x) untuk menghitung batas keputusan Bayesian (yang memberikan ambang kapan pengamatan harus diklasifikasikan sebagai k atau l).
Andy