Hitung dan buat grafik batas keputusan LDA

19

Saya melihat plot LDA (analisis diskriminan linier) dengan batas keputusan dari The Elements of Statistics Learning :masukkan deskripsi gambar di sini

Saya mengerti bahwa data diproyeksikan ke ruang bagian dimensi yang lebih rendah. Namun, saya ingin tahu bagaimana kita mendapatkan batas keputusan dalam dimensi asli sehingga saya dapat memproyeksikan batas keputusan ke ruang bagian dimensi yang lebih rendah (seperti garis hitam pada gambar di atas).

Apakah ada rumus yang bisa saya gunakan untuk menghitung batas keputusan dalam dimensi asli (lebih tinggi)? Jika ya, lalu input apa yang dibutuhkan formula ini?

mynameisJEFF
sumber
3
Daripada batas keputusan Anda mungkin akan menemukan lebih banyak utilitas dalam mempertimbangkan probabilitas posterior keanggotaan kelas. Hal ini dapat dilakukan dengan asumsi yang lebih sedikit menggunakan regresi logistik politin (multinomial) tetapi juga dapat dilakukan dengan LDA (probabilitas posterior).
Frank Harrell
2
Dalam LDA, batas-batas klasifikasi tersebut merupakan apa yang dikenal sebagai peta teritorial . Saya bekerja dengan SPSS, dan plot itu , meskipun dalam format teks. Menurut salah satu perancang SPSS, batas-batas itu ditemukan dengan mudah melalui pendekatan praktis:
ttnphns
3
(lanjt). Setiap titik dari kisi-kisi halus diklasifikasikan LDA, dan kemudian jika suatu titik diklasifikasikan sebagai tetangganya, titik itu tidak ditampilkan. Dengan demikian hanya batas-batas sebagai "band ambiguitas" yang tersisa pada akhirnya. Citation: they (bondaries) are never computed. The plot is drawn by classifying every character cell in it, then blanking out all those surrounded by cells classified into the same category.
ttnphns

Jawaban:

22

Tokoh khusus dalam Hastie et al. diproduksi tanpa menghitung persamaan batas kelas. Alih-alih, algoritma yang diuraikan oleh @ttnphns dalam komentar digunakan, lihat catatan kaki 2 di bagian 4.3, halaman 110:

Untuk angka ini dan banyak angka serupa dalam buku kami menghitung batas keputusan dengan metode contouring yang lengkap. Kami menghitung aturan keputusan pada kisi-kisi poin yang bagus, dan kemudian menggunakan algoritma pembentukan untuk menghitung batas.

Namun, saya akan melanjutkan dengan menjelaskan cara mendapatkan persamaan batas kelas LDA.

Mari kita mulai dengan contoh 2D sederhana. Berikut adalah data dari dataset Iris ; Saya membuang pengukuran kelopak dan hanya mempertimbangkan panjang dan lebar sepal. Tiga kelas ditandai dengan warna merah, hijau dan biru:

Kumpulan data iris

μ1,μ2,μ3W=saya(xsaya-μk)(xsaya-μk)

12(μ1+μ2)/2W1(μ1μ2)

y=ax+bab

W1(μiμj)

LDA dari dataset Iris, batas keputusan

Tiga garis berpotongan dalam satu titik, seperti yang diharapkan. Batas keputusan diberikan oleh sinar mulai dari titik persimpangan:

LDA dari dataset Iris, batas keputusan akhir

K2K(K1)/2

D>2W1(μ1μ2)(μ1+μ2)/2D1

Lampiran

W1(μ1μ2)

  1. W1μ1μ2

  2. Cara Gaussian standar: jika kedua kelas dijelaskan oleh distribusi Gaussian, maka log-kemungkinan bahwa titik milik kelas k sebanding dengan ( x -xk(xμk)W1(xμk)12xW1(μ1μ2)=const

  3. Cara yang sulit tetapi intuitif. Bayangkan bahwa adalah matriks identitas, yaitu semua kelas berbentuk bola. Maka solusinya jelas: batas hanyalah ortogonal ke μ 1 -Wμ1μ2WW=UDUS=D1/2USS(μ1μ2)S1SS(μ1μ2)S

amuba kata Reinstate Monica
sumber
Saya belum mempelajari jawaban Anda. Tampaknya canggih dan mungkin benar. Bagaimana dengan pendekatan praktis "percikan poin, klasifikasi, lalu simpulkan batas" yang saya uraikan dalam komentar? Apakah pendekatan Anda sebanding dengan hasilnya (yang jelas-jelas benar)? Bagaimana menurut anda?
ttnphns
1
@ttnphns: Satu-satunya bagian teknis dari jawaban saya (daftar bernomor dengan 3 item) menyediakan beberapa bukti dan dapat dilewati dengan aman. Sisanya, saya percaya, tidak terlalu canggih! Mungkin saya harus memindahkan bagian "ekstra" ke bawah, sebagai lampiran? Mengenai komentar Anda: Saya pikir ini adalah pendekatan yang valid, dan saya suka tampilan ASCII dari "peta wilayah" SPSS. Mungkin Anda bisa memindahkan komentar Anda ke jawaban yang terpisah (dan memberikan gambar contoh peta SPSS di sana), saya pikir ini akan sangat membantu untuk referensi di masa mendatang. Hasilnya tentu saja harus setara.
Amoeba berkata Reinstate Monica
@ttnphns: Ternyata Hastie dkk. menggunakan persis metode yang Anda gambarkan di sini untuk memplot angka-angka mereka, termasuk yang direproduksi dalam OP. Saya menemukan catatan kaki yang mengatakan hal itu (dan memperbarui jawaban saya, mengutipnya di awal).
Amoeba berkata Reinstate Monica
Waouh! jawaban luar biasa (3 tahun kemudian!) bolehkah saya bertanya bagaimana Anda bisa menggambar segmen dalam masalah khusus ini?
Xavier Bourret Sicotte