Hyperplanes secara optimal mengklasifikasikan data ketika input independen dengan kondisi

10

Dalam makalah yang disebut Deep Learning dan Information Bottleneck Principle , penulis menyatakan di bagian II A) berikut ini:

Neuron tunggal mengklasifikasikan hanya input yang dapat dipisahkan secara linear, karena mereka hanya dapat mengimplementasikan hiperplanes dalam ruang inputnya . Hyperplanes dapat secara optimal mengklasifikasikan data ketika input secara independen tergantung. $u = wh+b$

Untuk menunjukkan ini, mereka mendapatkan yang berikut ini. Menggunakan teorema Bayes, mereka mendapatkan:

$p(y|x) = \frac{1}{1 + exp(-log\frac{p(x|y)}{p(x|y')} -log\frac{p(y)}{p(y')})}$ (1)

Di mana adalah input, adalah kelas dan adalah kelas yang diprediksi (saya berasumsi, tidak didefinisikan). Melanjutkan, mereka menyatakan bahwa: $x$ $y$ $y'$ $y'$

$\frac{p(x|y)}{p(x|y')} = \prod^N_{j=1}[\frac{p(x_j|y)}{p(x_j|y')}]^{np(x_j)}$ (2)

Di mana adalah dimensi input dan saya tidak yakin (sekali lagi, keduanya tidak terdefinisi). Mempertimbangkan sigmoidal neuron, dengan fungsi aktivasi sigmoid dan preactivation , setelah memasukkan (2) ke dalam (1) kita mendapatkan nilai bobot optimal dan , ketika nilai input . $N$ $n$ $\sigma(u) = \frac{1}{1+exp(-u)}$ $u$ $w_j = log\frac{p(x_j|y)}{p(x_j|y')}$ $b=log\frac{p(y)}{p(y')}$ $h_j=np(x_j)$

Sekarang ke pertanyaan saya. Saya mengerti bagaimana memasukkan (2) ke dalam (1) mengarah pada bobot optimal dan nilai input $w,b,h$ . Apa yang saya tidak mengerti, adalah sebagai berikut:

Bagaimana (1) diturunkan menggunakan teorema Bayes?
Bagaimana cara (2) diturunkan? Apa itu ? Apa artinya itu? Saya menganggap itu ada hubungannya dengan independensi bersyarat $n$
Sekalipun dimensi x independen secara kondisional, bagaimana seseorang dapat menyatakan bahwa ia sama dengan probabilitas penskalaannya? (yaitu bagaimana Anda bisa menyatakan ?) $h_j=np(x_j)$

EDIT: Variabel adalah variabel kelas biner. Dari sini saya berasumsi bahwa adalah kelas "lain". Ini akan menyelesaikan pertanyaan 1. Apakah Anda setuju? $y$ $y'$

bayesian neural-networks information-theory spurra
sumber

Saya berjuang untuk memahami dari mana persamaan 2 berasal, meskipun ada petunjuk dalam jawaban oleh penulis makalah (Prof. Tishby). Saya mengerti bagian yang berasal dari asumsi independensi bersyarat. Namun, saya tidak yakin tentang eksponen - mengapa ada di sana?

n p (x_{j})

$n p(x_j)$

IcannotFixIn

5

Maaf tentang detail yang hilang di makalah singkat kami, tetapi hubungan dan hubungan antara uji Likelihood Ratio dan neuron sigmoidal ini tentu bukan hal baru, dan dapat ditemukan di buku teks (mis. Uskup 2006). Dalam makalah kami, 'N' adalah dimensi input dan 'n' adalah ukuran sampel uji (yang sebenarnya diterjemahkan ke input SNR dengan asumsi bahwa SNR tumbuh seperti sqrt (n)). Koneksi ke fungsi sigmoidal dilakukan melalui aturan Bayes, sebagai posterior kelas. Tidak ada bagian lain dari makalah ini dan makalah kami yang lebih baru dan lebih penting dari 2017 yang benar-benar bergantung pada ini.

Naftali Tishby

Naftali Tishby
sumber

2

Terima kasih telah menjelaskan ini di sini. Merupakan praktik standar dalam komunitas ini untuk menulis kutipan penuh sehingga pembaca yang tertarik dapat mencari sumbernya. Bisakah Anda melakukan ini untuk Bishop (2006)?

mkt - Reinstate Monica

5

Ini adalah pengaturan model di mana penulis menggunakan bentuk khusus dari teorema Bayes yang berlaku ketika Anda memiliki variabel biner yang menarik. Mereka pertama-tama menurunkan bentuk teorema Bayes ini sebagai Persamaan (1), dan kemudian mereka menunjukkan bahwa kondisi dalam Persamaan (2) menuntun mereka ke bentuk linear yang ditentukan untuk jaringan mereka. Penting untuk dicatat bahwa persamaan terakhir tidak diturunkan dari kondisi sebelumnya --- melainkan kondisi untuk bentuk linear yang mereka gunakan untuk jaringan mereka.

Turunkan persamaan pertama: Persamaan (1) dalam makalah ini hanya bentuk teorema Bayes yang membingkai probabilitas bunga bersyarat dalam hal fungsi logistik standar (sigmoid) yang beroperasi pada fungsi kemungkinan dan sebelumnya. Mengambil dan menjadi dua hasil biner dari variabel acak , dan menerapkan teorema Bayes, memberikan: $y$ $y'$ $Y$

\begin{aligned} p (y | x) = \frac{p (y, x)}{p (x)} & = \frac{p (x | y) p (y)}{p (x | y) p (y) + p (x | y^{'}) p (y^{'})} \\ = \frac{1}{1 + p (x | y^{'}) p (y^{'}) / p (x | y) p (y)} \\ = \frac{1}{1 + \exp (\log (\frac{p (x | y^{'}) p (y^{'})}{p (x | y) p (y)}))} \\ = \frac{1}{1 + \exp (- \log \frac{p (x | y)}{p (x | y^{'})} - \log \frac{p (y)}{p (y^{'})})} \\ = logistic (\log \frac{p (x | y)}{p (x | y^{'})} + \log \frac{p (y)}{p (y^{'})}) . \end{aligned}

$\begin{equation} \begin{aligned} p(y|\mathbf{x}) = \frac{p(y,\mathbf{x})}{p(\mathbf{x})} &= \frac{p(\mathbf{x}|y) p(y)}{p(\mathbf{x}|y) p(y)+p(\mathbf{x}|y') p(y')} \\[6pt] &= \frac{1}{1+ p(\mathbf{x}|y') p(y')/p(\mathbf{x}|y) p(y)} \\[6pt] &= \frac{1}{1+ \exp \Big( \log \Big( \tfrac{p(\mathbf{x}|y') p(y')}{p(\mathbf{x}|y) p(y)} \Big) \Big)} \\[6pt] &= \frac{1}{1+ \exp \Big( - \log \tfrac{p(\mathbf{x}|y)}{p(\mathbf{x}|y')} - \log \tfrac{p(y)}{p(y')} \Big)} \\[6pt] &= \text{logistic} \Bigg( \log \frac{p(\mathbf{x}|y)}{p(\mathbf{x}|y')} + \log \frac{p(y)}{p(y')} \Bigg). \\[6pt] \end{aligned} \end{equation}$

Menggunakan Persamaan (2) sebagai kondisi untuk bentuk lienar dari jaringan: Seperti yang dinyatakan di atas, persamaan ini bukan sesuatu yang diturunkan dari hasil sebelumnya. Sebaliknya, itu adalah kondisi yang cukup yang mengarah ke bentuk linier yang digunakan penulis dalam model mereka --- yaitu, penulis mengatakan bahwa jika persamaan ini berlaku, maka mengikuti hasil tertentu. Membiarkan vektor input memiliki panjang , jika Persamaan (2) berlaku, maka mengambil logaritma dari kedua sisi memberi: $\mathbf{x} = (x_1,...,x_N)$ $N$

\begin{aligned} \log \frac{p (x | y)}{p (x | y^{'})} & = \log \prod_{i = 1}^{N} [\frac{p (x_{i} | y)}{p (x_{i} | y^{'})}]^{n p (x_{i})} \\ = \sum_{i = 1}^{N} n p (x_{i}) \log [\frac{p (x_{i} | y)}{p (x_{i} | y^{'})}] \\ = \sum_{i = 1}^{N} h_{i} w_{i} . \end{aligned}

$\begin{equation} \begin{aligned} \log \frac{p(\mathbf{x}|y)}{p(\mathbf{x}|y')} &= \log \prod_{i=1}^N \Big[ \frac{p(x_i|y)}{p(x_i|y')} \Big]^{n p (x_i)} \\[6pt] &= \sum_{i=1}^N n p (x_i) \log \Big[ \frac{p(x_i|y)}{p(x_i|y')} \Big] \\[6pt] &= \sum_{i=1}^N h_i w_i. \\[6pt] \end{aligned} \end{equation}$

Dalam kondisi ini, oleh karena itu kami memperoleh bentuk posterior:

\begin{aligned} p (y | x) & = logistic (\log \frac{p (x | y)}{p (x | y^{'})} + \log \frac{p (y)}{p (y^{'})}) \\ = logistic (\sum_{i = 1}^{N} h_{i} w_{i} + b), \end{aligned}

$\begin{equation} \begin{aligned} p(y|\mathbf{x}) &= \text{logistic} \Bigg( \log \frac{p(\mathbf{x}|y)}{p(\mathbf{x}|y')} + \log \frac{p(y)}{p(y')} \Bigg) \\[6pt] &= \text{logistic} \Bigg( \sum_{i=1}^N h_i w_i + b \Bigg), \\[6pt] \end{aligned} \end{equation}$

yang merupakan bentuk yang digunakan penulis dalam jaringan mereka. Ini adalah bentuk model yang didalilkan oleh penulis di bagian latar belakang, sebelum menentukan Persamaan (1) - (2). Makalah ini tidak mendefinisikan dalam pengaturan model ini, tetapi seperti yang Anda tunjukkan, jawaban oleh Prof Tishby mengatakan bahwa ini adalah ukuran sampel pengujian. Dalam kaitan dengan pertanyaan ketiga Anda, tampak bahwa kebutuhan Persamaan (2) berarti bahwa nilai-nilai dalam adalah tidak bebas bersyarat . $n$ $\mathbf{x}$ $y$

Ben - Pasang kembali Monica
sumber

Prof. Tishby (penulis) mengatakan, dalam jawabannya sendiri, bahwa adalah ukuran sampel uji. Inilah sebabnya saya merasa bahwa eq (2) memiliki interpretasi yang lebih kaya daripada hanya kondisi arbitrer ke bentuk linear dari jaringan.

n

$n$

IcannotFixIni

Terima kasih - Saya telah mengedit jawaban saya untuk mencerminkan informasi tambahan ini.

Ben - Reinstate Monica

4

Untuk 1

$P(y \mid x) = \frac{P(y, x)}{P(x)}$

$= \frac{P(y,x)}{\sum_{i}P(y_{i},x)}$

Sekarang karena adalah biner, ini menjadi: $y_{i}$

$= \frac{P(y,x)}{P(y,x)+P(y',x)}$

$= \frac{1}{1+\frac{P(y',x)}{P(y,x)}}$

$= \frac{1}{1+exp[-log \ \frac{P(y,x)}{P(y',x)}]}$

dan dari sana hanya milik logaritma untuk sampai ke bentuk akhir (harus cukup jelas pada titik ini, beri tahu saya jika tidak).

Chris Ormandy
sumber

Hyperplanes secara optimal mengklasifikasikan data ketika input independen dengan kondisi - Mengapa?

Jawaban: