Derivatif gradien dan vektor: vektor baris atau kolom?

9

Cukup banyak referensi (termasuk wikipedia, dan http://www.atmos.washington.edu/~dennis/MatrixCalculus.pdf dan http://michael.orlitzky.com/articles/the_derivative_of_a_quadratic_form.php ) mendefinisikan turunan dari suatu fungsi oleh vektor sebagai turunan parsial dari fungsi yang diatur dalam satu baris (jadi turunan dari fungsi yang dinilai skalar adalah vektor baris). Dalam konvensi ini, gradien dan turunan vektor adalah transpos satu sama lain. Manfaat dari konvensi ini adalah kita dapat menafsirkan makna turunan sebagai fungsi yang memberi tahu Anda laju perubahan linear di setiap arah. Gradien tetap menjadi vektor, ini memberi tahu Anda arah dan besarnya laju perubahan terbesar.

Saya baru-baru ini membaca Aljabar Matriks Gentle ( http://books.google.com/books/about/Matrix_Algebra.html?id=Pbz3D7Tg5eoC ) dan dia tampaknya menggunakan konvensi lain, di mana ia mendefinisikan gradien sama dengan turunan vektor, menghasilkan dalam susunan kolom (jadi turunan dari fungsi bernilai skalar adalah vektor kolom). Sebagai hasil dari pengaturan ini, setiap hasil diferensiasi adalah transpos dari hasil dalam konvensi lain. Manfaat dari konvensi ini, saya kira di sini, hanya gradien dan turunannya sama. Jadi untuk tugas-tugas optimasi, alih-alih membedakan dan kemudian mengambil transpose, Anda bisa membedakan.

Saya pikir ketegangan antara Jacobian dan gradien. Dalam konvensi baris, Jacobian mengikuti langsung dari definisi turunannya, tetapi Anda harus menerapkan transpos untuk mendapatkan gradien; sedangkan dalam konvensi kolom, gradien adalah yang tidak perlu ditranskripsikan, tetapi Anda harus menerapkan transpos untuk mendapatkan Jacobian. Jadi jika Anda lebih suka menganggap hasil turunan sebagai peta linier, maka konvensi pertama masuk akal; jika Anda lebih suka menganggap hasilnya sebagai vektor / arah maka konvensi kedua masuk akal. Jadi, Anda hanya harus konsisten.

Manakah dari konvensi ini yang lebih umum digunakan dalam Pembelajaran Mesin? Apakah saya akan menjadi sangat putus asa jika saya menghabiskan terlalu banyak waktu membaca pekerjaan di kebaktian yang "salah"?

Ikan sederhana
sumber
Mungkin terkait dengan math.stackexchange.com/questions/336640/… , yang pada dasarnya mengatakan bahwa konvensi pertama adalah cara untuk pergi, tetapi saya masih penasaran apa yang harus dilakukan dengan konvensi Gentle.
Simplefish
chrishecker.com/Column_vs_row_vectors membuat argumen yang kuat untuk konvensi pertama.
Simplefish
Dalam ekonometrik, pengaturan kolom adalah konvensi.
tchakravarty
Contoh ambiguitas yang sangat membuat frustrasi di bidang ini adalah buku seri waktu Leutkepohl. Dia tidak pernah menentukan notasi mana yang digunakan untuk vektor baris dan kolom, jadi satu-satunya cara untuk menggunakan persamaan dari buku adalah dengan cermat mengikuti bukti dan definisi dari awal hingga selesai, yang dapat melibatkan pernyataan di beberapa bab buku.
shadowtalker

Jawaban:

4

Jika Anda mempertimbangkan peta linier antara ruang vektor (seperti Jacobian) J:uUvV, elemen-elemen v=Juharus setuju dalam bentuk dengan definisi matriks-vektor : komponenv adalah produk dalam dari baris J dengan u.

Dalam misalnya regresi linier, ruang keluaran (skalar dalam kasus ini) adalah kombinasi fitur yang berbobot: wu=v, lagi-lagi membutuhkan produk dalam.

Konvensi apa yang akhirnya Anda gunakan tidak ada konsekuensinya, selama Anda tetap menggunakannya. Matrix Cookbook oleh Pedersen dan Petersen adalah sumber yang agak kering tapi pasti informatif.

ocramz
sumber
Ah, begitu. Saya melihat lebih dekat definisi Gentle tentang Jacobian dan sebenarnya sama di kedua konvensi dan setuju dengan definisi representasi matriks dari peta linier. Secara khusus, di bawah konvensi kolom, ada gagasan tentang "gradien matriks" yang merupakan transpos Jacobian di bawah konvensi baris. Tetapi dalam konvensi kolom, Jacobian didefinisikan sebagai transpose yang tepat, sehingga definisi matriks Jacobian adalah sama di bawah kedua konvensi! Hanya entitas satu dimensi yang berbeda (vektor vs peta linear ke R).
Simplefish