Kenapa tiba-tiba terpesona dengan tensor?

171

Saya perhatikan akhir-akhir ini bahwa banyak orang sedang mengembangkan tensor ekivalen dari banyak metode (faktorisasi tensor, kernel tensor, tensor untuk pemodelan topik, dll) Saya bertanya-tanya, mengapa dunia tiba-tiba terpesona dengan tensor? Apakah ada makalah baru / hasil standar yang sangat mengejutkan, yang menyebabkan ini? Apakah komputasi jauh lebih murah daripada yang diduga sebelumnya?

Saya tidak menjadi fasih, saya sungguh-sungguh tertarik, dan jika ada petunjuk ke makalah tentang ini, saya ingin membacanya.

machine-learning references matrix linear-algebra tensor YS
sumber

25

Sepertinya satu-satunya fitur penahan yang berbagi "big data tensor" dengan definisi matematika yang biasa adalah bahwa mereka adalah array multidimensi. Jadi saya akan mengatakan bahwa tensor big data adalah cara yang dapat dipasarkan untuk mengatakan "array multidimensi," karena saya sangat meragukan bahwa orang yang belajar mesin akan peduli dengan simetri atau hukum transformasi yang dinikmati oleh tensor matematika dan fisika, terutama kegunaannya dalam membentuk persamaan bebas koordinat

Alex R.

2

@AlexR. tanpa invariansi untuk transformasi tidak ada tensor

Aksakal

2

@Aksakal Saya tentu agak akrab dengan penggunaan tensor dalam fisika. Maksud saya adalah bahwa simetri dalam tensor fisika berasal dari simetri fisika, bukan sesuatu yang penting dalam defensor tensor.

aginensky

3

@ Aginensky Jika sebuah tensor tidak lebih dari sebuah array multidimensi, lalu mengapa definisi tensor yang ditemukan dalam buku teks matematika terdengar sangat rumit? Dari Wikipedia: "Angka-angka dalam array multidimensi dikenal sebagai komponen skalar dari tensor ... Sama seperti komponen perubahan vektor ketika kita mengubah dasar ruang vektor, komponen tensor juga berubah di bawah Transformasi. Setiap tensor dilengkapi dengan hukum transformasi yang merinci bagaimana komponen tensor merespons perubahan basis. " Dalam matematika, tensor bukan hanya array.

littleO

4

Hanya beberapa pemikiran umum tentang diskusi ini: Saya pikir, seperti halnya vektor dan matriks, aplikasi sebenarnya sering menjadi contoh yang disederhanakan dari teori yang lebih kaya. Saya membaca makalah ini secara lebih mendalam: epubs.siam.org/doi/abs/10.1137/07070111X?journalCode=siread dan satu hal yang benar-benar membuat saya terkesan adalah alat "representasional" untuk matriks (nilai eigen dan dekomposisi nilai singular) memiliki generalisasi menarik dalam pesanan yang lebih tinggi. Saya yakin ada banyak properti indah juga, di luar wadah yang bagus untuk indeks lebih banyak. :)

YS

89

Tensor sering menawarkan representasi data yang lebih alami, misalnya, pertimbangkan video, yang terdiri dari gambar yang jelas berkorelasi dari waktu ke waktu. Anda dapat mengubah ini menjadi sebuah matriks, tetapi itu tidak alami atau intuitif (apa arti faktorisasi dari beberapa representasi matriks dari video?).

Tensor menjadi tren karena beberapa alasan:

pemahaman kita tentang aljabar multilinear meningkat dengan cepat, khususnya dalam berbagai jenis faktorisasi, yang pada gilirannya membantu kita untuk mengidentifikasi aplikasi potensial baru (misalnya, analisis komponen multi jalur )
alat perangkat lunak sedang muncul (misalnya, Tensorlab ) dan disambut
Aplikasi Big Data seringkali dapat diselesaikan menggunakan tensor, misalnya sistem rekomendasi , dan Big Data sendiri panas
peningkatan daya komputasi, karena beberapa operasi tensor dapat menjadi besar (ini juga merupakan salah satu alasan utama mengapa pembelajaran mendalam sangat populer sekarang)

Marc Claesen
sumber

9

Pada bagian daya komputasi: Saya pikir yang paling penting adalah aljabar linier bisa sangat cepat pada GPU, dan akhir-akhir ini mereka mendapatkan memori yang lebih besar dan lebih cepat, itu adalah batasan terbesar saat memproses data besar.

Davidmh

6

Jawaban Marc Claesen adalah jawaban yang bagus. David Dunson, Profesor Statistik yang Terhormat di Duke, telah menjadi salah satu eksponen kunci dari pendekatan berbasis tensor untuk pemodelan seperti dalam presentasi ini, Bayesian Tensor Regression . icerm.brown.edu/materials/Slides/sp-f12-w1/…

Mike Hunter

Seperti yang disebutkan oleh David, algoritma Tensor sering cocok dengan paralelisme, yang mana perangkat keras (seperti akselerator GPU) semakin menjadi semakin baik.

Thomas Russell

1

Saya berasumsi bahwa kemampuan memori / CPU yang lebih baik berperan, tetapi ledakan perhatian baru-baru ini menarik; Saya pikir itu pasti karena banyak keberhasilan mengejutkan baru-baru ini dengan sistem rekomendasi, dan mungkin juga kernel untuk SVM, dll. Terima kasih atas tautannya! tempat yang bagus untuk mulai belajar tentang hal ini ...

YS

5

Jika Anda menyimpan video sebagai array multidimensi, saya tidak melihat bagaimana array multidimensi ini akan memiliki properti invarian apa pun yang seharusnya dimiliki oleh sebuah tensor. Sepertinya kata "tensor" tidak sesuai dalam contoh ini.

littleO

73

Saya pikir pertanyaan Anda harus dicocokkan dengan jawaban yang sama-sama bebas mengalir dan berpikiran terbuka sebagai pertanyaan itu sendiri. Jadi, inilah dua analogi saya.

Pertama, kecuali Anda seorang ahli matematika murni, Anda mungkin diajarkan probabilitas dan statistik univariat terlebih dahulu. Sebagai contoh, kemungkinan besar contoh OLS pertama Anda mungkin pada model seperti ini: Kemungkinan besar, Anda mengalami penurunan estimasi dengan meminimalkan jumlah kuadrat terkecil: Kemudian Anda menulis FOC untuk parameter dan mendapatkan solusinya:

y_{i} = a + b x_{i} + e_{i}

$y_i=a+bx_i+e_i$

T S S = \sum_{i} (y_{i} - \bar{a} - \bar{b} x_{i})^{2}

$TSS=\sum_i(y_i-\bar a-\bar b x_i)^2$

\frac{\partial T T S}{\partial \bar{a}} = 0

$\frac{\partial TTS}{\partial \bar a}=0$

Kemudian Anda diberitahu bahwa ada cara yang lebih mudah untuk melakukannya dengan notasi vektor (matriks):

y = X b + e

$y=Xb+e$

dan TTS menjadi:

T T S = (y - X \bar{b})^{'} (y - X \bar{b})

$TTS=(y-X\bar b)'(y-X\bar b)$

FOC adalah:

2 X^{'} (y - X \bar{b}) = 0

$2X'(y-X\bar b)=0$

Dan solusinya adalah

\bar{b} = (X^{'} X)^{- 1} X^{'} y

$\bar b=(X'X)^{-1}X'y$

Jika Anda mahir dalam aljabar linier, Anda akan tetap menggunakan pendekatan kedua setelah Anda mempelajarinya, karena sebenarnya lebih mudah daripada menuliskan semua jumlah dalam pendekatan pertama, terutama sekali Anda masuk ke statistik multivariat.

Karena itu analogi saya adalah bahwa pindah ke tensor dari matriks mirip dengan pindah dari vektor ke matriks: jika Anda tahu tensor, beberapa hal akan terlihat lebih mudah dengan cara ini.

Kedua, dari mana datangnya tensor? Saya tidak yakin tentang seluruh sejarah benda ini, tetapi saya mempelajarinya dalam mekanika teoretis. Tentu saja, kami memiliki kursus tentang tensor, tetapi saya tidak mengerti apa masalahnya dengan semua cara mewah ini untuk bertukar indeks dalam kursus matematika itu. Semuanya mulai masuk akal dalam konteks mempelajari kekuatan-kekuatan ketegangan.

Jadi, dalam fisika mereka juga mulai dengan contoh sederhana tekanan yang didefinisikan sebagai gaya per satuan luas, karenanya: Ini berarti Anda dapat menghitung vektor gaya dengan mengalikan tekanan (skalar) dengan satuan luas (vektor normal). Saat itulah kita hanya memiliki satu permukaan bidang yang tidak terbatas. Dalam hal ini hanya ada satu kekuatan tegak lurus. Balon besar akan menjadi contoh yang baik.

F = p \cdot d S

$F=p\cdot dS$

F

$F$

p

$p$

d S

$dS$

Namun, jika Anda mempelajari ketegangan di dalam material, Anda berurusan dengan semua kemungkinan arah dan permukaan. Dalam hal ini Anda memiliki kekuatan pada permukaan tertentu yang menarik atau mendorong ke segala arah, tidak hanya yang tegak lurus. Beberapa permukaan terkoyak oleh gaya tangensial "ke samping" dll. Jadi, persamaan Anda menjadi: Gaya masih berupa vektor dan area permukaan masih diwakili oleh vektor normal , tetapi adalah tensor sekarang, bukan skalar.

F = P \cdot d S

$F=P\cdot dS$

F

$F$

d S

$dS$

P

$P$

Ok, skalar dan vektor juga tensor :)

Tempat lain di mana tensor muncul secara alami adalah matriks kovarians atau korelasi. Bayangkan saja ini: bagaimana cara mengubah matriks korelasi sekali ke yang lain ? Anda sadar bahwa kita tidak bisa melakukannya dengan cara ini: mana karena kita perlu menjaga semua positif semi-pasti. $C_0$ $C_1$

C_{θ} (i, j) = C_{0} (i, j) + θ (C_{1} (i, j) - C_{0} (i, j)),

$C_\theta(i,j)=C_0(i,j)+ \theta(C_1(i,j)-C_0(i,j)),$

θ \in [0, 1]

$\theta\in[0,1]$

C_{θ}

$C_\theta$

Jadi, kita harus menemukan path sehingga , di mana adalah gangguan kecil pada sebuah matriks. Ada banyak jalur berbeda, dan kita bisa mencari jalur terpendek. Itulah bagaimana kita masuk ke geometri Riemannian, manifold, dan ... tensor. $\delta C_\theta$ $C_1=C_0+\int_\theta\delta C_\theta$ $\delta C_\theta$

UPDATE: apa tensor, sih?

@amoeba dan yang lainnya masuk ke diskusi yang hidup tentang makna tensor dan apakah itu sama dengan array. Jadi, saya pikir contohnya ada dalam urutan.

Katakanlah, kita pergi ke pasar untuk membeli bahan makanan, dan ada dua pedagang dagang, dan . Kami perhatikan bahwa jika kami membayar dolar ke dan dolar ke maka menjual kami pon apel, dan menjual kami jeruk. Misalnya, jika kita membayar 1 dolar, yaitu , maka kita harus mendapatkan 1 pon apel dan 1,5 jeruk. $d_1$ $d_2$ $x_1$ $d_1$ $x_2$ $d_2$ $d_1$ $y_1=2x_1-x_2$ $d_2$ $y_2=-0.5x_1+2x_2$ $x_1=x_2=1$

Kita dapat menyatakan hubungan ini dalam bentuk matriks : $P$

 2   -1
-0.5  2

Maka para pedagang menghasilkan apel dan jeruk sebanyak ini jika kita membayarnya dolar: $x$

y = P x

$y=Px$

Ini bekerja persis seperti matriks dengan perkalian vektor.

Sekarang, katakanlah alih-alih membeli barang dari pedagang ini secara terpisah, kami menyatakan bahwa ada dua bundel pengeluaran yang kami gunakan. Kami membayar baik 0,71 dolar, atau kami membayar 0,71 dolar dan menuntut 0,71 dolar dari kembali. Seperti pada kasus awal, kami pergi ke pasar dan menghabiskan $d_1$ $d_2$ $z_1$ $z_2$

$z_1=2$ $x_1=1$ $x_2=1$

$P$ $P$

$P$

$\bar d_1,\bar d_2$ $d_i$ $i$ $\bar d_1',\bar d_2'$ , yang juga merupakan rotasi sederhana dari basis pertama dengan 45 derajat berlawanan arah jarum jam. Ini juga dekomposisi PC dari basis pertama. oleh karena itu, kami mengatakan bahwa beralih ke bundel adalah perubahan koordinat yang sederhana, dan seharusnya tidak mengubah perhitungan. Perhatikan, bahwa ini adalah batasan luar yang kami berikan pada model. Itu tidak berasal dari sifat matematika murni dari matriks.

$x=x_1 \bar d_1+x_2\bar d_2$

P = \sum_{i j} p_{i j} {\bar{d}}_{i} {\bar{d}}_{j}

$P=\sum_{ij}p_{ij}\bar d_i\bar d_j$

y = y_{1} {\bar{d}}_{1} + y_{2} {\bar{d}}_{2}

$y=y_1 \bar d_1+y_2 \bar d_2$

y_{i}

$y_i$

i

$i$

y = P z

$y=Pz$

z = z_{1} {\bar{d}}_{1}^{'} + z_{2} {\bar{d}}_{2}^{'}

$z=z_1 \bar d_1'+z_2\bar d_2'$

y = y_{1} {\bar{d}}_{1} + y_{2} {\bar{d}}_{2}

$y=y_1 \bar d_1+y_2 \bar d_2$

P = \sum_{i j} p_{i j}^{'} {\bar{d}}_{i}^{'} {\bar{d}}_{j}^{'}

$P=\sum_{ij}p_{ij}'\bar d_i'\bar d_j'$

P A

$PA$

{\bar{d}}^{'} = A \bar{d}

$\bar d'=A\bar d$

$x_1=x_2=1$ $z_1=0.71,z_2=0$

Aksakal
sumber

2

Saya bingung di sini:

So, let's look at an example where we spend just z1=1.42 on bundle 1. In this case, the first merchant gets x1=1 dollars, and the second merchant gets the same x2=1.

Sebelumnya Anda mengatakan bahwa bundel pertama adalah kita pay both 0.71 dollars. Jadi, pengeluaran 1,42 untuk bundel pertama harus mendapatkan 0,71 masing-masing dan bukan 1, bukan?

amoeba

{\bar{d}}_{1} / \sqrt{2} + {\bar{d}}_{2} / \sqrt{2}

$\bar d_1/ \sqrt 2+\bar d_2/ \sqrt 2$

\sqrt{2}

$\sqrt 2$

{\bar{d}}_{1} + {\bar{d}}_{2}

$\bar d_1+\bar d_2$

2

{\bar{d}}_{1} / \sqrt{2} + {\bar{d}}_{2} / \sqrt{2}

$\bar d_1/ \sqrt 2+\bar d_2/ \sqrt 2$

@Aksakal Ini bagus, terima kasih! Saya pikir Anda memiliki kesalahan ketik pada baris terakhir, di mana Anda mengatakan x1 = x2 = 1 (benar) dan z1 = 0,71, z2 = 0. Menganggap saya memahami semuanya dengan benar, z1 harus 1,42 (atau 1,41, yang sedikit lebih dekat) ke 2 ^ 0,5).

Mike Williamson

71

Ini bukan jawaban untuk pertanyaan Anda, tetapi komentar panjang tentang masalah yang telah diangkat di sini dalam komentar oleh orang yang berbeda, yaitu: apakah pembelajaran mesin "tensor" sama dengan tensor dalam matematika?

Sekarang, menurut Cichoki 2014, Era Pemrosesan Data Besar: Pendekatan Baru melalui Tensor Networks dan Tompor Decompositions , dan Cichoki et al. 2014, Dekomposisi Tensor untuk Aplikasi Pemrosesan Sinyal ,

Tensor orde tinggi dapat diartikan sebagai multiway array, [...]

Tensor dapat dianggap sebagai array numerik multi-indeks, [...]

Tensor (yaitu, array multi-arah) [...]

$1000$ $640\times 480$ $n\times p$

Ini bukan bagaimana tensor didefinisikan dalam matematika dan fisika!

$V$ $V\otimes\ldots\otimes V^*$ $p\times p$ $p\times p\times p$ $p$ $V$

$3\times 3$ $4\times 4$ $4\times 4\times 4\times 4$ $V$

$V\otimes W$ $p$ $V$ $q$ $W$

$V$

$p\times p$ $p$ $V$ $n\times p$ $X$

$X$ $W\otimes V$ $W$ $n$ $V$ $p$ $X$ $V$ $W$ $X$ $W\otimes V$

$X\in\mathbb R^{n\times p}$ $R^{n\times p}$ $n\times p$

Kesimpulan saya adalah: (a) tensor pembelajaran mesin bukan tensor matematika / fisika, dan (b) sebagian besar tidak berguna untuk melihatnya sebagai elemen dari produk tensor.

Sebaliknya, mereka adalah generalisasi multidimensi dari matriks. Sayangnya, tidak ada istilah matematika yang mapan untuk itu, sehingga tampaknya makna baru "tensor" ini sekarang ada.

amuba
sumber

19

p

$p$

10

n

$n$

3

$3$

n

$n$

4

@amoeba, dalam pemrograman matriks multi dimensi biasanya disebut array , tetapi beberapa bahasa seperti MATLAB akan menyebutnya matriks . Misalnya, dalam FORTRAN array dapat memiliki lebih dari 2 dimensi. Dalam bahasa seperti C / C ++ / Java array adalah satu dimensi, tetapi Anda dapat memiliki array array, membuatnya bekerja seperti array multidimensi juga. MATLAB mendukung 3 atau lebih array dimensi dalam sintaksis.

Aksakal

3

Ini sangat menarik. Saya harap Anda akan menekankan hal itu. Tapi tolong berhati-hati untuk tidak membingungkan set dengan ruang vektor yang ditentukan, karena perbedaan itu penting dalam statistik. Khususnya (untuk mengambil salah satu contoh Anda), meskipun kombinasi linier orang tidak ada artinya, kombinasi linier fungsi bernilai riil pada sekelompok orang bermakna dan penting. Ini adalah kunci untuk menyelesaikan regresi linier, misalnya.

Whuber

8

Per T. Kolda, B, Bada, "Dekomposisi Tensor dan Aplikasi" SIAM Review 2009, epubs.siam.org/doi/pdf/10.1137/07070111X 'tensor adalah array multidimensi. Secara lebih formal, tensor N-way atau Nth-order adalah elemen dari produk tensor dari ruang vektor N, yang masing-masing memiliki sistem koordinatnya sendiri. Gagasan tensor ini tidak harus disamakan dengan tensor dalam fisika dan teknik (seperti tensor stres) ,, yang umumnya disebut sebagai bidang tensor dalam matematika "

Mark L. Stone

14

Sebagai seseorang yang mempelajari dan membangun jaringan saraf dan telah berulang kali mengajukan pertanyaan ini, saya sampai pada kesimpulan bahwa kita meminjam aspek berguna dari notasi tensor hanya karena mereka membuat derivasi lebih mudah dan menjaga gradien kita dalam bentuk asli mereka. The rantai aturan tensor adalah salah satu alat derivasi paling elegan yang pernah saya lihat. Notasi tensor lebih lanjut mendorong penyederhanaan yang efisien secara komputasi yang hanya mimpi buruk untuk ditemukan ketika menggunakan versi luas umum kalkulus vektor.

Dalam Vektor / Matriks kalkulus misalnya ada 4 jenis produk matriks (Hadamard, Kronecker, Biasa, dan Elementwise) tetapi dalam kalkulus tensor hanya ada satu jenis perkalian namun mencakup semua perkalian matriks dan banyak lagi. Jika Anda ingin bermurah hati, interpretasikan tensor menjadi array multi dimensi yang kami maksudkan untuk menggunakan kalkulus berbasis tensor untuk mencari turunan, bukan objek yang kami manipulasi adalah tensor .

Dalam semua kejujuran kita mungkin menyebut tensor array multi-dimensi kita karena kebanyakan ahli pembelajaran mesin tidak terlalu peduli tentang mengikuti definisi matematika atau fisika tingkat tinggi. Kenyataannya adalah kita hanya meminjam Konvensi Summasi dan Kalkulus Einstein yang berkembang dengan baik yang biasanya digunakan ketika menggambarkan tensor dan tidak ingin mengatakan kalkulasi berdasarkan konvensi penjumlahan konvensi penjumlahan Einstein berulang kali. Mungkin suatu hari kita mungkin mengembangkan serangkaian notasi dan konvensi baru yang hanya mencuri apa yang mereka butuhkan dari kalkulus tensor khusus untuk menganalisis jaringan saraf, tetapi sebagai bidang muda yang membutuhkan waktu.

James Ryland
sumber

Harap daftarkan & / atau gabungkan akun Anda (Anda dapat menemukan informasi tentang cara melakukan ini di bagian Akun Saya di pusat bantuan kami ), maka Anda akan dapat mengedit & mengomentari jawaban Anda sendiri.

gung

10

Sekarang saya sebenarnya setuju dengan sebagian besar isi dari jawaban yang lain. Tapi saya akan berperan sebagai pengacara Iblis pada satu titik. Sekali lagi, ini akan mengalir bebas, jadi permintaan maaf ...

Google mengumumkan sebuah program bernama Tensor Flow untuk pembelajaran yang mendalam. Ini membuat saya bertanya-tanya apa yang 'tensor' tentang pembelajaran yang mendalam, karena saya tidak dapat membuat koneksi ke definisi yang saya lihat.

$i$ $y$

$y_i = \sigma(\beta_i^j x_j)$

Sekarang idenya adalah untuk menyatukan sekelompok transformasi seperti itu untuk sampai pada representasi yang berguna dari koordinat asli. Jadi, misalnya, setelah transformasi gambar terakhir, regresi logistik sederhana akan menghasilkan akurasi klasifikasi yang sangat baik; sedangkan pada gambar mentah itu pasti tidak.

Sekarang, hal yang tampaknya telah hilang dari pandangan adalah sifat invarian yang dicari dalam tensor yang tepat. Terutama ketika dimensi dari variabel yang diubah mungkin berbeda dari lapisan ke lapisan. [Misalnya beberapa hal yang saya lihat pada tensor tidak masuk akal untuk Jacobian non-persegi - saya mungkin kurang beberapa metode]

Apa yang telah dipertahankan adalah gagasan transformasi variabel, dan bahwa representasi tertentu dari vektor mungkin lebih berguna daripada yang lain untuk tugas-tugas tertentu. Analogi adalah apakah lebih masuk akal untuk mengatasi masalah di Cartesian atau koordinat kutub.

EDIT sebagai respons terhadap @Aksakal:

Vektor tidak dapat dipelihara dengan sempurna karena perubahan dalam jumlah koordinat. Namun, dalam beberapa hal setidaknya informasi yang berguna dapat disimpan dalam transformasi. Sebagai contoh dengan PCA kita dapat menjatuhkan koordinat, jadi kita tidak bisa membalikkan transformasi tetapi pengurangan dimensi mungkin berguna meskipun demikian. Jika semua transformasi berturut-turut tidak dapat dibalik, Anda dapat memetakan kembali dari lapisan kedua dari belakang ke ruang input. Seperti itu, saya hanya melihat model probabilistik yang memungkinkan itu (RBM) dengan pengambilan sampel.

dugaan
sumber

1

Dalam konteks jaringan saraf saya selalu mengasumsikan bahwa tensor bertindak sebagai array multidimensi. Bisakah Anda menguraikan bagaimana properti invarian membantu klasifikasi / representasi?

YS

Mungkin saya tidak jelas di atas, tetapi bagi saya - jika penafsirannya benar - tujuan dari properti invarian telah dijatuhkan. Apa yang tampaknya dipertahankan adalah gagasan transformasi variabel.

Dugaan

\bar{r}

$\bar r$

tetapi bukankah itu properti transformasi lebih dari tensor? Setidaknya dengan transformasi tipe linear dan elemen-bijaksana, yang tampaknya lebih populer di jaring saraf, mereka sama-sama hadir dengan vektor dan matriks; apa manfaat tambahan dari tensor?

YS

1

@conjectures, PCA hanyalah rotasi dan proyeksi. Ini seperti memutar ruang N-dimensi ke basis PC, lalu memproyeksikan ke ruang sub. Tensor digunakan dalam situasi yang sama dalam fisika, misalnya ketika melihat kekuatan pada permukaan di dalam tubuh, dll.

Aksakal

7

Berikut ini adalah kutipan (untuk konteks) yang diedit dengan ringan dari Faktorisasi Tensor Non-Negatif dengan Aplikasi untuk Statistik dan Visi Komputer, A. Shashua dan T. Hazan yang masuk ke jantung mengapa setidaknya beberapa orang terpesona dengan tensor.

Setiap masalah n-dimensional dapat direpresentasikan dalam bentuk dua dimensi dengan menggabungkan dimensi. Jadi misalnya, masalah menemukan dekomposisi peringkat rendah non-negatif dari satu set gambar adalah 3-NTF (Non-negative Tensor Factorization), dengan gambar membentuk potongan kubus 3D, tetapi juga dapat direpresentasikan sebagai masalah NMF (Non-negative Matrix Factorization) dengan membuat vektor gambar (gambar membentuk kolom dari sebuah matriks).

Ada dua alasan mengapa representasi matriks dari koleksi gambar tidak sesuai:

Redundansi spasial (piksel, tidak harus bertetangga, memiliki nilai yang sama) hilang dalam vektorisasi sehingga kita harapkan faktorisasi yang kurang efisien, dan

Oleh karena itu dekomposisi NMF tidak unik walaupun ada model generatif (bagian lokal) NMF tidak perlu bergerak ke arah itu, yang telah diverifikasi secara empiris oleh Chu, M., Diele, F., Plemmons, R., & Ragni, S. "Optimalitas, perhitungan dan interpretasi faktorisasi matriks nonnegatif" Jurnal SIAM tentang Analisis Matriks, 2004. Sebagai contoh, bagian invarian pada set gambar akan cenderung membentuk hantu di semua faktor dan mencemari efek sparsity. Sebuah NTF hampir selalu unik sehingga kami berharap skema NTF bergerak menuju model generatif, dan secara khusus tidak dipengaruhi oleh bagian invarian.

Mark L. Stone
sumber

6

[EDIT] Baru menemukan buku karya Peter McCullagh, Metode Tensor dalam Statistik .

Tensor menampilkan properti yang menarik dalam identifikasi campuran yang tidak diketahui dalam sinyal (atau gambar), terutama di sekitar gagasan dekomposisi tensor Canonical Polyadic (CP), lihat misalnya Tensor : Pengantar Singkat , P. Comon, 2014. Bidang ini dikenal dengan nama "pemisahan sumber buta (BSS)":

Dekomposisi tensor adalah inti dari banyak algoritma Pemisahan Sumber Buta (BSS), baik secara eksplisit maupun implisit. Secara khusus, dekomposisi tensor Canonical Polyadic (CP) memainkan peran sentral dalam identifikasi campuran yang tidak ditentukan. Meskipun ada beberapa kesamaan, CP dan Singular Value Decomposition (SVD) sangat berbeda. Secara umum, tensor dan matriks menikmati sifat yang berbeda, sebagaimana ditunjukkan dalam pengantar singkat ini.

Beberapa hasil keunikan telah diturunkan untuk tensor orde ketiga baru-baru ini: Pada keunikan dekomposisi poliadik kanonik dari tensor orde ketiga ( bagian 1 , bagian 2 ), I. Domanov et al. , 2013.

Dekomposisi tensor adalah nodaways yang sering dikaitkan dengan dekomposisi yang jarang, misalnya dengan memaksakan struktur pada faktor dekomposisi (ortogonalitas, Vandermonde, Hankel), dan peringkat rendah, untuk mengakomodasi dengan keunikan.

Dengan meningkatnya kebutuhan untuk analisis data yang tidak lengkap dan penentuan pengukuran kompleks dari sensor array, tensor semakin banyak digunakan untuk penyelesaian matriks, analisis variabel laten dan pemisahan sumber.

Catatan tambahan: ternyata, dekomposisi Canonical Polyadic juga setara dengan dekomposisi Waring dari polinom homogen sebagai jumlah kekuatan bentuk linear, dengan aplikasi dalam identifikasi sistem (blok terstruktur, paralel Wiener-Hammerstein atau model ruang-ruang nonlinier).

Laurent Duval
sumber

3

Bolehkah saya merekomendasikan buku saya: Kroonenberg, PM Applied Multiway Data Analysis dan Smilde et al. Analisis Multiway. Aplikasi dalam Ilmu Kimia (keduanya Wiley). Yang menarik juga mungkin artikel saya: Kroonenberg, PM (2014). Sejarah analisis komponen multi jalur dan analisis korespondensi tiga arah. Dalam Blasius, J. dan Greenacre, MJ (Eds.). Visualisasi dan verbalisasi data (hal. 77-94). New York: Chapman & Hall / CRC. ISBN 9781466589803.

Referensi ini berbicara tentang data multway daripada tensor, tetapi merujuk ke area penelitian yang sama.

PM Kroonenberg
sumber

-1

Memang benar bahwa orang-orang di Machine Learning tidak melihat tensor dengan perawatan yang sama seperti ahli matematika dan dokter. Berikut ini adalah makalah yang dapat menjelaskan perbedaan ini: Comon P., "Tensor: pengantar singkat" IEEE Sig. Proc Majalah , 31, Mei 2014

Moun
sumber

5

Apakah perbedaan antara tensor dalam matematika / fisika dan tensor dalam pembelajaran mesin benar-benar salah satu "peduli"? Tampaknya orang belajar mesin menggunakan "tensor" sebagai istilah umum untuk array angka (skalar, vektor, matriks, dan array dengan 3 atau lebih sumbu, misalnya dalam TensorFlow), sedangkan "tensor" dalam konteks matematika / fisika memiliki perbedaan berarti. Menyarankan bahwa pertanyaannya adalah tentang "peduli" adalah, saya pikir, untuk menyalahartikan penggunaannya sebagai "salah" dalam kapasitas pembelajaran mesin, padahal sebenarnya konteks pembelajaran mesin tidak memiliki niat untuk secara tepat mereplikasi penggunaan matematika / fisika.

Sycorax

Kenapa tiba-tiba terpesona dengan tensor?

Jawaban: