Biarkan berada di . Apa yang dimaksud dengan matriks kovarians dan rata-rata dari (dengan max dihitung dengan elementwise)?
Ini muncul misalnya karena, jika kita menggunakan fungsi aktivasi ReLU di dalam jaringan yang dalam, dan mengasumsikan melalui CLT bahwa input ke lapisan yang diberikan kira-kira normal, maka ini adalah distribusi dari output.
(Saya yakin banyak orang telah menghitung ini sebelumnya, tetapi saya tidak dapat menemukan hasil yang tercantum di mana pun dengan cara yang cukup mudah dibaca.)
Jawaban:
Pertama-tama kita dapat mengurangi ini hanya bergantung pada momen-momen tertentu dari distribusi normal univariat / bivariat terpotong: perhatikan tentu saja bahwa
Kami akan menggunakan beberapa hasil dari
Rosenbaum menganggap dan pertimbangkan pemotongan ke acara .
Secara khusus, kami akan menggunakan tiga hasil berikut ini, (1), (3), dan (5). Pertama, tentukan yang berikut:
Sekarang, Rosenbaum menunjukkan bahwa:
Akan berguna juga untuk mempertimbangkan kasus khusus (1) dan (3) dengan , yaitu pemotongan 1d:ay=−∞
Kami sekarang ingin mempertimbangkan
Kita akan menggunakan yang merupakan nilai dan ketika , .
Sekarang, menggunakan (*), kita memperoleh dan menggunakan keduanya (*) dan (**) menghasilkan sehingga
Untuk menemukan , kita perluCov(X+,Y+)
Berikut ini beberapa kode Python untuk menghitung momen:
dan tes Monte Carlo yang berfungsi:
yang memberi10,000,000
0.000572145310512 0.00298692620286
, menunjukkan bahwa ekspektasi dan kovarian yang diklaim sesuai dengan perkiraan Monte Carlo (berdasarkan sampel).sumber