Short summary: Gaussian mean-field variational inference by running Adam on the MLE objective and making the following changes: perturb the weights. Second, add a contribution from the prior, and use a small minibatch size. 2/6
-
-
এই থ্রেডটি দেখান
-
This result is a direct consequence of using natural-gradients instead of gradients. The mean is equal to the parameter returned by Adam, and the variance can be obtained from the scale vector. Perturbation is due to the sampling from variational distribution. 3/6
এই থ্রেডটি দেখান -
Small minibatches are due to 'a square of sum of gradients' approximation in Adam for the second-order information. See theorem 1 in the paper. 4/6pic.twitter.com/Bff8Grqprd
এই থ্রেডটি দেখান -
We also propose VadaGrad and Variational Adaptive Newton (VAN) method for variational optimization (or what
@beenwrekt calls Random search). This work is cool because the variance of the search distribution is automatically adapted. Also see https://goo.gl/FbxW6G 5/6pic.twitter.com/axKWYyHgnH
এই থ্রেডটি দেখান -
Also check out a very similar work by
@Guodzh@DavidDuvenaud@RogerGrosse https://arxiv.org/abs/1712.02390 They have done some interesting things with KFAC. 6/6এই থ্রেডটি দেখান -
নতুন কথা-বার্তা -
লোড হতে বেশ কিছুক্ষণ সময় নিচ্ছে।
টুইটার তার ক্ষমতার বাইরে চলে গেছে বা কোনো সাময়িক সমস্যার সম্মুখীন হয়েছে আবার চেষ্টা করুন বা আরও তথ্যের জন্য টুইটারের স্থিতি দেখুন।