Very cool! Does vanilla Transformer architecture for CIFAR generation mean full attention layers over the 32x32x3? Also, have you tried using T2T's DMOL loss?
-
-
-
Transformer for CIFAR was full attention, while image transformer had a limited receptive field for the attention. The DMOL loss wasn't merged yet for these experiments - will use for the next round! Should make everything way faster.
কথা-বার্তা শেষ
নতুন কথা-বার্তা -
-
-
ধন্যবাদ। আপনার সময়রেখাকে আরো ভালো করে তুলতে টুইটার এটিকে ব্যবহার করবে। পূর্বাবস্থায়পূর্বাবস্থায়
-
-
-
Neat! Is the code online anywhere?
ধন্যবাদ। আপনার সময়রেখাকে আরো ভালো করে তুলতে টুইটার এটিকে ব্যবহার করবে। পূর্বাবস্থায়পূর্বাবস্থায়
-
লোড হতে বেশ কিছুক্ষণ সময় নিচ্ছে।
টুইটার তার ক্ষমতার বাইরে চলে গেছে বা কোনো সাময়িক সমস্যার সম্মুখীন হয়েছে আবার চেষ্টা করুন বা আরও তথ্যের জন্য টুইটারের স্থিতি দেখুন।