Preskoči na sadržaj
Korištenjem servisa na Twitteru pristajete na korištenje kolačića. Twitter i partneri rade globalno te koriste kolačiće za analize, personalizaciju i oglase.

Za najbolje sučelje na Twitteru koristite Microsoft Edge ili instalirajte aplikaciju Twitter iz trgovine Microsoft Store.

  • Naslovnica Naslovnica Naslovnica, trenutna stranica.
  • O Twitteru

Spremljena pretraživanja

  • obriši
  • U ovom razgovoru
    Ovjeren akauntZaštićeni tweetovi @
Predloženi korisnici
  • Ovjeren akauntZaštićeni tweetovi @
  • Ovjeren akauntZaštićeni tweetovi @
  • Jezik: Hrvatski
    • Bahasa Indonesia
    • Bahasa Melayu
    • Català
    • Čeština
    • Dansk
    • Deutsch
    • English
    • English UK
    • Español
    • Filipino
    • Français
    • Italiano
    • Magyar
    • Nederlands
    • Norsk
    • Polski
    • Português
    • Română
    • Slovenčina
    • Suomi
    • Svenska
    • Tiếng Việt
    • Türkçe
    • Български език
    • Русский
    • Српски
    • Українська мова
    • Ελληνικά
    • עִבְרִית
    • العربية
    • فارسی
    • मराठी
    • हिन्दी
    • বাংলা
    • ગુજરાતી
    • தமிழ்
    • ಕನ್ನಡ
    • ภาษาไทย
    • 한국어
    • 日本語
    • 简体中文
    • 繁體中文
  • Imate račun? Prijava
    Imate račun?
    · Zaboravili ste lozinku?

    Novi ste na Twitteru?
    Registrirajte se
Profil korisnika/ce Smerity
Smerity
Smerity
Smerity
@Smerity

Tweets

Smerity

@Smerity

gcc startup.c -o ./startup. Focused on machine learning & society. Previously @Salesforce Research via @MetaMindIO. @Harvard '14, @Sydney_Uni '11. 🇦🇺 in SF.

San Francisco, CA
smerity.com
Vrijeme pridruživanja: srpanj 2008.

Tweets

  • © 2020 Twitter
  • O Twitteru
  • Centar za pomoć
  • Uvjeti
  • Pravila o privatnosti
  • Imprint
  • Kolačići
  • Informacije o oglasima
Odbaci
Prethodni
Sljedeće

Idite na profil osobe

Spremljena pretraživanja

  • obriši
  • U ovom razgovoru
    Ovjeren akauntZaštićeni tweetovi @
Predloženi korisnici
  • Ovjeren akauntZaštićeni tweetovi @
  • Ovjeren akauntZaštićeni tweetovi @

Odjava

Blokiraj

  • Objavi Tweet s lokacijom

    U tweetove putem weba ili aplikacija drugih proizvođača možete dodati podatke o lokaciji, kao što su grad ili točna lokacija. Povijest lokacija tweetova uvijek možete izbrisati. Saznajte više

    Vaši popisi

    Izradi novi popis


    Manje od 100 znakova, neobavezno

    Privatnost

    Kopiraj vezu u tweet

    Ugradi ovaj Tweet

    Embed this Video

    Dodajte ovaj Tweet na svoje web-mjesto kopiranjem koda u nastavku. Saznajte više

    Dodajte ovaj videozapis na svoje web-mjesto kopiranjem koda u nastavku. Saznajte više

    Hm, došlo je do problema prilikom povezivanja s poslužiteljem.

    Integracijom Twitterova sadržaja u svoje web-mjesto ili aplikaciju prihvaćate Twitterov Ugovor za programere i Pravila za programere.

    Pregled

    Razlog prikaza oglasa

    Prijavi se na Twitter

    · Zaboravili ste lozinku?
    Nemate račun? Registrirajte se »

    Prijavite se na Twitter

    Niste na Twitteru? Registrirajte se, uključite se u stvari koje vas zanimaju, i dobivajte promjene čim se dogode.

    Registrirajte se
    Imate račun? Prijava »

    Dvosmjerni (slanje i primanje) kratki kodovi:

    Država Kod Samo za korisnike
    Sjedinjene Američke Države 40404 (bilo koje)
    Kanada 21212 (bilo koje)
    Ujedinjeno Kraljevstvo 86444 Vodafone, Orange, 3, O2
    Brazil 40404 Nextel, TIM
    Haiti 40404 Digicel, Voila
    Irska 51210 Vodafone, O2
    Indija 53000 Bharti Airtel, Videocon, Reliance
    Indonezija 89887 AXIS, 3, Telkomsel, Indosat, XL Axiata
    Italija 4880804 Wind
    3424486444 Vodafone
    » Pogledajte SMS kratke šifre za druge zemlje

    Potvrda

     

    Dobro došli kući!

    Vremenska crta mjesto je na kojem ćete provesti najviše vremena i bez odgode dobivati novosti o svemu što vam je važno.

    Tweetovi vam ne valjaju?

    Prijeđite pokazivačem preko slike profila pa kliknite gumb Pratim da biste prestali pratiti neki račun.

    Kažite mnogo uz malo riječi

    Kada vidite Tweet koji volite, dodirnite srce – to osobi koja ga je napisala daje do znanja da vam se sviđa.

    Proširite glas

    Najbolji je način da podijelite nečiji Tweet s osobama koje vas prate prosljeđivanje. Dodirnite ikonu da biste smjesta poslali.

    Pridruži se razgovoru

    Pomoću odgovora dodajte sve što mislite o nekom tweetu. Pronađite temu koja vam je važna i uključite se.

    Saznajte najnovije vijesti

    Bez odgode pogledajte o čemu ljudi razgovaraju.

    Pratite više onoga što vam se sviđa

    Pratite više računa da biste dobivali novosti o temama do kojih vam je stalo.

    Saznajte što se događa

    Bez odgode pogledajte najnovije razgovore o bilo kojoj temi.

    Ne propustite nijedan aktualni događaj

    Bez odgode pratite kako se razvijaju događaji koje pratite.

    Smerity‏ @Smerity 26. stu 2019.
    • Prijavi Tweet

    Introducing the SHA-RNN :) - Read alternative history as a research genre - Learn of the terrifying tokenization attack that leaves language models perplexed - Get near SotA results on enwik8 in hours on a lone GPU No Sesame Street or Transformers allowed. https://arxiv.org/abs/1911.11423 pic.twitter.com/RN5TPZ3xWH

    The SHA-RNN is composed of an RNN, pointer based attention, and a “Boom” feed-forward with a sprinkling of layer normalization. The persistent state is the RNN’s hidden state h as well as the memory M concatenated from previous memories. Bake at 200◦F for 16 to 20 hours in a desktop sized oven.
    The attention mechanism within the SHA-RNN is highly computationally efficient. The only matrix multiplication acts on the query. The A block represents scaled dot product attention, a vector-vector operation. The operators {qs, ks, vs} are vectorvector multiplications and thus have minimal overhead. We use a sigmoid to produce {qs, ks}. For vs see Section 6.4.
    Bits Per Character (BPC) onenwik8. The single attention SHA-LSTM has an attention head on the second last layer and hadbatch size 16 due to lower memory use. Directly comparing the head count for LSTM models and Transformer models obviously doesn’tmake sense but neither does comparing zero-headed LSTMs against bajillion headed models and then declaring an entire species dead.
    19:24 - 26. stu 2019.
    • 550 proslijeđenih tweetova
    • 1.933 oznake „sviđa mi se”
    • Paolo Elena Amlan Kar Ghrua Carrie Demmans Epp Fionnán Alt Congcong Wang Glen Beer Aniruddha Kalburgi h3li05
    550 proslijeđenih tweetova 1.933 korisnika označavaju da im se sviđa
      1. Novi razgovor
      2. Christian Szegedy‏ @ChrSzegedy 27. stu 2019.
        • Prijavi Tweet
        Odgovor korisniku/ci @Smerity

        I find the boom layer a bit hard to motivate. It has the same (theoretical) computation cost as a stack of N residual layers. The latter should outperform it, though.

        1 reply 0 proslijeđenih tweetova 5 korisnika označava da im se sviđa
      3. Smerity‏ @Smerity 14. pro 2019.
        • Prijavi Tweet
        Odgovor korisniku/ci @ChrSzegedy

        Sorry for the delayed reply, agreed re: theoretically better. A stack of N residuals (N=4) converged more slowly in early training than the Boom layer so I went that direction. Maybe longer running experiments would show differently but my heuristic is early progress is good.

        1 reply 0 proslijeđenih tweetova 2 korisnika označavaju da im se sviđa
      4. Još 2 druga odgovora
      1. Novi razgovor
      2. Avijit Thawani‏ @thawani_avijit 26. stu 2019.
        • Prijavi Tweet
        Odgovor korisniku/ci @Smerity

        1. Did you / do you plan to perform ablation tests w/ Boom layer? 2. What's with the concatenated memory M? I don't really see how that's used in the computation graph?

        1 reply 0 proslijeđenih tweetova 0 korisnika označava da im se sviđa
      3. Smerity‏ @Smerity 26. stu 2019.
        • Prijavi Tweet
        Odgovor korisniku/ci @thawani_avijit

        - I performed some amount of analysis regarding Boom versus no Boom versus traditional feedforward. None that I'd link to as they're usually conflated with others. If I had extra compute I'd isolate various factors. - I realize I need to be clearer on the memory aspect

        1 reply 0 proslijeđenih tweetova 1 korisnik označava da mu se sviđa
      4. Još 2 druga odgovora
      1. Novi razgovor
      2. Sai Prasanna‏ @sai_prasanna 26. stu 2019.
        • Prijavi Tweet
        Odgovor korisniku/ci @Smerity

        To check my understanding, Your claim :rare words sub words are easier to predict since the first subword is drawn from set smaller than words & teacher forcing makes rest easy, though num possiblity of multiple subwords is more only certain paths are trained because of long tail

        1 reply 0 proslijeđenih tweetova 3 korisnika označavaju da im se sviđa
      3. Smerity‏ @Smerity 26. stu 2019.
        • Prijavi Tweet
        Odgovor korisniku/ci @sai_prasanna

        +1. Wordpieces aim to equalize entropy across tokens. That means tokens with high entropy are broken apart, including suffixes and prefixes, or into compositional fragments. Especially pronounced when it's wordpieces vs words as the latter makes no attempt to equalize entropy.

        0 proslijeđenih tweetova 19 korisnika označava da im se sviđa
      4. Još 4 druga odgovora
      1. Novi razgovor
      2. tsauri‏ @tsauri_eecs 26. stu 2019.
        • Prijavi Tweet
        Odgovor korisnicima @Smerity @EdHenry_

        is it robust to random random seed. last time I saw complaints the random seed is hyperparameter

        1 reply 0 proslijeđenih tweetova 7 korisnika označava da im se sviđa
      3. Smerity‏ @Smerity 26. stu 2019.
        • Prijavi Tweet
        Odgovor korisnicima @tsauri_eecs @EdHenry_

        It is robust to random seed for many experiments and model variants I ran through. Not all got the same but all fell in a similar range. Similar numbers for different numbers of layers too (i.e. 3 vs 4 layers) with entirely different seeds if that helps reaffirm for you too =]

        0 replies 0 proslijeđenih tweetova 14 korisnika označava da im se sviđa
      4. Kraj razgovora
      1. Novi razgovor
      2. mattiadg‏ @mdigangiPA 27. stu 2019.
        • Prijavi Tweet
        Odgovor korisniku/ci @Smerity

        When you explain the overparametrization, you refer to Figure 3 to visualize the example, but it is in fact a plot.

        1 reply 0 proslijeđenih tweetova 1 korisnik označava da mu se sviđa
      3. Smerity‏ @Smerity 27. stu 2019.
        • Prijavi Tweet
        Odgovor korisniku/ci @mdigangiPA

        Fixed! Labels seem to randomly flock from figure to figure as my copy paste grows ever more error prone. Thank you :)

        0 replies 0 proslijeđenih tweetova 4 korisnika označavaju da im se sviđa
      4. Kraj razgovora

    Čini se da učitavanje traje već neko vrijeme.

    Twitter je možda preopterećen ili ima kratkotrajnih poteškoća u radu. Pokušajte ponovno ili potražite dodatne informacije u odjeljku Status Twittera.

      Sponzorirani tweet

      false

      • © 2020 Twitter
      • O Twitteru
      • Centar za pomoć
      • Uvjeti
      • Pravila o privatnosti
      • Imprint
      • Kolačići
      • Informacije o oglasima