Pedro A. Ortega

@AdaptiveAgents

Research Scientist in AI Safety & Foundations at DeepMind

Google DeepMind, London
যোগদান করেছেন জুলাই ২০১১

টুইট

আপনি @AdaptiveAgents-কে ব্লক করেছেন

আপনি কি এই টুইটগুলি দেখতে চাওয়ার বিষয়ে নিশ্চিত? টুইটগুলি দেখা হলে @AdaptiveAgents অবরোধ মুক্ত হবে না।

  1. পিন করা টুইট
    ৩ জুলাই

    How to model friends and foes? The statistics of cooperation and adversarial attacks

    পূর্বাবস্থায়
  2. পুনঃ টুইট করেছেন
    ৯ জুলাই

    We're excited to be at this week! See the schedule of DeepMind presentations, all in one place:

    পূর্বাবস্থায়
  3. পুনঃ টুইট করেছেন
    ৭ জুলাই

    Here they are, folks: all the "algebraic numbers". That is, complex numbers that are roots of polynomials with integer coefficients. The big ones are solutions of simpler equations: zero is gigantic. They're color-coded as explained here:

    পূর্বাবস্থায়
  4. পুনঃ টুইট করেছেন
    ৬ জুলাই
    পূর্বাবস্থায়
  5. ৫ জুলাই

    Human-Interactive Subgoal Supervision for Efficient Inverse RL

    পূর্বাবস্থায়
  6. ৫ জুলাই

    Learning Qualitatively Diverse and Interpretable Rules for Classification

    পূর্বাবস্থায়
  7. ৪ জুলাই

    Policy and Value Transfer in Lifelong RL

    পূর্বাবস্থায়
  8. ৪ জুলাই

    State Abstractions for Lifelong RL

    পূর্বাবস্থায়
  9. পুনঃ টুইট করেছেন
    ৩ জুলাই

    Our latest work allows agents to reach human-level on Quake III Arena Capture the Flag through new multi-agent RL techniques: populations of agents learning their own internal reward signal and operating at multiple timescales

    পূর্বাবস্থায়
  10. পুনঃ টুইট করেছেন
    ৩ জুলাই

    Neat paper by and which models an agent's interaction with an environment as a two-player game with boundedly rational players!

    পূর্বাবস্থায়
  11. ৩ জুলাই

    Simplifying Reward Design through Divide-and-Conquer

    পূর্বাবস্থায়
  12. পুনঃ টুইট করেছেন
    ৩ জুলাই

    How can one detect friendly and adversarial behaviour from raw data?

    পূর্বাবস্থায়
  13. ৩ জুলাই

    Diffusion-Based Approximate Value Functions

    পূর্বাবস্থায়
  14. ২ জুলাই

    Minimax-Regret Querying on Side Effects for Safe Optimality in Factored Markov Decision Processes

    পূর্বাবস্থায়
  15. ২ জুলাই

    Measuring and avoiding side effects using relative reachability

    পূর্বাবস্থায়
  16. ২৯ জুন

    The power of ensembles for active learning in image classification

    পূর্বাবস্থায়
  17. ২৯ জুন

    An Efficient, Generalized Bellman Update For Cooperative Inverse RL

    পূর্বাবস্থায়
  18. ২৮ জুন

    Implicit Quantile Networks for Distributional RL

    পূর্বাবস্থায়
  19. ২৮ জুন

    Differentiable Physics and Stable Modes for Tool-Use and Manipulation Planning

    পূর্বাবস্থায়
  20. ২৭ জুন

    Increasing Motor Noise Impairs Reinforcement Learning in Healthy Individuals

    পূর্বাবস্থায়

লোড হতে বেশ কিছুক্ষণ সময় নিচ্ছে।

টুইটার তার ক্ষমতার বাইরে চলে গেছে বা কোনো সাময়িক সমস্যার সম্মুখীন হয়েছে আবার চেষ্টা করুন বা আরও তথ্যের জন্য টুইটারের স্থিতি দেখুন।

    আপনিও পছন্দ করতে পারেন

    ·