Derek Abdine

@dabdine

Head of Labs. Co-creator Multi Theft Auto (). Gimme your hardest problems. Thoughts/own.

California, USA
যোগদান করেছেন ডিসেম্বর ২০০৯

টুইট

আপনি @dabdine-কে ব্লক করেছেন

আপনি কি এই টুইটগুলি দেখতে চাওয়ার বিষয়ে নিশ্চিত? টুইটগুলি দেখা হলে @dabdine অবরোধ মুক্ত হবে না।

  1. ২২ ঘন্টা আগে

    Yup, free for academics, researchers and practitioners. ... Santa? :P

    এই থ্রেডটি দেখান
    পূর্বাবস্থায়
  2. ১৮ জুলাই

    18TB of highly compressed internet scan datasets at your fingertips, absolutely free (now with moar API). More coming on this service soon.

    এই থ্রেডটি দেখান
    পূর্বাবস্থায়
  3. পুনঃ টুইট করেছেন
    ১৭ জুলাই

    ZOMGOSH THE LABS TEAM GAVE US A PRESENT TODAY. This means I get to spend the rest of the evening writing an R 📦 for it! W00t!

    পূর্বাবস্থায়
  4. ১১ জুলাই

    Nice try, Twitter

    পূর্বাবস্থায়
  5. ১০ জুলাই

    Do not: dataframe.withColumn('foo', udf(lambda x: x[:3]))('bar')) Do: from pyspark.sql.functions import substr dataframe.withColumn('foo', substr(dataframe['bar'], 3)) Lesson learned: Use built in or pure Scala functions where possible.

    এই থ্রেডটি দেখান
    পূর্বাবস্থায়
  6. ১০ জুলাই

    TIL user defined functions in Python Apache Spark (pyspark) cause massive hits to performance and memory use, due to serialization. Spark is Java and runs python-based jobs by serializing most of it. If you need to use a UDF, write it in Scala and call it from pyspark.

    এই থ্রেডটি দেখান
    পূর্বাবস্থায়
  7. ৩ জুলাই

    A: No. The former (contains) costs 7x more than the latter. Haven't quite verified it yet with an EXPLAIN, but my guess is the latter allows the query planner to optimize lookups in parquet data quicker using the dictionary, whereas the former needs a scan.

    এই থ্রেডটি দেখান
    পূর্বাবস্থায়
  8. ৩ জুলাই

    Presto SQL quiz: For querying a non partition-key field, are `contains(field, ['value'])` and `field = 'value'` equivalent in performance? e.g.: select * from table where contains(date, [20180601]) vs select * from table where date = 20180601

    এই থ্রেডটি দেখান
    পূর্বাবস্থায়
  9. ৩ জুলাই

    And here's the problem statement in more detail. Basically, it totally ignores partitions and performs a full table scan:

    এই থ্রেডটি দেখান
    পূর্বাবস্থায়
  10. ৩ জুলাই

    So, in our real world case, what should be around 8 cents costs 80 cents, and only gets worse as the dataset grows. That adds up extremely fast if you run as many queries as we do per month.

    এই থ্রেডটি দেখান
    পূর্বাবস্থায়
  11. ৩ জুলাই

    For those that use AWS Athena, which is built on presto, using a computed value for a partition key can result in an order of magnitude higher cost per query. Beware! The only workaround is to precompute values before you run your query.

    এই থ্রেডটি দেখান
    পূর্বাবস্থায়
  12. ৩ জুলাই

    Spent a good part of last night diagnosing why a presto query over roughly 200GB compressed, partitioned parquet data (Rapid7 FDNS) costs 10x more when using a computed vs static value for a partition. Found my answer:

    এই থ্রেডটি দেখান
    পূর্বাবস্থায়
  13. ১১ জুন

    *working with Spark* lemme just shove this 18GB JSON in and convert it to parquet... cool! Now lemme add a new column...

    পূর্বাবস্থায়
  14. পুনঃ টুইট করেছেন
    ৭ জুন

    If you think 500K VPNFilter compromised devices is a "high water mark" for exposure guess again. & I have an 'exposure cautionary tale' to go along w/launch of the 2018 NEI. Take a 👀 (right after rebooting your home/SMB router)!

    পূর্বাবস্থায়
  15. ১০ মে

    Would it be too much if I created an alcoholic beverage dispensary named “cybar” that has a bouncer wear a shirt that says “security” on the back?

    পূর্বাবস্থায়
  16. পুনঃ টুইট করেছেন
    ৯ মে

    Python ssh-decorator package backdoored to log ssh keys & psswords. Software security supply chain and library dependancies ftw.

    পূর্বাবস্থায়
  17. পুনঃ টুইট করেছেন
    ৭ মে

    Great job by , , Eric, Tod & the production team! // [Research] Off the Chain: Bitcoin Nodes on the Internet (no reg req'd!)

    এই থ্রেডটি দেখান
    পূর্বাবস্থায়
  18. পুনঃ টুইট করেছেন
    ২৪ এপ্রিল

    Announcing the immediate release of Intrigue Core v0.4:

    পূর্বাবস্থায়
  19. পুনঃ টুইট করেছেন
    ১৯ এপ্রিল

    HUGE shouts out to my one of my favorite people in the universe for helping me get smart on . WATCH OUT WORLD. YA BOY IS BECOMING A REAL PROGRAMMER.

    পূর্বাবস্থায়
  20. ১৩ এপ্রিল
    পূর্বাবস্থায়

লোড হতে বেশ কিছুক্ষণ সময় নিচ্ছে।

টুইটার তার ক্ষমতার বাইরে চলে গেছে বা কোনো সাময়িক সমস্যার সম্মুখীন হয়েছে আবার চেষ্টা করুন বা আরও তথ্যের জন্য টুইটারের স্থিতি দেখুন।

    আপনিও পছন্দ করতে পারেন

    ·