Data Engineering | про инжиниринг данных и аналитику

🏢 %company% Engineering

AirBnb Engineering
последний пост 1 day, 17 hours назад

Rethinking Text Resizing on Web

Animations: Bringing the Host Passport to Life on iOS

Airbnb Brandometer: Powering Brand Perception Measurement on Social Media Data with AI

Introducing Trio | Part III

Chronon, Airbnb’s ML Feature Platform, Is Now Open Source

Introducing Trio | Part II

Introducing Trio | Part I

Migrating Our iOS Build System from Buck to Bazel

Airbnb at KDD 2023

Transforming CRM DevOps at Airbnb: A Powerful Framework for Continuous Delivery

Data Quality Score: The next chapter of data quality at Airbnb

Wisdom of Unstructured Data: Building Airbnb’s Listing Knowledge from Big Text Data

My Journey to Airbnb — Helena Zarazua

Unlocking SwiftUI at Airbnb

Riverbed: Optimizing Data Access at Airbnb’s Scale

Netflix Engineering
последний пост 1 month, 1 week назад

The Making of VES: the Cosmos Microservice for Netflix Video Encoding

Reverse Searching Netflix’s Federated Graph

Sequential Testing Keeps the World Streaming Netflix Part 2: Counting Processes

Supporting Diverse ML Systems at Netflix

Bending pause times to your will with Generational ZGC

Evolving from Rule-based Classifier: Machine Learning Powered Auto Remediation in Netflix Data…

Announcing bpftop: Streamlining eBPF performance optimization

Sequential A/B Testing Keeps the World Streaming Netflix Part 1: Continuous Data

Introducing SafeTest: A Novel Approach to Front End Testing

Rebuilding Netflix Video Processing Pipeline with Microservices

Our First Netflix Data Engineering Summit

All of Netflix’s HDR video streaming is now dynamically optimized

Netflix Original Research: MIT CODE 2023

Causal Machine Learning for Creative Insights

Incremental Processing using Netflix Maestro and Apache Iceberg

Pinterest Engineering
последний пост 4 days, 14 hours назад

HBase Deprecation at Pinterest

Web Performance Regression Detection (Part 1 of 3)

How we built Text-to-SQL at Pinterest

The Field Guide to Non-Engagement Signals

LinkSage: GNN-based Pinterest Off-site Content Understanding

Improving Efficiency Of Goku Time Series Database at Pinterest (Part 2)

User Action Sequence Modeling for Pinterest Ads Engagement Modeling

Unlocking AI Assisted Development Safely: From Idea to GA

Migrating Policy Delivery Engines with (almost) Nobody Knowing

Handling Online-Offline Discrepancy in Pinterest Ads Ranking System

Evolution of Ads Conversion Optimization Models at Pinterest

Building Pinterest’s new wide column database using RocksDB

The Top Pinterest Engineering Blog posts from 2023

A Glimpse into the Redesigned Goku-Ingestor vNext at Pinterest

Improving Efficiency Of Goku Time Series Database at Pinterest (Part — 1)

Facebook
последний пост 1 month назад

Building new custom silicon for Meta’s AI workloads

Introducing the next-gen Meta Training and Inference Accelerator

Optimizing RTC bandwidth estimation with machine learning

Logarithm: A logging engine for AI training workflows and services

Building Meta’s GenAI Infrastructure

Improving machine learning iteration speed with faster application build and packaging

Lazy is the new fast: How Lazy Imports and Cinder accelerate machine learning at Meta

How Meta is advancing GenAI

AI debugging at Meta with HawkEye

Watch: Meta’s engineers on building network infrastructure for AI

How Meta is creating custom silicon for AI

Using Chakra execution traces for benchmarking and network performance optimization

Arcadia: An end-to-end AI system performance simulator

Code Llama: Meta’s state-of-the-art LLM for coding

Meta Connect 2023: September 27 – 28

Uber Engineering
последний пост None

Spotify Engineering
последний пост 2 days, 19 hours назад

Fixed-Power Designs: It’s Not IF You Peek, It’s WHAT You Peek at

Supercharged Developer Portals

Data Platform Explained

Risk-Aware Product Decisions in A/B Tests with Multiple Metrics

Applying the Facade Pattern on Spotify for Artists

Exploring the Animation Landscape of 2023 Wrapped

Q&A with the Maintainers of the Spotify FOSS Fund

Recursive Embedding and Clustering

The What, Why, and How of Mastering App Size

Spotify Wins CNCF Top End User Award for the Second Time!

How We Automated Content Marketing to Acquire Users at Scale

Introducing Voyager: Spotify’s New Nearest-Neighbor Search Library

Announcing the Recipients of the 2023 Spotify FOSS Fund

Exclude from Your Taste Profile

Switching Build Systems, Seamlessly

Ripple Engineering
последний пост 3 months, 2 weeks назад

Ripple's Centralized Data Platform

Dmitry Anoshin recommends

Snowflake
последний пост 1 day, 12 hours назад

Snowflake Arctic Cookbook Series: Instruction-Tuning Arctic

How Snowflake and Merit Helped Provide Over 120,000 Students with Access to Education Funding

5 Ways Advertising, Media and Entertainment Companies are Using Gen AI

Snowflake Invests in Metaplane for Deep, End-to-End Observability in the Data Cloud

Preserving Data Privacy in Life Sciences: How Snowflake Data Clean Rooms Make It Happen

Snowflake Advanced Certifications: Level Up to SnowPro Advanced and Show Off Your Snowflake Expertise

Accelerate Your Time Series Analytics with Snowflake’s ASOF JOIN, Now Generally Available

Snowflake’s Recertification Program: How to maintain your SnowPro status

How Healthcare and Life Sciences Organizations Are Accelerating Data, Apps and AI Strategy in the Data Cloud

Snowflake Cortex LLM Functions Moves to General Availability with New LLMs, Improved Retrieval and Enhanced AI Safety

Better See and Control Your Snowflake Spend with the Cost Management Interface, Now Generally Available

Reimagine Batch and Streaming Data Pipelines with Dynamic Tables, Now Generally Available

Moving Beyond MTEB and BEIR: Snowflake AI Research Joins Forces with the University of Waterloo to Evolve RAG and Retrieval Benchmarks

Snowflake’s Arctic-TILT: A State-of-the-Art Document Intelligence LLM in a Single A10 GPU

Top 8 Snowflake Marketplace Questions, Answered

Cloudera
последний пост 3 months назад

DNS Zone Setup Best Practices on Azure

Apache Ozone – A Multi-Protocol Aware Storage System

Smart Data
последний пост 3 days, 18 hours назад

AI Helps Businesses Save Money with Better Financial Management

Comparative Analysis of Two Top Big Data Transfer Services

Gen AI Helps Developers Automate Writing Coding

Top Tips for Keeping Your AI Startup’s IT Staff Inspired

AI-Powered Analytics: Unveiling Hidden Insights in Point-of-Sale Data

AI Could Change DUI Terms for Future Turo Insurance Policies

How AI Is Changing Data Analytics in 2024

AI Helps Improve About Managed Detection and Response

Could AI Have Prevented the Houston Metro Bus Incident?

New AI Tech Careers Stemming from Remote Education

Role of AI-Driven Image Recognition in Modern Security

New AI Startups Surpass ChatGPT for Legal Solutions

Can AI Help You Get Better Headshots?

Why the Best Accident Lawyers Are Using AI

Analyzing the Role of Big Data in Modernizing American Elections

Knoldus
последний пост 6 months, 3 weeks назад

Spring WebFlux — WebClient – Duplicate – [#180397]

An Introduction to Kafka’s Internals – Duplicate – [#159280]

We Cloud Data
последний пост 1 month, 4 weeks назад

Using Machine Learning to Distinguish Between Spam and Legitimate Emails

Navigating your way: Traffic Prediction with Machine Learning

Analyzing Remote Work Opportunities in Today’s North America Job Market

Energy Management: Solar Power Generation Forecasting

Smart Agriculture: How Machine Learning is Helping Farming

More Accurate Predictions for Your Day: Machine Learning in Weather Forecasting

Data Science Job Market Trends: Navigating the Shifts from 2023 to 2024

Machine Learning in Entertainment: Customizing Movie Recommendations

Online Shopping Redefined: Predicting Shopper Behavior with Machine Learning

Enhancing Everyday Healthcare with Machine Learning: Early Disease Detection

Navigating the Path to Become a Machine Learning Engineer in 2024: A Step-by-Step Guide

Different between Data Science, Engineering, and Analysis

Crafting an Effective Resume with OpenAI

Cloud Engineering and DevOps: Insights for 2024

Fraud Detection in the Banking Industry: Leveraging Machine Learning for Credit Card Fraud Detection

Learn Data Engineering
последний пост None

SCRIBD
последний пост 3 months, 1 week назад

The Evolution of the Machine Learning Platform

Jesse Anderson
последний пост 2 days, 19 hours назад

Unapologetically Technical Episode 11 – Hubert Dulay

Unapologetically Technical Episode 10 – Michael Drogalis

Why Most Data Projects Fail & How to Avoid It at GOTO 2023

Unapologetically Technical Episode 9 – Gunnar Morling

Unapologetically Technical Episode 8 – Tom Scott

The State of Data Engineering at Data Day Texas 2024

Unapologetically Technical Episode 7 – Stephane Derosiaux

The Difference Between Learning and Doing

Unapologetically Technical Episode 6 – Matteo Merli

The Data Discovery Team

Unapologetically Technical Episode 5 – Neil Avery

Current 2023 Announcements

GPT and LLMs from a Data Engineering Perspective

Data Quest
последний пост None

Infrastructure

AWS
последний пост 13 часов назад

Optimize AWS event and log collection using common design patterns

Binary logging optimizations in Amazon Aurora MySQL version 3

Mixtral 8x22B is now available in Amazon SageMaker JumpStart

Building Generative AI prompt chaining workflows with human in the loop

Amazon DocumentDB zero-ETL integration with Amazon OpenSearch Service is now available

Safely remove Kafka brokers from Amazon MSK provisioned clusters

Introducing Amazon MWAA support for the Airflow REST API and web server auto scaling

How LotteON built a personalized recommendation system using Amazon SageMaker and MLOps

Breaking barriers in geospatial: Amazon Redshift, CARTO, and H3

Discover and visualize graph schemas in Amazon Neptune

ACE mapping guide for AWS Partner CRM Connector Version 2.0

Build a serverless exam generator application from your own lecture content using Amazon Bedrock

Accelerate NLP inference with ONNX Runtime on AWS Graviton processors

Analyze Elastic IP usage history using Amazon Athena and AWS CloudTrail

Learn how Amazon Ads created a generative AI-powered image generation capability using Amazon SageMaker

AWS
последний пост 13 часов назад

Encrypt your database connection using SSL encryption to Amazon RDS Custom for SQL Server

Data migration strategies to Amazon RDS for Db2

Enforce row-level security with the RDS Data API

RAG architecture with Voyage AI embedding models on Amazon SageMaker JumpStart and Anthropic Claude 3 models

Continuously replicate Amazon DynamoDB changes to Amazon Aurora PostgreSQL using AWS Lambda

Configure change data capture parameters on Amazon RDS for SQL Server

Incorporate offline and online human – machine workflows into your generative AI applications on AWS

Build generative AI applications with Amazon Titan Text Premier, Amazon Bedrock, and AWS CDK

Evaluation of generative AI techniques for clinical report summarization

Perform maintenance tasks and schema modifications in Amazon RDS for PostgreSQL with minimal downtime

AWS DMS best practices for moving large tables with table parallelism settings

AWS DeepRacer enables builders of all skill levels to upskill and get started with machine learning

Integrate Amazon Aurora MySQL and Amazon Bedrock using SQL

Transform customer engagement with no-code LLM fine-tuning using Amazon SageMaker Canvas and SageMaker JumpStart

Build with blockchain data using Amazon Managed Blockchain and ZettaBlock

Astronomer
последний пост None

DBT — Data Build Tool
последний пост None

FiveTran
последний пост None

DataBricks
последний пост None

Mix

/r/DataEngineering
последний пост 1 час назад

Data Engineering is Not Software Engineering

How do you guys apply unit testing/ pipeline testing on adf?

Synapse Notebook: Incremental load of log files

AI will put big tech cloud services out of business

How is Synapse analytics different from SQL managed instance?

What OS is everyone using for DE?

Data science or engineering role?

what tools to learn

MSK v Confluent v RedPanda

Filtering parquet datasets based on transformations applied to columns

Does anyone know a good alternative to Adveronix?

Practical way to learn DE and cloud

What does sprint mean?

Lost, stranded and in trouble

Streaming data using autoloader

Towards Data Science
последний пост 4 часа назад

Please Make this AI Less Accurate

Common Causes of Data Leakage and how to Spot Them

The Proof of Learning in Machine Learning/AI

Feature Engineering for Machine Learning

Backpropagation Through Time — How RNNs Learn

How to Evaluate Your Predictions

No Label Left Behind: Alternative Encodings for Hierarchical Categoricals

I built a reusable dashboard for Read the Docs traffic analytics using Vizro

Create an Interactive Map to Display Time Series of Satellite Imagery

The Importance of Collaboration in Data

Best Practices for AIML Product UX

Unlocking Valuable Data and Model Insights with Python Packages Yellowbrick and PiML (with Code)

How to Get Promoted in Data Science

Exploring LLMs for ICD Coding — Part 1

The Essential Guide to Graph Theory: From an 18th Century Riddle to Artificial Intelligence…

Monte Carlo Data
последний пост 3 weeks, 6 days назад

Data Quality Monitoring Explained – You’re Doing It Wrong

12 Data Quality Metrics That ACTUALLY Matter

Monte Carlo Recognized as the #1 Data Observability Platform by G2 for Fourth Consecutive Quarter

3 Simple Steps For Snowflake Cost Optimization Without Getting Too Crazy

Monte Carlo Brings Data Observability to Microsoft Azure Synapse and Microsoft Fabric

Scaling Data Quality for Innovation and Growth: Aircall’s Data Observability Journey

Data Quality Testing: 7 Essential Tests

Is Prompt Engineering Overhyped? No—But Learn These 3 GenAI Skills Too

How To Implement Data Mesh: Top Tips From 4 Data Leaders

Modern Data Quality Management: A Proven 6 Step Guide

4 GenAI Opportunities from Real Data Teams

Best Data Observability Tools (with RFP Template and Analyst Reports)

Building Spark Lineage For Data Lakes

How JetBlue Used Data Observability To Help Improve Internal “Data NPS” By 16 Points Year Over Year

Why Your Data Incident Management Process Is Broken…And 5 Steps to Fix It.

DE Telegram

DataEng
последний пост 21 час назад

Большая папка с крутыми каналами про IT ⚡️ Каналов про IT много, хороших каналов про IT — мало. Собрали такие в одном месте! Тут про новости, ивенты, вакансии, работу, учебу и многое другое. Полезно как для начинающих специалистов, так и опытных айтишников

Airflow 2.9Буквально час назад вышла новая версия Apache Airflow — 2.9. В релизе очень много изменений и фиксов, а также новых фич:— поддержка Python 3.12— Listener API стабилизировался и его можно использовать в продакшене— Поддержка multiple executors (A

У ребят из PostgresPro есть отличные, а главное бесплатные, книги по PostgreSQL: https://postgrespro.ru/education/books

Убийца DuckDB 🔫А вы уже видели аналог DuckDB от ребят из ClickHouse? Называется это чудо chDB. Представляет из себя встроенную OLAP базу данных под капотом которой пыхтит движок ClickHouse. Умеет в Parquet, Arrow, ORC и кучу других форматов, есть биндинги

Ребята, всем привет! 🤝Вас стало ещё больше и поэтому я хотел напомнить о существовании моего другого телеграм-канала с вакансиями в области DataEng, DataOps и DBA: https://t.me/dataeng_jobsВ этот канал автоматически попадают вакансии по вышеупомянутым кате

Курс про Apache Airflow бесплатноРешил выложить свой курс про Apache Airflow абсолютно бесплатно для всех: Apache Airflow 2.2: практический курсЗа то время что существует курс, Apache Airflow успел обрасти множеством новых фич, которые только предстоит пок

Всем привет!Я сделал курс по Luigi бесплатным для всех, велком изучать — Введение в Data Engineering: дата-пайплайныLuigi это компактный инструмент для построения зависимых между собой задач на базе нескольких сущностей: Task, Target. Он идеально подойдёт

В очередной раз наткнулся в сети на статью про эксплуатацию Apache Airflow в среде Kubernetes: What we learned after running Airflow on Kubernetes for 2 years. У автора развёрнут Airflow с 300 дагами и около 5 000 задачами. Преимущественно они запускают лё

Сейчас много шума вокруг DuckDB. Это компактная OLAP база данных на стероидах. На днях наткнулся на статью в рассылке про DuckDB и почему на неё стоит обратить внимание: What is DuckDB?Также возможно вас заинтересует сравнение polars (убийца pandas) и Duck

Привет! В рамках возобновления работы над своим старым проектом по агрегации вакансий с удалённым форматом работы, я запустил отдельный телеграм-канал, где в автоматическом режиме публикуются вакансии из категории Data Engineering и DataOps: https://t.me/d

Гайд о том как развернуть Apache Airflow локально через Kubernetes: https://blog.det.life/setting-up-apache-airflow-on-kubernetes-for-local-development-f873115fbe93

Экскурс в устройство современных OLAP баз данных в рамках ежегодного курса от Carnegie Mellon University — Advanced Database Systems: Modern OLAP Database Systems

Airflow Evolution at SnapНа платформе Medium появилась статья про эволюцию Apache Airflow в компании Snap: Airflow Evolution at SnapПреимущественно в статье речь идёт о работе с RBAC и масштабированием Airflow.Также помимо статьи, вы можете посмотреть на Ю

📣One Day Offer для Data Engineer📣 10 февраля 🕤 Sportmaster Lab проводит One Day Offer для Data Engineer. One Day Offer от SM Lab — это отличная возможность пройти все этапы отбора и получить приглашение на работу всего за один день. SM Lab - аккредитованна

Tim Berglund своего рода легенда в мире распределенных систем, популяризатор этой темы. Я познакомился с его творчеством через классный доклад про распределённые системы на Ютубе около 6 или 7 лет назад: Distributed Systems in One Lesson. Он какое-то время

Инжиниринг Данных
последний пост 3 days, 5 hours назад

Встречаемся 23 мая на VK Data Meetup от VK Cloud!VK Data Meetup — серия событий для дата-инженеров, разработчиков, администраторов о практиках работы с данными на разных уровнях. 23 мая в 15:00 МСК присоединяйтесь, чтобы поговорить о набирающих актуальност

Опубликовал блог пост про подготовку к поиску работы при переезде или иммиграции. Так же подойдет к тем, кто только начинает учится и не понимает, куда двигаться и что учить.

Pytup в Нижнем Новгороде 1 июняВас ждёт большая конференция по Python-разработке Pytup. В программе — выступления спикеров, новости языка, актуальные кейсы экспертов и, конечно, нетворкинг.Узнаете, как создать платформу для обработки данных в вашей IT-комп

14-15 мая - Iceberg Summit. Iceberg формат для хранения данных в озере данных lake house. Если вы работаете с данными, то вы должны знать один из 3х форматов delta, iceberg, hudi. Реально 2 доминируют Delta развивается databricksом, Iceberg сам по себе хор

Заменит ли нас AI?:) https://youtube.com/shorts/eJMD575FZtMСделайте доброе дело, поставьте like на YouTube 😐

От создателей Академии Аналитиков Авито — открытый курс по прикладной статистике. Бесплатно, без регистрации и смс. Для тех, кто хочет научиться: – применять критерии Манна-Уитни, t-test, бутстрап, хи-квадрат;– использовать специализированные библиотеки Py

▶️ SQL + dbt = God Mode Data Modeling / Подходы к созданию витрины корпоративных метрик— Бизнес-задача: Дашборд для Weekly Business Review (WBR)— Решение «Hardcore Cube» 🗿— Решение «Direct Runtime» 🦅 — Aggregate awareness (Looker) как оптимизация производи

350к $ в год на расходы - хороший F.I.R.E. в Калифорнии. Вообще смотрел, надо накопить 5млн $ кешем, и уже жить на дивиденды, хотя если средний рост 5%, то 250к в год это прям не густо. Кто-то мне говорил про 2млн CAD для Торонто (наверно наивная оценка).

P&L или Profit & Loss важная финансовая отчетность. Которая с одной стороны простая. А с другой вообще не понятно.Поэтому данный пост Reading a Profit & Loss statement вам в помощь

18 мая запланировал встречу у Сфер в Сиэтле с 10 до 12, если кто будет на районе приходите;)

20 лет назад я начал работать в системах MatLab и OriginLab c данными физических экспериментов, и это было начало пути анализа и визуализации данных. Рад, что работал, продолжаю работать и общаться с крутыми и максимально недушными командами в классных ком

https://youtu.be/1dqZqKsdjsU

В статье про Analytics as a Code автор рассказывает про 4 уровня решений. Их решение Holistics, конечно же на 4м. Мне у них особенно понравилось:As analytics logic becomes more complex, it becomes harder to manage and maintain the code. A 500-1000 line SQL

Вот это уже интересный тренд, и это не только в Гугле. В других больших компаниях из списка S&P500 похожий тренд, но называется он по другому - increase global presence (имеется ввиду открыть офис в Индии). Мне даже как-то менеджер сказал - “Чего ты п

Forrester Wave: Data Lakehouses, Q2 2024В отчете Forrester Wave за второй квартал 2024 года рассмотрены 13 ключевых вендоров решений для data lakehouse, их предложения и позиции на рынке. Авторы отчета с коллегами провели анализ по 24 критериям, оценивая в

Left Join
последний пост 1 day, 2 hours назад

Мошенничество с помощью ИИКак ИИ помогает мошенникам обманывать людей и воровать аккаунты в мессенджерах?Что такое дипфейк, и зачем его распознавать?🔜 Ответы — уже на канале «Дата Коля»!

Искусственный интеллект в EdtechРебята из «Яндекс Практикума» поделились интересным исследованием об использовании искусственного интеллекта в эдтехе.🔜 Мы уже затрагивали эту тему в первом эпизоде нового сезона Data Heroes — там Анатолий Карпов рассказал,

Что было на Google I/OНе успели обсудить все новости от OpenAI, как ребята Google тоже провели свою ежегодную конференцию Google I/O.Целиком запись выложили на Youtube и законспектировали на The Verge. Принесли для вас самое интересное.🔜 Большая часть ново

Spring Update от OpenAIНа вчерашнем стриме OpenAI представила несколько крутых нововведений.Пообещали выкатить десктопную версию (сначала для macOS, для Windows она появится позже) и обновить интерфейс, но это не главное.🔥 Самая громкая новость — это презе

Таблица для тех, кто собирается в поездкуПриближается сезон отпусков, пора планировать поездки и собирать чемоданы. Это процесс всегда стрессовый — даже самые собранные и внимательные из нас наверняка хоть чуть-чуть, но волнуются, что что-то забудут.В TikT

Оплата улыбкой: за и противЧто такое «Оплата улыбкой» от Сбербанка? Достаточно ли вашего радостного лица для оплаты, или деньги тоже снимутся?🔜 Смотрите в новом видео на канале «Дата Коля»!

Рома Бунин выложил мокап-интервью с Тимуром Муйдиновым — BI-специалистом из команды Valiotti Analytics. 😊

👨‍🏫 Собеседование на BI-аналитикаНаконец-то смог провести мокап-интервью с реальным аналитиком. Давно хотел это сделать, кинул клич в чатике канала и Тимур быстро откликнулся.Почему я считаю, что могу хорошо оценить кандидата — я провёл больше 100 секций,

CDO в компании: роль, обязанности и вызовыОбсудили в интервью Yandex.Cloud c Михаилом Степановым, CDO сети гипермаркетов «Лента»🔜 CDO — это Chief Data Officer. Михаил рассказал, какие задачи выполняет CDO на разных этапах развития компании и зачем эта роль

Georgia Tech и решение глобальных проблемВ этом семестре у меня был заключительный курс от Georgia Tech — практикум в компании. В целом, не могу сказать, что учеба давалась легко все эти годы, но все получилось. По-моему, ранее не рассказывал, почему решил

Что происходит с ценами на Lego?Время задаться по-настоящему важными вопросами. Например, как менялась средняя цена за кирпичик Lego за последние 30 лет в зависимости от категории?🔜 Да, в интернете есть все и даже график с динамикой цен на Lego. Сайт Brick

Введение в современную статистику: бесплатный онлайн-учебникУчебники и любая профессиональная литература — дорогое удовольствие, поэтому, когда удается найти что-то крутое за бесплатно, этим надо делиться.Это и сделаем. На сайте проекта OpenIntro выложили

Интернет против ИИ-контентаВ конце марта YouTube оповестил, что теперь авторы видео должны будут отмечать ИИ-контент.Под это правило попадают ролики, которые могут ввести в заблуждение — то есть в них есть реалистичные сгенерированные изображения реальных

HEART: от Google с любовьюНедавно рассказали про AARRR — маркетинговый фреймворк для стартапов. Сегодня поговорим про систему метрик, которую могут применять продуктовые отделы для оценки пользовательского опыта. С ее помощью можно оценить, насколько успеш

Периодическая таблица датавизаЛучший способ рассказывать про датавиз — это с помощью датавиза!В периодической таблице методов визуализации собрали все возможные способы представить информацию на схемах, графиках и картинках — от обычных пай-чартов до коми

SQLite на практике
последний пост 1 week, 2 days назад

Современный SQLite: Вычисляемые столбцыВычисляемые (generated) столбцы рассчитываются на основании других столбцов той же таблицы. Например, мы можем рассчитать процент отказов на основе количества запросов:create table stats ( date text, n_total int, n

Современный SQLite #1: STRICT-таблицыЯ начинаю марафон! Но не марафон желаний 😅 Буду вкратце рассказывать о полезных функциях современной SQLite, про которые вы (возможно) не слышали.Начнем со «строгих» таблиц.Как вы наверняка знаете, SQLite обладает гибко

SQL-полиглотСделал онлайн-утилиту, которая выполняет заданный запрос на любой СУБД от PostgreSQL до DuckDB (SQLite тоже есть, конечно).Удобно, чтобы быстро понять, поддерживает ли база тот или иной SQL-синтаксис.https://codapi.org/sql

Побег из карантина macOS и точный путь к расширениюСвежий релиз sqlpkg принес две приятные фичи:— Команда install автоматически убирает расширение из карантина macOS, чтобы можно было использовать без дополнительных приседаний.— Команда which печатает точн

Datalytics
последний пост 1 day, 14 hours назад

🔥 Как эффективно использовать явный и неявный фидбек в рекомендательных системах? Расскажет опытный эксперт на открытом практическом уроке от OTUS, где вы: — познакомитесь с двумя типами фидбека от пользователя: явным и неявным; — обучите рекомендательные

Стартовал набор в Академию Аналитиков Авито.Это бесплатный образовательный онлайн-курс с практикой в реальном бигтехе. Традиционно в Академии два направления: аналитик данных и DS-инженер. Выбери, что ближе тебе, познакомься с требованиями к поступлению, п

🟢 Откройте дополнительные возможности DVC — фичи для ML и Data Science Приходите на открытый практический урок от OTUS и узнайте: — как использовать DVC для версионирования данных; — как обеспечить совместный доступ к данным через S3; — как версионировать

16–17 мая ВСК проводит One Day Offer. Если ты разработчик или системный аналитик уровня middle и выше, регистрируйся https://onedayoffer.vsk.ru до 15:00 15 мая.Пройди онлайн-собеседование в компании из золотого рейтинга Forbes и получи офер в тот же день.

🔥 Хотите эффективно обеспечивать версионирование данных и моделей? Освойте систему DVC на открытом практическом уроке от OTUS. Спикер Игорь Стурейко — PhD Physical and Mathematical Sciences и опытный руководитель команд. 💻 На вебинаре вы: - научитесь настр

Это очень вдохновляюще. Выход из рутины, работа на вечные ценности, вот это всё https://vc.ru/design/112303-veb-dizayner-prevrashchaet-starinnye-knigi-i-broshyury-19-veka-v-interaktivnye-saytyvia

💡Интересуетесь Data Science? Изучите гибридные рекомендательные системы на примере LightFM.Познакомьтесь с коллаборативной фильтрацией и контентным подходом в рекомендательных системах, научитесь объединять их при помощи модели LightFM. 📚И все это под руко

🤖 Как строятся прогнозы в Machine Learning? Начните с открытого практического урока от OTUS. Спикер Игорь Стурейко — PhD Physical and Mathematical Sciences, опытный руководитель команд. 💻 На вебинаре разберем: - как подходить к моделированию временных рядо

Как прокачать навыки A/B-тестирования? Если уже владеете инструментами, то только через опыт и нестандартные задачи. В процессе работы скилл вырастет, но есть вероятность наделать ошибок. Ещё одна опция — пройти «Симулятор A/B-тестов» от karpov.courses под

Где взять опыт?За время работы в эдтехе, я пообщался с многими нанимающими менеджерами (лидами, хэдами, CDO) и часто слышу про то, что ищут аналитиков, обладающих определенным складом ума, который ориентирован не только на решение чисто технических задач,

🌐 Как с помощью искусственного интеллекта автоматизировать и упростить поиск работы в ИТ уже сегодня?Продолжаем серию полезных вебинаров для поиска работы в ИТ. В этот раз мы проведем мастер-класс, на котором покажем все самые полезные возможности использо

Хотите использовать машинное обучение в бизнес-целях?На бесплатной конференции «OTUS CONF: Machine Learning» мы поговорим о трёх важных элементах машинного обучения. Обсудим генеративные модели нейросетей, модели обработки естественного языка и обработку в

😎 Публичный Гайд по повышению BI Adoption перевел в более читабельный PDF формат ☝️Размышлял над темой год и пора упаковать и переключится. Еще родился шаблон для воркшопа, чтоб самим провести анализ в команде. Кому эта тема интересна пишите и приходите на

📊 Хотите углубиться в Machine Learning или Data Science? Начните с изучения базовых методов парсинга и работы с html! Приходите на бесплатный практический урок от OTUS. Спикер Мария Тихонова — PhD Computer Science, Senior Data Scientist в SberDevices и пре

Труба данных
последний пост 5 days, 2 hours назад

https://blog.picnic.nl/7-antifragile-principles-for-a-successful-data-warehouse-574b655f0bc6В последнее время приходится много делать архитектурных задач, поэтому вытаскиваю из списка "Прочитать позже" всякие статейки про архитектуру и подходы в проектиров

Пятничный юмор!Не постил ничего почти месяц. А вас стало только больше 😱Пора возвращаться в ритм.@ohmydataengineer

Коллеги делятся прекрасным из IL рынка бихдаты!@ohmydataengineer

https://medium.com/intuit-engineering/how-intuit-data-analysts-write-sql-2x-faster-with-internal-genai-tool-c3b9d482208aВ продолжении прошлого пятничного мема, количество платформ и сервисов, которые за денюжку, подключиться к DWH и делать там запросики -

Тема недели в #it_memes

Очень долго смеялся и плакал 😳(ибо это все до боли знакомо)

https://www.astronomer.io/state-of-airflow/Астрономер выкатил репорт про текущее состояние Airflow. Если кратко - все хорошо у него, по скорость развития и контрибьюшенов опережает Spark и Kafka.Ссылку сначала увидел у @dataexplorers, а потом у себя в почт

https://clickhouse.com/blog/building-a-logging-platform-with-clickhouse-and-saving-millions-over-datadogЗанимательное чтиво про Кликхаус и как он используется для логов. Мяготка, с деталями и схемами.Не без налета саморекламы, конечно 😂@ohmydataengineer

https://mattturck.com/landscape/mad2024.pdfСтабильный гость этого канала - MAD 2024 - Machine Learning, AI & Data Landscape. @ohmydataengineer

https://boehs.org/node/everything-i-know-about-the-xz-backdoorВсю прошлую неделю (и скорее всего, текущую тоже), Tech часть интернета будет бухтеть про XZ уязвимость, или, как ее прозвали "Бекдор для всего интернета". 2 года подготовки и ребятам почти удал

Пятничный юмор или как совет директоров попросил AI внедрить 😂 (true story)@ohmydataengineer

https://www.youtube.com/watch?v=QSui0KQ2rE4Пока гуглил по платформы для A/B тестов, наткнулся на вот такой хороший доклад от ребят из Flo про их Data Platform.Оказалось оч полезно и ознакомительно@ohmydataengineer

Нас скоро всех заменят 😄https://twitter.com/raunakdoesdev/status/1769066769786757375Если вы не поняли из скриншотов, Steven дал доступ к своему аккаунту софтинке по имени Devin (отсюда игра слов Steven + Devin -> Deven) и та успешна пофиксила баг, при э

https://www.figma.com/blog/how-figmas-databases-team-lived-to-tell-the-scaleОчень удивительная история из технического блога Figma о том, как они скалировали свои базы данных. Поправочка: до 2020 у них был один инстанс Postgres вообще! 😳 Шардинг, партишени

💰Результаты опроса про зарплатуЗакончили с Арсеном обработку данных и дашборд по результатам опроса аналитиков. Мне нравится что получилось. Опрос прошли 323 человека, этого достаточно, чтобы накопать интересных фактов и оценить разницу доходов между разны

enthusiastech
последний пост 2 months, 3 weeks назад

Data Apps Design pinned «Блог переехал 🌐 @data_apps»

Блог переехал 🌐 @data_apps

Channel name was changed to «Data Apps Design»

Channel name was changed to «data_apps»

✅ Как выбрать СУБД для аналитики? Мой список критериев для выбора Analytics Database🔵Performance and Scalability— Работа в периоды пиковых нагрузок (одновременные запросы от EL + dbt + BI + analysts)— Поддержка масштабируемости и scaling— Насколько адекват

Как выбрать СУБД для аналитики?Привет! Предположим, что у вас есть:🟢 Целостное понимание потребностей бизнесаВключая требования к производительности, времени отклика, безопасности данных, перечень ключевых метрик (показателей) и формулы их расчета, и т.д.🟢

👑 Особенности работы с External Data (на примере обменных курсов валют)⬜️Бизнес-задача:— Операции с контрагентами совершаются в около 15 разных валют— Есть необходимость пересчета финансовых показателей в разные валюты для отчетности— Обменные курсы актуал

Business Intelligence 101: Всё самое важное о BI инструментах🔸 Ключевые идеи BI— BI - это набор методов и инструментов для бизнес-анализа— BI упрощает доступ к данным в DWH— BI бесполезен без DWH (без данных бесполезны визуализации)— SQL по-прежнему актуал

🤯 Нерелевантные, демотивирующие и бессмысленные задачи🔻 Излишне затянувшееся общение с вендорами и провайдерами сервисовКак инженер - я должен сравнить, протестировать и выбрать самое релевантное решение в заданных условиях. Я даю заключение, какой сервис,

😵‍💫 Нерелевантные, демотивирующие и бессмысленные задачиДавайте поговорим про раздражающие и отвлекающие факторы в работе.Вчера у меня возникла ситуация:Amazon Redshift ночью автоматически обновился на свежий релиз, что привело к ошибкам в расчетах (dbt),

🏆 Удержать стоимость SaaS ELT на уровне $13K / year вместо повышения цены в 2,35 раза В компании для интеграции данных я использую SaaS ELT решение от вендора Hevo Data. Еще в начале 2020 году я провел сравнительный анализ и proof of concept среди основных

🌟 Привет, друзья!С наступающим Новым Годом!Обещаю радовать вас и развиваться. В новом году я планирую:— Делать больше обзоров Data Tools и Инструментов, сравнивать их и делать выводы— Создавать новый обучающий и полезный для каждого контент— Активизировать

Всем привет, мы собрали небольшую подборку каналов/групп, которые могут быть полезны интересующимся данными в Новом 2024 году и хотим поделиться с вами:• @datacoffee — Еженедельный подкаст о данных• @datavizcomics — Комиксы по датавизу, дата-арт и интересн

👀 Где взять динамический датасет для целей тестирования?Большая часть датасетов и sample databases являются статичными, т.е. представляют из себя снимок. Эти данные не меняются со временем.Мы привыкли изучать такие данные, проводить Exploratory Data Analys

☄ Первый стрим для закрытой группы Designing Modern Data AppsУже сегодня 21 декабря в 19:00 — Marketing Analytics❗️ У меня осталось всего несколько местКак это будет выглядеть?— 10 стримов, 2 из них интерактивные Q&A— Живое общение и доступ к ответам н

data будни
последний пост 15 часов назад

👋 я — Саша Михайлов: муж, отец, латентный рационалист, иногда сноубордист и любитель поиграть по воскресениям в доту. В октябре 2023 переехал в Стокгольм 🇸🇪 и работаю инженером данных в местном финтехе Klarna § про работу собственно, те самые data будни!⌘

🗿 этому каналу не хватало лица!вы могли заметить, что тут помимо сухих ссылок стало больше появляться всяких «что вижу вокруг», «что про это думаю» и «помогите разобраться дурачку» не хочу делать из канала сми с контент-планом и заданным количеством постов

🏌️ RAGоднажды в коменты пришёл читатель Семён и пошутил что-то про RAG. Я тогда ничего не понял, но на всякий случай молча кивнул типа «да-да, я в курсе! во дают!1»чтобы в следующий раз не попасть впросак, решил таки сделать домашку и погуглить что за звер

🤯 ChatGPT научилась смотреть, слушать и быстро отвечатьнахожусь под впечатлением от вчерашней презентации OpenAI — они показали новую модель, а ещё обновление приложения. теперь ChatGPT совсем даже не чат, а вполне себе собеседник: добавили возможность вкл

👨‍🔧 разобрался с Terraform спустя пару лет после моего первого знакомства с infrastructure-as-a-code наконец-то достался проект где можно попрактиковаться. ⌘⌘⌘ в Кларне всё на AWS, для управления архитектурой используют CloudFormation или Terraform; у…

👨‍🔧 разобрался с Terraformспустя пару лет после моего первого знакомства с infrastructure-as-a-code наконец-то достался проект где можно попрактиковаться.⌘⌘⌘в Кларне всё на AWS, для управления архитектурой используют CloudFormation или Terraform; у нас в к

🫧 big tech bubbleслушал подкаст с инженером из Убера, нашёл интересным несколько моментов:§ 1большие компании по мере свеого дикого роста сталкиваются с проблемами, с которыми до них никто не сталкивался. На рынке просто нет готовых решений для таких объём

🐘 Nimble Elephant — книга про паттерны моделирования данных в этот раз потребовалось даже меньше двух лет, чтобы прочитать купленную книгу!почему-то ожидал, что будет больше про аналитику, но оказалось в основном про большие энтерпрайз системы на сотни сущ

https://medium.com/@maciej.pocwierz/how-an-empty-s3-bucket-can-make-your-aws-bill-explode-934a383cb8b1кулстори из интернетов: как получить счёт в $1300 за первый день создания пустого приватного s3-бакета в AWSесли работаете с s3, то полезно понимать как в

📚 Practical Data Modelling pre-bookне теряю надежды вкатиться в Data Modelling и продолжаю активно следить за господином Joe Reis. ранее он объявил, что после соавторства книги Fundamentals of Data Engineering его следующей соло-книгой будет Practical Data

🏆 что мне нравится в проекте с авиа-трейсами adsb.exposedв дополнение к вчерашним картинкам и голой ссылке хочу подробнее рассказать чем именно меня привлёк проект Миловидова⌘ во-первых, как увлечённый дата-инженер я радуюсь каждому проекту, где-то как-то

примеры того что получается в итоге

🛫 визуализация полётов на Кликхаусе 🛬Алексей Миловидов собрал красивый демо-проект, чтобы показать как Кликхас могёт ворочать миллиарды записей (это в день). Получилось похоже на flightradar, только без самолётиков — только трейсы. Можно выбирать что показ

и следом ютуб-фид мне выдал релевантный доклад с AWS re:Invent «как не терять данные в стриминге»Рассказывает AWS Hero из консалтинга, т.е. она насмотрелась за свою карьеру на разные aws-архитектуры.доклад понравился тем, что он практико-ориентированный: н

открываю для себя семейство продуктов Kinesis от AWS. Всё вместе оно решает дата-стриминговые задачи, но чисто по названиям не понять чем Streams отличаются от Analytics и зачем там ещё Firehose.посмотрев три обзора на ютубе, ответственно заявляю вот что я

под капотом Яндекс.Такси
последний пост None

🎧 Podcasts

Data Engineering Podcast
последний пост 5 days, 13 hours назад

Release Management For Data Platform Services And Logic

Barking Up The Wrong GPTree: Building Better AI With A Cognitive Approach

Build Your Second Brain One Piece At A Time

Making Email Better With AI At Shortwave

Designing A Non-Relational Database Engine

Establish A Single Source Of Truth For Your Data Consumers With A Semantic Layer

Adding Anomaly Detection And Observability To Your dbt Projects Is Elementary

Ship Smarter Not Harder With Declarative And Collaborative Data Orchestration On Dagster+

Reconciling The Data In Your Databases With Datafold

Version Your Data Lakehouse Like Your Software With Nessie

When And How To Conduct An AI Program

Find Out About The Technology Behind The Latest PFAD In Analytical Database Development

Using Trino And Iceberg As The Foundation Of Your Data Lakehouse

Data Sharing Across Business And Platform Boundaries

Tackling Real Time Streaming Data With SQL Using RisingWave

Data Brew by Databricks
последний пост None

«Ничего такого» by Dodo Enginnering
последний пост None

Запуск завтра Podcast
последний пост 3 months назад

Как работает DNS и почему он может сломаться? [Спецвыпуск]

Сохранить как .torrent. Как мы научились делиться самым интересным почти мгновенно

Сохранить как GIF. Как мы нашли идеальный способ выражать свои эмоции в интернете

Сохранить как VHS, DVD. Как видео пришло в наш дом

Сохранить как PDF. Как мы (почти) заменили бумагу?

mp3. Как мы научились сжимать музыку

Детство рунета. Как появлялся интернет в России

vas3k. Как устроено популярное сообщество про технологии

Темные паттерны в UX. Как приложения нами манипулируют

12 декабря обсуждаем итоги 2023 года на рынке IT

JetBrains. Как создают инструменты для разработки

Как дела в аутсорсе? Говорим про бизнес Самата

3D-печать домов. Как с помощью принтера строят здания

3Д-движки. Как создают вселенные в видеоиграх

No-code. Как сделать сайт без программирования

Moscow Python Podcast
последний пост 2 weeks назад

Day Special с Александром Гончаровым

Новости мира Python за апрель 2024

Новости мира Python за март 2024

API версионирование: как, зачем и почему?

Новости мира Python за февраль и даже больше

Как стать core-разработчиком CPython?

Что произошло в мире Python за декабрь и январь 2024

Что произошло в мире Python за 2023 год

Культура комментариев в коде

bservability / как сжать int в один бит / мониторинг в Яндексе

Новости мира Python за ноябрь: PEP 734 / Django Ninja/аудит безопасности PyPI

За 5 лет до техлида и создателя IT-сообщества

бета Django 5.0 / PEP 703 / PEP 730 / отчет Security Developer in Residence

pathlib.Path.walk или как одна маленькая идея может превратиться в полгода работы

Релиз Python 3.12 / релиз Flask 3.0 / Python Developers Survey 2022 / Python-редактор в Excel.

Podlodka Podcast
последний пост 3 days, 22 hours назад

Podlodka #372 – Силовые тренировки, часть 2

Podlodka #371 – Силовые тренировки, часть 1

Podlodka #370 – SEO

Podlodka #369 – Нарративный дизайн

Podlodka #368 – Инженерная культура в БигТехе

Podlodka #367 – Zig

Podlodka #366 – Релокация в UK

Podlodka #365 – Ада Лавлейс и программирование

Podlodka #364 – Дата и время

Podlodka #363 – Культурная интеграция экспатов

Podlodka #362 – FemTech

Podlodka #361 – Профессия: CFO

Podlodka #360 – Тестовые окружения

Podlodka #359 – Тест-кейсы

Podlodka #358 – Шахматы

Проветримся!
последний пост 1 month, 2 weeks назад

Сергей Сухов: Стоицизм

База про Стоицизм

Илья Параушкин: Выживание Жизни

Михаил Свердлов: образование, которое мы заслужили

Маша Грекова: Теплица, Нормальное Место, Огурцы и Простые Вещи

Илья Параушкин: еда и технологии

Анна Коган: компьютерное зрение

Арсений Веснин: из журналиста в капитаны

Вы находитесь здесь
последний пост 5 months, 1 week назад

Что это было. Как нейросети изменили науку

Зырь-машина. Как проходит гонка компьютерного зрения

Фоторобот Воронежа. Как нейросети научились рисовать с наших слов

Похоже на правду. Как нейросети научились имитировать речь

Как нейросети обходят законы прогресса

Comand Line Heroes by RedHat
последний пост None

Python Bytes
последний пост 4 days, 2 hours назад

#383 Why aren’t devs shipping faster?

#382 A Simple Game

#381 Python Packages in the Oven

#380 Debugging with your eyes

#379 Constable on the debugging case

#378 Python is on the edge

#377 A Dramatic Episode

#376 Every dunder method in a Python Lockbox

#375 Pointing at Countries

#374 Climbing the Python Web Mountain

#373 Changing Directories

#372 uv - an impressive pip alternative

#371 Python in a Crate

#370 Your Very Own Heroku

#369 The Readability Episode

Software Engineering Daily
последний пост 2 days, 1 hour назад

Pinata and the Interplanetary File System with Matt Ober

Animal Well with Billy Basso

LLMs for Data Queries with Sarah Nagy

Implementing KYC and User Verification with Alex Grinman

Nuxt JS with Anthony Fu

Scaling Large ML Models to Small Devices with Atila Orhon

Anaconda and Accelerating AI Development with Rob Futrick

Engineering the Playdate Gaming Handheld with James Moore and Dave Hayden

Using LLMs for Training Data Preparation with Nihit Desai

AI-Driven Observability at Kentik with Avi Freedman

SolidJS with Ryan Carniato

Database Scaling at Figma with Sammy Steele

Bonus Episode: How to Build a Self-Driving Car with Ian Williams

Security Engineering with Ben Huber

Startup Investing with George Mathew

Habr Podcasts
последний пост None

Мысли и Методы
последний пост None

Трёп Себранта
последний пост 5 months назад

Предновогоднее-2024: сумбурные прогнозы

От LLM до LMM и LBM — и книги “Конец индивидуума”

⌨ Coding

Martin Fowler
последний пост 2 days, 19 hours назад

Parallel Data Fetching

Data Fetching Patterns in Single-Page Applications

photostream 131

photostream 130

Using data replication in legacy displacement

Creating Seams in a Mainframe's Batch Pipelines

Uncovering Seams in a Mainframe's external interfaces

Joining LinkedIn

Farewell, John Kordyback

Uncovering Seams in a Mainframe's external interfaces

Uncovering the seams in Mainframes for Incremental Modernisation

How to capture qualitative metrics

Code samples for the opening chapter of Refactoring

The Benefits of Qualitative Metrics

Measuring Developer Productivity via Humans

Антон Жиянов
последний пост 1 week, 6 days назад

Современный SQLite: STRICT-таблицы

Интерактивная API-документация

Пишем менеджер пакетов

Язык Odin