Открыто

Data-инженер [2022] [Слёрм] [Анастасия Сафонова]

Тема в разделе "Курсы по программированию", создана пользователем Toxich, 27 июл 2022.

Основной список: 29 участников

Резервный список: 5 участников

  1. 27 июл 2022
    #1
    Toxich
    Toxich ЧКЧлен клуба
    Data-инженер [2022]
    Слёрм
    Slurm
    Анастасия Сафонова


    • Научитесь собирать и обрабатывать данные.
    • Сможете претендовать на позицию Data-инженера.
    • Получите навыки проектирования хранилищ и работы с инфраструктурой.
    Кому подойдёт курс:
    1. Системным и сетевым администраторам
    Научитесь проектировать, разрабатывать и поддерживать архитектуру для работы с большими данными. Освоите основные инструменты Data-инженеров и сможете внедрять принятые решения в production.​
    2. Backend-разработчикам
    Изучите все этапы работы с данными. Научитесь собирать информацию из разных источников и выполнять интересные задачи. Сможете увеличить доход и повысить свою ценность для компании.​

    Пройдя курс, вы:
    1. Научитесь проектировать архитектуру хранилищ данных под разные задачи и условия. Узнаете основные принципы построения систем потоковой аналитики. Получите представление о существующих облачных и on-premise решениях.
    2. Научитесь проводить обследование перед стартом нового проекта и определять «информационную зрелость» заказчика. Поймёте, что нужно знать перед проектированием архитектуры хранилища данных в новом проекте.
    3. Получите базовые знания Apache Spark для Data-инженера. Научитесь использовать DataFrame API и Spark Streaming API для исследования, извлечения, преобразования и хранения данных.
    4. Научитесь создавать пайплайны обработки данных с использованием opensource ETL-инструментов. Научитесь работать с основными инструментами Data-инженера.
    5. Узнаете принцип работы технологий, упрощающих жизнь DE при работе с RDBMS. Научитесь оптимизировать запросы под нужды дата-инженера.
    6. Узнаете принципы работы и применимость разных видов NOSQL БД. Научитесь работать с колоночными БД на примере HDFS.
    7. Научитесь проектировать хранилища данных в условиях изменчивости первичных данных.
    8. Научитесь оценивать качество данных и узнаете способы устранения проблем с data quality.
    9. Научитесь работать с базовыми инструментами получения данных от граничных устройств в облако.

    Модуль 1 - Инженерия данных
    Научим проектировать архитектуру хранилищ данных, поможем освоить инструменты Data-инженера, расскажем о принципах подготовки проекта к запуску и не только.

    Урок: Экосистема и роль инженерии данных
    • Что такое инженерия данных, кто такой дата инженер. Какие проблемы решает, роль в команде, почему DSов часто недостаточно для успешного проекта. Обязанности и навыки дата инженера
    • Обзор экосистемы инженерии данных: типы и структуры данных, форматы файлов, источники данных, используемые языки
    Урок: Архитектура хранилищ данных
    • Традиционная архитектура хранилищ данных
    • Облачные хранилища
    • Озёра данных, витрины данных, хранилища данных - что это и чем отличаются
    • Что такое ETL, ELT. Обзор ETL-инструментов. Загрузчики данных, шины обмена данными
    Урок: Реляционные базы данных
    • Реляционная модель данных
    • Принципы ACID
    • SQL. Оптимизация запросов для нужд data engineer'а
    • Индексирование
    • Партицирование, шардирование. Что это и зачем нужно
    • Доступ к данным с помощью ORM
    • Хранимые процедуры, триггеры
    • Транзакционное логирование: что это и зачем нужно. Механизмы CDC
    • Способы и инструменты исследования БД
    Урок: NOSQL базы данных
    • Колоночные хранилища
    • Графовые базы данных
    • Документоориентированные хранилища
    • Хранилища ключ-значения
    • Time-Series DB"
    • Урок: Распределенные файловые системы
    • Hadoop - обзор
    • Технология Map-Reduce
    Урок: Загрузчики данных
    • NiFi - знакомство и практические задачи
    • Урок: Оркестраторы данных
    • Airflow - знакомство и практические задачи
    Урок: Шины данных
    • Kafka - знакомство и практические задачи
    • Урок: Принципы построения систем потоковой аналитики
    • Батчинг, стриминг
    Урок: Spark for Data Engineering
    • Что такое Spark и зачем он нужен DE
    • DataFrames: Spark SQL, Reader & Writer, DataFrame & Column
    • Преобразования: Aggregations, Datetime, Strings & Collections, Non-Aggregate & Na
    • Functions, UDF
    • Партицирование, репартицирование
    • Spark Streaming
    Урок: Предпроектное обследование
    • Как провести предпроектное обследование
    • Типовые вопросы для оценки «информационной зрелости» заказчика
    Модуль 2 - Аналитический модуль
    Научим проектировать хранилища данных и оценивать data quality.

    Урок: Изменчивые данные и как с этим жить
    • Поддержка консистентности данных. Жизненный цикл данных
    Урок: Оценка качества данных
    • Типы проблем КД, их причины и способы решения
    Урок: «Тёмные» данные
    • О том, как данные врут и что с этим делать
    Модуль 3 - DE & IoT модуль
    Научим организовывать передачу данных от устройств в облако.

    Урок: Data Engineering и IoT
    • MQTT и другие IoT-протоколы передачи данных от граничного устройства в облако
    • Инструменты сбора данных от IoT-устройств: RabbitMQ, mosquitto

    Продажник
     
  2. Последние события

    1. Shaman
      Shaman не участвует.
      16 июл 2025
    2. endystark
      endystark не участвует.
      30 май 2025
    3. drugster80
      drugster80 не участвует.
      27 май 2025
    4. endystark
      endystark участвует.
      4 мар 2025

    Последние важные события

    1. skladchik.com
      Нужен организатор складчины.
      14 сен 2023
    2. skladchik.com
      Назначен организатор.
      7 июл 2023