Тонны реального опыта

Автор курса построила десятки кластеров и поучаствовала в проектировании и разработке такого проекта как Hadoop as a Service в рамках создания Cisco Cloud.

Возможность трудоустройства

Самые лучшие выпускники получат возможность дальнейшего менторства и трудоустройства в лучшую Big Data-команду Украины.

Полный цикл работы

Мы покроем все стадии работы с Hadoop: начиная от проектирования и установки кластера, заливки данных, заканчивая получением результатов обработки.

Описание: данный курс уникален тем, что автор читает его вот уже два года и он остается единственным доступным, но, в то же время, всеобъемлющим введением в чарующий мир больших данных и одним из самых больших кирпичей в фундаменте этого мира – Hadoop. Рассмотрим все: начиная от принципиально важных отличий между Hadoop и реляционными базами данных, заканчивая работой с основными инструментами Научимся закачивать данные в Hadoop и получать их обратно, имитируя построение простейших приложений. Курс снабжен обильной практикой с развертыванием своих собственных кластеров в клауде (Amazon Web Services) и совершенно точно задержится в голове надолго. Добавьте сюда еще миллион полезных советов, подводных камней, лучших практик крупнейших мировых компаний таких как Cisco, Deloitte, Cloudera и веселых историй из жизни одного из самых лучших Hadoop-архитекторов Украины в кругу таких же допытливых ребят, как и вы сами.

Аудитория: data-инженеры, администраторы, DevOps-инженеры, программисты и все, кому интересно повысить свой профессиональный класс и записать туда основы Hadoop и Big Data

Сложность: средняя (нужно знать основы реляционных баз данных и базовые команды Linux)

Продолжительность: 20 часов

Стоимость: 5999 грн

Ближайший курс: 12-16 Января 2018 (забронировать)

Программа курса: Hadoop & Big Data Essentials

  1. Повторение понятия реляционной базы данных
  2. Объяснение понятий OLTP, OLAP, ETL
  3. Рассмотрение типичной IT-инфраструктуры предприятия с точки зрения хранения и обработки данных
  4. Объяснение понятия Больших Данных, характеристики Больших Данных
  5. Проблемы в обработке Больших Данных
  6. Экскурс в технологии обработки Больших Данных
  1. CAP и BASE теоремы
  2. Типы NoSQL и NewSQL баз данных
  3. NoSQL vs Hadoop
  1. Место Hadoop в IT-инфраструктуре предприятия
  2. Обзор системы Hadoop и типичные примеры использования
  3. Архитектура Hadoop
  4. Дистрибутивы Hadoop
  5. Обзор экосистемных проектов
  1. Архитектура и сервисы HDFS
  2. Как хранятся данные в HDFS?
  3. Процессы чтения и записи файлов в HDFS
  4. Отказоустойчивость, NameNode federation
  5. Проблема хранения маленьких файлов в HDFS
  6. Форматы файлов и компрессия данных в HDFS
  1. Рассмотрение парадигмы MapReduce на примере
  2. Архитектура кластера Hadoop с YARN
  3. Как работают основные компоненты YARN
  4. Job Scheduling
  5. Spark on YARN – основные концепции и архитектура
  1. Какие ресурсы необходимы для установки кластера?
  2. Установка кластера Hadoop на 3 нодах
  3. Управление кластером Hadoop через графический интерфейс и утилиту Hue
  4. Знакомство с Zeppelin
  1. Мониторинг процессов HDFS
  2. Обзор конфигурационных файлов HDFS
  3. Работа с нативными графическими интерфейсами HDFS
  4. Манипуляция данными в HDFS через командную строку
  5. Утилиты HDFS, облегчающие жизнь
  1. Мониторинг процессов YARN
  2. Обзор конфигурационных файлов YARN
  3. Работа с ResourceManager UI
  4. Запуск и мониторинг MapReduce программ
  5. Запуск и мониторинг Spark программ
  6. Hadoop benchmarking
  1. Форматы файлов и компрессия
  2. Обзор Hive и Impala
  3. Таблицы и партиционирование в Hive
  4. Загрузка данных в таблицы Hive
  5. Выборка данных с помощью Hive и Impala
Для получения сертификата об успешном прохождении курса, мы поспрашиваем вас, что вы запомнили, чтобы вы сумели рассказать даже своей бабушке о Hadoop, и попросим сделать несколько примеров, чтобы убедиться, что после этого курса вы готовы к решению Big Data проблем.

Вопросы и Ответы:

Q: Для кого этот курс?

A: Не важно, кто вы – дата саентист, DevOps, тестировщик или программист – если вам необходимо работать с Hadoop , то этот курс для вас

Q: Что я смогу делать после этого курса?

A: Вы будете знать основную теорию Big Data, а также сможете рассказать как устроен и работает Hadoop, научитесь самостоятельно устанавливать кластера Hadoop, эффективно работать с HDFS, запускать MapReduce программы или Spark приложения, оперировать данными при помощи Hive и Impala, а также заливать данные в Hadoop из внешних систем.

Q: Как будет выполняться практика?

A: Понадобится ноутбук и AWS-аккаунт. В рамках курса вы создадите AWS аккаунт (если у вас еще нет его), установите под чутким руководством тренера кластер Hadoop, состоящий из 3-"нод" (узлов) и всю практику будете выполнять именно на этом кластере.  И естественно, этот кластер останется вам для дальнейшего самообучения и практики.

Q: Буду ли я платить дополнительные деньги за инфраструктуру?

A: Да. Понадобится карта с примерно 20 долларами на ней для настройки инстансов на AWS. Мы могли бы включить эти небольшие деньги в стоимость курса, но не хотим ограничивать ваше творчество на случай если вы сразу захотите создавать кластера на 10-20 и даже 100 машин. Кроме того, это научит тех, кто еще не умеет, аккуратно распоряжаться ресурсами AWS и своими деньгами.

Q: Какие следующие курсы для изучения? (Learning Path)

A: После прохождения этого первого, вводного курса, мы рекомендуем продолжить обучение по следующим, более специализированным направлениям:

Разработчикам – Scala & Spark for Java Developers

Вариант 2: Если вы DevOps: Hadoop Operations – Cloudera Distribution of Hadoop for Data Engineers

Вариант 3: Если вы Data Scientist – Spark for Data Scientists (разрабатывается)