Описание
Данный курс уникален тем, что автор читает его вот уже два года и он остается единственным доступным, но, в то же время, всеобъемлющим введением в чарующий мир больших данных и одним из самых больших кирпичей в фундаменте этого мира – Hadoop. Рассмотрим все: начиная от принципиально важных отличий между Hadoop и реляционными базами данных, заканчивая работой с основными инструментами. Научимся закачивать данные в Hadoop и получать их обратно, имитируя построение простейших приложений. Курс снабжен обильной практикой с развертыванием своих собственных кластеров в клауде (Amazon Web Services) и совершенно точно задержится в голове надолго. Добавьте сюда еще миллион полезных советов, подводных камней, лучших практик крупнейших мировых компаний таких как Cisco, Deloitte, Cloudera и веселых историй из жизни одного из самых лучших Hadoop-архитекторов Украины и преподавателя Kyivstar Big Data School 2.0, в кругу таких же допытливых ребят, как и вы сами.
Аудитория: data-инженеры, администраторы, DevOps-инженеры, программисты и все, кому интересно повысить свой профессиональный класс и записать туда основы Hadoop и Big Data.
Сложность: перед началом курса нужно знать основы реляционных баз данных (Язык SQL) и базовые команды Linux.
Продолжительность: 20 часов (5 занятий)
Время проведения:
Пт, 6 Апреля 2018 08:00 – 12:00 (4 часа)
Сб, 7 Апреля 2018 10:00 – 14:00 (4 часа)
Вс, 8 Апреля 2018 10:00 – 14:00 (4 часа)
Сб, 14 Апреля 2018 10:00 – 14:00 (4 часа)
Вт, 15 Апреля 2018 10:00 – 14:00 (4 часа)
Место проведения: Киев, ул. Дегтяревская, 33В, офис компании SoftServe
Стоимость: 5999 грн.
Программа курса: Hadoop & Big Data Essentials
- Повторение понятия реляционной базы данных
- Объяснение понятий OLTP, OLAP, ETL
- Рассмотрение типичной IT-инфраструктуры предприятия с точки зрения хранения и обработки данных
- Объяснение понятия Больших Данных, характеристики Больших Данных
- Проблемы в обработке Больших Данных
- Экскурс в технологии обработки Больших Данных
- CAP и BASE теоремы
- Типы NoSQL и NewSQL баз данных
- NoSQL vs Hadoop
- Место Hadoop в IT-инфраструктуре предприятия
- Обзор системы Hadoop и типичные примеры использования
- Архитектура Hadoop
- Дистрибутивы Hadoop
- Обзор экосистемных проектов
- Архитектура и сервисы HDFS
- Как хранятся данные в HDFS?
- Процессы чтения и записи файлов в HDFS
- Отказоустойчивость, NameNode federation
- Проблема хранения маленьких файлов в HDFS
- Форматы файлов и компрессия данных в HDFS
- Рассмотрение парадигмы MapReduce на примере
- Архитектура кластера Hadoop с YARN
- Как работают основные компоненты YARN
- Job Scheduling
- Spark on YARN – основные концепции и архитектура
- Какие ресурсы необходимы для установки кластера?
- Установка кластера Hadoop на 3 нодах
- Управление кластером Hadoop через графический интерфейс и утилиту Hue
- Знакомство с Zeppelin
- Мониторинг процессов HDFS
- Обзор конфигурационных файлов HDFS
- Работа с нативными графическими интерфейсами HDFS
- Манипуляция данными в HDFS через командную строку
- Утилиты HDFS, облегчающие жизнь
- Мониторинг процессов YARN
- Обзор конфигурационных файлов YARN
- Работа с ResourceManager UI
- Запуск и мониторинг MapReduce программ
- Запуск и мониторинг Spark программ
- Hadoop benchmarking
- Форматы файлов и компрессия
- Обзор Hive и Impala
- Таблицы и партиционирование в Hive
- Загрузка данных в таблицы Hive
- Выборка данных с помощью Hive и Impala
Вопросы и Ответы:
Q: Для кого этот курс?
A: Не важно, кто вы – дата саентист, DevOps, тестировщик или программист – если вам необходимо работать с Hadoop , то этот курс для вас
Q: Что я смогу делать после этого курса?
A: Вы будете знать основную теорию Big Data, а также сможете рассказать как устроен и работает Hadoop, научитесь самостоятельно устанавливать кластера Hadoop, эффективно работать с HDFS, запускать MapReduce программы или Spark приложения, оперировать данными при помощи Hive и Impala, а также заливать данные в Hadoop из внешних систем.
Q: Как будет выполняться практика?
A: Понадобится ноутбук и AWS-аккаунт. В рамках курса вы создадите AWS аккаунт (если у вас еще нет его), установите под чутким руководством тренера кластер Hadoop, состоящий из 3-«нод» (узлов) и всю практику будете выполнять именно на этом кластере. И естественно, этот кластер останется вам для дальнейшего самообучения и практики.
Q: Буду ли я платить дополнительные деньги за инфраструктуру?
A: Да. Понадобится карта с примерно 20 долларами на ней для настройки инстансов на AWS. Мы могли бы включить эти небольшие деньги в стоимость курса, но не хотим ограничивать ваше творчество на случай если вы сразу захотите создавать кластера на 10-20 и даже 100 машин. Кроме того, это научит тех, кто еще не умеет, аккуратно распоряжаться ресурсами AWS и своими деньгами.