Robot
			
			Складчик
		- #1
 
[МФТИ] Разработчик BigData 2022 [Олег Ивченко]
Программа профессиональной переподготовки.Дополнительное профессиональное образование ФПМИ МФТИ — это возможность выбора необходимого для Вас направления обучения в ведущем вузе страны, входящим в рейтинг лучших университетов мира без вступительных экзаменов.
Вас ждут сложные задачи, интенсивная самостоятельная работа. Возможность общаться со студентами и преподавателями занимающими топовые позиции в крупных IT-компаниях. Выбрав профессию, Вы присоединяетесь к группе и проходите программу профессиональной переподготовки вместе с основной магистратурой.
Программа профессиональной переподготовки Разработчик Big Data соответствует запросам рынка. Мы обновляем материалы и развиваемся вместе с индустрией.
Кому подойдёт профессия разработчик BigData:
1. Разработчик
Сможете совершенствовать навыки программирования, расширить и получить новые знания в desktop, web разработки, а также в работе с большими данными.
2. Аналитик
Сможете проводить аналитику с помощью SQL и NoSQL инструментов, визуализировать данные и отчеты на основе больших массивов информации.
3. Data engineer
Курсы помогут увеличить свой рабочий арсенал прикладных знаний в работе с данными.
4. Data scientist
Получите знания по современным инструментам и подходам, необходимым для сбора, хранения и обработки данных. Изучите модели машинного обучения в применении к большим данным.
Блок 1 - Технологии программирования и операционные системы
Модуль 1 - Семейство ОС Unix. Современные инструменты для работы в консоли
- Семейство ОС Unix, основные дистрибутивы и их отличия.
 - Основные командные интерпретаторы, их отличия.
 - Утилита sed, язык awk.
 - Использование Python как заменителя shell.
 - Jupyter и TmpNb как его модификация.
 - Терминальные мультиплексоры, автоматизация работы с ними.
 
- Системы контроля версий в современных проектах.
 - CVS – первая система контроля версий.
 - SVN.
 - Современные VCS – Git, Mercurial и работа с ними.
 - Работа над проектами в команде.
 - Автоматизация работы с Git.
 
- Виртуализация. Её виды (контейнерная, на уровне ОС).
 - Современные платформы виртуализации и работа с ними.
 - Автоматизация работы с виртуальными окружениями.
 
- Непрерывная интеграция (continuous integration) и её этапы.
 - Основные инструменты CI и их связь с VCS.
 
- Компьютерные сети, модель OSI, её уровни.
 - Сетевые протоколы обмена информацией.
 
Модуль 1 - Распределённые файловые системы (GFS, HDFS)
- Распределённые файловые системы (GFS, HDFS). Её составляющие. Их достоинства, недостатки и сфера применения.
 - Чтение и запись в HDFS. HDFS APIs: Web, shell, Java.
 
- Парадигма MapReduce. Основная идея, формальное описание. Обзор реализаций.
 - Виды и классификация многопроцессорных вычислительных систем. Hadoop. Схема его работы, роли серверов в Hadoop-кластере.
 - API для работы с Hadoop (Native Java API vs. Streaming), примеры.
 - MapReduce, продолжение.
 - Типы Join'ов и их реализации в парадигме MR.
 - Паттерны проектирования MR (pairs, stripes, составные ключи).
 
- Hadoop MRv1 vs. YARN.
 - Нововведения в последних версиях Hadoop.
 - Планировщик задач в YARN. Apache Slide.
 
- SQL over BigData: Apache Drill, Cloudera Impala, Presto, Hive.
 - Повторение SQL.
 - HiveQL vs. SQL.
 - Виды таблиц в Hive, типы данных, трансляция Hive-запросов в MapReduce-задачи.
 - Аналитические функции в Hive.
 - Расширения Hive: Streaming, User defined functions.
 - Оптимизация запросов в Hive.
 
- Spark RDD vs Spark Dataframes
 - Spark SQL
 - Spark GraphFrames
 
- Обработка данных в реальном времени.
 - Spark Streaming.
 - Распределённая очередь Apache Kafka. Kafka streams.
 
- HBase.
 - NoSQL подходы к реализации распределенных баз данных, key-value хранилища.
 - Основные компоненты BigTable-подобных систем и их назначение, отличие от реляционных БД.
 - Чтение, запись и хранение данных в HBase.
 - Minor- и major-компактификация.
 - Надёжность и отказоустойчивость в HBase.
 - Cassandra. Основные особенности. Чтение и запись данных. Отказоустойчивость.
 - Примеры применения HBase и Cassandra.
 - Отличие архитектуры HBase от Сassandra.
 
Модуль 1 - Методы оптимизации и линейные модели
- Машинное обучение с учителем на больших данных. Закон Ципфа. Тематическое моделирование.
 - Метод стохастического градиента. Постановка задачи. Оптимизации обучения на больших данных: градиентный спуск, стохастический градиент.
 - Признаки. Пространства признаков, веса признаков, нормализация признаков. Генерация и хеширование признаков.
 - Онлайн обучение линейных моделей. Метод стохастического градиента: выбор функции потерь. Оценка качества метода стохастического градиента. Алгоритм Бутстрап.
 - Хеширование, чувствительное к расстоянию (LSH). Меры сходства: расстояние Жаккара, Хемминга, косинусное расстояние, Евклидово расстояние.
 - Оптимизация и тестирование гиперпараметров. Симплекс-метод.
		
		
	
	
	 
- Графы, их виды. Стохастический граф.
 - Представление графа: матрицы смежности, инцидентности, достижимости. Списки смежности. Алгоритмы перевода из одного представления в другое.
 - Социальный граф. Задача поиска общих друзей в социальном графе. Язык DSL.
 - Граф пользовательских предпочтений.
 - Использование подхода BigData в анализе графов
 
- Постановка ранжирования. Основные подходы к решению задачи ранжирования
 - Метрики измерения точности ранжирования. Кликовые модели.
 - Тематическое моделирование и его связь с ранжированием.
 - Проблемы тематического моделирования при больших данных. AD-LDA, его недостатки, Y!LDA, Mr. LDA. ARTM. Архитектура библиотеки BigARTM. Online LDA и его применение в Vowpal Wabbit.
 
- Рекомендательные системы, постановка задачи предсказания / рекомендации. Классификация рекомендательных систем. Неперсонализированные рекомендательные системы, content-based рекомендательные системы.
 - Задачи коллаборативной фильтрации, транзакционные данные и матрица субъекты—объекты. Корреляционные методы, методы сходства (neighbourhood) - user-based, item-based.
 - Латентные методы на основе матричных разложений. Методы ALS и iALS.
 - Современные рекомендательные системы: рекомендательные системы, основанные на учете контекста (context aware); аспектные рекомендательные системы (aspect-aware), рекомендательные системы на основе тензорных разложений.
 
								Показать больше
					
			
			
											
												
													Зарегистрируйтесь
												
											, чтобы посмотреть скрытый контент.