Nedocs.ru

Онлайн платформа для образования
3 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Машинное обучение и анализ данных мфти

Машинное обучение и анализ данных мфти

Машинное обучение и анализ данных — обзор Специализации от Яндекcа & МФТИ (5 курсов + финальный проект), предложенной на образовательной платформе Coursera.

Вам может быть полезна данная статья если:

  • Вы хотите “попробовать на вкус” программирование на Python и понять для себя основные принципы работы моделей машинного обучения, использующихся для работы с данными
  • Вы рассматриваете для себя возможность пройти какой-либо обучающий курс по данной тематике и Вам интересно оценить, насколько Специализация от Яндекса & МФТИ подходит для этого

Почему после прохождения всех пяти курсов Специализации появилось желание написать данную статью: если бы я “тот”, который только начинал первый курс данной Специализации, использовал советы, данные в этой статье, эффективность и скорость обучения была бы в разы выше. И плюс до начала обучения я представлял собой чистый лист: ни строчки кода в жизни, только базовые знания теории вероятности, статистики и линейной алгебры, а значит проходил путь с нуля и застревал на каждом шагу, где от студента ждали больше в плане программирования, чем было положено! Тем самым, я представляю собой репрезентативного подопытного 🙂

Почему формат Специализации — это лучшее, что можно выбрать в начале пути? В целом, для обучения на русском языке есть широкий перечень возможностей: аналогичные по форме, но иные по содержанию онлайн-программы (от Вышки и Яндекса на Coursera, курсы по теме на Stepik’e и т.д.), лекции профессора Воронцова, платные курсы типа New Professions Lab, Нетологии и многое другое. Но, на мой взгляд, именно сочетания теории, видео-лекций и контролируемых/проверяемых (. ) практических работ без необходимости подчиняться какому-то расписанию — лучшее по форме самообразование с наивысшим соотношением цена/качество/удобство . Структура Специализации построена таким образом, что концепция “методов работы с данным” раскрывается постепенно, и ты успеваешь за темпом обучения, даже если ничего не знаешь до начала курсов (за исключением исключений :)). Если стараться просто “впитывать” теорию или неструктурированно браться за какие-то практические задачи есть риск не сдвинуться с места в общем понимании предмета!

Всего в данной Специализации курсов пять:

  1. Математика и Python для анализа данных — вводный курс, наполненный повторением основ мат. анализа и линейной алгебры, жизненно необходимых для прохождения пути
  2. Обучение на размеченных данных (обучение с учителем) — курс, посвященный моделям типа линейной/логистической регрессии, введенению в работу с решающими деревьями и другими моделями, обучение которых возможно только при наличии тех самых “размеченных” данных
  3. Поиск структуры в данных (обучение без учителя) — это про изучение и обучение моделей классификации/кластеризации, используемых в отсутствии размеченных данных
  4. Построение выводов по данным — несмотря на название, этот курс не про визуализацию данных… Он про статистику, про принципы проверки гипотез, в т.ч. множественных, про построение доверительных интервалов и так далее, т.е. про то, как из полученных результатов вашей модели ПРАВИЛЬНО сделать выводы (правильные или нет уже зависит от самой модели и исходных данных))
  5. Прикладные задачи анализа данных

Какое самое важное препятствие Вас ждет, если также как и я, Вы не писали ни строчки кода до начала обучения?)) Полное непонимание структуры языка Python, с которым предстоит очень много работать в процессе обучения. К сожалению, формат Специализации не подразумевает длинного вводного курса и подготовка идет “на бегу” в ходе первого курса. Быстрое повторение основ линейной алгебры, статистики и краткий обзор Python — вот и вся подготовительная работа. Этого очень мало. Несмотря на то, что в требованиях к курсу указано базовое знание основ программирования, презентуется эта программа везде как шанс пройти путь программирования на Python c нуля. Что я хотел бы знать до начала обучения? Необходимость изучения основ Python применительно к анализу данных и только потом — прохождение курсов специализации. Очень важно понимать структуры и типы данных, основные методы работы с числовыми данными, таблицами и основными библиотеками — numpy & pandas. Понимать, уметь работать с кодом (элементарные преобразования, работа с табличными данными и так далее) и знать источники (!) информации, когда чего-то не знаешь (stock overflow, форумы, блоги, каналы в слаке и так далее). Как получить весь базовый набор на русском языке я не знаю, т.к. не ставил цели именно на русском учиться, поэтому в качестве ориентира на данном этапе считаю данную книгу, написанную создателем библиотеки Pandas: Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython ©. Если бы всех студентов Специализации заставляли бы ее прочесть и освоить материал до начала учебы — КПД вырос бы минимум вдвое потом 🙂

Отдельно хочется попросить оторвать руки создателям первого курса за задание с работой с текстом — я сейчас делаю финальный проект по итогам пяти курсов и с ужасом вспоминаю, как пришлось тратить часы и дни поиском по форумам, чтобы не имея ни малейшего представления Python, токенизировать тексты и рассчитывать их сходство, используя примитивные циклы, потому что ничего лучше тогда ты не знаешь… Это очень жестоко, я думаю немало людей бросили всю учебу на этом моменте!

Идем дальше. Проходя второй курс Специализации, снова и снова придется возвращаться к основам — до понимания и разбора реальных моделей обучения на размеченных данных (другое название — обучение с учителем) порой просто не доходило! Сидишь и тратишь по 2–3 часа на преобразования и очистку числовой информации, подготовку таблиц и так далее, потому что нет навыка писать на Python, с трудом в голове откладывается его семантика, когда сразу бросают на работу с моделями линейной регресии и другими. В целом, курс очень насыщенный и требует много практической работы — в ходе видео-лекций дается теория по моделям линейной и логистической регрессий, объясняется принцип работы алгоритма градиентного бустинга и других ключевых для работы с данными темами (метрики, оптимизация и прочее). Общее впечатление — идеальное сочетание теории и практики, за исключением сегмента про нейронные сети — очень скомкано и ничего не понятно было тогда..)

Относительно третьего курса могу сказать, что он получился хуже остальных (исключительно мое мнение). Вам предстоит попробовать строить модели для работы с данными в ситуации, когда даже в целях обучения нет тестовых ответов (то есть нет разметки в данных). Но, судя по моему представлению по итогам завершения Специализации и дальнейшего обучения, тема обучения без учителя настолько сложная и глубокая, что реально в рамках третьего курса вы, можно сказать, успеете прочесть “определения из википедии” и сделать пару-тройку элементарных примеров, то есть ощущения того, что хоть чуть “знаешь” не возникнет, а если возникнет — это самообман 🙂

По мере движения вперед и изучения основ Python, вы будете все чаще сталкиваться с пробелами в знаниях теории вероятностей, статистики и линейной алгебры. И сильнее всего это будет чувствоваться на четвертом курсе, который по сути полностью посвящен концепциям из тер. вера и статистики в части тестирования гипотез, построения доверительных интервалов, оценки корреляций и так далее. И это вторая главная проблема всей Специализации — вроде как от студентов ждут “базовых знаний” в начале, но по мере прохождения курсов все отчетливей становится ясно — вы либо ХОРОШО знаете мат. часть, либо будет очень ПЛОХО….)) Реально не отделаться общими словами и “общим” пониманием — чтобы суметь разобраться как “под капотом” работают те или иные модели, на основании каких теорем/аксиом/концепций они строятся и почему результат именно такой, потребуется нечто большее, чем “базовые знания”. Отсюда вывод — если вы собираетесь погружаться в DS в общем и в Специализацию в частности, будьте готовы взяться за повторение мат. аппарата и вспомнить университетские годы — на коленке “попитонить и видосики посмотреть” не получится…)

Читать еще:  Детская психология обучение москва

Вот и все! Дальше идет практика (5 курс и отдельно 7-ми недельный финальный проект), а критически оценить насколько задания сложные или легкие я не могу: у меня опыт в инвестициях и работе на финансовых рынках, а не DS, так что мое мнение в этом вопросе не имеет “веса” …) Одно могу сказать — организовано все очень достойно, в плане разъяснения информации, разнообразия заданий и ощущения эффективности обучения по мере их самостоятельного решения! Плюс, конечно, огромную роль играет определенное community в slack’е — поток студентов на Специализации большой и всегда есть с кем обсудить любой вопрос.

Отвечая на вопрос “порекомендовал бы или нет” данную обучающую программу, отвечу однозначным да! Хотя у меня ушло на нее больше года при постоянной full-time занятости, самое важное — что пришло детальное представление о методах работы с данными с использованием моделей машинного обучения, Python теперь свободно вертится в голове (как когда изучаешь иностранный язык, после определенного уровня уже можешь на нем думать и как-то структурированно изъясняться )) и понятно, куда развивать свое хобби дальше — в работу с временными рядами, но это уже совсем другая история!)

Надеюсь, данный обзор будет вам полезен и позволит сэкономить немного времени / денег или повысит скорость обучения по данной тематике! Успехов!

16 бесплатных онлайн-курсов по машинному обучению

Популярная тенденция в сфере онлайн-образования — массовые открытые онлайн-курсы (Massive open online-courses, MOOC). Появились бесплатные курсы по машинному обучению и data science. Они доступны каждому и основаны на образовательных программах от ведущих университетов, например, МФТИ.

Большинство MOOC по машинному обучению доступны на английском языке и представлены на известных платформах онлайн-образования, таких как Coursera, Udacity, World Education University и edX.

Отдельно стоит отметить, что курсы Coursera доступны бесплатно только для прослушивания лекций. Для того, чтобы выполнять задания или получить сертификат по окончании курса, нужно оформить подписку или оплатить курс.

Видео-материалы и лекции курса можно получить бесплатно, для этого на странице курса внизу нужно нажать кнопку «прослушать курс», как показано на картинке:

Как бесплатно прослушать курсы по машинному обучению

В этой статье собраны бесплатные курсы по машинному обучению и Data Science на русском языке или с русскими субтитрами.

Введение в машинное обучение

Авторы: ВШЭ и Яндекс
Платформа: Coursera
Язык: русский

На курсе Константина Воронцова Введение в машинное обучение рассматриваются популярные задачи, решаемые с помощью машинного обучения — классификация, регрессия, кластеризация. Слушателю нужно знать об основных понятиях математики: функциях, производных, векторах, матрицах, желательно иметь базовые навыки программирования и быть знакомым с python.

Продолжительность: 35 часов

Машинное обучение и анализ данных

Авторы: МФТИ и Яндекс
Платформа: Coursera
Язык: русский

Специализация Машинное обучение и анализ данных включает 6 курсов. Осваиваются основные инструменты, необходимые в работе с большим массивом данных: современные методы классификации и регрессии, поиск структуры в данных, проведение экспериментов, построение выводов, фундаментальная математика, основы программирования на python.

Продолжительность: 8 месяцев (7 часов в неделю)

Python для анализа данных

Авторы: МФТИ, ФРОО, Mail.ru Group
Платформа: Coursera
Язык: русский

Курс Python для анализа данных ориентирован на решение практических задач. Студенты будут применять свои навыки программирования для построения предиктивных моделей, визуализации данных и работы с нейросетями.

Продолжительность: 25 часов

Введение в науку о данных

Автор: СПбГУ
Платформа: Coursera
Язык: русский

Курс Введение в науку о данных рассматривает постановку и решение типичных задач, с которыми может столкнуться в своей работе data scientist, подходы к сбору, анализу, обработке и визуализации массивов данных.

Продолжительность: 17 часов

Глубокое обучение в творчестве с TensorFlow

Автор: Google Magenta
Платформа: Kadenze
Язык: английский, русские субтитры

MOOC Использование глубокого обучения в творчестве с помощью TensorFlow расскажет о том, как строить алгоритмы глубокого обучения на основе сверточных, рекуррентных, генеративных нейросетей и применять их для создания творческих приложений.

Продолжительность: 60 часов

Data Science

Автор: Johns Hopkins University
Платформа: Courserа
Язык: английский, русские субтитры

В специализацию Data Science университета John Hopkins входят 10 курсов, включая сбор и сортировку данных, программирование на языке R, регрессионные модели, разработку продуктов для обработки данных и другие.

Продолжительность: 8 месяцев (5 часов в неделю)

Data science для руководителей

Автор: Johns Hopkins University
Платформа: Courserа
Язык: английский, русские субтитры

Data Science для руководителей — это ускоренная обучающая программа — 5 курсов, которые дают базовое понимание о том, что такое data science и как работать с проектами в этой сфере, собирать и развивать команду и даже лидерские качества.

Продолжительность: 40 часов

Нейронные сети

Автор: Институт биоинформатики
Платформа: Stepic
Язык: русский

Бесплатный курс Нейронные сети дает основы теории нейронных сетей и практики применения. Детальный разбор процесса создания и применения нейронных сетей. Алгоритмы, лежащие в основе нейросетей и множество практических задач.

Продолжительность: 33 часа

Программирование на Python

Автор: Институт биоинформатики
Платформа: Stepic
Язык: русский

На курсе Программирование на Python представлены базовые понятия программирования на python и большое количество практических задач. Решения будут проверяться автоматической системой.

Продолжительность: 22 часа

Алгоритмы: теория и практика. Методы

Автор: Computer Science Center
Платформа: Stepic
Язык: русский

Рассматриваются теоретические основы создания алгоритмов и особенности реализации на языках C++, Java и Python.

Продолжительность: 35 часов

Основы программирования на R

Автор: Институт биоинформатики
Платформа: Stepic
Язык: русский

На курсе Основы программирования на R изучаются основные типы данных и семантические правила, анализ и обработка данных.

Продолжительность: 19 часов

Анализ данных в R

Автор: Институт биоинформатики
Платформа: Stepic
Язык: русский

На курсе рассматриваются этапы статистического анализа на R — предварительная обработка данных, применение статистических методов анализа и визуализация данных.

Продолжительность: 21 час

Базы данных

Автор: СПбГУ
Платформа: Coursera
Язык: русский

В основе курса Базы данных изучение и применение языка SQL для создания, модификации объектов и управления данными в реляционных базах данных. Рассматриваются сферы применения NoSQL баз данных и современные подходы к обработке big data.

Продолжительность: 20 часов

От Excel до MySQL: способы анализа бизнес-данных

Автор: Duke University
Платформа: Coursera
Язык: английский, русские субтитры

В специализацию входят 5 курсов, которые демонстрируют, как использовать Excel, Tableau и MySQL для анализа данных, прогнозирования, создания моделей и визуализации данных для решения задач и улучшения бизнес-процессов.

Продолжительность: 8 месяцев (5 часов в неделю)

Линейная регрессия

Автор: СПбГУ
Платформа: Coursera
Язык: русский

В курсе Линейная регрессия разбираются основные методы описания взаимосвязей между количественными признаками, регрессионный анализ и построение моделей. Специальное место отводится операциям с матрицами. Курс ориентирован на людей, которые уже знакомы с базовыми понятиями анализа данных.

Продолжительность: 22 часа

Анализ данных

Автор: НГУ
Платформа: Coursera
Язык: русский

В специализацию Анализ данных Новосибирского государственного Университета входят 4 курса. Курсы содержат материалы по основам теории вероятностей и математической статистики, исследованию связей между признаками, построению прогнозов на основе регрессионных моделей, кластерному и статистическому анализу. Курсы разработаны совместно с 2GIS.

Продолжительность: 4 месяца (3 часа в неделю)

Интеллектуальные системы (кафедра МФТИ)

Материал из MachineLearning.

Кафедра «Интеллектуальные системы» — базовая кафедра ФУПМ МФТИ. Базовый институт — Вычислительный центр РАН. Кафедра готовит специалистов по направлению 010900 «Прикладные математика и физика».

Обучение на кафедре ведётся по трём специализациям:

  • интеллектуальный анализ данных,
  • проектирование и организация систем,
  • информационный поиск и машинное обучение.

Интеллектуальный анализ данных

Проектирование и организация систем

  • Воронцов Константин Вячеславович, д.ф.-м.н., проф. РАН, зам.зав.каф.
  • Гнеушев Александр Николаевич, к.ф.-м.н., ст.преп.
  • Дулин Сергей Константинович, д.т.н., проф.
  • Журавлёв Юрий Иванович, академик РАН
  • Майсурадзе Арчил Ивериевич, к.ф.-м.н.
  • Матвеев Иван Алексеевич, д.т.н., проф.
  • Местецкий Леонид Моисеевич, д.ф.-м.н., проф.
  • Моттль Вадим Вячеславович, д.т.н., проф.
  • Мохонько Елена Захаровна, д.ф.-м.н., доцент
  • Рудаков Константин Владимирович, академик РАН, зав.каф.
  • Сметанин Юрий Геннадиевич, д.ф.-м.н., с.н.с.
  • Стрижов Вадим Викторович, д.ф.-м.н., проф.
  • Торшин Иван Юрьевич, к.х.н., к.ф.-м.н.
  • Хорошевский Владимир Федорович, д.т.н., проф.
  • Хританков Антон Сергеевич, к.ф.-м.н., доцент
  • Цурков Владимир Иванович, д.ф.-м.н., проф.
  • Чехович Юрий Викторович, к.ф.-м.н.
Читать еще:  Сколько стоит обучение на фитнес тренера

Предварительное Расписание занятий кафедры, весна 2020

Специализация «Интеллектуальный анализ данных»

занятия проходят по средам для 4 и 5 курса, по четвергам для 3 курса, ул. Вавилова 42

  • 3 курс, 6 семестр (3 курс зафиксирован)
    • 10:30-12:00, 355, Введение в машинное обучение, дифф. зач. (Воронцов)
    • 12:10-13:40, 355, Практикум по программированию на языке Питон, зачет (Апишев)
    • 14:30-16:00, 355, Практикум по машинному обучению, дифф. зач. (Стрижов)
    • 16:10-17:40, 355, Научный семинар по специальности, дифф. зач. (руководители НИР)
  • 4 курс, 8 семестр
    • 10:30-12:00, 355, Математические методы прогнозирования, дифф. зач. (Стрижов и аспиранты кафедры)
    • 12:10-13:40, 355, Анализ и распознавание изображений, дифф. зач. (Местецкий)
    • 14:30-16:00, 355, Прикладной комбинаторный анализ, экзамен (Сметанин)
    • 16:10-17:40, 355, Анализ сетей и текстов, дифф. зач. (Майсурадзе)
  • 5 курс, 10 семестр
    • 10:30-12:00, 157, Программная инженерия, дифф. зач. (Хританков)
    • 12:10-13:40, 157, Биоинформатика, экзамен (Торшин)
    • 14:30-16:00, 157, Обработка сигналов, экзамен (Моттль)
    • 16:10-17:40, 157, Основы алгебраического подхода к распознаванию образов, экзамен (Рудаков)

Специализация «Проектирование и организация систем»

занятия проходят по вторникам для 4 и 5 курса, по четвергам для 3 курса, в ауд. 113 (ул. Вавилова 40) и в ауд. 370 (ул. Вавилова 42)

Machine Learning and Data Analysis

12th International Conference on Intelligent Data Processing

Federal Research Center «Computer Science and Control» of the Russian Academy of Sciences and Moscow Institute of Physics and Technology are pleased to announce the 12th International Conference on Intelligent Data Processing: Theory and Applications (IDP-2018). The conference will be held from 8 to 12 October 2018 in Italy, Gaeta. Languages for the meeting are English and Russian.

IDP-2018 (Intelligent Data Processing: Theory and Applications) conference is a premier forum that brings together the data science researchers and professionals to discuss, distribute and advance the state of research and development of the data analysis field. The conference offers research and industry tracks in the areas of machine learning, data science, big data analysis, deep learning and computer vision. The IDP-2018 conference facilitates the exchange of insights and innovations between the industry and the academia, each represented by leaders in their respective fields. The event has its roots in the Russian school of mathematics and machine learning. It serves as an enriching interaction point between researchers and business from Russia and the world.

The conference is organized and supported by the Russian foundation for basic research, Moscow Institute of Physics and Technology, Forecsys, Center of Forecasting Systems and Recognition. Details on the mmro.ru.

Call For Papers International Conference on Intelligent Data Processing

The Program Committee of the 11th International Conference on Intelligent Data Processing: Theory and Applications (IDP-2016) invites authors to submit full-length papers in English to the issue Machine Learning and Intelligent Data Processing published by Springer in Communications in Computer and Information Science series.

The conference Program Committee and the Editorial Board accept papers representing the latest achievements in the theory and practice of intelligent data processing. It is expected that the papers demonstrate the theoretical achievements in addressing the fundamental problems of data mining and also pay attention to the applications of these achievements. Papers demonstrating solutions of practical problems should use modern theoretical methods, motivated by real needs of the modern world. A well-developed computational experiment with analysis and comparison is welcome. All submitted papers are passed on to peer review. The reviewers are invited to make one-round review decision.

  • 20 February 2017 — Research paper submission deadline
  • 20 April 2017 — Notification of acceptance/rejection
  • 20 May 2017 — Camera-ready versions for Springer CCIS Proceedings
  • Springer LaTeX guidelines for authors: guidelines.pdf
  • CCIS full paper template archive: ccis-package.zip
  • CCIS copyright transfer agreement: ccis-copyright.pdf

11-th International Conference «Intelligent Data Processing:Theory and Applications 2016»

Federal Research Center «Computer Science and Control» of the Russian Academy of Sciences and Moscow Institute of Physics and Technology are pleased to announce the 11th International Conference on Intelligent Data Processing: Theory and Applications. Detailed information about the conference is available at the conference website.

Conference participants must submit an abstract and a full version of the paper. Full papers have to be published or accepted for publication in the Machine Learning and Data Analysis journal (JMLDA) or in another peer-reviewed scientific journal.

JMLDA accepts articles in English and Russian. Manuscript submission process description is available at the journal website. It is convenient to start preparing the paper with editing the provided template. The template and all necessary files can be downloaded in the archive.

After the article is accepted for the publishing in JMLDA or in another peer-reviewed scientific journal, the abstract is submitted via the website. Abstract preparation guidelines can be downloaded in archive. Abstracts are submitted in English and Russian and can be the same as the abstract of the full paper. The total length of the abstract should not exceed one page.

Abstracts and full papers submission deadline is September 1.

Updates in jmlda-guides.zip archive

The jmlda-guides.zip archive has been modified. Metadata is now placed on the first and last pages of the paper. Encoding of the manuscript is now UTF-8 without BOM. To change the encoding please use Sublime Text or Notepad++ text editors.

It is highly recommended to start preparing the manuscript by editing the provided template. Manuscript template is now available in two languages: for article in Russian and in English.

The author’s guidelines, the manuscript template, jmlda.sty package and two BibTeX style files can be found in jmlda-guides.zip archive.

Please pay attention that the signed copy of the copyright transfer agreement has to be presented in the archive along with the paper when it is submitted to the journal.

Copyright transfer agreement is available in two languages, in Russian and in English. You can choose any of these versions when submitting an article.

17-th All-Russian Conference «Mathematical Methods for Pattern Recognition» 2015

The preliminary program of the 17-th All-Russian Conference «Mathematical Methods for Pattern Recognition» is now available at machinelearning.ru.

Updates in jmlda-guides.zip archive and Copyright transfer agreement

The author’s guidelines have been modified.
References are now presented in two languages, both in Russian and English. Instructions how to prepare References are given in the guidelines. Two BibTeX style files are provided, one of them stands for Russian GOST7.0.5-2008 standard style with some modifications and the other one stands for the style recommended by Web of Science and Scopus.

New version of the manuscript template is now available at jmlda-template.pdf .

The jmlda.sty package has been updated to provide compatibility with the versions of russian.ldf higher than 1.2.

The author’s guidelines, the manuscript template, jmlda.sty package and two BibTeX style files can be found in jmlda-guides.zip archive.

Читать еще:  Педагог английского языка обучение

Please pay attention that the signed copy of the copyright transfer agreement now has to be presented in the archive with the paper when it is submitted to the journal.

17-th All-Russian Conference «Mathematical Methods for Pattern Recognition» 2015

The organizing committee of the 17-th All-Russian Conference «Mathematical Methods for Pattern Recognition» brings to your mind that the abstracts and papers submission deadline is June 15th, 2015.

To take part in the conference you have to submit a paper and an abstract. The paper must be published or accepted for publication in the Journal of Machine Learning and Data Analysis (JMLDA) or in another peer-reviewed scientific journal. JMLDA accepts papers both in Russian or in English. You can find the journal style guide on the website jmlda.org. It is convenient to start editing the paper with the provided template. The template and all necessary files are in the archive.

After the paper is accepted for the publishing in JMLDA or in another peer-reviewed scientific journal, the author should submit his abstract via the website of the Conference. Abstract preparation guidelines are available at mmro.ru. The text of abstract must be submitted in both English and Russian languages and might be taken from the paper abstract of the full report. The abstract should not exceed one page.

IIP-10 conference abstracts

The proceeding of the 10th International Conference on Intelligent Information Processing are published here.

10-th International Conference «Intelligent Information Processing» 2014

The organizing committee of the 10-th International Conference «Intelligent Information Processing» brings to your mind that the deadline is June 15th, 2014.

Быстрый старт в изучении анализа данных и машинного обучения от МФТИ и Яндекса

Почему анализ данных

Потребность в анализе данных вышла далеко за пределы технологических и интернет-компаний. Методы машинного обучения все активнее используются в совершенно различных областях, вплоть до оптимизации маршрутов транспорта. С их помощью создаются новые лекарства и автомобили без водителя, подбирается музыка под настроение, находятся потенциальные спутники жизни.

Специалист по анализу данных или data scientist – одна из самых востребованных профессий сегодняшнего дня. За реальных практиков, умеющих получать значимые результаты в сжатые сроки, идет настоящая борьба, и стоимость таких специалистов взлетает до небес.

Также интерес подогревают государственные и коммерческие структуры, которые не только говорят об этих специальностях, но и уже готовятся к проведению первых олимпиад по ним.

Что же скрывается за этими словами, все ли понимают их значение? К сожалению, нередко к ним относятся как к некому волшебному ингредиенту, который решит все проблемы. Не осознаются ни границы его применения, ни порядок действий, чтобы использовать их «здесь и сейчас».

Пришла пора внести ясность в этот вопрос.

Где можно научиться этому сейчас

Анализ данных – область знаний, по которой понимание “как этому учить” только формируется. Ведущие вузы создают магистерские программы, но, к сожалению, не всегда успевают за новыми подходами и инструментами.

Поэтому самое правильное место для обучения – это высокотехнологичные компании, в которых работа с данными есть сама суть бизнеса. И одной из таких компаний, без сомнения, является Яндекс.

Объединив усилия ведущих ученых из МФТИ и реальных исследователей-практиков из Яндекса, мы подготовили для вас специализацию по машинному обучению и анализу данных, которая позволит вам освоить новую профессию и сделать первые шаги в этой интереснейшей области.

А учить вас этому будут:

  • Константин Воронцов – доктор физико-математических наук, профессор РАН, заведующий отделом Интеллектуальных систем ФИЦ ИУ РАН, преподаватель ШАД
  • Вадим Стрижов – доктор физико-математических наук, доцент МФТИ, ведущий научный сотрудник ФИЦ ИУ РАН
  • Евгений Рябенко – кандидат физико-математических наук, доцент МФТИ, преподаватель ВМК МГУ, ШАД, data scientist Yandex Data Factory
  • Евгений Соколов – преподаватель ВМК МГУ, ВШЭ, ШАД, руководитель исследовательской группы Yandex Data Factory
  • Виктор Кантор – старший преподаватель ФИВТ МФТИ, преподаватель ШАД, руководитель исследовательской группы Yandex Data Factory
  • Эмели Драль – преподаватель ФИВТ МФТИ, РУДН, data scientist Yandex Data Factory

Как проходит обучение, и как устроен курс

Специализация “Машинное обучение и анализ данных” Coursera – это цепочка связанных курсов, направленных на овладение конкретной темой. В конце специализации слушатель выполняет дипломный проект, в котором может применить полученные знания на практике. После успешного прохождения всех курсов и проекта слушатель получает сертификат специализации.

Каждый из курсов мы постарались сделать предельно насыщенным и лаконичным – таким, чтобы человек смог освоить его в среднем темпе за месяц. Таким образом, на прохождение всей специализации в среднем темпе у вас уйдет полгода. Однако реальная скорость зависит только от вашей мотивации и настойчивости!

Для курса были отобраны только те методики и инструменты, которые хорошо работают на практике и используются реальными исследователями в ежедневной работе. Многие данные, с которыми вам придется работать во время курса, взяты из настоящих проектов – только так можно понять и прочувствовать, “как оно бывает на самом деле”.

Финальный проект позволит вам применить полученные знания к реальным данным одной из практических областей: электронная коммерция, социальные медиа, информационный поиск, бизнес-аналитика и др. Работа над проектом даст вам возможность самостоятельно пройти все этапы анализа данных – от подготовки данных до построения финальной модели и оценки её качества. В результате в вашем портфолио появится проект, который смело можно будет указать в резюме и показать работодателю на собеседовании.

Как и во всех курсах на платформе Coursera, основу составляют видеоматериалы, которые чередуются с различными видами активностей – от тестов, которые позволяют проверить знания и понимание, до программируемых заданий с автоматической проверкой и заданий на взаимную оценку.

Понимая, что слушатели могут начать обучение с очень разным бэкграундом, первый курс специализации мы сделали вводным, решающим две задачи. Во-первых, он помогает освежить знания о базовых математических понятиях, которые нам понадобятся в курсе. А во-вторых, получить базовые навыки работы с языком Python и специальными библиотеками для анализа данных.

Чтобы сохранить практическую направленность курса, и не утонуть в формализме, даже в первом курсе многие понятия вводятся «на пальцах», с упором на интуитивное понимание. Приверженцы математического формализма могут пока обратиться к онлайн-курсам от кафедры дискретной математики на Coursera или национальной платформе открытого образования. Также совсем скоро на Лектории МФТИ появятся полные строгие курсы по математическому анализу, линейной алгебре и дифференциальному исчислению.

Когда и как можно начать

Специализация уже доступна и обучение на ее первом курсе начнется 9 февраля. Как и для остальных специализаций на платформе Coursera, для нашей есть обязательное условие со стороны платформы: если вы хотите пройти всю специализацию и иметь возможность выполнить выпускной проект, то вам нужно пройти все курсы в режиме подтверждения личности.

Большая часть материалов курсов специализации доступна бесплатно, однако ряд заданий, прохождение которых нужно для получения сертификата, помечены “замком” и доступны только после оплаты. Если вы хотите получить доступ ко всем заданиям и сертификату, но не имеете возможности оплатить их, рекомендуем воспользоваться программой финансовой поддержки (Coursera Financial Aid). Для получения помощи от Coursera, вы должны заполнить краткую заявку с описанием своего финансового положения и причиной для зачисления на курс. Очень схожая практика используется при запросе финансовой помощи при поступлении в американские вузы. В прошлом году более 100 тысяч заявок было одобрено. Чтобы подать заявку, пройдите по ссылке под кнопкой “Зарегистрироваться” на странице специализации.

Ссылка на основную публикацию
Adblock
detector