Data Fest² Minsk 2018 — TechCave

Видео с DataFest, проходившего в Минске 19 мая 2018 года. Поток 1Открытие Data Fest2 MinskВладимир Игловиков, Computer Vision Engineer @Lyft, PhD in Physics at UC Davis, Kaggle Grandmaster.

Data Fest² Minsk 2018

Machine Learning/Data Mining/Big Data

Data Fest² Minsk 2018

Видео с DataFest, проходившего в Минске 19 мая 2018 года.

Поток 1

Открытие Data Fest2 Minsk

Владимир Игловиков, Computer Vision Engineer @Lyft, PhD in Physics at UC Davis, Kaggle Grandmaster.

Как быть востребованным на конкурентном рынке труда Кремниевой Долины. Статьи, технологии, конкурсы, соратники, настрой и другие важные аспекты становления дата сайнтиста.

Арсений Анисимович, Как решать задачи NLP без знания языка

Арсений Анисимович, Lead Research Scientist @Once Dating Char-level CNN для обработки текстов: советы, трюки и подводные камни, подходы. Можно ли сделать модель для решения специфических проблем в многоязычных ситуациях, не опираясь на большие датасеты.

Валентин Малых, DeepPavlov: библиотека для создания диалоговых систем

Валентин Малых, исследователь в лаборатории нейронных систем и глубокого обучения @МФТИ, Москва Библиотека DeepPavlov содержит в себе отдельные код, тренированные модели и вспомогательные утилиты для создания диалоговых систем (чатботов).

Виктор Отлига, Распознавание и учёт светофоров беспилотным автомобилем

Виктор Отлига, разработчик направления беспилотных автомобилей @Яндекс Светофоры — один из главных типов объектов, влияющих на движение автомобиля в городе. Обычно у человека не возникает проблем с тем, чтобы определить цвет светофора и понять, как он влияет на дорожную ситуацию. А сложно ли беспилотному автомобилю справиться с задачей учёта светофоров при планировании своего поведения? Думаете, что это крайне простая и понятная задача? На самом деле, всё не так тривиально, как может показаться на первый взгляд. В докладе мы попробуем разобраться, какие есть подводные камни у этой задачи и как можно с ними бороться.

Сергей Овчаренко, Superresolution для видео с помощью Generative Adversarial

Сергей Овчаренко, Senior Research Engineer @Яндекс Как можно улучшать видео и изображения с помощью GAN'ов, почему подходы из статей про superresolution не работает на реальных данных и как это исправить.

Евгений Бабахин, Анализ и разметка больших данных в приложениях eCommerce

Евгений Бабахин, Data Scientist @Profitero Часто бывает, что удается скачать большие объемы неструктурированных данных (текстов, картинок) из открытых источников, однако возникает вопрос их разметки под конкретную задачу. Как справляются с проблемой разметки и пополнения тренировочного множества в компании Profitero на примере использования такого подхода в задаче по определению брендов продуктов в онлайн-магазинах.

Дмитрий Палевский, Как безопасно использовать стекинг в продакшене

Дмитрий Палевский, Data Scientist @WorkFusion To stack or not to stack? Или как увеличить точность предсказания для задачи извлечения информации до 99%-100% за счет применения валидационной модели 2-го уровня.

Дима Королев, Как анализировать гигабайты данных на обычном ноутбуке

Дима Королев, Head of Machine Learning @FriendlyData Часто бывает, что данных — единицы или десятки гигабайт, что не очень мало, но и не очень много. В такой ситуации анализировать их с помощью sed / jq / grep / awk уже выходит слишком медленно, а заливать их в Hadoop-кластер — слишком расточительно. «От баша и скриптов» к нативному коду, который двумя разными способами приводит нас к возможности локально, на обычном ноутбуке, «бегать» по данным со скоростью больше гигабайта в секунду, сводя время одной итерации «идея — имплементация — обработка — результат» к единицам секунд.

Дмитрий Щегрикович, Как сегментировать 150 млн человек

Дмитрий Щегрикович, Senior Data Scientist @Wargaming, кандидат ф.-м. наук Варианты применения методов кластеризации для нужд описания пользователей от идеи до финального решения на примере реальных задач команды Data Science компании Wargaming.О тонкостях продажи бизнесу идей проектов, подходах к решению непосредственно аналитических задач, проверке устойчивости решений, виде автоматизированного решения.

Александр Радионов, Доставка и эксплуатация обученных моделей на production

Александр Радионов, руководитель сервисов Поиска и ML @2ГИС 2ГИС — справочник и карта организаций России, Украины, Казахстана и других стран, с более чем 40 миллионами пользователей в месяц. Справочник содержит миллионы организаций и каждый день их сайты меняются. Расскажем о процессе непрерывной (почти) интеграции Machine Learning-сервисов с бекендами для выверки работоспособности и отсутствия 18+ контента на сайтах компаний.

Поток 2

Влад Павлович, Доменная адаптация в компьютерном зрении

Влад Павлович, Software Engineer @WANNABY Одна из основных проблем методов глубинного обучения — недостаточные объёмы обучающей выборки. В докладе — о возможностях применения доменной адаптации изображений для решения этой проблемы.

Денис Пирштук, Трекинг состояния человека: в поиске лучшего решения

Денис Пирштук, Head of Data Science, Facemetrics @Facemetrics Об особенностях задач, в которых камера используется для отслеживания состояния человека, будь то его активность, эмоциональное или физическое состояние человека, и сравним возможные подходы к их решению. В этой области обычно модели обучают на датасетах, созданных в лабораторных условиях. Однако у некоторых исследователей получаются модели, которые точнее и намного более устойчивы на новых реальных данных, чем у большинства коллег. В чем же отличия?

Юрий Кашницкий, О некоторых косяках в анализе данных

Юрий Кашницкий, Data Scientist команды предиктивной аналитики @Mail.Ru Group, инициатор открытого курса OpenDataScience по машинному обучению Всем людям свойственно косячить. Data Scientist-ы – не исключение. О граблях, на которые наступают специалисты по анализу данных, откуда они берутся – только ли невнимательность или неумение программировать? Или плохое знание математики? Порой эти косяки можно поправить за один вечер, а порой и весь проект может загнуться.

Николай Карелин, Как работать с научными статьями

Николай Карелин, кандидат ф.-м. наук, Lead Developer / Data Scientist @CIB Для того чтобы подобрать хороший алгоритм или модель для работы с данными, зачастую приходится обработать десятки, а то и сотни статей из arXiv.org, NIPS и массы других мест. Но как оценить, насколько хорошая та или иная статья? Как пишут статьи, где и как их искать, чем отличаются публикации из разнных источников, как практически работать со статьями.

Артур Степаненко, Как идентифицировать токсичные комментарии

Артур Степаненко, независимый подрядчик Хаки и трюки обучения нейронных сетей для классификации и анализа тональности текстов, файнтюнинг в задачах NLP, оптимизация ROC AUC и продвинутые техники ансамблирования на примере Kaggle-соревнования.

Александр Буслаев, Еще один вариант решения задачи Instance segmentation

Александр Буслаев, разработчик алгоритмов компьютерного зрения @Mapbox, Kaggle Master, победитель множества соревнований по машинному обучению Задача instance segmentation считается на порядок более сложной, чем semantic segmentation. Обычно под эту задачу больше подходят решения, так или иначе использующие детекторы. Как в некоторых случаях можно свести эту задачу к более простой и обкатанной задаче семантической сегментации с классическими архитектурами encoder-decoder и победить с таким подходом в двух конкурсах.

Евгений Нижибицкий, Изобразительные лики

Евгений Нижибицкий, руководитель направления компьютерного зрения @Rambler. Kaggle Master. Победитель и призер картиночных контестов на топкодере. Выпускник ВМК МГУ и Школы анализа данных Яндекса. Обзор различных ликов, обнаруженных в deep learning соревнованиях на kaggle и не только. Рассказы о том, как по недосмотру или лени организаторов занять первое место с моделью-бейзлайном или получить значительную часть ответов теста, включены.

14:49
49

Нет комментариев. Ваш будет первым!

Авторизация

Пользователи

Seangle
Галя Рубцова
Ольга Телюкова
Zhenya
Лариса Аксиненко
Dmitry Loginov
Dimas Potapov
Ваня Берёзкин
Володя Рудомаха