Machine Learning/Data Mining/Big Data — TechCave

Машинное обучение (англ Machine Learning) — обширный подраздел искусственного интеллекта, математическая дисциплина, использующая разделы математической статистики, численных методов оптимизации, теории вероятностей, дискретного анализа, и извлекающа

Machine Learning/Data Mining/Big Data

Машинное обучение (англ Machine Learning) — обширный подраздел искусственного интеллекта, математическая дисциплина, использующая разделы математической статистики, численных методов оптимизации, теории вероятностей, дискретного анализа, и извлекающая знания из данных.

Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Стена группы

Загрузка...
5 месяцев назад
#

Открыта регистрация на Raiffeisen Data_Cup



Мы приглашаем вас принять участие в чемпионате по анализу данных
Raiffeisen Data_Cup. Онлайн часть пройдёт на платформе Boosters.pro. Участникам предстоит определить место жительства и работы клиента Райффайзенбанка, используя анонимизированную историю платежей и снятия наличных. Онлайн часть проходит до
23 марта, а подведение итогов и награждение пройдут в Москве 30 марта.



Источник
Загрузка...
Den
6 месяцев назад
#

Avito Data Science Meetup: Personalization



Привет! 27 февраля приглашаем практикующих специалистов по Data Science на митап, посвящённый персонализации пользователей. Вы услышите доклады от представителей Сингапурского Университета Менеджмента и Avito. Регистрируйтесь на встречу и приглашайте коллег. Под катом — тезисы выступлений, ссылки на регистрацию и видеотрансляцию митапа.





Источник
Загрузка...
6 месяцев назад
#

Сравнение топ-4 популярных BI платформ. Какую выбрать?



Сегодня существует огромное количество BI-платформ и инструментов визуализации данных, которые делают так, чтобы данные могли говорить, а всю аналитику можно было наглядно отобразить на экране и поделиться с клиентами. В данной статье мы сравним наиболее популярные и широко используемые BI системы и проанализируем их преимущества и недостатки, чтобы вы могли выбрать одну или несколько из них для своей компании, ведь без качественной бизнес-аналитики сегодня практически невозможно обойтись.

Пытаясь оценить различные BI платформы часто сложно понять, где миф, а где правда, поскольку каждый вендор позиционирует свой продукт, как “лучший на рынке”, приводя в качестве аргумента сотни субъективных обзоров, заполонивших Интернет. Если же вы хотите разобраться, какой инструмент подходит именно вашей компании, не пролистывая сотни страниц “честных” мнений, то ниже будет то, что нужно.

Мы рассмотрим наиболее популярные платформы, такие как QlikView, Klipfolio, Tableau и Power BI, и сравним их ключевые параметры: удобство использования, цену, легкость установки, поддержку, работу с различными типами данных и многое другое. Итак, вперед!



Источник
Загрузка...
6 месяцев назад
#

Home Credit Bank: Прогнозирование вероятности невозврата кредита — Анзор Березгов


Анзор Березгов рассказывает про задачу прогнозирования вероятности невозврата кредита (SAS competitions: Home Credit Bank). Анзор выиграл это соревнование. Из видео вы сможете узнать:
— Подходы к агрегации сведений о различных кредитах пользователей и их качество
— Построение признаков по различным группам кредитов
— Какие признаки-агрегаторы можно использовать

Слайды: https://gh.mltrainings.ru/presentatio...

Загрузка...
6 месяцев назад
#

Трансляция Data Science MeetUp | Технострим


Загрузка...
6 месяцев назад
#

Функция random() у гуглобота работает абсолютно детерминированно



Я проводил некоторые эксперименты, как Googlebot разбирает и рендерит JavaScript, и наткнулся на несколько интересных вещей. Первое — то, что функция
Math.random() в Googlebot выдаёт полностью детерминированные серии чисел. Я написал маленький скрипт, который использует этот баг для точной идентификации гуглобота:



Источник

При первом вызове
Math.random() из гуглобота результат всегда будет
0,14881141134537756, второй вызов всегда вернёт
0,19426893815398216. Скрипт по ссылке выше просто использует эту информацию для идентификации бота Google, хотя немножко обфусцирует свои действия, чтобы они не выглядели слишком произвольными.

Источник
Загрузка...
6 месяцев назад
#

Алгоритмы подсказки слов в телефонной клавиатуре vs. Защита персональных данных



Языковые модели

В виртуальных клавиатурах мобильных телефонов повсеместно используются алгоритмы подсказки слов по первым введённым буквам и автоматического исправления опечаток в них. Функция нужная, так как печатать на телефоне неудобно. Однако она часто раздражает пользователей своей «глупостью».

В основе алгоритма подсказок лежит языковая модель, предсказывающая вероятность следующего слова в тексте относительно предыдущих слов. Обычно модель строится по статистике
n-грамм — последовательностей из
n слов, которые часто соседствуют друг с другом. При таком подходе хорошо угадываются только короткие распространённые словосочетания.

Нейронные сети с задачей предсказания слов справляются лучше. Например, нейросетевой алгоритм в состоянии понять, что после слов «
Linus is the best» должно идти слово «
programmer», а после «
Shakespair is the best» — «
writer». У 
n-граммной модели для этой задачи, скорее всего, не хватит статистики: даже если в обучающих текстах встречалась информация о Торвальдсе и Шекспире, скорее всего она не была сформулирована ровно этими же словами в том же порядке.

О рекуррентных нейронных сетях для языковых моделей пишут много. Например, с помощью
простого туториала по TensorFlow можно посмотреть, при каких условиях какие слова будут предсказываться.

Важный момент: предсказания модели сильно зависят от обучающей выборки. На скриншотах ниже показаны примеры подсказок для обычной, профессиональной и неформальной лексик.

Источник
Загрузка...
Den
6 месяцев назад
#

Незадача коммивояжера и жёлтый октябрь



Главнокоммивояжер Аристарх поглядывал на Пророка, покручивая дубинкой от снежных троллей — ходовым сезонным товаром — 11% отклонение прогноза продаж на 10 дней в среднем (MAPE) впечатлило и, как у нас в чате говорят, зашло в роли baseline. Если он так же хорош, как и их Цукерберг, то сразу в прод — таков был первый порыв. Пророк поглядывал на главнокоммивояжера, прищурив правый глаз. Такой серьезный, в костюме, и верит в то, что инновации апплодисментами встретят и сразу же примут — мысль в голове вертелась, постепенно обретая форму. А Вы в курсе, юноша, скольким коллегам и контрагентам со своими нововведениями немилы станете? Они же Вас невзлюбят сразу, к гадалке не ходи! В общем, порыв жил обычным циклом инноваций.



image



В дисциплине управления проектами стейкхолдерами называют всех, кого проект коснется (а также тех, кто может оказать на него влияние). Люди они разные, со своими интересами, ожиданиями, и чаяниями. Закрыть глаза в надежде, что и проекта не заметят — весьма опрометчиво (вспоминается неприглашенная колдунья). Boston Consulting Group оценивает долю IT проектов, почивших по не-техническим причинам, в 75%. Последние две редакции свода знаний по управлению проектами (PMBOK) выделяют процессы по управлению стейкхолдерами в отдельную область знаний под счастливым номером 13 и настоятельно рекомендуют учитывать связи между ними, центры влияния, а также культуру общения для повышения шансов на успех.



Мы покажем, как оценить стейкхолдеров с помощью машинного обучения. Выделим группы похожих между собой людей и решим задачу кластеризации — сегментации клиентов в терминах маркетинга — в социальных структурах, которые построим из: 1) потоков сообщений и 2) эмоциональной окрашенности текста. Для этого заглянем в переписку, любезно предоставленную г-жей Клинтон, способом, предложенным в журнале Биоинформатика.



Источник
Загрузка...
6 месяцев назад
#

Deep Learning in Natural Language Processing



image

Лаборатория нейронных сетей и глубоко обучения МФТИ открывает курс
Deep Learning in Natural Language Processing. Он стартует 21 февраля и будет проходить каждую среду в 19:00 в 105 БК, необходимо
зарегистрироваться. Длительность курса — 10 занятий. Курс открыт для всех желающих углубить свои знания в Deep Learning и Natural Language Processing. Занятия также будут транслироваться в режиме онлайн в
Youtube-канале лаборатории.

Источник
Загрузка...
6 месяцев назад
#

Intro — Data Visualization GUIs with Dash and Python p.1


Загрузка...
6 месяцев назад
#

Какую диаграмму использовать?



С приходом технологий в каждый дом, появлением новых каналов для рекламы, программатика и прочих умных штук, позволяющих захватить внимание людей, растёт и количество данных, которые приходится анализировать маркетологам. Мы решили напомнить вам про один из наших замечательных инструментов Power BI. Представляем вам первую статью из серии от наших друзей из CoMagic.



Источник
Загрузка...
Den
6 месяцев назад
#

Роботы вместо лучших сотрудников: машинное обучение по ответам экспертов



Один из текущих проектов Devim — разработка сервиса скоринга для микрофинансовой организации (МФО). Проект был выполнен нашей Data Science командой Андреем Давыденко и Дмитрием Гореловым datasanta. Мы рассказываем о том, какие решались задачи, какие факторы принимались во внимание, а также о полученных результатах. В основе предложенного на данный момент решения — подход, при котором автоматическая обработка заявок выполняется с учётом вероятности отказа/одобрения похожих существующих заявок андеррайтерами (экспертами). Такой подход позволил выполнить проект в сжатые сроки и принять во внимание некоторые особенности бизнес-целей. В числе интересных результатов: как оказалось, решения андеррайтеров при выдаче займов могут быть с высокой точностью спрогнозированы статистической моделью (AUC>0.93).



Надеемся, что публикация будет интересна не только специалистам по скорингу, но и всем, кто интересуется машинным обучением и его применением на практике.



Материал подготовлен Data Science командой Devim



Источник
Загрузка...
Den
6 месяцев назад
#

7 бесплатных курсов по Data Science для начинающих



Большие данные перестали быть просто модным словом и теперь применяются в сферах от IT до ритейла. Самое время начать разбираться в моделях анализа данных, погрузиться в массивы информации и получить опыт в интересном направлении — Data Scientist. Держите курсы, в которых изучите теорию и наберетесь практики. Профи не станете, но первый шаг сделаете.



Источник
Загрузка...
Den
6 месяцев назад
#

Приглашаем на Cradle: Rave. И нет, это не дискотека



С 16 по 18 февраля в Сколково мы будем проводить Cradle: Rave. Это самое большое мероприятие Сбербанк Технологий, которое объединит все, чем мы занимаемся — Artificial Intelligence, Machine learning, чат-боты, квантовые технологии, DevOps, IoT, блокчейн, big data, мобильную разработку. По последним двум темам организуем хакатоны с денежными призами, по блокчейну — джем-сессию в экзотическом формате «печа-куча», а приправим все россыпью интересных докладов и митапов. Подробности под катом.



Источник
Загрузка...
6 месяцев назад
#

AI@MIPT: «Нейроморфные вычисления и механизмы мозга»



image

12 февраля на Физтехе состоится очередная встреча из цикла семинаров по искусственному интеллекту «Нейроморфные вычисления и механизмы мозга».
Виталий Дунин-Барковский, заведующий отделом нейроинформатики Центра оптико-нейронных технологий и главный исследователь проекта iPavlov, на примерах расскажет об общих чертах «интеллектуальности» нейроморфных конструкций и нервной системы.

Семинар начнется в 18:30 в аудитории 107 Биокорпуса МФТИ. Для очного участия необходимо предварительно
зарегистрироваться. Лекция также будет транслироваться онлайн на официальной странице Физтеха
Вконтакте.

Источник
Загрузка...
25 26 28 29

Авторизация

Пользователи

lunchcalllina1978
Sever
stopresniebots1983
tekino
templide
Seangle
Галя Рубцова
Ольга Телюкова
Zhenya