Machine Learning/Data Mining/Big Data — TechCave

Машинное обучение (англ Machine Learning) — обширный подраздел искусственного интеллекта, математическая дисциплина, использующая разделы математической статистики, численных методов оптимизации, теории вероятностей, дискретного анализа, и извлекающа

Machine Learning/Data Mining/Big Data

Машинное обучение (англ Machine Learning) — обширный подраздел искусственного интеллекта, математическая дисциплина, использующая разделы математической статистики, численных методов оптимизации, теории вероятностей, дискретного анализа, и извлекающая знания из данных.

Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Стена группы

Загрузка...
1 день назад
#

Как отличить шампунь от шампиньонов, а шампуры от шампанского… Elasticsearch — поиск товаров в магазинных базах данных



Задача

Одна из больших задач приложения для хранения и анализа покупок — поиск одинаковых или очень близких продуктов в базе данных, где собраны разномастные и непонятные наименования продуктов, полученные из чеков. Есть два вида входного запроса:



  1. Специфичное название с сокращениями, которое может быть понятно только кассирам местного супермаркета, либо заядлым покупателям.

  2. Запрос на естественном языке, введенный пользователем в поисковую строку.



Запросы первого вида, как правило, исходят из продуктов в самом чеке, когда пользователю нужно подыскать продукты подешевле. Наша задача заключается в том, чтобы подобрать максимально похожий аналог товара из чека в других магазинах поблизости. Здесь важно подобрать наиболее соответствующую марку продукта и по возможности объём.





Источник
Загрузка...
1 день назад
#

Открытый урок «Feature Engineering на примере классического датасета Титаника»



И снова привет!

В декабре у нас стартует обучение очередной группы
«Data scientist», поэтому открытых уроков и прочих активностей становится всё больше. Например, буквально на днях прошёл вебинар под длинным названием «Feature Engineering на примере классического датасета Титаника». Его провёл
Александр Сизов — опытный разработчик, кандидат технических наук, эксперт по Machine/Deep learning и участник различных коммерческих международных проектов, связанных с искусственным интеллектом и анализом данных.

Открытый урок занял около полутора часов. В ходе вебинара преподаватель рассказал про подбор признаков, преобразование исходных данных (кодирование, масштабирование), настройку параметров, обучение модели и много чего ещё. В процессе проведения урока участникам показывалась тетрадь Jupyter Notebook. Для работы использовались открытые данные с платформы
Kaggle (классический датасет про «Титаник», с которого многие начинают знакомство с Data Science). Ниже предлагаем видео и транскрипт прошедшего мероприятия, а
тут можно забрать презентацию и коды в юпитеровском ноутбуке.

Источник
Загрузка...
1 день назад
#

Главные черты лендинга в 2019 году



Сайт, состоящий из одной страницы и посвященный одной услуге или товару, называется посадочной страницей или лендингом. Этот рекламный инструмент – один из наиболее эффективных для превращения посетителя ресурса в реального покупателя.

Сегодня лендинги становятся одним из ведущих онлайн инструментов для продвижения продуктов и брендов. В статье расскажем, чем именно хороша посадочная страница и чего ждать от лендингостроения в 2019 году.

Источник
Загрузка...
1 день назад
#

Можно ли обучить с подкреплением агента для торговли на рынке акций? Реализация на языке R



Давайте создадим прототип агента обучения с подкреплением (RL), который овладеет навыком трейдинга.

Учитывая, что реализация прототипа работает на языке R, я призываю пользователей и программистов R приблизиться к идеям, изложенным в этом материале.

Это перевод моей англоязычной статьи:
Can Reinforcement Learning Trade Stock? Implementation in R.

Хочу предупредить код-хантеров, что в этой заметке есть только код нейронной сети, адаптированной под R.

Если я не отличился хорошим русским языком, укажите на ошибки (текст готовился с подмогой автоматического переводчика).

image

Источник
Загрузка...
4 дня назад
#

Создаем Shape Map карту РФ в Power BI



Всем привет! Сегодня поговорим о «пространственном» анализе в Power BI. О самой платформе для бизнес аналитики, можно прочитать здесь. Я в посте разберу один аспект — как нарисовать карту РФ в Shape Map.



Источник
Загрузка...
4 дня назад
#

Векторные представления товаров, или еще одно применение модели Word2Vec



image

Каждый день полтора миллиона людей ищут на Ozon самые разные товары, и к каждому из них сервис должен подбирать похожие (если пылесос все-таки нужен помощней) или сопутствующие (если к поющему динозавру нужны батарейки). Когда видов товаров тоже много, решить задачу помогает модель Word2Vec. Разбираемся, как она работает и как создавать векторные представления для произвольных объектов.



Источник
Загрузка...
4 дня назад
#

Тестирование и отладка MapReduce



В «Ростелекоме» мы используем Hadoop для хранения и обработки данных, загруженных из многочисленных источников с помощью java-приложений. Сейчас мы переехали на новую версию hadoop с Kerberos Authentication. При переезде столкнулись с рядом проблем, в том числе и с использованием YARN API. Работа Hadoop с Kerberos Authentication заслуживает отдельной статьи, а в этой мы поговорим об отладке Hadoop MapReduce.



Источник
Загрузка...
4 дня назад
#
Data Елка в Минске – 08.12.2018
by Yandex & ODS Minsk

Обучение машинному обучению и анализу данных утром, днём, вечером, ночью, Алексей Толстиков


Алексей рассказал, как развивают Школу анализа данных и создают сложную и интересную магистерскую программу. Дополнительно рассказал о критериях поступления в ШАД и материалах, которые могут пригодиться. Бонусом прошелся по онлайн-курсам, подготовленным компанией за последние годы.



Как понять пользователя с полуслова? Алексей Иванин


Небольшой рассказ о том, как Поиск анализирует запрос пользователя. Алексей рассказал про то, что такое «расширения запроса», как мы их получаем и какую пользу можно извлечь, применяя эти знания неочевидным образом.



Computer vision: слабое железо не приговор, Александр Матвеенко


Основные технические вызовы, которые приходилось преодолевать в Mapbox. Краткий обзор полученных результатов и планов на будущее.



Как научить себя слушать: голосовые технологии в Яндекс.Станции, Андрей Андрухович


Андрей рассказал, как в Яндекс адаптировали голосовые технологии для работы в устройстве, где нет кнопок, но есть 7 микрофонов. В первую очередь он рассказал про распознавание речи и голосовую активацию. А ещё — про голосовую биометрию и (анти)спуфинг.



Методы распознавания 3D-объектов для беспилотных автомобилей, Виктор Отлига


Без понимания, что находится вокруг и где именно, беспилотному автомобилю не обойтись. Виктор рассказал, как в Яндекс решают задачу распознавания других участников дорожного движения в трёхмерном облаке точек, чем эта задача отличается от распознавания объектов на изображении и как извлечь пользу из совместного использования разных типов сенсоров.

Загрузка...
5 дней назад
#

Дата-ёлка в Минске


ata-ёлка шагает по миру. В декабре мы собираем в Минске специалистов по анализу данных, чтобы обсудить самые яркие события 2018 года. Какие продукты и технологии потрясли всех? Что волновало сообщество? Чего ждать от грядущего года?

Выступят разработчики и преподаватели — эксперты Яндекса и не только. Вы узнаете, как мы адаптировали голосовые технологии для Яндекс.Станции, с помощью чего беспилотные автомобили распознают других участников движения и как Поиск анализирует запросы. Поговорим об образовательных проектах: Школе анализа данных, программе БГУ, онлайн-курсах. Подведём итоги и поделимся планами.

Соорганизатор события — сообщество Open Data Science в Минске, которое, кстати, приглашает пройти предновогодний опрос.

Загрузка...
5 дней назад
#

На чём прокалывается ИИ при генерации человеческих лиц



В 2014 году исследователь в области машинного обучения Ян Гудфеллоу выдвинул идею
генеративных состязательных сетей или GAN. «Генеративность» состоит в том, что результатом их работы являются изображения, а не оценка ввода (типа «хот-дог или нет»), а «состязательность» — в том, что две нейросети
играют в кошки-мышки, как федералы с фальшивомонетчиками: одна нейросеть пытается обмануть другую, создавая реалистичные картинки, а вторая старается отличить фейк.

Первые изображения GAN было легко идентифицировать. Посмотрите на
эти лица 2014 года.



«Обучение без учителя представлению с глубокими свёрточными генеративными состязательными сетями» (2014), Рэдфорд и др. Также известны как DCGAN

Источник
Загрузка...
5 дней назад
#

Techday Make IT Real — 17 декабря, Москва



Привет, Хабр!

17 декабря (понедельник) мы устраиваем TECHDAY MAKE IT REAL – специально для тех, кто предпочитает красивым речам об инновациях их внедрение.



Формально techday будет разделен на две части: основную программу и активности на тематических площадках.

Список спикеров, программа и ссылка на регистрацию — под катом. Участие бесплатное.

Источник
Загрузка...
6 дней назад
#

Deep Neural Network Regularization — Part 1


Загрузка...
6 дней назад
#

Topic 9. Time series analysis



Topic 10. Part 1. Gradient boosting basics



Topic 10. Part 2. Key ideas behind Xgboost, LightGBM, and CatBoost. Practice with LightGBM


Загрузка...
9 дней назад
#

Как Иван конверсию стендов исследовал



После того как Иван
познакомился с когортным анализом, он терпеть не мог любые виды слащавых метрик.

Но ирония была в том, что руководство не знало ничего другого, и знать категорически не хотело. Приходилось переступать через себя и тупо идти на встречу «просьбам» начальника, чтобы не заработать репутацию нехорошего человека, неподчиняющегося указаниям мудрецов.

Иногда из этого даже получались весьма интересные результаты. Об одном таком случае сейчас и пойдет речь.

Как-то руководитель попросил Ивана разобраться, почему в течение 3- недель непрерывно падает конверсия прохождения стенда командами:

image

Источник
Загрузка...
Den
9 дней назад
#

U-NOVUS 2018: воркшоп



В середине октября в рамках проходящего в Томске молодежного форума U-NOVUS мы провели воркшоп, посвященный Data Science.

Томск в принципе заслуженно пользуется славой города ученых и студентов, все-таки 15 НИИ, 9 вузов и несколько бизнес-инкубаторов — это серьезно. Поэтому мы решили пригласить к участию как студентов, так и экспертов из различных компаний.



Кейс мы давали из жизни (читай — с производства), это была задача по продвинутой аналитике на нефтехимическом предприятии.

О том, как это было — под катом.

Источник
Загрузка...
2 3

Авторизация

Пользователи

naikdij88
NewEXE
Георгiй Москвитинъ
Andpyxa Tutunnik
Andrey_fox
Jane linch
genagy
Pasha Radiuk
KotikBSD

Именинники

IvanNik

GeekBrains

Нетология

Нетология