Machine Learning/Data Mining/Big Data — TechCave

Машинное обучение (англ Machine Learning) — обширный подраздел искусственного интеллекта, математическая дисциплина, использующая разделы математической статистики, численных методов оптимизации, теории вероятностей, дискретного анализа, и извлекающа

Machine Learning/Data Mining/Big Data

Машинное обучение (англ Machine Learning) — обширный подраздел искусственного интеллекта, математическая дисциплина, использующая разделы математической статистики, численных методов оптимизации, теории вероятностей, дискретного анализа, и извлекающая знания из данных.

Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Стена группы

Загрузка...
Den
5 дней назад
#

Сравнение фреймворков для глубокого обучения: TensorFlow, PyTorch, Keras, MXNet, Microsoft Cognitive Toolkit, Caffe, etc



Всем привет. В этот пятничный день делимся с вами первой публикацией посвященной запуску курса
«Data Scientist». Приятного прочтения.

Великое множество организаций загорелось идеей использовать в своих решениях искусственный интеллект для расширения масштабов деятельности или развития своего старт-апа, однако нужно понимать одну важную вещь: выбранная технология разработки должна идти вкупе с хорошим фреймворком для глубокого обучения, особенно потому, что каждый фреймворк служит для какой-то своей отдельной цели. Поиск идеального тандема в этом случае – это необходимое условие для плавного и быстрого развития бизнеса и успешного развертывания проектов.



Следующий список фреймворков для глубокого обучения может стать подспорьем в процессе выбора подходящего средства для решения конкретных задач, с которыми вы сталкиваетесь в процессе работы над проектом. Вы сможете сравнить плюсы и минусы различных решений, оценить их пределы возможностей и узнать о лучших вариантах использования для каждого решения!

Источник
Загрузка...
5 дней назад
#

Домашняя BigData. Часть 1. Практика Spark Streaming на кластере AWS



Здравствуйте.

В данной статье мы в домашних условиях произведем установку на платформу EC2 AWS (Amazon Web Services) Apache Kafka, Apache Spark, Zookeeper, Spark-shell и научимся всем этим пользоваться.

Источник
Загрузка...
Den
5 дней назад
#

Big data, deus ex machina





Источник



«Данные — это новая нефть». Эту фразу на выступлении для PopTech произнёс несколько лет назад Джер Торп (Jer Thorp), художник и эксперт в вопросах анализа и визуализации данных, один из основателей «Бюро креативных исследований». Сегодня мы хотим поговорить не просто о данных, а о больших данных. Разбираемся, какие данные big, а какие нет, как они работают и как на этом зарабатывает бизнес.



Источник
Загрузка...
5 дней назад
#

Классификация текстов в условиях потоковой обработки


Задачи потоковой обработки отличаются от batch-processing систем. В таких задачах требуется с одной стороны обеспечить малую задержку для каждого элемента, и с другой — масштабируемость и предсказуемость результатов.

На семинаре будут рассмотрены подходы к решению подобного рода задач, в частности, задача текстовой классификации. Одним из важных аспектов решения являются дообучение самого классификатора.

Мы расскажем, как подошли к решению этой задачи и покажем результаты наших экспериментов, показывающих эффективность нашего подхода.

Докладчик: Михаил Шавкунов.

Ссылка на слайды: https://research.jetbrains.org/files/...

Загрузка...
15 дней назад
#

Распознавание объектов на Python / Глубокое машинное обучение


Python обладает потрясающим набором возможностей для создания программ с искусственным интеллектом. В ходе урока мы создадим программу, которая будет распознавать объекты на фото, а также на видео и выводить названия этих объектов.

1) Установка Python: https://www.python.org/
2) Установка Pip: https://pip.pypa.io/en/stable/install...
3) Редактор PyCharm: https://www.jetbrains.com/pycharm/
4) Курс по языку Python: https://itproger.com/course/python-full
5) ImageAI GitHub: https://github.com/OlafenwaMoses/Imag...
6) ImageAI документация: https://imageai.readthedocs.io/en/lat...
7) Весь код и описание урока: https://itproger.com/news/174

Загрузка...
15 дней назад
#

Трансляция ML тренировки 09.03.19 | Kaggle Elo, Whale, Tellus Satellite


— Николай Сергиевский — Детектирование объектов на спутниковых снимках (The 2nd Tellus Satellite Challenge, xView: Objects in Context in Overhead Imagery)
— Юрий Болконский — Определение лояльности пользователей (Kaggle Elo Merchant Category Recommendation)
— Владислав Шахрай — Идентификация китов по изображениям (Kaggle Humpback Whale Identification)

Каждые две недели в Яндексе проходят тренировки по машинному обучению. Эти встречи помогают участникам конкурсов в сфере анализа данных пообщаться и обменяться опытом.С докладами выступают успешные участники последних соревнований на Kaggle — рассказывают о своих решениях и о том, какие техники и методы использовали их конкуренты.

Загрузка...
17 дней назад
#

Theoretical Deep Learning. Loss Landscape. Part 3


The third part of the class devoted to loss surfaces of neural networks.

Find out more: https://github.com/deepmipt/tdl

Our open-source framework to develop and deploy conversational assistants: https://deeppavlov.ai/

Загрузка...
17 дней назад
#

Машинное обучение в IT-мониторинге



Введение



Netcracker – это международная компания, разработчик комплексных IT-решений, включающих услуги по размещению и поддержке клиентского оборудования, а также хостингу созданной IT-системы для телеком-операторов.

В основном это решения, связанные с организацией операционной и бизнес-деятельности телеком-операторов. Подробнее можно посмотреть
тут.

Постоянная доступность разрабатываемого решения очень важна. Если у оператора связи хотя бы на один час перестанет работать биллинг, это приведет к большим финансовым и репутационным потерям как оператора, так и поставщика программного обеспечения. Поэтому одним из ключевых требований к решению является параметр
availability, значение которого варьируется от 99,995 % до 99,95 % в зависимости от типа решения.

Само решение представляет собой сложный комплекс из центральных монолитных IT-систем, включающих сложное телеком-оборудование и сервисное ПО, размещенное в публичном облаке, а также множество микросервисов, интегрированных с центральным ядром.

Поэтому для команды поддержки очень важен мониторинг всех аппаратно-программных комплексов, интегрированных в единое решение. Чаще всего в компании используется традиционный мониторинг. Этот процесс хорошо отлажен: мы умеем строить подобную систему мониторинга с нуля и знаем, как правильно организовать процессы реагирования на инциденты. Однако в этом подходе есть несколько сложностей, с которыми мы сталкиваемся от проекта к проекту.

Источник
Загрузка...
17 дней назад
#

Разгоняем обработку событий до 1,6 миллионов в секунду



Когда участники
HighLoad++ пришли на доклад
Александра Крашенинникова, они надеялись услышать про обработку 1 600 000 событий в секунду. Ожидания не оправдались… Потому что во время подготовки к выступлению эта цифра улетела до
1 800 000 — так, на HighLoad++ реальность превосходит ожидания.

3 года назад Александр рассказывал, как в Badoo построили масштабируемую систему near-realtime обработки событий. С тех пор она эволюционировала, в процессе росли объёмы, приходилось решать задачи масштабирования и отказоустойчивости, а в определённый момент потребовались радикальные меры —
смена технологического стека.



Из расшифровки вы узнаете, как в Badoo заменили связку Spark + Hadoop на ClickHouse,
в 3 раза сэкономили железо и увеличили нагрузку в 6 раз, зачем и какими средствами собирать статистику в проекте, и что с этими данными потом делать.

О спикере: Александр Крашенинников (
alexkrash) — Head of Data Engineering в Badoo. Занимается BI-инфраструктурой, масштабированием под нагрузки, руководит командами, которые строят инфраструктуру обработки данных. Обожает всё распределённое: Hadoop, Spark, ClickHouse. Уверен, что классные распределенные системы можно готовить из OpenSource.

Источник
Загрузка...
17 дней назад
#

«Анализ данных на Python» в двух частях



Курсы по анализу данных в CS центре читает Вадим Леонардович Аббакумов — кандидат физ.-мат. наук, он работает главным экспертом-аналитиком в компании Газпромнефть-Альтернативное топливо.

Лекции предназначены для двух категорий слушателей. Первая — начинающие аналитики, которым сложно начинать с изучения, например, книги The Elements of Statistical Learning. Курс подготовит их к дальнейшей работе. Вторая — опытные аналитики, не получившие систематического образования в области анализа данных. Они могут заполнить пробелы в знаниях. С прошлого года на занятиях используется язык программирования Python.

Чтобы понимать материал, достаточно когда-то прослушанных курсов математического анализа, линейной алгебры и теории вероятностей и базовых знаний языка Python.

Приятного просмотра!

Источник
Загрузка...
17 дней назад
#

Дефекты лайков



Вместо эпиграфа.

Больше всего лайков собирают «котики». Можно ли это считать признаком эпидемии токсоплазмоза?

image

В 1636 году, некий француз, Пьер де Ферма, по образованию и профессии юрист, написал трактат «Введение к теории плоских и пространственных мест», где изложил то, что сейчас называется аналитической геометрией. Его работа никого не заинтересовала и он, выражаясь на современном сленге, был отправлен в «игнор», что задержало развитие математики на 70 лет, пока работами Ферма не заинтересовался Эйлер.

В 1844 году шотландский издатель и геолог Роберт Чемберс анонимно опубликовал книгу «Остатки естественной истории творения». Эту книгу можно считать первой книгой по теории эволюции жизни на Земле. Вместо понятия эволюция Чемберс использовал термин прогрессивной трансмутации видов. (Что с современной точки зрения м.б. даже точнее, чем «естественный отбор»).

Книга вызвала огромный скандал. Профессионалы были в ярости. Аноним собрал множество «дизлайков». И только анонимность позволила Чемберсу избежать «бана».

Наблюдая этот скандал, Чарльз Дарвин, который разрабатывал свою теорию независимо и параллельно с Чемберсом, отложил опубликование своей книги «Происхождение видов» на 15 лет.

Впрочем, свои «дизлайки» Дарвин тоже собрал сполна.

Источник
Загрузка...
17 дней назад
#

Портянки



Программисты любят рисовать отчеты-портянки. Если нужен отчет по продажам – вывалят всю таблицу продаж, с контрагентами, номенклатурой, организациями, договорами, суммами и количествами.

Все бы ничего, только с помощью такого отчета сложно управлять. Анализировать – можно, если есть куча свободного времени. А у кого есть куча свободного времени? У аналитика есть, например. Ладно, если он по должности аналитик. Есть ведь по призванию души аналитики. Должность у него, например, менеджер по продажам, но продавать он не хочет или не умеет, а вот в цифрах ковыряться – милое дело.

У руководителя времени на ковыряние в отчете, увы, нет. По крайней мере, в рамках регулярного менеджмента. Ему нужна короткая, емкая информация, отвечающая на простой вопрос: как идут дела? Или по-другому: у нас все хорошо?

Как на такой вопрос ответить с помощью портянки? Да никак. Портянка как бы говорит руководителю: ты хотел информацию? Ну вот она. ВСЯ! Давай, разбирайся, и ищи ответ на свой вопрос.

Источник
Загрузка...
17 дней назад
#

Kaggle: не можем ходить — будем бегать



Насколько сложна тема машинного обучения? Если Вы неплохо математически подкованы, но объем знаний о машинном обучении стремится к нулю, как далеко Вы сможете зайти в серьезном конкурсе на платформе
Kaggle?



Источник
Загрузка...
Den
17 дней назад
#

Машинное обучение в Додо. Как запустить новое направление, если ты разработчик



Под катом история о том, как в Додо появилось направление машинного обучения. Спойлер: это я его запустил. Хардкорных технических подробностей тут не будет, обязательно посвящу им отдельную статью. Сегодня больше про мотивацию и поддержку коллег.



Источник
Загрузка...
17 дней назад
#

Математика для Data Scientist: необходимые разделы



Математика — это краеугольный камень Data Science. Хотя некоторые теоремы, аксиомы и формулы кажутся слишком абстрактными и далекими от практики, на самом деле без них невозможно по-настоящему глубоко анализировать и систематизировать огромные массивы данных.

Для специалиста Data Science важны следующие направления математики:

  • статистика;

  • теория вероятностей;

  • математический анализ;

  • линейная алгебра.



В предыдущей статье
«Data Science: книги для начального уровня» специалисты Plarium Krasnodar рекомендовали литературу по программированию на Python, а также по визуализации результатов и machine learning. В этой статье они предлагают подборку материалов и книг по математике, полезных в Data Science.



Источник
Загрузка...
1 3 4

Авторизация

Пользователи

gydman
Ivan Lavkov
Андрей Подольский
Kumskov
Juan
Tutu
naikdij88
NewEXE
Георгiй Москвитинъ

GeekBrains

КАРКАМ

Нетология