Machine Learning/Data Mining/Big Data — TechCave

Машинное обучение (англ Machine Learning) — обширный подраздел искусственного интеллекта, математическая дисциплина, использующая разделы математической статистики, численных методов оптимизации, теории вероятностей, дискретного анализа, и извлекающа

Machine Learning/Data Mining/Big Data

Машинное обучение (англ Machine Learning) — обширный подраздел искусственного интеллекта, математическая дисциплина, использующая разделы математической статистики, численных методов оптимизации, теории вероятностей, дискретного анализа, и извлекающая знания из данных.

Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Стена группы

Загрузка...
6 месяцев назад
#

Python’ом по машинлернингу



Сегодня только ленивый не говорит (пишет, думает) про машинное обучение, нейросети и искусственный интеллект в целом. Всего лишь в прошлом году ML сравнили с подростковым сексом — все хотят, но никто не занимается. Сегодня все озабочены тем, что ИИ нас оставит без работы. Хотя, судя по последним исследованиям Gartner, можно успокоиться, так как к 2020 году благодаря ИИ появится больше рабочих мест, чем ликвидируется. Так что, дорогой друг, учи ML, и будет тебе счастье.





Источник
Загрузка...
6 месяцев назад
#

Классификация музыкальных композиций по исполнителям с помощью Скрытых Марковских Моделей



image

Скрытые марковские модели (Hidden Markov Models) с давних времен используются в распознавании речи. Благодаря мел-кепстральным коэффициентам (MFCC), появилась возможность откинуть несущественные для распознавания компоненты сигнала, значительно снижая размерность признаков. В интернете много простых примеров использования HMM с MFCC для распознавания простых слов.

После знакомства с этими возможностями появилось желание опробовать этот алгоритм распознавания в музыке. Так родилась идея задачи классификации музыкальных композиций по исполнителям. О попытках, какой-то магии и результатах будет рассказано в этом посте.

Источник
Загрузка...
6 месяцев назад
#

Про вероятности



image
(source)



Иногда мне приходится рассказывать другим людям как работает машинное обучение и, в частности, нейронные сети. Обычно я начинаю с градиентного спуска и линейной регрессии, постепенно переходя к многослойным перцептронам, автокодировщикам и свёрточным сетям. Все понимающе кивают головой, но в какой-то момент кто-нибудь прозорливый обязательно спрашивает:



А почему так важно, чтобы переменные в линейной регрессии были независимы?

или



А почему для изображений используются именно свёрточные сети, а не обычные полносвязные?

«О, это просто», — хочу ответить я. — «потому что если бы переменные были зависимыми, то нам пришлось бы моделировать условное распределение вероятностей между ними» или «потому что в небольшой локальной области гораздо проще выучить совместное распределение пикселей». Но вот проблема: мои слушатели ещё ничего не знают про распределения вероятностей и случайные переменные, поэтому приходится выкручиваться другими способами, объясняя сложнее, но с меньшим количеством понятий и терминов. А что делать, если попросят рассказать про батч нормализацию или генеративные модели, так вообще ума не приложу.



Так давайте не будем мучить себя и других и просто вспомним основные понятия теории вероятностей.



Источник
Загрузка...
Den
6 месяцев назад
#

Срыв масштабной хакерской атаки на пользователей Windows в России



6 марта Windows Defender заблокировал более 80 000 экземпляров нескольких сложных троянов, которые использовали изощренные приемы внедрения вредоносного кода в адресное пространство процессов и не менее изощренные механизмы обеспечения устойчивости и уклонения от обнаружения. Выявить новую волну попыток заражения удалось благодаря сигналам от систем поведенческого анализа в сочетании с облачными моделями машинного обучения.



Источник
Загрузка...
6 месяцев назад
#

Лекция 6 — Frameworks


Загрузка...
6 месяцев назад
#

Run Deep Learning Models in the Browser With JavaScript and ConvNetJS


Загрузка...
Den
6 месяцев назад
#

Предвыборная гонка глазами поисковых роботов





Мы ежедневно выполняем срез документов, расположенных на главных страницах миллиона самых посещаемых сайтов мира. Сегодня рассмотрим, как количество упоминаний кандидатов в президенты РФ коррелирует с происходящими оффлайн событиями.

Источник
Загрузка...
6 месяцев назад
#

Как быстро написать и выкатить в продакшн алгоритм машинного обучения



Сейчас анализ данных все шире используется в самых разных, зачастую далеких от ИТ, областях и задачи, стоящие перед специалистом на ранних этапах проекта радикально отличаются от тех, с которыми сталкиваются крупные компании с развитыми отделами аналитики. В этой статье я расскажу о том, как быстро сделать полезный прототип и подготовить простой API для его использования прикладным программистом.

Для примера рассмотрим задачу предсказания цены на трубы размещенную на платформе для соревнований Kaggle. Описание и данные можно найти
здесь. На самом деле на практике очень часто встречаются задачи в которых надо быстро сделать прототип имея очень небольшое количество данных, а то и вообще не имея реальных данных до момента первого внедрения. В этих случаях приходится подходить к задаче творчески, начинать с несложных эвристик и ценить каждый запрос или размеченный объект. Но в нашей модельной ситуации таких проблем, к счастью, нет и поэтому мы можем сразу начать с обзора данных, определения задачи и попыток применения алгоритмов.

Источник
Загрузка...
6 месяцев назад
#

Первые шаги в Машинном обучении



Привет дорогой друг, ты всегда хотел попробовать машинное обучение, но область выглядела загадочно и сложно? Я хотел бы поделиться с тобой моей историей как я сделал первые шаги в машинном обучении, при нулевом знании Python и высшей математики на небольшом примере.

Источник
Загрузка...
6 месяцев назад
#

Познаём Нирвану – универсальную вычислительную платформу Яндекса



Машинное обучение превратилось в модный термин, но при работе с большими объёмами данных оно уже много лет является жизненной необходимостью. Яндекс обрабатывает более 200 миллионов запросов ежедневно! Когда-то в интернете было так мало сайтов, что наилучшие из них помещались в каталог, а теперь за релевантность ссылок на страницы в выдаче отвечают сложные формулы, обучающиеся на новых и новых данных. Задача ложится на так называемые конвейеры, регулярные процессы, обучающие и контролирующие эти формулы.

Сегодня хотим поделиться с сообществом Хабра нашим опытом создания вычислительной платформы Нирвана, которая, среди прочего, применяется для задач машинного обучения.



Нирвана — неспециализированная облачная платформа для управления вычислительными процессами, где приложения запускаются в порядке, указанном пользователем. В Нирване хранятся нужные процессам описания, ссылки, блоки процессов и связанные с ними данные. Процессы оформлены в виде асинхронных графов.

Нирваной для решения вычислительных задач пользуются разработчики, аналитики и менеджеры разных департаментов Яндекса — потому что далеко не всё можно посчитать на своем ноутбуке (а почему ещё — мы расскажем в конце статьи, когда перейдем к примерам применения Нирваны).

Мы расскажем, с какими проблемами столкнулись при использовании предыдущего решения, опишем ключевые компоненты Нирваны и объясним, почему для платформы было выбрано именно такое название. А потом посмотрим на скриншот и перейдем к задачам, для которых полезна платформа.

Источник
Загрузка...
6 месяцев назад
#

Geeks.Show: Сезон 5. Урок 4. Копаемся в коде DeepLearning. Подбираем тренировочные параметры


Содержание:

— Подбор Batch size [00:42]
— Продолжаем практический разбор примера “HelloWorld” из книги “Глубокое обучение” [05:40]
— Разница между эпохой и батчем [30:23]
— Как сделать двухуровневый персептрон на примере “HelloWorld” [47:56]
— DeepJavaUniverse [57:56]
— Открыт вопрос многопоточной тренировки mList [59:58]

Загрузка...
6 месяцев назад
#

Копирование данных с веб-сайта с помощью R и библиотеки rvest



Чтобы проводить анализ данных, необходимо сначала эти данные собрать. Для этой цели есть много разных методов. В этой статье мы будем говорить о копировании данных непосредственно с веб-сайта, или о скрейпинге (scraping). На Хабре есть несколько статей о том, как сделать копирование с помощью Python. Мы будем использовать язык R (вер.3.4.2) и его библиотеку rvest. В качестве примера рассмотрим копирование данных с Google Scholar (GS).



Источник
Загрузка...
6 месяцев назад
#

SSO и Kibana: интеграция Kibana со встроенной аутентификацией Windows (Single Sign-On)



В этой статье мне хотелось бы поделиться способом настройки технологии единого входа (SSO) в Elastic Stack, использующим X-Pack для аутентификации пользователей и разграничения доступа к данным.



Stop SSO



Источник
Загрузка...
6 месяцев назад
#

Нейросеть, определяющая возраст по анализу крови, — разработки ученых Университета ИТМО



Ученые из лаборатории «Компьютерные технологии» Университета ИТМО в составе международной группы исследователей разработали систему
Aging.AI — алгоритм определения возраста по результатам базового анализа крови.

В отличие от других разработок эта — более универсальная и точная.

В ходе исследования ученые анализировали наборы данных людей разных национальностей и показали, что такой подход обладает большей предсказательной точностью, нежели разработки, основывающиеся на данных людей, принадлежащих к одной популяции.

Подробнее об этом исследовании читайте в нашем материале.



Источник
Загрузка...
Den
6 месяцев назад
#

Собеседование по Data Science: чего от вас ждут



Data Science – область
очень перспективная. За прошлый год мы в ЕРАМ получили 210 резюме от людей, которые хотят заниматься Data Science. Из них на техническое интервью мы пригласили 43 человека, а предложили работу семи. Если спрос большой, почему так?

Мы поговорили с техническими интервьюерами и выяснили: проблема многих кандидатов в том, что они плохо представляют, чем занимаются аналитики данных. Поэтому их знания и навыки не всегда релевантны для работы. Кто-то считает, что опыта работы с Big Data достаточно, чтобы работать в Data Science, кто-то уверен, что хватит просмотра нескольких курсов по машинному обучению, некоторые думают, что хорошо разбираться в алгоритмах необязательно.

Дмитрий Никитко и
Михаил Камалов – аналитики данных и технические интервьюеры из ЕРАМ – рассказали, чего ждут на собеседованиях от кандидатов, какие вопросы задают, что ценится в резюме и как подготовиться к собеседованию.



Источник
Загрузка...
29 30 32 33

Авторизация

Пользователи

Keyleas
Kirby
Имя Фамилия
lunchcalllina1978
Sever
stopresniebots1983
tekino
templide
Seangle