Machine Learning/Data Mining/Big Data — TechCave

Машинное обучение (англ Machine Learning) — обширный подраздел искусственного интеллекта, математическая дисциплина, использующая разделы математической статистики, численных методов оптимизации, теории вероятностей, дискретного анализа, и извлекающа

Machine Learning/Data Mining/Big Data

Машинное обучение (англ Machine Learning) — обширный подраздел искусственного интеллекта, математическая дисциплина, использующая разделы математической статистики, численных методов оптимизации, теории вероятностей, дискретного анализа, и извлекающая знания из данных.

Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Стена группы

Загрузка...
8 дней назад
#

Краткий анализ решений в сфере СОВ и разработка нейросетевого детектора аномалий в сетях передачи данных



image



В статье приведён анализ решений в сфере IDS и систем обработки траффика, краткий анализ атак и разбор принципов функционирования IDS. После чего сделана попытка разработки модуля для обнаружения аномалий в сети, на основе нейросетевого метода анализа сетевой активности, со следующими целями:



  • Обнаружение вторжений в вычислительную сеть.

  • Получения данных о перегрузках и критических режимах работы сети.

  • Обнаружение проблем с сетью и сбоев в работе сети.



Источник
Загрузка...
8 дней назад
#

Обзор Ubuntu DSVM: алхимия ни при чём



В течение последних месяцев в нескольких проектах наш партнер использовал виртуальную машину для обработки и анализа данных (DSVM) на базе Ubuntu от Microsoft. Он решил попробовать ее в деле уже используя продукт Amazon. Рассмотрим все плюсы и минусы, а также сравним наш инструмент с похожими решениями. Присоединяйтесь!



Источник
Загрузка...
8 дней назад
#

Как устроен ЕГРЮЛ — единый госреестр юридических лиц





ЕГРЮЛ — это государственный реестр юридических лиц, в котором хранятся данные 10 миллионов российских компаний. Управляет справочником ФНС.

Из ЕГРЮЛ мы берем данные организаций для «
Подсказок», «
Единого клиента» и «
Фактора». В статье расскажем, как мы жили до справочника, как получаем к нему доступ и как с ним работаем.

Источник
Загрузка...
9 дней назад
#

Deep Learning in the Browser with TensorFlow.js Introduction p.1


Загрузка...
11 дней назад
#

Обзор градиентных методов в задачах математической оптимизации



Предисловие

В этой статье речь пойдет о методах решения задач математической оптимизации, основанных на использовании градиента функции. Основная цель — собрать в статье все наиболее важные идеи, которые так или иначе связаны с этим методом и его всевозможными модификациями.



Источник
Загрузка...
11 дней назад
#

Конструктивные элементы надежного enterprise R приложения



Тем, кто работает с R, хорошо известно, что изначально язык разрабатывался как инструмент для интерактивной работы. Естественно, что методы удобные для консольного пошагового применения человеком, который глубоко в теме, оказываются малопригодными для создания приложения для конечного пользователя. Возможность получить развернутую диагностику сразу по факту ошибки, проглядеть все переменные и трейсы, выполнить вручную элементы кода (возможно, частично изменив переменные) — все это будет недоступно при автономной работе R приложения в enterprise среде. (говорим R, подразумеваем, в основном, Shiny web приложения).



Однако, не все так плохо. Среда R (пакеты и подходы) настолько сильно эволюционировали, что ряд весьма нехитрых трюков позволяет элегантно решать задачу обеспечения стабильности и надежности работы пользовательских приложений. Ряд из них будет описан ниже.



Является продолжением предыдущих публикаций.



Источник
Загрузка...
11 дней назад
#

AI создал свой первый фильм, и это фильм ужасов





Искусственный интеллект под руководством инженера из Google самостоятельно сделал первую кинокартину. Не просто сложил части чужих фильмов друг с другом, или выдал буквы сценария, а создал полноценную короткометражку. Сам написал сюжет, сам написал все диалоги, сам выбрал сцены и определил выражения лиц актеров (и даже, судя по всему, сам написал заголовок для показанной в фильме газеты – хотя он получился настолько ироничным, что в это сложно поверить). Озвучка персонажей, музыка и монтаж – естественно, тоже за AI. Но получившаяся черно-белая научная фантастика отнюдь не кажется милой.



Источник
Загрузка...
11 дней назад
#

Понедельник начинается в субботу, или что можно узнать о жизни в другой стране из логов sci-hub



Хотите знать, как религия влияет на рабочий день, у кого самый длинный обеденный перерыв, и правда ли что Москва никогда не спит? Но это же Хабр, а не жёлтая газета, так что историю вам поведает самый объективный рассказчик из всех — данные пользовательской активности.



Вам когда-нибудь доводилось найти пиратский настоящий клад? Такой что с первого взгляда становится понятно, что вы теперь богач. Если находили, то наверняка первый месяц провели, обложившись книжками, увеличительными стеклами и всем, что может помочь вам узнать про находку всё. А следующие несколько месяцев вы хвастались находкой всем друзьям.

Что-то в этом роде произошло со мной, когда я наткнулся на логи sci-hub. Вроде в интернете полно открытых данных, но чтобы заполучить журнал учёта на 195 миллионов записей — это не каждый день так везёт. Несколько недель я изучал доставшееся мне богатство, а теперь пришёл на хабр, чтобы рассказать вам, что я нарыл.

Источник
Загрузка...
11 дней назад
#

Классификация больших объемов данных на Apache Spark с использованием произвольных моделей машинного обучения



Часть 2: Решение

И снова здравствуйте! Сегодня я продолжу свой рассказ о том, как мы классифицируем большие объёмы данных на Apache Spark, используя произвольные модели машинного обучения. В
первой части статьи мы рассмотрели саму постановку задачи, а также основные проблемы, которые возникают при организации взаимодействия между кластером, на котором хранятся и обрабатываются исходные данные, и внешним сервисом классификации. Во второй части мы рассмотрим один из вариантов решения данной задачи с использованием подхода Reactive Streams и его реализации с использованием библиотеки akka-streams.



Источник
Загрузка...
13 дней назад
#

Вероятностное программирование и байесовский метод для хакеров



Здравствуйте, коллеги. Сегодня хотели поинтересоваться, насколько востребованной вам кажется слегка устаревшая книга "
Bayesian Methods for Hackers", опубликованная в оригинале в 2015 году, но пока не переведенная на русский язык.



Книга позиционируется как прикладная, максимально избавленная от математики и неустаревающая.

Под катом — немного сокращенный перевод обзора этой книги, выложенного автором на Github.

Поучаствуйте пожалуйста в голосовании

Источник
Загрузка...
13 дней назад
#

Узнай, кто ты в мире Machine Learning



И всё же сегодня пятница (хоть и не конец трудовой недели). Дабы скрасить этот факт, предлагаем вам пройти небольшой тест по Data Science. Некоторые любители каверзных математических задач уже оценили его на Data Fest'е — крупнейшей отечественной конференции для всех, кто зарабатывает на хлеб с маслом (или просто увлекается) анализом и обработкой данных, машинным обучением и разработкой на базе ИИ. Под катом – небольшой рассказ о наших активностях на мероприятии и, конечно же, сам DeSерт.



Источник
Загрузка...
13 дней назад
#

Предварительная программа PyConRu-2018: три Python Core Developer’а, докладчики из Google, Yelp, Red Hat, Яндекса



Привет, Хабр!

22-23 июля в 95 км. от Москвы пройдет шестая российская конференция для python-программистов
PYCON RUSSIA 2018.

Уже в программе: Юрий Селиванов (Python Core Developer, EgdeDB, Канада), Андрей Светлов (Python Core Developer, Украина), Christian Heimes (Python Core Developer, Red Hat, Германия), Melanie Warrick (Google, США), Stephan Jaensch (Yelp, Германия), Kate Heddleston (Shift, США), Alejandro Saucedo (Eigen Technologies, Великобритания), Вадим Пуштаев (Mail.Ru), Марина Камалова (Яндекс). Если вы хотите присоединиться в качестве спикера, есть еще несколько дней, чтобы заявиться с докладом. Под катом — подробности программы.



Если вы не знаете, что такое PyConRu, вот маленький ролик о том, как прошла прошлогодняя конференция

Источник
Загрузка...
13 дней назад
#

Исследование рынка вакансий BA/SA



«Исследование рынка вакансий аналитиков» — так звучала вполне реальная задача одного вполне реального ведущего аналитика одной ни большой, ни маленькой фирмы. Рисерчер парсил десятки описаний вакансий с hh вручную, раскидывая их по запрашиваемым скиллам и увеличивая счетчик в соответствующей колонке спредшита.



Я увидела в этой задаче неплохое поле для автоматизации и решила попытаться справиться с ней меньшей кровью, легко и просто.



Меня интересовали следующие вопросы, затронутые в данном исследовании:



  • средний уровень зарплат бизнес- и системных аналитиков,

  • наиболее востребованные умения и личные качества на этой позиции,

  • зависимости (если есть) между определенными навыками и уровнем зп.



Спойлер: легко и просто не получилось.



image



Источник
Загрузка...
13 дней назад
#

Подсчёт пчёл нейросетью на Raspberry Pi



Опубликовано 17 мая 2018 года

Сразу после установки улея я подумал: «Интересно, как подсчитать количество прилетающих и улетающих пчёл?»

Небольшое исследование показало: похоже, до сих пор никто не придумал хорошей неинвазивной системы, решающей эту задачу. А ведь было бы наверное полезно иметь такую информацию для проверки здоровья улья.

Во-первых, нужно собрать образцы данных. Raspberry Pi, стандартная камера Pi и солнечная панель: этого простого оборудования достаточно, чтобы записывать один кадр каждые 10 секунд и сохранять 5000+ изображений в день (с 6 утра до 9 вечера).



Источник
Загрузка...
14 дней назад
#

Sentdex Live — TensorFlow.js Introduction


Загрузка...
1 2 4 5

Авторизация

Пользователи

Seangle
Галя Рубцова
Ольга Телюкова
Zhenya
Лариса Аксиненко
Dmitry Loginov
Dimas Potapov
Ваня Берёзкин
Володя Рудомаха