Machine Learning/Data Mining/Big Data — TechCave

Машинное обучение (англ Machine Learning) — обширный подраздел искусственного интеллекта, математическая дисциплина, использующая разделы математической статистики, численных методов оптимизации, теории вероятностей, дискретного анализа, и извлекающа

Machine Learning/Data Mining/Big Data

Машинное обучение (англ Machine Learning) — обширный подраздел искусственного интеллекта, математическая дисциплина, использующая разделы математической статистики, численных методов оптимизации, теории вероятностей, дискретного анализа, и извлекающая знания из данных.

Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Стена группы

Загрузка...
9 часов назад
#

Поиск под капотом. Облачная индексация



В прошлой статье я рассказал о том, каким образом поисковая система может узнать о том, что существует та или иная веб-страница, и сохранить ее себе в хранилище. Но узнать о том, что веб-страница существует, — это только самое начало. Гораздо более важно за доли секунды успеть найти те страницы, которые содержат ключевые слова, введенные пользователем. О том, как это работает, я и расскажу в сегодняшней статье, проиллюстрировав свой рассказ «учебной» реализацией, которая тем не менее спроектирована таким образом, чтобы иметь возможность масштабироваться до размеров индексирования всего Интернета и учитывать современное состояние технологий анализа больших объемов данных.





Заодно у меня получилось рассмотреть основные функции и методы Apache Spark, так что данную статью можно рассматривать еще и как небольшой туториал по спарку.



Источник
Загрузка...
9 часов назад
#

Machine Learning: Client-side ML vs Server-side ML


Загрузка...
Den
22 часа назад
#

Как устроена Алиса. Лекция Яндекса



В этой лекции впервые рассматриваются технологические решения, на основе которых работает Алиса — голосовой помощник Яндекса. Руководитель группы разработки диалоговых систем Борис Янгель
hr0nix рассказывает, как его команда учит Алису понимать желания пользователя, находить ответы на самые неожиданные вопросы и при этом вести себя прилично.

— Я расскажу, что внутри у Алисы. Алиса большая, в ней много компонент, поэтому я немного поверхностно пробегусь.

Источник
Загрузка...
1 день назад
#

Что внутри у HR-а? (Анатомии не будет)



Привет, Хабр! Недавно мы делились с вами интервью с представителем робота Веры, первого в мире робота-рекрутера, разработанного в России командой Stafory. И вот подъехали технические подробности проекта, ведь мы попросили ребят рассказать, как устроена Вера.



Источник
Загрузка...
1 день назад
#

Знакомство с графовыми API



Привет, Хабр! Мы не перестаем отслеживать тему проектирования API после того, как встретили в портфеле издательства «Manning»
вот эту книгу. Сегодня мы решили опубликовать обзорную статью об относительно новых Graph API и предлагаем еще раз задуматься о том, каковы будут новые API после безраздельной популярности REST.

Приятного чтения!

Источник
Загрузка...
1 день назад
#

Открыта регистрация на Raiffeisen Data_Cup



Мы приглашаем вас принять участие в чемпионате по анализу данных
Raiffeisen Data_Cup. Онлайн часть пройдёт на платформе Boosters.pro. Участникам предстоит определить место жительства и работы клиента Райффайзенбанка, используя анонимизированную историю платежей и снятия наличных. Онлайн часть проходит до
23 марта, а подведение итогов и награждение пройдут в Москве 30 марта.



Источник
Загрузка...
Den
3 дня назад
#

Avito Data Science Meetup: Personalization



Привет! 27 февраля приглашаем практикующих специалистов по Data Science на митап, посвящённый персонализации пользователей. Вы услышите доклады от представителей Сингапурского Университета Менеджмента и Avito. Регистрируйтесь на встречу и приглашайте коллег. Под катом — тезисы выступлений, ссылки на регистрацию и видеотрансляцию митапа.





Источник
Загрузка...
3 дня назад
#

Сравнение топ-4 популярных BI платформ. Какую выбрать?



Сегодня существует огромное количество BI-платформ и инструментов визуализации данных, которые делают так, чтобы данные могли говорить, а всю аналитику можно было наглядно отобразить на экране и поделиться с клиентами. В данной статье мы сравним наиболее популярные и широко используемые BI системы и проанализируем их преимущества и недостатки, чтобы вы могли выбрать одну или несколько из них для своей компании, ведь без качественной бизнес-аналитики сегодня практически невозможно обойтись.

Пытаясь оценить различные BI платформы часто сложно понять, где миф, а где правда, поскольку каждый вендор позиционирует свой продукт, как “лучший на рынке”, приводя в качестве аргумента сотни субъективных обзоров, заполонивших Интернет. Если же вы хотите разобраться, какой инструмент подходит именно вашей компании, не пролистывая сотни страниц “честных” мнений, то ниже будет то, что нужно.

Мы рассмотрим наиболее популярные платформы, такие как QlikView, Klipfolio, Tableau и Power BI, и сравним их ключевые параметры: удобство использования, цену, легкость установки, поддержку, работу с различными типами данных и многое другое. Итак, вперед!



Источник
Загрузка...
4 дня назад
#

Home Credit Bank: Прогнозирование вероятности невозврата кредита — Анзор Березгов


Анзор Березгов рассказывает про задачу прогнозирования вероятности невозврата кредита (SAS competitions: Home Credit Bank). Анзор выиграл это соревнование. Из видео вы сможете узнать:
— Подходы к агрегации сведений о различных кредитах пользователей и их качество
— Построение признаков по различным группам кредитов
— Какие признаки-агрегаторы можно использовать

Слайды: https://gh.mltrainings.ru/presentatio...

Загрузка...
5 дней назад
#

Трансляция Data Science MeetUp | Технострим


Загрузка...
5 дней назад
#

Функция random() у гуглобота работает абсолютно детерминированно



Я проводил некоторые эксперименты, как Googlebot разбирает и рендерит JavaScript, и наткнулся на несколько интересных вещей. Первое — то, что функция
Math.random() в Googlebot выдаёт полностью детерминированные серии чисел. Я написал маленький скрипт, который использует этот баг для точной идентификации гуглобота:



Источник

При первом вызове
Math.random() из гуглобота результат всегда будет
0,14881141134537756, второй вызов всегда вернёт
0,19426893815398216. Скрипт по ссылке выше просто использует эту информацию для идентификации бота Google, хотя немножко обфусцирует свои действия, чтобы они не выглядели слишком произвольными.

Источник
Загрузка...
5 дней назад
#

Алгоритмы подсказки слов в телефонной клавиатуре vs. Защита персональных данных



Языковые модели

В виртуальных клавиатурах мобильных телефонов повсеместно используются алгоритмы подсказки слов по первым введённым буквам и автоматического исправления опечаток в них. Функция нужная, так как печатать на телефоне неудобно. Однако она часто раздражает пользователей своей «глупостью».

В основе алгоритма подсказок лежит языковая модель, предсказывающая вероятность следующего слова в тексте относительно предыдущих слов. Обычно модель строится по статистике
n-грамм — последовательностей из
n слов, которые часто соседствуют друг с другом. При таком подходе хорошо угадываются только короткие распространённые словосочетания.

Нейронные сети с задачей предсказания слов справляются лучше. Например, нейросетевой алгоритм в состоянии понять, что после слов «
Linus is the best» должно идти слово «
programmer», а после «
Shakespair is the best» — «
writer». У 
n-граммной модели для этой задачи, скорее всего, не хватит статистики: даже если в обучающих текстах встречалась информация о Торвальдсе и Шекспире, скорее всего она не была сформулирована ровно этими же словами в том же порядке.

О рекуррентных нейронных сетях для языковых моделей пишут много. Например, с помощью
простого туториала по TensorFlow можно посмотреть, при каких условиях какие слова будут предсказываться.

Важный момент: предсказания модели сильно зависят от обучающей выборки. На скриншотах ниже показаны примеры подсказок для обычной, профессиональной и неформальной лексик.

Источник
Загрузка...
Den
5 дней назад
#

Незадача коммивояжера и жёлтый октябрь



Главнокоммивояжер Аристарх поглядывал на Пророка, покручивая дубинкой от снежных троллей — ходовым сезонным товаром — 11% отклонение прогноза продаж на 10 дней в среднем (MAPE) впечатлило и, как у нас в чате говорят, зашло в роли baseline. Если он так же хорош, как и их Цукерберг, то сразу в прод — таков был первый порыв. Пророк поглядывал на главнокоммивояжера, прищурив правый глаз. Такой серьезный, в костюме, и верит в то, что инновации апплодисментами встретят и сразу же примут — мысль в голове вертелась, постепенно обретая форму. А Вы в курсе, юноша, скольким коллегам и контрагентам со своими нововведениями немилы станете? Они же Вас невзлюбят сразу, к гадалке не ходи! В общем, порыв жил обычным циклом инноваций.



image



В дисциплине управления проектами стейкхолдерами называют всех, кого проект коснется (а также тех, кто может оказать на него влияние). Люди они разные, со своими интересами, ожиданиями, и чаяниями. Закрыть глаза в надежде, что и проекта не заметят — весьма опрометчиво (вспоминается неприглашенная колдунья). Boston Consulting Group оценивает долю IT проектов, почивших по не-техническим причинам, в 75%. Последние две редакции свода знаний по управлению проектами (PMBOK) выделяют процессы по управлению стейкхолдерами в отдельную область знаний под счастливым номером 13 и настоятельно рекомендуют учитывать связи между ними, центры влияния, а также культуру общения для повышения шансов на успех.



Мы покажем, как оценить стейкхолдеров с помощью машинного обучения. Выделим группы похожих между собой людей и решим задачу кластеризации — сегментации клиентов в терминах маркетинга — в социальных структурах, которые построим из: 1) потоков сообщений и 2) эмоциональной окрашенности текста. Для этого заглянем в переписку, любезно предоставленную г-жей Клинтон, способом, предложенным в журнале Биоинформатика.



Источник
Загрузка...
5 дней назад
#

Deep Learning in Natural Language Processing



image

Лаборатория нейронных сетей и глубоко обучения МФТИ открывает курс
Deep Learning in Natural Language Processing. Он стартует 21 февраля и будет проходить каждую среду в 19:00 в 105 БК, необходимо
зарегистрироваться. Длительность курса — 10 занятий. Курс открыт для всех желающих углубить свои знания в Deep Learning и Natural Language Processing. Занятия также будут транслироваться в режиме онлайн в
Youtube-канале лаборатории.

Источник
Загрузка...
6 дней назад
#

Intro — Data Visualization GUIs with Dash and Python p.1


Загрузка...
2 3

Авторизация

Пользователи

Володя Рудомаха
adanick
Марина Викторовна
Георгiй Москвитинъ
Andpyxa Tutunnik
Andrey_fox
Jane linch
genagy
Pasha Radiuk