Machine Learning/Data Mining/Big Data — TechCave

Машинное обучение (англ Machine Learning) — обширный подраздел искусственного интеллекта, математическая дисциплина, использующая разделы математической статистики, численных методов оптимизации, теории вероятностей, дискретного анализа, и извлекающа

Machine Learning/Data Mining/Big Data

Машинное обучение (англ Machine Learning) — обширный подраздел искусственного интеллекта, математическая дисциплина, использующая разделы математической статистики, численных методов оптимизации, теории вероятностей, дискретного анализа, и извлекающая знания из данных.

Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Стена группы

Загрузка...
6 дней назад
#

Сколько нужно Data-Scientistов, чтобы закрутить лампочку (или какая команда заставит данные работать на бизнес)





— Сколько нужно дейта-сайентистов, чтобы закрутить лампочку?

— Один, если историческая выборка успешно закрученных лампочек достаточна.

Это, конечно, шутка, но когда в какой-либо компании речь заходит о том, чтобы приручить big data для улучшения бизнес-показателей, далеко не все понимают, кто именно будет приручать. Классическое мнение: нужен дейта сайентист (data scientist) — аналитик данных, который умеет строить модели, разбирается в искусственном интеллекте и машинном обучении. И этот человек в одну голову всё порешает.

Также, есть тренд, что когда в компании формируется подразделение Big Data, то Data Scientistы это те, кого в первую очередь нанимают.

В реальности все сложнее. Без дейта сайентиста, конечно, нет и работы с big data, однако он — один в поле не воин. Кто же еще должен воевать плечом к плечу с ним, лучше понять на примерах.

Источник
Загрузка...
Den
6 дней назад
#

Перспективная технология магнитной записи MAMR: что нас ожидает в ближайшем будущем?



К 2025 году общемировой объем сохраненных данных достигнет 163 зеттабайт — к такому выводу пришли аналитики консалтинговой компании International Data Corporation (IDC) в своем докладе “The Data Age 2025”. Для сравнения, в 2016 году эта цифра составляла всего 16 зеттабайт — таким образом, мы получим практически десятикратный прирост объема сохраненной информации.

Виноваты в этом отнюдь не видео в формате 4K и не компьютерные игры весом от 100 ГБ и выше: столь бурный рост связан с повышенным интересом к Big Data со стороны бизнеса. Стремясь предсказать поведение потенциальных клиентов и лучше понять целевую аудиторию, крупные корпорации фиксируют буквально каждое действие, совершаемое человеком в глобальной паутине. Ситуацию усугубляют и такие перспективные направления, как машинное обучение и интернет вещей: миллиарды устройств ежесекундно генерируют огромное количество информации, а нейросети требуют все больше сведений для анализа и обработки.

Перечисленные факторы определяют спрос на более вместительные накопители, но реально ли в принципе удовлетворить потребности современного рынка? Мы утверждаем — да, с появлением MAMR нет ничего невозможного! Специально для тех, у кого нет времени на чтение объемных материалов, мы подготовили короткий видеоролик, освещающий основные преимущества накопителей, выполненных по технологии MAMR.

Если же вы хотите узнать “грязные подробности”, добро пожаловать под кат!

Источник
Загрузка...
6 дней назад
#

Совершеннолетняя журналистика: от России до Кремля



Анализ публикаций Lenta.ru за 18 лет (с сентября 1999 по декабрь 2017 гг.) средствами python, sklearn, scipy, XGBoost, pymorphy2, nltk, gensim, MongoDB, Keras и TensorFlow.





В исследовании использованы данные из поста «Анализируй это — Lenta.ru» пользователя ildarchegg. Автор любезно предоставил 3 гигабайта статей в удобном формате, и я решил, что это прекрасная возможность протестировать некоторые методы текстовой обработки. Заодно, если повезёт, узнать что-то новое о российской журналистике, обществе и вообще.



Источник
Загрузка...
6 дней назад
#

В магистратуру без экзаменов: новое направление «Большие данные» на олимпиаде «Я — профессионал»



Продолжаем рассказ об олимпиаде для бакалавров, магистров и специалистов «
Я — профессионал». Она проводится при поддержке сильнейших вузов. Сегодня мы расскажем о новом соревновательном направлении, которое курирует Университет ИТМО, — «Большие данные».

Генеральный партнер олимпиады «Я — профессионал» по направлениям Университета ИТМО — «Компьютерные науки», «Информационная и кибербезопасность», «Большие данные» — Сбербанк.



Источник
Загрузка...
6 дней назад
#

Восстанавливаем детальную геометрию объектов для более точной валидации ассортимента



Занимаясь вопросами качества поиска, рано или поздно приходится столкнуться с задачей визуальной валидации продуктов. Опустим простые задачи, с которыми справится обычный классификатор, сосредоточившись на случаях, которые требуют более или менее точной геометрии объекта:



Предположим, необходимо отобрать только хорошие фотографии тех или иных объектов, для последующего использования в e-commerce. Под хорошими будем подразумевать фотографии без лишних деталей с доминирующим основным объектом.

Источник
Загрузка...
6 дней назад
#

«На курсы шли не только ради знаний, у многих были карьерные амбиции и профессиональные задачи развития»



Хабр, привет! Знакомьтесь — Артём Москалец, СЕО компании Brightlab, с которым мы пообщались в рамках нашей серии интервью с выпускниками. Кандидат психологических наук, бывший зам. директора ГУУ. Волею судеб оказавшись в Ростове-на-Дону, познакомившись с местными талантливыми разработчиками, Артём открыл для себя мир новых технологий, начал активно изучать данную область, собрал команду профессионалов и теперь успешно развивает свою компанию.

image

— Артём, представься, пожалуйста, и расскажи о своем бэкграунде.

— Артём Москалец, CEO в компании Brightlab LLC. Компания наша не самая большая в мире разработки, но дружный коллектив из 24 молодых ребят позволяет решать, не побоюсь этого слова, задачи любого уровня в вeбе.

Мое профессиональное становление можно описывать по аналогии с диалектическим законом единства и борьбы противоположностей. К примеру, проявляя способности к точным наукам, алгебре и физике, в частности, высшее образование решил получать по направлению социологии и психологии управления. Мой репетитор по физике, зная, что его домашние задания решались в прямом смысле слова на коленке по дороге к нему, говорил: “В тебе умирает физик”. Путь наименьшего сопротивления, свойственный молодым ребятами 16-ти лет, и развитые коммуникативные навыки предопределили мой профессиональный путь развития. Хотя инициативность во мне не дремала уже тогда. К примеру, я все же поступил на факультет прикладной математики и информатики в МИСиС, но оригинал аттестата туда не отнес. Может быть, из-за страха. Наверное, это один из моментов, оглядываясь на которые, я испытываю сожаления.

Источник
Загрузка...
6 дней назад
#

Плагин «Rainbow CSV» как альтернатива Excel



Привет, Хабр! Эта статья про плагин Rainbow CSV, который я написал для 5 текстовых редакторов:



VS Code, Vim, Sublime Text 3, Atom, Gedit



Думаю, что многие читатели этой статьи периодически сталкиваются с CSV (comma-separated), ТSV (tab-separated) и подобными файлами. Если попробовать открыть их в текстовом редакторе (а как иначе узнать что там внутри?), то откроется совершенно невзрачная картина как с левой стороны изображения. Глядя на это сложно сказать даже сколько колонок в таблице. С правой стороны картинки тот же файл с включенным RainbowCSV, читаемость значительно повысилась за счет синтаксической подсветки.



image



Источник
Загрузка...
7 дней назад
#

Deep Q-Learning in Tensorflow for CartPole — Part 2


Загрузка...
8 дней назад
#

Deep Q-Learning using Python — Part 1


Загрузка...
8 дней назад
#

Селим Сефербеков – 3 место в Kaggle TGS Salt Identification Challenge


Ноябрьская встреча минского сообщества Open Data Science была посвящена Kaggle TGS Salt Identification Challenge – соревнованию по семантической сегментации.



Евгений Бабахин – 1 место в Kaggle TGS Salt Identification Challenge




Владислав Артемьев – 214 место в Kaggle TGS Salt Identification Challenge




Юрий Зеленский и Вадим Нарейко – 287 место в Kaggle TGS Salt Identification Challenge




Александр Сологуб – 45 место в Kaggle TGS Salt Identification Challenge


Загрузка...
8 дней назад
#

Deep Learning School


7. Практика обучения нейросетей: семинар 1


Материалы семинара (cifar10):
https://drive.google.com/open?id=1dvR...

Занятие ведёт Татьяна Гайнцева (ФИВТ МФТИ).



Продвинутый поток: NLP. Классификация текстов с помощью CNN


Третье занятие проекта «NLP: Understanding and Visualization» в продвинутом потоке.

Рассказывается о том, как решается задача классификации текстов с помощью свёрточных нейросетей, а также о том, что участникам проекта предстоит сделать, чтобы успешно его сдать.

Занятие ведёт Иван Провилков (ФИВТ МФТИ).

Материалы занятия:
https://github.com/VProv/DLSchoolNLP_...



Продвинутый поток: Adversarial Attacks. White-box атаки


Третье занятие курса, посвящённого adversarial attacks — поиску уязвимостей в работе нейросетей и борьбы с ними.

Подробно рассматриваются white-box атаки — FGSM, PGD.

Занятие ведёт Сергей Червонцев (ФИВТ МФТИ)

Материалы занятия:
https://drive.google.com/drive/folder…


Загрузка...
8 дней назад
#

Лекция 7. Обучение без учителя. Открытый курс OpenDataScience по машинному обучению mlcourse.ai


На 7-ой лекции поговорим про специфику задач обучения без учителя, разберем метод снижения размерности Principal Component Analysis, обсудим основные методы кластеризации.



mlcourse.ai. Lecture 6. Part 1. Linear regression. Theory




mlcourse.ai. Lecture 6. Part 2. LASSO and Ridge. LTV prediction. Practice


Загрузка...
11 дней назад
#

zoomcall #4 07.11.2018 (HOG detector, OpenPose)


1. Иван Брагин — «HOG детектор» Как сделать детектор котиков за 10 минут
2. Александр Шеховцов — «OpenPose» Обзор алгоритма

Загрузка...
11 дней назад
#

Использование данных пользователей и продажу big data предложили узаконить





Сегодня стало известно о появлении нового законопроекта, который уже внесен в Госдуму и
опубликован в базе документов ее законодательной деятельности. Он вводит понятие регулирования больших данных, содержимое документа доступно для обсуждения на площадке regulation.gov.ru, о чем
сообщают «Ведомости».

Речь идет о пользовательских данных, собираемых телекоммуникационными компаниями. Они деперсонализированы, то есть личность человека которому они принадлежат определить нельзя. Обработкой же данных такого рода считаются любые действия с ними — от сбора и систематизации до передачи и удаления. Автор документа предлагает предоставить компаниям использовать данные для своих нужд, либо же передавать другим компаниям, включая продажу.

Источник
Загрузка...
11 дней назад
#

ДомоДанные: как анализ данных используется в архитектуре и урбанистике



Преподавали мы в GoTo свои нейроночки, XGBoos’ы, SVM’ы и прочие случайные леса, и тут до нас кое-что дошло — мы много говорим про технологии и почти ничего не рассказываем про области, в которых их можно применить.



Мы решили исправить эту оплошность циклом статей, в которых расскажем о разных областях с неожиданно большими объемами данных, возьмём интервью у аналитиков и разработчиков, расскажем про проекты, которые мы решили попробовать сделать на школе и так далее.





И начнём мы с немного экзотических сфер — урбанистики и архитектуры.



Если хотите узнать подробности, прочитать интервью с техническим директором аналитической компании Habidatum и куратором программистко-архитектурных проектов из МАРХИ — милости прошу под кат.



Источник
Загрузка...
1 3 4

Авторизация

Пользователи

Георгiй Москвитинъ
Andpyxa Tutunnik
Andrey_fox
Jane linch
genagy
Pasha Radiuk
KotikBSD
Эрик Имашев
Амир Исмагилов