Анализ данных на Python в примерах и задачах — TechCave

Лекция 1. Анализ данных на Python в примерах и задачах. Часть 1Описательные статистики. Квантили, квартили. Гистограммы. Ядерные оценки плотности. Курс "Анализ данных на Python в примерах и задачах. Часть 1" (весна 2018).

Анализ данных на Python в примерах и задачах

Machine Learning/Data Mining/Big Data

Анализ данных на Python в примерах и задачах

Лекция 1. Анализ данных на Python в примерах и задачах. Часть 1

Описательные статистики. Квантили, квартили. Гистограммы. Ядерные оценки плотности.

Курс «Анализ данных на Python в примерах и задачах. Часть 1» (весна 2018).

Преподаватель курса: Вадим Леонардович Аббакумов

Лекция 2. Анализ данных на Python в примерах и задачах. Часть 1

Описательные статистики. Ящики с усами. Выбросы. Медиана и среднее арифметическое как типичные наблюдения. Диаграмма рассеивания. Матрица диаграмм рассеивания. Столбиковая и круговая диаграмма.

Лекция 3. Анализ данных на Python в примерах и задачах. Часть 1

Иерархический кластерный анализ. Кластер, расстояния между объектами, расстояния между кластерами. Алгоритм построения дендрограммы. Каменистая осыпь/локоть. Стандартизация данных. Типичные ошибки при подготовке данных. Интрепретация результатов.

Лекция 4. Анализ данных на Python в примерах и задачах. Часть 1

Метод к-средних. Примеры (теоретическая часть лекции пропущена)

Лекция 5. Анализ данных на Python в примерах и задачах. Часть 1

Проверка статистических гипотез (теоретическое введение). Гипотезы согласия, однородности, независимости, гипотезы о параметрах распределения. Ошибки первого и второго рода, р-значение и уровень значимости, алгоритм проверки статистической гипотезы и интерпретация результатов. Гипотеза о нормальности распределения. Критерии Шапиро-Уилка и Колмогорова-Смирнова. Несущественные отклонения от нормальности. Сравнение выборок. Независимые и парные выборки. Выбор между t-критерием Стъюдента, критерием Манна-Уитни-Вилкоксона и критерием Муда. Разновидности t-критериев Стъюдента и сравнение дисперсий. Визуализация при сравнениях. Односторонние и двусторонние тесты. Независимость. Коэффициенты корреляции Пирсона, Кендалла и Спирмена, типичные ошибки при изучении связи между двумя явлениями. Визуальная проверка выводов.

Лекция 6. Анализ данных на Python в примерах и задачах. Часть 1

Проверка статистических гипотез (процедуры Python). Критерий Шапиро-Уилка. Критерий Манна-Уитни-Вилкоксона. t-критерий Стъюдента. Критерий Флигнера-Килина. Независимые и парные выборки. Критерий хи-квадрат. Критерий Пирсона.

Лекция 7. Анализ данных на Python в примерах и задачах. Часть 1

A/B тестирование. Тест для пропорций.


Лекция 8. Анализ данных на Python в примерах и задачах. Часть 1

Линейный регрессионный анализ. Модель, интерпретация оценок коэффициентов, множественный коэффициент детерминации. Интерпретация множественного коэффициента детерминации, ограничения на область его применения. Выявление наиболее значимых предикторов и оценка вклада каждого предиктора. Алгоритмы корректировки построенных моделей. Коллинеарность.

Лекция 9. Анализ данных на Python в примерах и задачах. Часть 1

Прогнозирование на основе регрессионной модели с сезонными индикаторными (фиктивными, структурными) переменными. Тренд, сезонные составляющие, смена характера ряда, выбросы. Логарифмирование – прием для преобразования мультипликативной сезонности в аддитивную. Индикаторные переменные. Переобучение. Случай нескольких сезонных составляющих.

Лекция 10. Анализ данных на Python в примерах и задачах. Часть 1

Распознавание образов/классификация. Параметры модели, внутренние и внешние. Критерии качества. Обучающая и тестовая выборки. Деревья классификации CART. Геометрическое представление. Представление в виде набора логических правил. Представление в виде дерева. Узлы, родители и потомки, конечные узлы. Пороговые значения. Меры чистота узла (impurity measures): джини, энтропия, ошибки классификации. Правила останоки обучения дерева. Информативность переменных. Деревья классификации в задачах регрессии.

Лекция 11. Анализ данных на Python в примерах и задачах. Часть 1

Случайные леса. Bagging. Ключевые параметры модели. Out-of-bag error. Информативность переменных. Анализ несбалансированных выборок. Определение числа деревьев.


Лекция 12. Анализ данных на Python в примерах и задачах. Часть 1

Boosting. Gradient boosting machine. Ключевые параметры модели.

23:34
269

Нет комментариев. Ваш будет первым!

Авторизация

Пользователи

Keyleas
Kirby
Имя Фамилия
lunchcalllina1978
Sever
stopresniebots1983
tekino
templide
Seangle