Введение
Цели курса
Этот курс станет вашим стартом в мир Data Science и Machine Learning. По его окончании вы сможете претендовать на позиции Junior Machine Learning Engineer или Junior Data Scientist.
Для вас этот курс — это:
- Практическое применение знаний из математического анализа, статистики и линейной алгебры.
- Фундамент для будущего перехода на руководящие должности в технической сфере.
Для нас этот курс — это:
- Развитие профессионального сообщества.
- Возможность найти будущих коллег.
- Интересный и важный процесс поддержания знаний в актуальном состоянии.
Основные термины
Давайте договоримся о терминах, которые будут использоваться на протяжении всего курса:
- Искусственный интеллект (AI) — система, способная принимать решения на основе восприятия окружающего мира.
- Машинное обучение (ML) — подраздел AI; система, принимающая решения на основе накопленного опыта (данных) и текущего состояния мира.
- Глубокое обучение (DL) — подраздел ML, основанный на использовании глубоких нейронных сетей (Neural Networks, NN).
- Data Science — дисциплина, включающая сбор, обработку, анализ и извлечение знаний из данных.
- Big Data — обработка и анализ данных, масштаб которых не позволяет работать с ними в стандартных инструментах (например, в Excel).
Термины, связанные с данными
- Датасет / Выборка (Dataset) — набор данных, с которым работает алгоритм.
- Признак / Фича (Feature, X) — характеристика или измеряемый параметр объекта.
- Целевая переменная / Метка / Класс (Label, Target, y) — значение, которое мы хотим предсказать по признакам объекта.
- Закон природы (в контексте ML) — скрытая взаимосвязь между признаками и целевой переменной, которую стремится восстановить модель. Формально: отображение из пространства признаков
Xв пространство метокy.
Типы задач машинного обучения
Задачи ML классифицируются по наличию и типу разметки (метки y).
1. Обучение с учителем (Supervised Learning)
Есть размеченная обучающая выборка, где каждому объекту сопоставлена правильная метка y. Цель — восстановить закон природы X -> y.
Пример: Классификация электронных писем (спам / не спам), где человек вручную разметил исторические данные.
2. Обучение без учителя (Unsupervised Learning)
Разметки y нет или она не используется. Алгоритм ищет внутренние структуры, закономерности и связи в данных.
Пример: Кластеризация пользователей поисковой системы по их запросам для выявления групп интересов.
Основные типы задач
В рамках двух парадигм выделяют несколько ключевых типов задач.
Классификация (Classification)
- Цель: Восстановить закон природы.
- Особенность: Множество меток
y— конечное (часто небольшое). - Подвиды: Бинарная (2 класса) и многоклассовая (>2 классов).
- Пример: Определение болезни по симптомам (болен/здоров), распознавание цифр на изображении.
Регрессия (Regression)
- Цель: Предсказать непрерывную числовую величину.
- Особенность: Метка
y— вещественное число. - Пример: Прогнозирование стоимости квартиры по её характеристикам, прогноз температуры на завтра.
Кластеризация (Clustering)
- Цель: Разбить данные на группы (кластеры) так, чтобы объекты внутри одной группы были похожи, а объекты из разных групп — отличались.
- Особенность: Отсутствие заранее известных меток (без учителя).
- Пример: Сегментация клиентов для маркетинга, группировка новостей по темам.
Снижение размерности (Dimensionality Reduction)
- Цель: Уменьшить количество признаков, перейдя в пространство меньшей размерности, сохранив при этом важные структуры данных (близкие объекты должны остаться близкими).
- Применение: Визуализация данных (например, 3D -> 2D), борьба с "проклятием размерности", сжатие данных.
Ранжирование (Ranking)
- Цель: Упорядочить объекты (например, документы или товары) согласно их релевантности запросу или предпочтениям пользователя.
- Пример: Выдача результатов поиска, рекомендательные системы.
Генерация (Generation)
- Цель: Создавать новые объекты (изображения, текст, музыку), похожие на объекты из обучающей выборки.
- Пример: Генерация реалистичных лиц, написание текстов в стиле определённого автора.
Типы признаков (Features)
Признаки могут быть разных типов, что влияет на выбор модели и методов предобработки:
- Бинарные: Выбор из двух вариантов (Да/Нет, Кот/Не кот).
- Номинальные (категориальные): Конечное множество без порядка (цвета, марки машин).
- Порядковые (ординальные): Конечное упорядоченное множество (оценки: плохо/удовлетворительно/хорошо/отлично).
- Числовые (вещественные): Непрерывные величины (рост, цена, расстояние).
Важно: Типы признаков можно преобразовывать (например, разбить числовой на интервалы и получить порядковый).
Что такое модель?
Модель машинного обучения — это параметрическая функция (или "чёрный ящик"), которая отображает пространство признаков X в пространство ответов y: Model: X -> y.
- У модели есть параметры (внутренние настройки), которые настраиваются в процессе обучения на данных.
- Обучение — это процесс подбора параметров модели таким образом, чтобы её предсказания на обучающих данных максимально соответствовали известным меткам (или выявляли скрытые структуры).
- На работу модели влияют: качество данных, выбор алгоритма, его гиперпараметры и правильность процесса обучения.