Введение

Цели курса

Этот курс станет вашим стартом в мир Data Science и Machine Learning. По его окончании вы сможете претендовать на позиции Junior Machine Learning Engineer или Junior Data Scientist.

Для вас этот курс — это:

  • Практическое применение знаний из математического анализа, статистики и линейной алгебры.
  • Фундамент для будущего перехода на руководящие должности в технической сфере.

Для нас этот курс — это:

  • Развитие профессионального сообщества.
  • Возможность найти будущих коллег.
  • Интересный и важный процесс поддержания знаний в актуальном состоянии.

Основные термины

Давайте договоримся о терминах, которые будут использоваться на протяжении всего курса:

  • Искусственный интеллект (AI) — система, способная принимать решения на основе восприятия окружающего мира.
  • Машинное обучение (ML) — подраздел AI; система, принимающая решения на основе накопленного опыта (данных) и текущего состояния мира.
  • Глубокое обучение (DL) — подраздел ML, основанный на использовании глубоких нейронных сетей (Neural Networks, NN).
  • Data Science — дисциплина, включающая сбор, обработку, анализ и извлечение знаний из данных.
  • Big Data — обработка и анализ данных, масштаб которых не позволяет работать с ними в стандартных инструментах (например, в Excel).

Термины, связанные с данными

  • Датасет / Выборка (Dataset) — набор данных, с которым работает алгоритм.
  • Признак / Фича (Feature, X) — характеристика или измеряемый параметр объекта.
  • Целевая переменная / Метка / Класс (Label, Target, y) — значение, которое мы хотим предсказать по признакам объекта.
  • Закон природы (в контексте ML) — скрытая взаимосвязь между признаками и целевой переменной, которую стремится восстановить модель. Формально: отображение из пространства признаков X в пространство меток y.

Типы задач машинного обучения

Задачи ML классифицируются по наличию и типу разметки (метки y).

1. Обучение с учителем (Supervised Learning)

Есть размеченная обучающая выборка, где каждому объекту сопоставлена правильная метка y. Цель — восстановить закон природы X -> y.

Пример: Классификация электронных писем (спам / не спам), где человек вручную разметил исторические данные.

2. Обучение без учителя (Unsupervised Learning)

Разметки y нет или она не используется. Алгоритм ищет внутренние структуры, закономерности и связи в данных.

Пример: Кластеризация пользователей поисковой системы по их запросам для выявления групп интересов.

Основные типы задач

В рамках двух парадигм выделяют несколько ключевых типов задач.

Классификация (Classification)

  • Цель: Восстановить закон природы.
  • Особенность: Множество меток yконечное (часто небольшое).
  • Подвиды: Бинарная (2 класса) и многоклассовая (>2 классов).
  • Пример: Определение болезни по симптомам (болен/здоров), распознавание цифр на изображении.

Регрессия (Regression)

  • Цель: Предсказать непрерывную числовую величину.
  • Особенность: Метка y — вещественное число.
  • Пример: Прогнозирование стоимости квартиры по её характеристикам, прогноз температуры на завтра.

Кластеризация (Clustering)

  • Цель: Разбить данные на группы (кластеры) так, чтобы объекты внутри одной группы были похожи, а объекты из разных групп — отличались.
  • Особенность: Отсутствие заранее известных меток (без учителя).
  • Пример: Сегментация клиентов для маркетинга, группировка новостей по темам.

Снижение размерности (Dimensionality Reduction)

  • Цель: Уменьшить количество признаков, перейдя в пространство меньшей размерности, сохранив при этом важные структуры данных (близкие объекты должны остаться близкими).
  • Применение: Визуализация данных (например, 3D -> 2D), борьба с "проклятием размерности", сжатие данных.

Ранжирование (Ranking)

  • Цель: Упорядочить объекты (например, документы или товары) согласно их релевантности запросу или предпочтениям пользователя.
  • Пример: Выдача результатов поиска, рекомендательные системы.

Генерация (Generation)

  • Цель: Создавать новые объекты (изображения, текст, музыку), похожие на объекты из обучающей выборки.
  • Пример: Генерация реалистичных лиц, написание текстов в стиле определённого автора.

Типы признаков (Features)

Признаки могут быть разных типов, что влияет на выбор модели и методов предобработки:

  • Бинарные: Выбор из двух вариантов (Да/Нет, Кот/Не кот).
  • Номинальные (категориальные): Конечное множество без порядка (цвета, марки машин).
  • Порядковые (ординальные): Конечное упорядоченное множество (оценки: плохо/удовлетворительно/хорошо/отлично).
  • Числовые (вещественные): Непрерывные величины (рост, цена, расстояние).

Важно: Типы признаков можно преобразовывать (например, разбить числовой на интервалы и получить порядковый).

Что такое модель?

Модель машинного обучения — это параметрическая функция (или "чёрный ящик"), которая отображает пространство признаков X в пространство ответов y: Model: X -> y.

  • У модели есть параметры (внутренние настройки), которые настраиваются в процессе обучения на данных.
  • Обучение — это процесс подбора параметров модели таким образом, чтобы её предсказания на обучающих данных максимально соответствовали известным меткам (или выявляли скрытые структуры).
  • На работу модели влияют: качество данных, выбор алгоритма, его гиперпараметры и правильность процесса обучения.