Введение

Цели курса

Этот курс станет вашим стартом в мир Data Science и Machine Learning. По его окончании вы сможете претендовать на позиции Junior Machine Learning Engineer или Junior Data Scientist.

Для вас этот курс — это:

Практическое применение знаний из математического анализа, статистики и линейной алгебры.
Фундамент для будущего перехода на руководящие должности в технической сфере.

Для нас этот курс — это:

Развитие профессионального сообщества.
Возможность найти будущих коллег.
Интересный и важный процесс поддержания знаний в актуальном состоянии.

Основные термины

Давайте договоримся о терминах, которые будут использоваться на протяжении всего курса:

Искусственный интеллект (AI) — система, способная принимать решения на основе восприятия окружающего мира.
Машинное обучение (ML) — подраздел AI; система, принимающая решения на основе накопленного опыта (данных) и текущего состояния мира.
Глубокое обучение (DL) — подраздел ML, основанный на использовании глубоких нейронных сетей (Neural Networks, NN).
Data Science — дисциплина, включающая сбор, обработку, анализ и извлечение знаний из данных.
Big Data — обработка и анализ данных, масштаб которых не позволяет работать с ними в стандартных инструментах (например, в Excel).

Термины, связанные с данными

Датасет / Выборка (Dataset) — набор данных, с которым работает алгоритм.
Признак / Фича (Feature, X) — характеристика или измеряемый параметр объекта.
Целевая переменная / Метка / Класс (Label, Target, y) — значение, которое мы хотим предсказать по признакам объекта.
Закон природы (в контексте ML) — скрытая взаимосвязь между признаками и целевой переменной, которую стремится восстановить модель. Формально: отображение из пространства признаков X в пространство меток y.

Типы задач машинного обучения

Задачи ML классифицируются по наличию и типу разметки (метки y).

1. Обучение с учителем (Supervised Learning)

Есть размеченная обучающая выборка, где каждому объекту сопоставлена правильная метка y. Цель — восстановить закон природы X -> y.

Пример: Классификация электронных писем (спам / не спам), где человек вручную разметил исторические данные.

2. Обучение без учителя (Unsupervised Learning)

Разметки y нет или она не используется. Алгоритм ищет внутренние структуры, закономерности и связи в данных.

Пример: Кластеризация пользователей поисковой системы по их запросам для выявления групп интересов.

Основные типы задач

В рамках двух парадигм выделяют несколько ключевых типов задач.

Классификация (Classification)

Цель: Восстановить закон природы.
Особенность: Множество меток y — конечное (часто небольшое).
Подвиды: Бинарная (2 класса) и многоклассовая (>2 классов).
Пример: Определение болезни по симптомам (болен/здоров), распознавание цифр на изображении.

Регрессия (Regression)

Цель: Предсказать непрерывную числовую величину.
Особенность: Метка y — вещественное число.
Пример: Прогнозирование стоимости квартиры по её характеристикам, прогноз температуры на завтра.

Кластеризация (Clustering)

Цель: Разбить данные на группы (кластеры) так, чтобы объекты внутри одной группы были похожи, а объекты из разных групп — отличались.
Особенность: Отсутствие заранее известных меток (без учителя).
Пример: Сегментация клиентов для маркетинга, группировка новостей по темам.

Снижение размерности (Dimensionality Reduction)

Цель: Уменьшить количество признаков, перейдя в пространство меньшей размерности, сохранив при этом важные структуры данных (близкие объекты должны остаться близкими).
Применение: Визуализация данных (например, 3D -> 2D), борьба с "проклятием размерности", сжатие данных.

Ранжирование (Ranking)

Цель: Упорядочить объекты (например, документы или товары) согласно их релевантности запросу или предпочтениям пользователя.
Пример: Выдача результатов поиска, рекомендательные системы.

Генерация (Generation)

Цель: Создавать новые объекты (изображения, текст, музыку), похожие на объекты из обучающей выборки.
Пример: Генерация реалистичных лиц, написание текстов в стиле определённого автора.

Типы признаков (Features)

Признаки могут быть разных типов, что влияет на выбор модели и методов предобработки:

Бинарные: Выбор из двух вариантов (Да/Нет, Кот/Не кот).
Номинальные (категориальные): Конечное множество без порядка (цвета, марки машин).
Порядковые (ординальные): Конечное упорядоченное множество (оценки: плохо/удовлетворительно/хорошо/отлично).
Числовые (вещественные): Непрерывные величины (рост, цена, расстояние).

Важно: Типы признаков можно преобразовывать (например, разбить числовой на интервалы и получить порядковый).

Что такое модель?

Модель машинного обучения — это параметрическая функция (или "чёрный ящик"), которая отображает пространство признаков X в пространство ответов y: Model: X -> y.

У модели есть параметры (внутренние настройки), которые настраиваются в процессе обучения на данных.
Обучение — это процесс подбора параметров модели таким образом, чтобы её предсказания на обучающих данных максимально соответствовали известным меткам (или выявляли скрытые структуры).
На работу модели влияют: качество данных, выбор алгоритма, его гиперпараметры и правильность процесса обучения.

Базовые методы искусственного интеллекта в физических исследованиях