Вопросы и ответы по машинному обучению
Вопросы
Эти вопросы могут быть полезны для проверки понимания основ машинного обучения. Вопросы можно использовать для самопроверки или в качестве материала для обсуждения.
- К чему обычно применяется предположение i.i.d. (независимые одинаково распределенные)?
- Изменятся ли предсказания алгоритма kNN, если один из признаков (цены в рублях) перевести в евро, при прочих равных?
- Какой способ регуляризации в линейной регрессии имеет тенденцию к "отбору признаков"?
- Как выглядит аналитическое решение линейной регрессии с ошибкой MSE?
- К чему приведет домножение всех значений признаков в обучающей выборке на 10 для различных вариантов линейных моделей (MSE, MAE, с L2-регуляризацией)?
- После обучения на очень большой выборке линейная регрессия (в режиме inference) работает быстрее или медленнее kNN?
- Для каких моделей могут быть полезны методы L1 и L2 регуляризации?
- Какие утверждения о логистической регрессии верны?
- Что предсказывает решающее дерево в задаче регрессии в каждом листе?
- Как решающие деревья обрабатывают пропуски в данных?
- Повлияет ли добавление большого количества признаков, скоррелированных с уже существующим, на процесс построения ансамбля типа бустинга из деревьев?
- Что позволяет получить бустинг над линейными регрессиями?
- Какое требование к функции потерь предъявляет градиентный бустинг?
- Какие существуют основные типы признаков и виды задач в машинном обучении?
- Как выбор метрики расстояния влияет на kNN и в чем суть метода FRiS?
- В чем преимущества и недостатки градиентного спуска по сравнению с аналитическим решением регрессии?
- Как Momentum и использование batch помогают в градиентном спуске?
- Как именно L1 и L2 регуляризация меняют формулу обновления весов?
- Что такое margin (отступ) в контексте логистической регрессии?
- Как интерпретировать Confusion Matrix и когда стоит использовать Precision/Recall вместо Accuracy?
- Как рассчитываются энтропия и критерий Джини в вершинах решающего дерева?
- Что такое Bias-Variance trade-off и как он связан с переобучением?
- За счет чего Bagging и Random Forest уменьшают разброс (variance) ошибки?
- Опишите общий алгоритм построения композиции в градиентном бустинге.
- Как применяется Chain rule в методе обратного распространения ошибки?
- В чем отличия продвинутых оптимизаторов (Adam, RMSProp) от стандартного SGD?
- Какие существуют методы регуляризации и улучшения сходимости для нейронных сетей (Dropout, Batch Norm и др.)?