Бутстрап - случайный выбор с повторами объектов из выборки. Бэггинг - метод, при котором один и тот же алгоритм обучается на подмножествах размера с бутстрапом.
Случайный лес - структура, объединяющая идею бэггинга и дерева принятия решения. Состоит из
- Выбираем подмножество какого-то фиксированного размера с повторениями.
- Дальше синтезируем дерево решений, то есть, фактически, строим деревья решений таким образом, что для каждого дерева выбиралось
$\sqrt{n}$ случайных признаков. При этом, сами деревья могут быть самыми примитивными, подрезка не применяется. - Повторяем п.1 и п.2 много-много раз.
Как агрегировать?
- Голосование. Деревья возвращают классы. Среди них ищется чаще всего встречающийся класс.
- Деревья могут возвращать распределения вероятностей или весов классов, которые суммируются для каждого класса. И далее полученные суммы используются как финальное распределение весов классов.
Идея стэкинга: вместо того, чтобы комбинировать алгоритмы, будем использовать их прогнозы для обучения других моделей. Эту штуку можно обобщить на использование результатов классификации как новых характеристик объектов.
Грубо говоря, мы взяли данные