Исследователи в области машинного обучения только что разработали новую ансамблевую технику. Она превосходит XGBoost, CatBoost и LightGBM. На протяжении многих лет градиентный бустинг был основным инструментом для табличного обучения. Больше не так. TabM — это параметрически эффективный ансамбль, который дает вам: - Скорость MLP - Точность GBDT Вот как это работает: В табличном ML нам всегда приходилось выбирать между скоростью и точностью. MLP быстрые, но показывают низкие результаты. Глубокие ансамбли точные, но громоздкие. Трансформеры мощные, но непрактичные для большинства таблиц. TabM решает эту проблему с помощью простого инсайта: (смотрите изображение ниже, пока читаете дальше) Вместо того чтобы обучать 32 отдельных MLP, он использует одну общую модель с легким адаптером. Эта небольшая модификация дает вам преимущества ансамблирования без затрат на обучение нескольких сетей. Результаты: Против 15+ моделей и 46 наборов данных TabM в среднем занял 1.7 место — впереди XGBoost, CatBoost и LightGBM. Сложные модели, такие как FT Transformer и SAINT, заняли гораздо более низкие позиции, несмотря на более высокие затраты на обучение. Я поделился исследовательской статьей и бенчмарками в следующем твите.
Научная работа →
13,6K