Výzkumníci ML právě vytvořili novou techniku ensemble. Překonává XGBoost, CatBoost a LightGBM. Po léta bylo gradient boosting hlavním nástrojem pro tabulární učení. Už ne. TabM je parametrově efektivní soubor, který vám dává: - Rychlost MLP - Přesnost GBDT Takto to funguje: V tabulárním strojovém učení jsme vždy museli volit mezi rychlostí a přesností. MLP jsou rychlí, ale podvádějí slabší výkon. Hluboké ansámblu jsou přesné, ale nafouklé. Transformery jsou výkonné, ale pro většinu stolů nepraktické. TabM to řeší jednoduchým poznatkem: (viz obrázek níže, když budete číst dál) Místo trénování 32 samostatných MLP používá jeden sdílený model s lehkým adaptérem. Tato malá úprava vám dává výhody ensemblingu bez nákladů na trénování více sítí. Výsledky: Mezi 15+ modely a 46 datovými sadami se TabM umístil v průměru na 1,7 místě – před XGBoost, CatBoost a LightGBM. Složité modely jako FT Transformer a SAINT byly hodnoceny mnohem níže, přestože byly dražší na výcvik. Výzkumnou práci a benchmarky jsem sdílel v dalším tweetu.
Výzkumný článek →
13,6K