Pesquisadores de ML acabaram de construir uma nova técnica de ensemble. Ela supera o XGBoost, CatBoost e LightGBM. Por anos, o gradient boosting foi a escolha preferida para aprendizado tabular. Não mais. O TabM é um ensemble eficiente em parâmetros que oferece: - A velocidade de um MLP - A precisão do GBDT Veja como funciona: No ML tabular, sempre tivemos que escolher entre velocidade e precisão. Os MLPs são rápidos, mas têm desempenho inferior. Os ensembles profundos são precisos, mas volumosos. Os Transformers são poderosos, mas impraticáveis para a maioria das tabelas. O TabM resolve isso com uma simples percepção: (referencie a imagem abaixo enquanto lê) Em vez de treinar 32 MLPs separados, ele usa um modelo compartilhado com um adaptador leve. Essa pequena alteração oferece os benefícios do ensemble sem o custo de treinar várias redes. Os resultados: Contra mais de 15 modelos e 46 conjuntos de dados, o TabM ficou em 1.7 em média—à frente do XGBoost, CatBoost e LightGBM. Modelos complexos como FT Transformer e SAINT ficaram muito abaixo, apesar de serem mais caros para treinar. Compartilhei o artigo de pesquisa e os benchmarks no próximo tweet.
Artigo de pesquisa →
13,59K