O arnês permite ir muito mais longe só com yoloing, mas o desempenho pode ser muito melhorado com um pouco de perfil. O que está consumindo o contexto. O que está ocupando o espaço, olhe para as trilhas. o que está se acumulando na memória. O que está errando e erros de arremesso. O que está demorando demais (300x demais) (porque está carregando no FP32 em vez do FP16 e trocando para a memória do sistema
Quais são as inclinações do modelo? O que você pode construir no ambiente para aprimorar a capacidade com base nessas inclinações? Como você pode melhorar a coerência a longo prazo, a memória
75