Acho engraçado como a pesquisa do DeepSeek é em grande parte ignorada. Eles arrastaram a indústria, com força e força, para o mundo dos MoEs eficientes e da vida real eficiente, mas só isso. Por que nem todos os instrutores de atenção total ainda são DSA? Métodos Math-V2 são adotados? Não. «Me dê pesos de baleia»
Ahmad
Ahmad10 de jan., 11:53
Por favor, largue essa v4 em breve, baleia
(Claro que eu também quero a V4)
252