Os modelos estão ficando muito bons na Patio11-As-A-Service. (Recebo e-mails com bastante frequência que solicitam intercessão semelhante à de um ombudsman ou conselhos sobre interação com a indústria financeira como consumidor. Às vezes, para checar SOTA, eu passo fatos neles para os modelos.)
Exemplo representativo: Usuário: Será que (cinco parágrafos de explicação) provavelmente vai fazer com que minha conta seja fechada? Eu, para mim mesmo: Muito improvável, quatro grandes razões para isso. Eu, para modelar: O que eu responderia a esse usuário e (separadamente) comentaria sobre a verdade real.
Modelo: Aqui está 75% de alinhamento em relação a como você realmente descreveu em um e-mail que ainda não vi e 95% de alinhamento na visão da verdade no terreno.
Alguns dos modelos provavelmente são melhores para eu rodar essa consulta especificamente do que seriam prontos para o jogo, porque além do meu corpus da Internet e outros dados de treinamento, eles também têm a memória privada de, por exemplo, muitos e-mails semelhantes e sessões de rascunho BAM.
Mas fico animado que o estado da arte, mesmo sem memória, nos meus experimentos casuais e conforme relatado por dezenas de pessoas até agora, é que "Eles são bem eficazes logo de cara."
(Isso não é um pedido para me enviar questões tipo ombudsman, mas considerando que o mundo continua fazendo isso, independentemente do meu emprego ou opiniões sobre o assunto, e eu continuo querendo que as pessoas tenham resultados justos em seus encontros com a indústria financeira, continuarei me importando.)
(Passo uma grande parte dos meus vinte anos escrevendo cartas para bancos em nome de pessoas gratuitamente e, embora na casa dos quarenta anos a vida e as obrigações profissionais façam isso praticamente inviável, fico muito feliz que agora exista uma tecnologia quase infinitamente escalável que pode fazer isso.)
Comentário casual: há pessoas que têm um emprego mais ou menos em tempo integral em vários órgãos reguladores fazendo um trabalho semelhante a esse, provavelmente com e-mails mais frustrantes em suas caixas de entrada coletivas (devido à diferença de níveis de habilidade, etc. no público em geral).
Grande parte desse trabalho consiste em acompanhar a árvore telefônica (ou equivalente em papel) na instituição financeira regulada para que deem mais atenção às preocupações dos clientes que já aconteceram até agora. Dá para *imaginar* um regulador decidindo, sabe, talvez isso devesse ser aprimorado com LLM.
Existem vários motivos pelos quais ninguém vai ligar isso imediatamente em 2025, mas não acho que esses motivos prevaleçam indefinidamente.
@michael_nielsen A versão artesanal era: "Um nome pode ser, digamos, evocativamente como uma ilustração, um ponteiro no espaço de ideias." A versão do LLM é "Sério, isso é super útil, veja os pesos."
@michael_nielsen Além das pessoas, acho que obras também podem ser feitiços mágicos para isso. Ver como um Estado significa algo para muitas pessoas na área de tecnologia, mesmo que nunca tenham lido sobre gestão florestal alemã, e um LLM também pode seguir esse conselho.
@michael_nielsen Que época maravilhosa para estar vivo, onde a recompensa por um dia duro de trabalho é lançar um novo feitiço no universo. Cada vez mais, não no sentido evocativo e ilustrativo, mas "Não, a humanidade em geral e potencialmente para sempre pode simplesmente clonar esse letra."
13,29K