Cercetări noi din cadrul Programului Anthropic Fellows: Masca selectivă GradienT (SGTM). Studiem cum să antrenăm modelele astfel încât cunoștințele cu risc ridicat (de exemplu, despre arme periculoase) să fie izolate într-un set mic și separat de parametri care pot fi eliminați fără a afecta modelul pe scară largă.