Die Transformer-Architektur ist grundsätzlich ein paralleler Prozessor für Kontext, aber das Denken ist ein sequenzieller, iterativer Prozess. Um komplexe Probleme zu lösen, benötigt ein Modell ein "Scratchpad" nicht nur in seinem Ausgabe-CoT, sondern auch in seinem internen Zustand. Eine differenzierbare Möglichkeit zu schleifen, zu verzweigen und zurückzuverfolgen, bis das Modell eine Lösung findet, die funktioniert.