Mehr Vortraining verbessert die Leistung von GEN-0-Echtrobotern (durch blinde A/B-Bewertungen mit geschlossenen Schleifen-Rollouts). Die Verbesserungen sind signifikant im Niedrigdatenregime, aber die besten Modelle gedeihen sowohl mit Vortraining als auch mit reichlich Nachtraining. Siehe Blog-Anhang: