Si bien los modelos de frontera sobresalen en la búsqueda agencial, son prohibitivamente caros y lentos para tales tareas intensivas en tokens. Esto es un problema, ya que la precisión de la búsqueda tiende a escalar con los tokens procesados. La solución son modelos pequeños, cuidadosamente entrenados por RL y adaptados a motores de búsqueda individuales, que pueden superar a los modelos de frontera generales y ser uno o dos órdenes de magnitud más baratos y rápidos.