În timp ce modelele de frontieră excelează în căutarea agențică, ele sunt prohibitiv de costisitoare și lente pentru astfel de sarcini intensive de token. Aceasta este o problemă, deoarece precizia căutării tinde să se scaleze cu tokenurile procesate. Soluția este reprezentată de modele mici, atent antrenate de RL, adaptate motoarelor de căutare individuale, care pot depăși modelele generale de frontieră, fiind în același timp cu una sau două ordine de mărime mai ieftine și mai rapide.