el arnés te permite llegar mucho más lejos solo arriesgándote, pero el rendimiento puede mejorarse drásticamente con un poco de perfilado. ¿Qué está utilizando el contexto? ¿Qué está ocupando el espacio? Mira las trazas. ¿Qué está saturando la memoria? ¿Qué está fallando y lanzando errores? ¿Qué está tardando demasiado (300 veces demasiado) (porque se está cargando en fp32 en lugar de fp16 y cambiando a la memoria del sistema?
¿Cuáles son las inclinaciones del modelo? ¿Qué puedes construir en el entorno para mejorar la capacidad basada en estas inclinaciones? ¿Cómo puedes mejorar la coherencia a largo plazo y la memoria?
72