Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Akshay 🚀
¡Simplificando LLM, agentes de IA, RAG y aprendizaje automático para usted! • Cofundador @dailydoseofds_• BITS Pilani • 3 patentes • ex-ingeniero de IA @ LightningAI
Estás en una entrevista para Ingeniero de ML en Stripe.
El entrevistador pregunta:
"Las personas a menudo disputan transacciones que realmente realizaron.
¿Cómo construirías un modelo que prediga estas disputas falsas sin datos etiquetados?"
Tú: "Marcaré las tarjetas con altas tasas de disputa."
Entrevista terminada.
Esto es lo que te perdiste:
Hay una técnica llamada Aprendizaje Activo que te permite construir modelos supervisados sin datos etiquetados. Es más barato y rápido que la anotación manual.
La idea es simple: obtener retroalimentación humana sobre ejemplos donde el modelo tiene más dificultades.
Así es como funciona:
↳ Comienza pequeño: Etiqueta manualmente el 1-2% de tus datos. Construye tu primer modelo con este pequeño conjunto de datos. No será bueno, pero ese es el punto.
↳ Genera predicciones: Ejecuta el modelo en datos no etiquetados y captura las puntuaciones de confianza. Los modelos probabilísticos funcionan bien aquí: observa la diferencia entre las dos clases predichas más altas.
↳ Etiqueta estratégicamente: Clasifica las predicciones por confianza. Haz que los humanos etiqueten solo los ejemplos de menor confianza. No tiene sentido etiquetar lo que el modelo ya conoce.
↳ Repite y mejora: Alimenta los datos etiquetados de nuevo al modelo. Entrena de nuevo. El modelo se vuelve más inteligente sobre lo que no sabe.
Detente cuando el rendimiento cumpla con tus requisitos.
Un consejo profesional: Usa predicciones de alta confianza como pseudo-etiquetas junto a tus datos iniciales. Esto se llama aprendizaje cooperativo, y acelera aún más las cosas.
Una cosa a tener en cuenta: Tu medida de confianza debe ser confiable. Si te equivocas en esto, cada iteración de entrenamiento sufre.
El aprendizaje activo ahorra semanas de tiempo de etiquetado. Empresas como Google y Meta lo utilizan para construir modelos en enormes conjuntos de datos no etiquetados.
👉 Te toca a ti: ¿Has utilizado aprendizaje activo en producción?
En mi próximo tweet, encontrarás un enlace a mi repositorio de GitHub de código abierto, ai-engineering-hub. Presenta más de 90 proyectos prácticos con código.
Todo es 100% de código abierto (más de 21k estrellas 🌟)

7,76K
¡Finalmente, una biblioteca de Python de código abierto para la ingeniería de contexto!
Pixeltable es un marco unificado y declarativo que maneja toda tu tubería multimodal, desde el almacenamiento de datos hasta la ejecución del modelo.
La idea es simple: en lugar de unir una base de datos vectorial, una base de datos SQL, un servicio de incrustación y un marco de agentes, todo vive en un solo sistema.
Tus documentos, incrustaciones, historial de conversaciones y salidas de agentes son solo tablas. Las incrustaciones son columnas calculadas que se actualizan automáticamente. La búsqueda vectorial funciona junto a tus operaciones de datos regulares.
¡Construido para la ingeniería de contexto de extremo a extremo!
He compartido un cuaderno inicial sobre cómo construir una tubería de ingeniería de contexto con Pixeltable.
Detalles en la publicación citada a continuación:

Akshay 🚀19 nov, 20:33
El 95% de la ingeniería de IA es solo ingeniería de contexto.
Todos están obsesionados con mejores modelos mientras que el contexto sigue siendo el verdadero cuello de botella.
Incluso el mejor modelo del mundo te dará basura si le das la información incorrecta.
Aquí está lo que la mayoría de la gente pasa por alto:
La ingeniería de contexto no se trata solo de RAG o memoria o agentes. Es el arte y la ciencia de entregar la información correcta, en el formato correcto, en el momento correcto, a tu LLM.
Piensa en lo que realmente necesitas:
↳ Recuperación para obtener documentos relevantes
↳ Memoria a corto plazo para seguir conversaciones
↳ Memoria a largo plazo para recordar preferencias del usuario
↳ Agentes para orquestar todo
↳ Herramientas para extender capacidades
Eso son 5 sistemas diferentes que tienes que construir, conectar y mantener.
He estado construyendo con Pixeltable recientemente, y es un enfoque interesante para este problema. Es de código abierto y trata la ingeniería de contexto como un problema de datos unificado:
La idea es simple: en lugar de unir una base de datos vectorial, una base de datos SQL, un servicio de incrustación y un marco de agentes, todo vive en un solo sistema.
Tus documentos, incrustaciones, historial de conversaciones y salidas de agentes son solo tablas. Las incrustaciones son columnas calculadas que se actualizan automáticamente. La búsqueda vectorial funciona junto a tus operaciones de datos regulares.
Lo que encuentro útil:
↳ Pipelines RAG sin gestionar bases de datos separadas
↳ Memoria a largo plazo a través de búsqueda vectorial sobre conversaciones históricas
↳ Flujos de trabajo multi-agente que persisten automáticamente
↳ Gestión del presupuesto de tokens integrada en el marco
No es mágico, pero elimina gran parte de la sobrecarga de integración. No estás luchando con tres APIs diferentes para hacer que la recuperación, la memoria y los agentes funcionen juntos.
He compartido un cuaderno inicial en el siguiente tweet sobre cómo construir un pipeline de ingeniería de contexto con Pixeltable. Cubre todos los componentes y cosas que hemos discutido aquí.
Todo es 100% de código abierto.

28,75K
El 95% de la ingeniería de IA es solo ingeniería de contexto.
Todos están obsesionados con mejores modelos mientras que el contexto sigue siendo el verdadero cuello de botella.
Incluso el mejor modelo del mundo te dará basura si le das la información incorrecta.
Aquí está lo que la mayoría de la gente pasa por alto:
La ingeniería de contexto no se trata solo de RAG o memoria o agentes. Es el arte y la ciencia de entregar la información correcta, en el formato correcto, en el momento correcto, a tu LLM.
Piensa en lo que realmente necesitas:
↳ Recuperación para obtener documentos relevantes
↳ Memoria a corto plazo para seguir conversaciones
↳ Memoria a largo plazo para recordar preferencias del usuario
↳ Agentes para orquestar todo
↳ Herramientas para extender capacidades
Eso son 5 sistemas diferentes que tienes que construir, conectar y mantener.
He estado construyendo con Pixeltable recientemente, y es un enfoque interesante para este problema. Es de código abierto y trata la ingeniería de contexto como un problema de datos unificado:
La idea es simple: en lugar de unir una base de datos vectorial, una base de datos SQL, un servicio de incrustación y un marco de agentes, todo vive en un solo sistema.
Tus documentos, incrustaciones, historial de conversaciones y salidas de agentes son solo tablas. Las incrustaciones son columnas calculadas que se actualizan automáticamente. La búsqueda vectorial funciona junto a tus operaciones de datos regulares.
Lo que encuentro útil:
↳ Pipelines RAG sin gestionar bases de datos separadas
↳ Memoria a largo plazo a través de búsqueda vectorial sobre conversaciones históricas
↳ Flujos de trabajo multi-agente que persisten automáticamente
↳ Gestión del presupuesto de tokens integrada en el marco
No es mágico, pero elimina gran parte de la sobrecarga de integración. No estás luchando con tres APIs diferentes para hacer que la recuperación, la memoria y los agentes funcionen juntos.
He compartido un cuaderno inicial en el siguiente tweet sobre cómo construir un pipeline de ingeniería de contexto con Pixeltable. Cubre todos los componentes y cosas que hemos discutido aquí.
Todo es 100% de código abierto.

39,98K
Parte superior
Clasificación
Favoritos
