DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Akshay 🚀

Simplificarea LLM-urilor, a agenților AI, a RAG-urilor și a învățării automate pentru dvs.! • Co-fondator @dailydoseofds_• BITS Pilani • 3 brevete • ex-inginer AI @ LightningAI

Construiesc agenți AI în producție de peste un an. Iată o problemă comună cu care se confruntă dezvoltatorii când scalează agenții în producție: De obicei, jonglează între servicii separate pentru vectori, date structurate și sesiuni. Trei pool-uri de conexiuni diferite. Trei strategii de rezervă. Trei panouri de monitorizare. Bucla de agenți în sine este simplă, cu raționament, unelte și memorie, dar infrastructura devine blocajul. Dacă vrei să vezi o metodă mai curată de a gestiona asta, eu am construit un agent folosind @MongoDB ca backend unică pentru orice. Am colaborat cu echipa lor pentru a vă împărtăși acest lucru. Contextul este simplu: ↳ Începe cu un document PDF. Agentul va răspunde la întrebări despre acest subiect, amintindu-și conversațiile anterioare. ↳ Mai întâi, fragmentează PDF-ul și încorporez-l folosind modelul Voyage AI. Aceste embedding-uri merg direct în MongoDB cu un indice vectorial. ↳ Atunci definești două unelte: unul pentru căutarea vectorială, unul pentru calcule de bază dacă este nevoie. Agentul decide pe care să o folosească pe baza interogării. ↳ Memoria este stocată în aceeași bază de date sub ID-uri de sesiune. Fiecare interacțiune a agentului este scrisă înapoi, astfel încât să poată face referire la turele anterioare. ↳ Planificatorul leagă totul împreună. Se uită la istoricul conversațiilor, decide dacă are nevoie de un instrument, îl execută și generează răspunsul final. Aici contează backend-ul unificat: Când agentul caută context, interogează aceeași bază de date care stochează sesiunile utilizatorilor și datele structurate. Când scrie în memorie, aceeași instanță MongoDB se ocupă de embedding-urile vectoriale. Am împachetat totul într-o interfață Streamlit pentru a urmări agentul lucrând. Când trimit o interogare, îți arată ce unealtă a ales, ce a recuperat și cum a raționat până la răspuns. Arhitectura rămâne flexibilă deoarece poți schimba ușor orice model de embedding sau LLM dorești. Iar când ești gata să trimiți, gestionezi o singură bază de date. Nu trei. O abordare similară este detaliată și în AI Learning Hub al MongoDB. Dacă vrei să aprofundezi mai multe tipare de inginerie AI ca acesta... Are piste auto-ritmate care acoperă fundamentele căutării vectoriale, arhitecturile RAG, gestionarea memoriei pentru agenți și tutoriale practice cu LangGraph .js. Am împărtășit întregul depozit de #MongoDB în răspunsuri.

Ești la un interviu pentru inginer AI la Google. Intervievatorul întreabă: "Datele noastre sunt răspândite în mai multe surse (Salesforce, Gmail, Drive etc.) Cum ai construi un motor unificat de interogări peste el?" Tu: "Voi încorpora totul într-o bază de date vectorială și voi face RAG." Interviu încheiat! Mulți dezvoltatori încă cred că recuperarea contextului este o conductă liniară: Chunk → Embed → Retrieve → Generate Acest lucru funcționează foarte bine pentru demo-uri simple, dar sistemele de producție au nevoie de ceva fundamental diferit. Pentru a înțelege mai bine, ia în considerare această întrebare: "Comparați performanța noastră de vânzări din trimestrul 4 din regiunea Chicago cu proiecțiile de anul trecut formulate într-o întâlnire cu părțile interesate." Această singură interogare necesită: - Date de vânzări din baza ta de date SQL - Relații de graf (ierarhie organizațională) - Căutare vectorială peste rapoarte de proiecție - Filtrare bazată pe timp (trimestrul 4 anul acesta față de anul trecut) - Verificări de permisiuni (pentru autorizarea utilizatorului) Nicio căutare de embedding nu poate gestiona această complexitate! Pentru a rezolva efectiv această problemă, ar trebui să construiești un sistem de recuperare a contextului Agentic cu cinci straturi critice: > Stratul de indexare: Conținutul diferit necesită o indexare diferită: - Fragmentare semantică pentru documentare - Indexare ierarhică pentru conținutul imbricat - Indexare specială pentru surse precum Calendar, Slack etc. > Stratul de rutare: Înainte de recuperare, ai nevoie de rutare inteligentă care să decidă: - Ar trebui interogarea să ajungă într-o bază de date de tip graf? - Are nevoie de o interogare SQL structurată? - Sau căutare semantică pentru potrivirea conceptuală? > Stratul de construcție al interogărilor: Interogarea inițială ar putea trebui să fie: - Descompusă în subinterogări - Tradus în diferite limbaje de interogare (SQL, Cypher, similaritate vectorială) > Stratul de recuperare: - Aplică permisiuni și verificări de acces - Rularea mai multor recuperări în paralel - Reclasificare în funcție de relevanță/recentitate > Stratul de generare: - Sintetizarea unui răspuns susținut de citări Asta înseamnă luni de inginerie până când prima ta cerere ajunge în producție. Este cu siguranță o problemă grea de rezolvat... ... dar exact așa companii precum Google (Vertex AI), Microsoft (Azure AI Search) și AWS (Amazon Q) și-au construit agenții de producție. Dacă vrei să vezi asta în practică, această abordare este implementată de fapt în Airweave, un framework open-source 100% în trend recent, care oferă stratul de recuperare a contextului pentru agenți în 40+ aplicații și baze de date. Implementează întregul stack de producție pentru recuperarea contextului discutată mai sus, cum ar fi: - Indexare specifică sursei - Extinderea interogărilor - Rutare inteligentă - Recuperare multi-sursă - Răspuns susținut de citări asemănător perplexității - Sincronizare în timp real pentru detectarea modificărilor și reîmprospătarea optimă a datelor indexate De exemplu, sistemele naive folosesc comparații de marcaj temporal pentru sincronizare, care declanșează reîncorporații complete chiar și atunci când doar metadatele se schimbă (cum ar fi permisiunile). Airweave folosește hashing de conținut pentru a detecta schimbările reale de conținut, așa că reprocesezi doar ce s-a schimbat efectiv. În final, totul este orchestrat cu fluxuri de lucru temporale pentru fiabilitate. Poți vedea implementarea completă pe GitHub și poți încerca singur. Ca concluzie, amintește-ți că recuperarea contextului pentru Agenți este o problemă de infrastructură, nu de încorporare. Trebuie să construiești pentru sincronizare continuă, chunking inteligent și căutare hibridă încă din prima zi. Am împărtășit repository-ul Airweave în următorul tweet!

Limită superioară

Clasament

Favorite