Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

宝玉
Prompt Engineer, der sich dem Erlernen und Verbreiten von Wissen über KI, Software-Engineering und Engineering-Management widmet.
Meine ersten beiden Schritte sind umgekehrt, zuerst lasse ich AI interpretieren und filtern, dann entscheide ich, ob ich den gesamten Text lesen möchte.

凡人小北Vor 4 Stunden
Andrej Karpathy, diese Lesemethode ist interessant…
Im Grunde genommen:
Zuerst liest man den Artikel/das Kapitel von Anfang bis Ende, um einen groben Überblick zu bekommen;
Beim zweiten Durchgang lässt man LLM erklären + zusammenfassen, um zu sehen, wie es die Informationen ordnet;
Der dritte Schritt ist ein direktes Q&A, bei dem man die Punkte, die man vertiefen möchte, nacheinander fragt.
Es ist sehr interessant, dass das Lesen von einer Person, die sich intensiv mit einem Text beschäftigt, zu einer Interaktion zwischen einer Person und einer KI beim Entschlüsseln von Texten geworden ist.
Diese Methode kann gut das Problem lösen, dass man etwas gelesen hat, aber nichts wirklich hängen geblieben ist.
3,89K
Von dem X-Konto TestingCatalog gibt es Neuigkeiten: Google hat im Gemini Enterprise eine neue Multi-Agenten-"Automatisierte Forschungs"-Modus hinzugefügt.
Google entwickelt ein Multi-Agenten-System in Gemini for Enterprise. Du gibst ihm ein Thema und eine Reihe von Bewertungskriterien, und es kann selbst eine Menge Ideen generieren und ein ganzes Team von Agenten zusammenstellen, um diese Ideen in mehreren Runden wie in einem Turnier zu bewerten.
Dieses System kann etwa 40 Minuten am Stück arbeiten. Für ein Produkt, das sich an normale Unternehmensbenutzer richtet, ist das bereits ein sehr langes kontinuierliches Denkverfahren.
Am Ende dieser 40 Minuten erhält der Benutzer eine lange Liste von Ideen, die nach den ursprünglich festgelegten Kriterien von gut nach schlecht sortiert sind. Der Umfang ist ebenfalls nicht klein: Das System kann etwa 100 Ideen auf einmal generieren. Für jede Idee erhältst du:
- Eine Übersicht
- Eine detailliertere Beschreibung
- Eine Zusammenfassung der Bewertungen
- Eine vollständige lange Bewertung
- Und einen speziellen "Turnierleistungsbericht" (tournament performance report)
Dieser "Leistungsbericht" ist auch eine separate Ausgabe, die man separat öffnen und in Ruhe ansehen kann. Alle generierten Ideen sind wählbar, du kannst auf jede beliebige klicken und weiter vertiefen.
In der aktuellen Beta-Version scheint Google drei Agenten eingebaut zu haben, von denen zwei auf diesem Multi-Agenten-"Turniersystem" basieren.
Der erste heißt "Idea Generation" (Ideenentwicklung).
In diesem Modus musst du nur ein Thema angeben, und dieser Agent startet den gesamten Multi-Agenten-Workflow, um verschiedene relevante Ideen mit einer "Turnierbewertung" (tournament-style evaluation) zu generieren und zu sortieren. (Das sogenannte Turnier bedeutet, dass die Vorschläge ständig gegeneinander "antreten", die Gewinner bleiben, die Schwächeren werden eliminiert.)
Der zweite heißt "Co-scientist" (Co-Wissenschaftler).
Dieser ist eher auf Forschungs- und Wissenschaftsszenarien ausgerichtet. Du kannst ein Forschungsthema angeben und einige zusätzliche Daten bereitstellen, dann wird ein ganzes Team von Agenten zunächst Forschungsrichtungen und -vorschläge generieren und diese Ideen mit demselben Turniermechanismus bewerten, wobei diesmal mehr Wert auf die Bedürfnisse der Forschung und wissenschaftlichen Erkundung gelegt wird.
Das Interessanteste daran ist, dass offensichtlich sehr beeindruckende Rechenleistung dahinter steckt. Es erlaubt den Agenten, etwa 40 Minuten lang kontinuierlich an einer Aufgabe zu arbeiten, was in den meisten aktuellen Agenten-Tools als "Luxuskonfiguration" gilt.
Während dieser gesamten 40 Minuten wird das System ständig die Frage iterieren, ununterbrochen generieren, filtern, bewerten und umstrukturieren. Derzeit tritt all dies nur in Gemini for Enterprise auf, befindet sich in der internen Entwicklungsphase und ist für normale Benutzer verborgen, da es noch nicht in Form einer offiziellen Funktion veröffentlicht wurde.
Im Vergleich zu bestehenden Agentenimplementierungen scheint dieses System einen deutlichen Fortschritt darzustellen. Selbst bei fortgeschrittenen Agenten, die bereits einen Browsermodus haben, sind sie normalerweise durch das Kontextfenster und das Zeitbudget (time budget) eingeschränkt.
Und diesmal ist Googles Ansatz, eine große Menge an Rechenleistung "offen auf den Tisch" für Unternehmenskunden bereitzustellen und ein echtes Frontend-Produktinterface zu schaffen. Dies passt auch sehr gut zum Konzept der "Level 3 AI": Diese Ebene von AI-Agenten wird beschrieben als solche, die in der Lage sind, über einen längeren Zeitraum an derselben Frage zu arbeiten. (Hier ist Level 3 kein einheitlicher Standard, sondern eher eine informelle Klassifizierung in der Branche für "Agenten, die lange Zeit kontinuierlich arbeiten können"). Aus dieser Perspektive ist es ein sehr typisches, sogar radikales Beispiel, einen Agenten 40 Minuten lang an einer einzelnen Aufgabe arbeiten zu lassen.
In der praktischen Anwendung ist der Kern dieser Systemausgabe eine "ausreichend gefilterte und verfeinerte Sammlung von Ideen". Aber sie sind weit mehr als nur eine Ansammlung von Vorschlägen; sie können als eine Gruppe von strukturierten Forschungsrichtungen betrachtet werden: In Anbetracht der von dir bereitgestellten Daten und des Problemkontexts könnten diese Richtungen tatsächlich auf wertvolle Erkenntnisse hinweisen. Daher treibt Google diese extrem leistungsstarke Agentenfähigkeit voran, die speziell für Organisationen, Unternehmen und Forschungsteams gedacht ist, was an sich sehr faszinierend ist.
Wenn diese Funktion tatsächlich veröffentlicht wird, könnte es ein bedeutender Sprung sein, insbesondere wenn diese Agenten letztendlich von Gemini 3 Pro betrieben werden. Derzeit ist Gemini 3 Pro noch nicht in Gemini Enterprise integriert, daher ist noch unklar, welches Modell hinter diesen experimentellen Agenten konkret verwendet wird.
Es gibt immer noch viele Dinge, die getestet und validiert werden müssen. Wenn du einen Prompt an dieses System übermittelst, gibt es zunächst eine Übersicht darüber, "was geplant ist": In welchen Dimensionen wird bewertet, aus welchen Richtungen sollen Ideen generiert und gefiltert werden. Nur wenn du diese Übersicht bestätigst, wird das System tatsächlich die "große Aufgabe" starten. Das ist vergleichbar damit, bevor man eine große Menge an Rechenleistung verbrennt, zuerst mit dir abzustimmen, "wie ich deine Frage verstehen möchte".
Neben dem Multi-Agenten-Turnier-Workflow gibt es in Gemini Enterprise einen weiteren Agenten namens "chat with your docs" (mit deinen Dokumenten chatten), der mit einer eigenen UI ausgestattet ist. Dieser Agent erlaubt es Benutzern, PDFs mit einer maximalen Größe von 30 MB hochzuladen und speziell mit diesen Dokumenten zu interagieren.
Diese Funktion gehört ebenfalls zu Gemini Enterprise und ist derzeit noch nicht veröffentlicht und vorübergehend in der Produktionsumgebung nicht verfügbar. Der Designansatz ist: Inhalte von maximal 30 MB PDF können analysiert und in den Kontext des Modells geschrieben werden, sodass Benutzer wertvollere Informationen aus vorhandenen Dokumenten extrahieren können, anstatt nur selbst durchzublättern.
In Gemini Enterprise sind noch viele andere Funktionen in der Entwicklung, aber die wirklich auffälligsten sind diese beiden Linien:
1. Multi-Agenten-Turnier-Workflow
2. Spezieller Agent für Dokumente
Insbesondere die auf Turnieren basierende Multi-Agenten-Architektur scheint eine bahnbrechende Produktlinie zu sein – andere Anbieter von großen Sprachmodellen (LLM) scheinen derzeit auf dieser Ebene den Benutzern nichts Ähnliches anzubieten. Multi-Agenten-Turniere sind in Tools für Endbenutzer nach wie vor sehr selten. Vielleicht kann man Grok Heavy als eine Art Vergleich heranziehen, aber es ist wahrscheinlich nicht ganz dasselbe wie Googles Ansatz.
Wenn diese Agenten ausgereift sind, wäre es sehr wertvoll, eine offizielle Bewertung und Benchmark-Tests zu sehen. Allein aus der jetzigen Beschreibung scheint der Co-scientist-Agent bereits viele große Organisationen und Forschungsteams zu begeistern – insbesondere die, die neue wissenschaftliche Richtungen erkunden.
Wann diese Agenten offiziell online gehen oder ob sie für Nicht-Unternehmensbenutzer zugänglich gemacht werden, ist derzeit noch ungewiss.
Quelle:
8,11K
Top
Ranking
Favoriten

