Ich gebe mein Bestes, um in diesen Modellen zu finden, was das Team, das sie trainiert hat, vermitteln wollte. Ich möchte die Farbe und die Kunst fühlen. Viele dieser Modelle haben kein Herz, selbst nachdem sie mit dem gesamten Wissen der Menschheit trainiert wurden. Ich hasse das.
Diese Architektur (qwen3 next) ist sehr interessant, aber ich bin derzeit nicht überzeugt, dass sie besser ist als die Gemini 2.5 Flash Longformer + Matformer-Architektur aus Sicht der Effizienz / Qualität (keine OSS-Beispiele dafür). Ich würde jedoch gerne etwas Zeit damit verbringen, damit zu experimentieren.