AI-agenter vidtar åtgärder åt oss: bokar flyg, skriver kod, fattar beslut. Men hur vet vi att de faktiskt gör vad de ska? 🤔