niedawno próbowaliśmy dostosować VLA do wykonania prostego zadania, a wypadł gorzej niż model ACT o 10M parametrów wytrenowany od zera czegoś brakuje w przepisie. próbujemy ustalić, co to jest. dlatego jeszcze nie wypuściliśmy moonvla. zignorujcie szum