Мне кажется странным, что люди думают, что они квантизируют пограничные модели - на мой взгляд, почти на 100%, что все они уже работают на fp4, и все, что ниже, не оптимизировано для графических процессоров nvidia, и я бы предположил, что это касается tpus и trainium и так далее.
@mikechrzano Мне сказали, что b300s были специально разработаны с учетом потребностей openai в fp4 flops - предположительно, потому что они теперь все делают в fp4.
1,03K