我终于到了一个地步,我依赖的足够多的东西都是 b200 + cuda + torch 特定的,以至于我无法在 TPUs 上用 Jax 得到相同的结果。这真是一个意想不到的转折。