跳转至主要内容
行情
扫链
追踪
信号
牛人榜
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
Giveaway
完成指定任务,领取空投好礼
交易赛
交易热门代币,冲榜赢大奖
奖励中心
领取奖励和空投
预警
语言
货币
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
学院
帮助中心
发现功能使用指南
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
+10.96%
USELESS
+4.86%
IKUN
+40.19%
gib
+5.18%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-1.14%
ALON
-11.27%
LAUNCHCOIN
-6.75%
GOONC
+10.3%
KLED
-3.72%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
+0.42%
Boopa
+8.41%
PORK
+6.53%
主页
Zephyr
DM 已开放 订阅 X 阅读我关于科技、人工智能、半导体的文章
查看原文
Zephyr
7 小时前
"Gemini 3 Pro 的幻觉率在评估中为 88%,与 Gemini 2.5 Pro 和 Gemini 2.5 Flash 相同。这表明 Gemini 3 Pro 在知识上取得了实质性进展,但在幻觉倾向上并没有显著改善。" 这个模型是匆忙推出的,还是他们把所有赌注都押在了扩展上?
Artificial Analysis
7 小时前
Gemini 3 Pro 刚刚在我们的新 AA-Omniscience 指数中获得了第 #1 名——但这是一个复杂的故事 AA-Omniscience 是我们新的知识和幻觉评估。Gemini 3 Pro 的领导地位源于其高准确率(正确百分比);该模型的得分比下一个最高准确率的模型 Grok 4 高出 14 分。Gemini 3 Pro 在评估中的幻觉率为 88%,与 Gemini 2.5 Pro 和 Gemini 2.5 Flash 相同。这表明 Gemini 3 Pro 在知识方面取得了显著进展,但在幻觉倾向上并没有实质性的改善。 我们根据模型在应该拒绝时错误回答的频率来衡量幻觉率,定义为错误答案占所有非正确尝试的比例。在 AA-Omniscience 中,我们发现准确率与幻觉率之间几乎没有相关性。 此外,我们发现开放权重模型的大小与准确率之间存在高度相关性(但与幻觉率无关)。因此,Gemini 3 Pro 的非常高的准确率表明它是一个非常大的模型。 有关 AA-Omniscience 的更多详细信息,请参见下文 👇
121.44K
271
Zephyr
11 小时前
那么苹果模型是 Gemini 3 Flash 微调(超稀疏 MoE)吗? 有些人推测 Gemini 2.5 Flash 拥有超过 500B 的参数。 Gemini 3 Pro 当然在 5T+ 的范围内。
9.64K
55
Zephyr
13 小时前
是的 现在的写作风格和语气好多了
Haider.
23 小时前
xAI 本该将 Grok 4.1 称为 "Grok 4.5",因为这个跳跃实在太大了 Grok 4.1 使用大规模的强化学习和新的代理奖励模型来提升: - 创意写作 - 个人语调控制 - 情感智能 而最大的胜利,鲜有人注意到的是,幻觉的显著减少: • Grok 4: 12.09% • Grok 4.1: 4.22% 这大约是幻觉减少了三倍,约为三分之二的减少
6.03K
19
热门
排行
收藏