Google的秘密AI模型未来很可能在难题数学领域打败人类
财富使者
2024-07-19 19:26:25
0

在硅谷正在进行的开发具有类似人类反应的人工智能模型的竞赛中,Google分享了其 Gemini 1.5 Pro 模型的最新数据。与 ChatGPT 一样,Gemini 也使用人工智能来解决问题,而这一次,Google吹捧的是其产品的数学能力。人工智能模型因其解决大学水平任务的能力而成为衡量其"智力"的标准,Google的研究论文显示该模型提高了数学成绩,并成功解决了国际数学奥林匹克竞赛的部分问题。

上周,双子座人工智能模型的最新技术报告公布了其最新数学成绩的详细信息。这份相当厚重的文件显示,Google打算模仿数学家接受的训练来解决复杂的问题,为了实现这一目标,该公司对其双子座人工智能模型进行了专门的变体训练。

Gemini 1.5 Pro 的数学变体似乎经过了多项基准测试。根据其文件,Google依靠各种基准来评估其最新人工智能数学模型的输出。这些基准包括 MATH 基准、美国数学邀请考试 (American Invitational Mathematics Examination, AIME) 和Google内部的 HiddenMath 基准。

根据Google的数据,数学型 Gemini 1.5 Pro 在数学基准测试中的表现"与人类专家的表现相当",与标准的非数学型 Gemini 1.5 Pro 相比,数学型 Gemini 1.5 Pro 在 AIME 基准测试中解决的问题明显增多,在其他基准测试中的得分也有所提高。

Google还举例说明了 Gemini 1.5 Pro 所解决的问题。根据该文件,这些问题是"Gemini 1.5 Pro、GPT-4 Turbo 和以前所有 Gemini 型号都 没有正确解决的问题",最终提高了Google产品的性能标准。

在它分享的三个示例中,两个是由数学专用的 Gemini 1.5 Pro 解决的,而一个是由标准的 Gemini 1.5 Pro 变体错误解决的。这些问题通常要求解题者回忆代数中的基本数学公式,并依靠它们的分段和其他数学规则得出正确答案。

除了问题之外,Google还分享了 Gemini 1.5 Pro 基准测试的重要细节。这些数据表明,在所有五项基准测试成绩中,Gemini 1.5 Pro 都领先于 GPT-4 Turbo 和亚马逊的 Claude。

据Google公司称,其数学专用变体能够"从单个样本中获得 80.6% 的 MATH 基准准确率,在对 256 个解决方案进行采样并选择一个候选答案时(rm@256),准确率达到91.1%",这一成就使其与人类专家处于同等水平。事实上,根据Google深度思维首席科学家杰夫-迪恩(Jeff Dean)的说法,数学模型91.1%的得分大大高于三年前仅为6.9%的"SOTA"(最先进水平)得分。

相关内容

Google的秘密AI模型...
在硅谷正在进行的开发具有类似人类反应的人工智能模型的竞赛中,Goo...
2024-07-19 19:26:25
成立仅2年,做出能和人类对...
  成立仅2年,做出能和人类对话的人形机器人,Figure AI什...
2024-06-23 23:11:52
Rapidus社长:将以汽...
  2月27日,日本半导体公司Rapidus宣布,将代工生产Ten...
2024-06-13 23:37:47
3月7日基金净值:安信鑫日...
本站消息,3月7日,安信鑫日享中短债A最新单位净值为1.108元,...
2024-05-22 23:01:52

热门资讯

淘气天尊:市场出现这个信号,或... 周二市场呈现探底反弹的格局,投资者可以看到,早盘沪指高开1点于2737点,创业板高开1点于1540点...
我国学者提出新能源电池快充新方... 锂电池的充电速度、工作温度、安全性是电动汽车进一步发展的难点问题。浙江大学联合多家单位设计出一款新型...
APOLLO出行(00860H... 格隆汇3月17日丨APOLLO出行(00860.HK)公布,于2024年3月15日,公司与该等认购人...
广东新一批信访督查专员和督查员... 2月29日,第77批省信访督查专员和第15批督查员工作总结暨第78批省信访督查专员和第16批督查员到...
广州祺宸科技有限公司佛山分公司... 转自:金融界本文源自:金融界金融界2024年3月15日消息,广州祺宸科技有限公司佛山分公司因提供服务...
中国田径协会原主席于洪臣一审被...   北京1月30日电(记者 张素)记者从中国最高人民法院获悉,1月30日,湖北省黄石市中级人民法院一...
3月1日雄韬股份涨停分析:5G... 证券之星消息,雄韬股份涨停收盘,收盘价14.83元。该股于9点33分涨停,2次打开涨停,截止收盘封单...
田洪良:2月23日主要货币短线... 从技术上来看,美指周四上涨在104.15之下遇阻,下跌在103.40之上受到支持,意味着美元短线下跌...
东兴证券第三季净利降5623%... 中国经济网北京11月1日讯 东兴证券(601198.SH)近日公布的2023年第三季度报告显示,今年...
华庄科技业绩滑坡应收账款偏高:... 《港湾商业观察》乐沛淇2024年2月2日,广东华庄科技股份有限公司(以下简称,华庄科技)收到深交所第...