当前通讯!GPT-4参数最新爆料!1.76万亿参数,8个2200亿MoE模型,PyTorch创始人深信不疑
2023-06-22 15:42:56 来源:清一色财经
GPT-4远不止1万亿,甚至,还是8个2200亿参数组成的混合专家模型。
家人们,GPT-4的参数可能还真不止1万亿!
(相关资料图)
近来,美国知名骇客George Hotz在接受采访时透露,GPT-4由8个220B模型组成。
这么算来,8 x 220B = 1.76万亿。
就连PyTorch的创建者Soumith Chintala对此也深信不疑。
GPT-4:8 x 220B专家模型用不同的数据/任务分布和16-iter推理进行训练。
如果真是这样的话,GPT-4的训练可能更加有效。
1.76万亿「八头蛇」?
在GPT-4还未放出之前,GPT-3有1750亿个参数,一众网友猜测GPT-4岂不是要逆天,最起码1万亿。
而George在接受Latent Space的采访时,对GPT4架构的描述着实让人震惊。
他的部分原话如下:
GPT-4每个head都有2200亿参数,是一个8路的混合模型。所以,混合模型是当你想不出办法的时候才会做的。OpenAI训练了相同模型8次,他们有一些小技巧。他们实际上进行了16次推断。
他特别强调,OpenAI做了8个混合专家模型,任何人可以花8倍资金都能训练出来。
也就是说,人们能够训练更小模型更长时间,微调后,就能找到这些技巧。
OpenAI曾经发表类似关于让计算量不变的情况下,让训练更好的算法,比较像BatchNorm和NoBatchNorm。
网友热评
就像George所说,这是8个较小的模型,如果有足够资金训练8个混合模型,这是一个微不足道的解决方案。
所以,GPT-4是GPT-3的10倍,而1月份的所有小圈圈大圈圈的meme实际上是……真的?!
网友得知秘诀后,打算自己也要训练一个LLaMA集合体与GPT-4竞争。
还有网友称,这有点像LLM-Blender。
我早就听到了稍微可信的传言,说GPT-4将是MoE,但从未得到证实。MoE和大约1万亿个参数不会让我感到惊讶,这听起来极为合理。
还有网友进行深度分析:
老实说,我预计这将是人工智能架构的下一阶段。我们已经看到特定任务模型在任务中的表现比一般模型好得多。
因此,将许多特定任务模型组合在一起将是下一个合乎逻辑的步骤。这几乎使升级系统变得容易得多,一次只能处理一个模型。
话虽如此,OpenAI以一种未来可能会,也可能不会的方式做到了这一点。显然,组合系统可能会有更多的小模型,而不是几个更大的模型。
如果这是真的,这是否意味着每个220B模型也有32K的上下文长度?
网友下了功夫,给它命名为「九头蛇」。
关键词:
[责任编辑:]
相关阅读
- (2025-12-05)元宇宙失宠?Meta拟大砍业务预算最高30%,累计亏损超700亿美元
- (2025-12-05)和龙:施工不停步 抢建“加速度”-百事通
- (2025-12-05)13:30!A股直线拉升!原因找到了!
- (2025-12-05)孟鹤堂管乐领衔欢聚大银幕,《小气鬼》杀青 要闻速递
- (2025-12-05)多元金融板块短线拉升 瑞达期货涨停_热闻
- (2025-12-05)印度央行调节市场流动性
- (2025-12-05)基金投资该如何分散配置?_快看
- (2025-12-05)“饿了么”正式更名“淘宝闪购”,网友:买了橙色冲锋衣,结果还是像送外卖的
- (2025-12-05)新国标“铁皮座椅”“不能带小孩”? 误读!
- (2025-12-05)孚能科技获广汽埃安欧洲车型项目定点 订单总电量超10GWh 当前资讯
- (2025-12-05)动力电池概念股一览来了!动力电池概念股看这里(12/4)-每日播报
- (2025-12-05)朗信电气:新品收入占比不足4%且售价滑坡 样品定型近九年尚处于未稳定生产阶段
- (2025-12-05)居然智家:融资净买入948.73万元,融资余额2.67亿元(12-04) 每日快报
- (2025-12-05)每日关注!魔方《暗区突围:无限》S4赛季定档12月26日;《王者万象棋》开启大规模冬季测试 | 游戏早参
- (2025-12-04)每日关注!鄂尔多斯:公司的多晶硅目前不能在期货市场交割
- (2025-12-04)极智嘉-W(02590)建议实施H股全流通
- (2025-12-04)盐宜高铁长江隧道盾构始发井主体结构开始施工 每日焦点
- (2025-12-04)宪法宣传暖心惠民
- (2025-12-04)12月4日:“温控/液冷”题材公司(名单来喽)
- (2025-12-04)每日热议!巧家县达凯建材经营部(个体工商户)成立 注册资本3万人民币
- (2025-12-04)海融科技跌6.51% 2020年上市即巅峰超募5.4亿
- (2025-12-04)年末车市订单遭“疯抢”:主机厂加码促销政策、近20品牌推购置税“兜底”
- (2025-12-04)热门:从流量争夺到品质竞争 微短剧步入“免费模式”下半场
- (2025-12-04)焦点讯息:银行账户分类管理有哪些要点?
- (2025-12-04)情系“一老一小一残”,福彩公益金助力盐城阜宁托举民生幸福|观察
- (2025-12-04)生意社:12月4日山东隆汇白炭黑价格持稳运行 每日资讯
- (2025-12-04)头条焦点:东营国资成立低空经济投资发展公司,含AI业务
- (2025-12-04)光通讯三大龙头公司有哪些(2025/12/4) 快资讯
- (2025-12-04)焦点资讯:12月4日刀片电池板块跌幅达2%
- (2025-12-04)Shams:字母哥已向其他球队开放谈判,尼克斯将不是唯一潜在下家|每日简讯
元宇宙失宠?Meta拟大砍业务预算最高30%,累计亏损
和龙:施工不停步 抢建“加速度”-百事通
13:30!A股直线拉升!原因找到了!
孟鹤堂管乐领衔欢聚大银幕,《小气鬼》杀青 要闻速
多元金融板块短线拉升 瑞达期货涨停_热闻



