GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了|世界实时
2023-06-21 22:00:20 来源:搜狐数码
机器之心报道
(资料图)
编辑:吴昕
George Hotz:除了苹果之外,大部分公司保密的原因都不是在隐藏什么黑科技,而是在隐藏一些「不那么酷」的东西。「GPT-4 的参数量高达 100 万亿。」相信很多人还记得这个年初刷屏的「重磅」消息和一张被病毒式传播的图表。
不过很快,OpenAI 的 CEO Sam Altman 就出来辟谣,证实这是一条假消息,并表示,「关于 GPT-4 的谣言都很荒谬。我甚至不知道这从何而起。」
实际上,许多人相信并传播这样的谣言是因为近年来 AI 社区不断在增加 AI 模型的参数规模。谷歌在 2021 年 1 月发布的 Switch Transformer 就把 AI 大模型参数量拉高到了 1.6 万亿。在此之后,很多机构也陆续推出了自己的万亿参数大模型。据此,人们有充分的理由相信,GPT-4 将是一个万亿参数的巨量模型,100 万亿参数也不是不可能。
虽然 Sam Altman 的辟谣帮我们去掉了一个错误答案,但他背后的 OpenAI 团队一直对 GPT-4 的真实参数量守口如瓶,就连 GPT-4 的官方技术报告也没透露任何信息。
直到最近,这个谜团疑似被「天才黑客」乔治・霍兹(George Hotz)捅破了。
乔治・霍兹因 17 岁破解 iPhone、21 岁攻陷索尼 PS3 而闻名,目前是一家研发自动驾驶辅助系统的公司(comma.ai)的老板。
最近,他接受了一家名为 Latent Space 的 AI 技术播客的采访。在采访中,他谈到了 GPT-4,称 GPT-4 其实是一个混合模型。具体来说,它采用了由 8 个专家模型组成的集成系统,每个专家模型都有 2200 亿个参数(比 GPT-3 的 1750 亿参数量略多一些),并且这些模型经过了针对不同数据和任务分布的训练。
在这段播客播出之后,PyTorch 创建者 Soumith Chintala 表示自己似乎听过同样的「传闻」,很多人可能也听过,但只有 George Hotz 在公开场合将其说了出来。
「混合模型是你在无计可施的时候才会考虑的选项,」George Hotz 调侃说,「混合模型的出现是因为无法让模型的参数规模超过 2200 亿。他们希望模型变得更好,但如果仅仅是训练时间更长,效果已经递减。因此,他们采用了八个专家模型来提高性能。」至于这个混合模型是以什么形式工作的,George Hotz 并没有详细说明。
为什么 OpenAI 对此讳莫如深呢?George Hotz 认为,除了苹果之外,大部分公司保密的原因都不是在隐藏什么黑科技,而是在隐藏一些「不那么酷」的东西,不想让别人知道「只要花 8 倍的钱你也能得到这个模型」。
对于未来的趋势,他认为,人们会训练规模较小的模型,并通过长时间的微调和发现各种技巧来提升性能。他提到,与过去相比,训练效果已经明显提升,尽管计算资源没有变化,这表明训练方法的改进起到了很大作用。
目前,George Hotz 关于 GPT-4 的「爆料」已经在推特上得到了广泛传播。
有人从中得到了灵感,声称要训练一个 LLaMA 集合来对抗 GPT-4。
还有人说,如果真的像 George Hotz 说的那样,GPT-4 是一个由 8 个 2200 亿参数的专家模型组合的混合模型,那很难想象背后的推理成本有多高。
需要指出的是,由于 George Hotz 并未提及消息来源,我们目前无法判断以上论断是否正确。有更多线索的读者欢迎在评论区留言。
责任编辑:
关键词:
[责任编辑:]
相关阅读
- (2023-06-21)GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了|世界实时
- (2023-06-21)618趋势品类手机备受青睐 京东依托供应链优势联合厂商推新品、创增长
- (2023-06-21)A股再现天价离婚!女方拿走34亿 拥有公司6.14%股权
- (2023-06-21)环球热讯:海泰科(301022.SZ)股东新麟三期及其一致行动人减持72.81万股至持股5%以下
- (2023-06-21)乘联会:6月1-18日乘用车市场零售82.8万辆,同比下降6%_当前要闻
- (2023-06-21)儋州市2023年“直通联办”书记点评会召开 打造党建引领海南自贸港建设新示范新标杆
- (2023-06-21)央行:促进行业监管与督促审计整改有机结合
- (2023-06-21)深圳移动营业厅几点下班(深圳移动营业厅)|环球聚看点
- (2023-06-21)“看见孩子”:第二届红披风绘本大赛颁奖仪式在京举行_天天聚看点
- (2023-06-21)优先本地居民!东城今年将完成1.3万个居住停车认证|全球即时
- (2023-06-21)26国代表出席!2023中国农业国际经贸合作论坛在京举办 环球快看点
- (2023-06-21)香港2023年第一季国际收支为36亿元盈余 每日热门
- (2023-06-21)天天播报:重庆轨道交通18号线全线接触网送电成功
- (2023-06-21)万科企业(02202.HK):选举王蕴为职工代表董事及潘樟良为职工代表监事
- (2023-06-21)广州发展(600098.SH):公司属下中电荔新公司计划开展机组节能及灵活性改造
- (2023-06-21)四川禁毒宣传月主会场活动在成都举行
- (2023-06-21)全球视讯!【和美城乡 四大行动】台江县:三共三筹建设美丽庭院
- (2023-06-21)需求薄弱,玻璃样本企业库存小幅累积金十期货6月21日讯,随着梅雨淡季的到来,玻璃需求表现尚显薄弱,拖累市场信心,中下游拿货不积极,本周浮法玻璃日度平均产销率下滑到90%以下,行业整体再度转为累库状态
- (2023-06-21)世界速递!渤海化学(600800.SH):未与俄罗斯开展业务合作
- (2023-06-21)证监会更新证券公司白名单,31家券商入榜,这5家新入围
- (2023-06-21)全球今热点:主力复盘:6亿抢筹银行 16亿砸盘昆仑万维
- (2023-06-21)环球观热点:广州最具成长潜力文化产业园区10强|B.I.G 海珠湾艺术园区:广州潮流艺术新浪潮
- (2023-06-21)今日精选:厦门思明拥军联盟实践活动开启 首批195家商铺签约
- (2023-06-21)世界热点评!海南促消费放大招!新一批消费券要来了
- (2023-06-21)中国海警舰艇编队6月21日在我钓鱼岛领海巡航
- (2023-06-21)大熊猫“丫丫”最新吃播视频来啦!吃新鲜竹子好香甜!
- (2023-06-21)烟台高新区赴济南开展精准招商活动
- (2023-06-21)全球观速讯丨武汉纺织大学:红色“微党课”提升学子党性修养
- (2023-06-21)刚刚,江西启动防汛应急响应!
- (2023-06-21)句容税务:送税法进高校 “税”助力向未来