GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了 世界快资讯
2023-06-21 17:58:35 来源:机器之心Pro
机器之心报道
编辑:吴昕
George Hotz:除了苹果之外,大部分公司保密的原因都不是在隐藏什么黑科技,而是在隐藏一些「不那么酷」的东西。
「GPT-4 的参数量高达 100 万亿。」相信很多人还记得这个年初刷屏的「重磅」消息和一张被病毒式传播的图表。
(相关资料图)
不过很快,OpenAI 的 CEO Sam Altman 就出来辟谣,证实这是一条假消息,并表示,「关于 GPT-4 的谣言都很荒谬。我甚至不知道这从何而起。」
实际上,许多人相信并传播这样的谣言是因为近年来 AI 社区不断在增加 AI 模型的参数规模。谷歌在 2021 年 1 月发布的 Switch Transformer 就把 AI 大模型参数量拉高到了 1.6 万亿。在此之后,很多机构也陆续推出了自己的万亿参数大模型。据此,人们有充分的理由相信,GPT-4 将是一个万亿参数的巨量模型,100 万亿参数也不是不可能。
虽然 Sam Altman 的辟谣帮我们去掉了一个错误答案,但他背后的 OpenAI 团队一直对 GPT-4 的真实参数量守口如瓶,就连 GPT-4 的官方技术报告也没透露任何信息。
直到最近,这个谜团疑似被「天才黑客」乔治・霍兹(George Hotz)捅破了。
乔治・霍兹因 17 岁破解 iPhone、21 岁攻陷索尼 PS3 而闻名,目前是一家研发自动驾驶辅助系统的公司(comma.ai)的老板。
最近,他接受了一家名为 Latent Space 的 AI 技术播客的采访。在采访中,他谈到了 GPT-4,称 GPT-4 其实是一个混合模型。具体来说,它采用了由 8 个专家模型组成的集成系统,每个专家模型都有 2200 亿个参数(比 GPT-3 的 1750 亿参数量略多一些),并且这些模型经过了针对不同数据和任务分布的训练。
在这段播客播出之后,PyTorch 创建者 Soumith Chintala 表示自己似乎听过同样的「传闻」,很多人可能也听过,但只有 George Hotz 在公开场合将其说了出来。
「混合模型是你在无计可施的时候才会考虑的选项,」George Hotz 调侃说,「混合模型的出现是因为无法让模型的参数规模超过 2200 亿。他们希望模型变得更好,但如果仅仅是训练时间更长,效果已经递减。因此,他们采用了八个专家模型来提高性能。」至于这个混合模型是以什么形式工作的,George Hotz 并没有详细说明。
为什么 OpenAI 对此讳莫如深呢?George Hotz 认为,除了苹果之外,大部分公司保密的原因都不是在隐藏什么黑科技,而是在隐藏一些「不那么酷」的东西,不想让别人知道「只要花 8 倍的钱你也能得到这个模型」。
对于未来的趋势,他认为,人们会训练规模较小的模型,并通过长时间的微调和发现各种技巧来提升性能。他提到,与过去相比,训练效果已经明显提升,尽管计算资源没有变化,这表明训练方法的改进起到了很大作用。
目前,George Hotz 关于 GPT-4 的「爆料」已经在推特上得到了广泛传播。
有人从中得到了灵感,声称要训练一个 LLaMA 集合来对抗 GPT-4。
还有人说,如果真的像 George Hotz 说的那样,GPT-4 是一个由 8 个 2200 亿参数的专家模型组合的混合模型,那很难想象背后的推理成本有多高。
需要指出的是,由于 George Hotz 并未提及消息来源,我们目前无法判断以上论断是否正确。有更多线索的读者欢迎在评论区留言。
关键词:
[责任编辑:]
相关阅读
- (2023-06-21)GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了 世界快资讯
- (2023-06-21)vivo V29或在未来几周亮相 搭载骁龙778G+移动平台
- (2023-06-21)FAST发现迄今最短轨道周期脉冲双星系统
- (2023-06-21)汇宇制药向182名激励对象授予290.03万股限制性股票
- (2023-06-21)田枣?野狗?Meiko谈下路组昵称:粉丝怎么开心,想怎么叫都行
- (2023-06-21)要闻速递:国家外汇管理局:1-5月中国外汇市场累计成交101.87万亿元人民币
- (2023-06-21)中国最大海上油田累产原油突破5亿吨
- (2023-06-21)神话秦时里的剑圣第八区(神话秦时里的剑圣)
- (2023-06-21)天天快报!“小揽运”/引入插混系统 新款路虎揽胜极光官图发布
- (2023-06-21)后备厢空间有大幅提升 全新奔驰E级旅行版官图发布 全球今头条
- (2023-06-21)2023粤港澳车展:问界M5智驾版全国首批交付
- (2023-06-21)理想,再“狂”一次?-当前播报
- (2023-06-21)成都龙泉驿乡村竞演:“亮”文化家底 “秀”民间艺术 播资讯
- (2023-06-21)北京新发地蔬果大量上市 鲜玉米嫩蔬菜价格都下来了 播报
- (2023-06-21)荔枝、椰子、咖啡……这些海南特产为何要推新品种?
- (2023-06-21)乘联会:6月1-18日乘用车市场零售82.8万辆,同比下降6%
- (2023-06-21)即时看!香港国际机场5月客运量为310万人次 同比增加超17倍
- (2023-06-21)有院子的家一共多少集?在哪里能看更新时间
- (2023-06-21)全球观焦点:【我们的节日·端午】天宫殿街道太湖西路社区开展第四届邻里节
- (2023-06-21)世界速讯:交逼事故赔钱达不到协议怎么办
- (2023-06-21)夏至丨流光半夏 美好日长 每日视讯
- (2023-06-21)世界播报:新和县农村信用合作联社 减费让利惠企利民出实招
- (2023-06-21)甘肃成县绘就美丽发展新图景
- (2023-06-21)【当前热闻】告别母校,实小明道2023届学子扬帆起航!
- (2023-06-21)中国经济信心说丨他们为什么纷纷投下“信任票”?|视焦点讯
- (2023-06-21)海博思创递交招股书,研发占比持续下降,张剑辉曾获蔚来资本投资|环球微动态
- (2023-06-21)极兔冲刺港交所,三年亏损超36亿美元,背后谁在“撑腰” 世界今日讯
- (2023-06-21)贵人鸟资产变现遭遇“老赖”-世界今头条
- (2023-06-21)2018年至今,青岛年均政策性扶持创业3万余人_精彩看点
- (2023-06-21)*ST金山: 公司2022年年度报告中的研发投入严格按照《企业会计准则第6号-无形资产》的相关规定编制