【全球聚看点】GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了
2023-06-23 06:31:29 来源:手机网易网
机器之心报道
(相关资料图)
编辑:吴昕
「GPT-4 的参数量高达 100 万亿。」相信很多人还记得这个年初刷屏的「重磅」消息和一张被病毒式传播的图表。
不过很快,OpenAI 的 CEO Sam Altman 就出来辟谣,证实这是一条假消息,并表示,「关于 GPT-4 的谣言都很荒谬。我甚至不知道这从何而起。」
实际上,许多人相信并传播这样的谣言是因为近年来 AI 社区不断在增加 AI 模型的参数规模。谷歌在 2021 年 1 月发布的 Switch Transformer 就把 AI 大模型参数量拉高到了 1.6 万亿。在此之后,很多机构也陆续推出了自己的万亿参数大模型。据此,人们有充分的理由相信,GPT-4 将是一个万亿参数的巨量模型,100 万亿参数也不是不可能。
虽然 Sam Altman 的辟谣帮我们去掉了一个错误答案,但他背后的 OpenAI 团队一直对 GPT-4 的真实参数量守口如瓶,就连 GPT-4 的官方技术报告也没透露任何信息。
直到最近,这个谜团疑似被「天才黑客」乔治・霍兹(George Hotz)捅破了。
乔治・霍兹因 17 岁破解 iPhone、21 岁攻陷索尼 PS3 而闻名,目前是一家研发自动驾驶辅助系统的公司(comma.ai)的老板。
最近,他接受了一家名为 Latent Space 的 AI 技术播客的采访。在采访中,他谈到了 GPT-4,称 GPT-4 其实是一个混合模型。具体来说,它采用了由 8 个专家模型组成的集成系统,每个专家模型都有 2200 亿个参数(比 GPT-3 的 1750 亿参数量略多一些),并且这些模型经过了针对不同数据和任务分布的训练。
在这段播客播出之后,PyTorch 创建者 Soumith Chintala 表示自己似乎听过同样的「传闻」,很多人可能也听过,但只有 George Hotz 在公开场合将其说了出来。
「混合模型是你在无计可施的时候才会考虑的选项,」George Hotz 调侃说,「混合模型的出现是因为无法让模型的参数规模超过 2200 亿。他们希望模型变得更好,但如果仅仅是训练时间更长,效果已经递减。因此,他们采用了八个专家模型来提高性能。」至于这个混合模型是以什么形式工作的,George Hotz 并没有详细说明。
为什么 OpenAI 对此讳莫如深呢?George Hotz 认为,除了苹果之外,大部分公司保密的原因都不是在隐藏什么黑科技,而是在隐藏一些「不那么酷」的东西,不想让别人知道「只要花 8 倍的钱你也能得到这个模型」。
对于未来的趋势,他认为,人们会训练规模较小的模型,并通过长时间的微调和发现各种技巧来提升性能。他提到,与过去相比,训练效果已经明显提升,尽管计算资源没有变化,这表明训练方法的改进起到了很大作用。
目前,George Hotz 关于 GPT-4 的「爆料」已经在推特上得到了广泛传播。
有人从中得到了灵感,声称要训练一个 LLaMA 集合来对抗 GPT-4。
还有人说,如果真的像 George Hotz 说的那样,GPT-4 是一个由 8 个 2200 亿参数的专家模型组合的混合模型,那很难想象背后的推理成本有多高。
需要指出的是,由于 George Hotz 并未提及消息来源,我们目前无法判断以上论断是否正确。有更多线索的读者欢迎在评论区留言。
关键词:
[责任编辑:]
相关阅读
- (2023-06-23)【全球聚看点】GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了
- (2023-06-23)天天热议:基金委2学部召开国家杰出青年科学基金项目评审会
- (2023-06-23)普京:“萨尔马特”导弹将进入战斗值勤
- (2023-06-23)环球消息!“颜值+内涵”升级!这条河综合整治工程即将启动
- (2023-06-23)“端午家中现4物,十家九富”,这4物在端午会出现吗?为何寓意好
- (2023-06-23)哈尔斯(002615.SZ):累计耗资2998.84万元回购1.05%股份 世界时讯
- (2023-06-23)海王英特龙(08329.HK):张晓光被任命为执行董事_天天热点
- (2023-06-23)檩条是什么(建筑用檩条的材质是什么)_天天新消息
- (2023-06-23)喜讯!杭叉集团荣列浙江省服务型制造示范企业名单
- (2023-06-23)必康退涨停
- (2023-06-23)低速电动车企跨界还需真功夫
- (2023-06-23)2000年以来,国足历任主教练
- (2023-06-23)呼吁尊重赛场饭圈文化
- (2023-06-23)sayori日语什么意思_sayori画集
- (2023-06-23)环球观察:更加现代的全新“飞计” 准备好入手了吗?
- (2023-06-23)全球快讯:海淀区房产分析(四十一)--海淀房子如何选--上地南部区域 #F0910
- (2023-06-23)廉声纪语丨中冶天工集团有限公司纪委端午节廉洁提醒
- (2023-06-23)董晓明(关于董晓明的简介)
- (2023-06-23)回眸|格林尼治天文台与本初子午线的由来-天天消息
- (2023-06-23)汽车电池管理上的霍尔电流传感器
- (2023-06-23)揭秘芯片“黑市”:高价可轻松买到A100,但已出现“翻新” 新视野
- (2023-06-23)上海能源(600508.SH):火力发电总装机容量为820兆瓦,新能源一期202兆瓦光伏项目已建成发电
- (2023-06-23)虽然618已过,但优惠仍在!粉丝入手全新国行iPhone14Pro Max!
- (2023-06-23)世间美好,接“粽”而至!济南各区县开展多彩端午节主题活动_独家
- (2023-06-23)今日聚焦!梦天门选举陈国贤为公司董事长 2022年公司净利3485.21万
- (2023-06-23)今日播报!重磅来了!证券公司“白名单”终于“上新”
- (2023-06-23)无惧追高,过去一周美股散户狂买15亿美元,大部分流向三只股票_当前快讯
- (2023-06-23)Uzi:我会继续努力 希望能让大家在世界赛的舞台上也见到我 当前关注
- (2023-06-23)光大证券:煤炭未来增产空间几何 扩产的变数在哪里? 热点
- (2023-06-23)杭州亚运会和亚残运会物流中心启用-今头条