中国大模型语料数据联盟开源发布高质量多模态语料“书生·万卷”
2023-08-16 02:45:52 来源:上海证券报
继今年7月在2023世界人工智能大会发起成立“中国大模型语料数据联盟”(以下简称“语料数据联盟”),上海人工智能实验室(上海AI实验室)于8月14日宣布,联合语料数据联盟成员单位,共同开源发布“书生·万卷”1.0多模态预训练语料。
“书生·万卷”1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。该语料数据包含超过5亿个文本,2200万个图文交错文档,1000个节目影像视频,具备多元融合、精细处理、价值对齐、易用高效等四大特征。
集合语料数据联盟成员丰富的内容积累与上海AI实验室领先的数据处理能力等优势,“书生·万卷”将为学术界及产业界提供更符合主流中文价值对齐的高质量大模型多模态预训练语料。
(资料图片)
跨界联合,共建宽领域语料库
本次开源的“书生·万卷”1.0包含文本、图文、视频三部分数据集。其中文本数据为来自网页、百科、书籍、专利、教材、考题等不同来源的清洗后预训练语料,数据总量超过5亿个文档,数据大小超过1TB,覆盖科技、文学、媒体、教育、法律等多个领域。
图文数据主要来自公开网页,经处理后形成图文交错文档。文档总量超过2200万个,数据大小超过140GB(不含图片),覆盖新闻事件、人物、自然景观、社会生活等多个领域。
视频数据主要来自中央广播电视总台和上海文广集团,包含新闻、影视等多种类型的节目影像,总计视频文件数超过1000个,数据大小超过900GB,内容覆盖军事、文艺、体育、自然、真实世界、知识、影像艺术、媒体、美食、历史、科教等方面。
精细处理构建高质量预训练语料
高质量、大规模、安全可信的语料数据对于大语言模型的训练和性能提升至关重要。基于语料数据联盟构建的语料库,上海AI实验室对其中部分数据进行细粒度清洗、去重以及价值对齐,形成了高质量多模态预训练语料“书生·万卷”1.0,具备多元融合、精细处理、价值对齐、易用高效等四大特征。
在多元融合方面,“书生·万卷”1.0包含文本、图文、视频等多模态数据,范围覆盖科技、文学、媒体、教育、法律等多个领域,在训练提升模型知识含量、逻辑推理和泛化能力方面具有显著效果。
在精细处理方面,“书生·万卷”1.0经历了语言甄别、正文抽取、格式标准化、基于规则及模型的数据过滤与清洗、多尺度去重、数据质量评估等精细化数据处理环节,因而能更好地适配后续的模型预训练需求。
在价值对齐方面,研究人员在“书生·万卷”1.0的构建过程中,着眼于内容与中文主流价值观的对齐,通过算法与人工评估结合的方式,提升了语料的纯净度。
在易用高效方面,研究人员在“书生·万卷”1.0采用统一格式,并提供详细的字段说明和工具指导,使其兼顾了易用性和效率,可快速应用于语言、多模态等大模型预训练。
据悉,高质量、多模态、宽领域的数据支持已成为当前人工智能大模型发展的重要基石,中国大模型语料数据联盟将持续通过开源开放,共建包容、开放、有序、共享的人工智能大生态。
上海人工智能实验室是我国人工智能领域的新型科研机构,目标为建成国际一流的人工智能实验室,成为享誉全球的人工智能原创理论和技术的策源地。
中国大模型语料数据联盟是由上海人工智能实验室联合国家气象中心、上海数据集团、上海市数商协会等单位联合发起成立的开放组织。旨在通过链接模型训练、数据供给、学术研究、第三方服务等多方面机构,联合打造多知识、多模态、标准化的高质量语料数据,探索形成基于贡献、可持续运行的激励机制,打造国际化、开放型的大模型语料数据生态圈。
(文章来源:上海证券报)
关键词:
[责任编辑:]
相关阅读
- (2023-08-16)中国大模型语料数据联盟开源发布高质量多模态语料“书生·万卷”
- (2023-08-16)黑白调E3结构大师,T支撑系统,全新护腰科技
- (2023-08-16)2023年家庭供水概念股是哪些?(8月14日)
- (2023-08-16)实探北京充电桩:蔚来、极氪开放程度最高,特斯拉、小鹏仍有限制
- (2023-08-16)2023张信哲演唱会重庆站在哪里举行?(附乘车及自驾指南)
- (2023-08-16)中山子女投靠入户指南(条件+材料+地址)
- (2023-08-16)青海甘肃部分地区多降雨 江南华南对流活跃强降水分散
- (2023-08-16)咸安区温泉街道希望桥社区老旧小区加装电梯 便捷生活一键直达
- (2023-08-16)华尔街大佬发出警告!
- (2023-08-16)全国生态日丨守好绿水青山 解密天津“含绿量”
- (2023-08-16)艾德生物:与阿斯利康达成抗体偶联药物(ADC)伴随诊断合作
- (2023-08-16)多途径建设靠谱托管托育班
- (2023-08-16)【速记宝典9】中级会计临考重点提炼速记-中级会计实务
- (2023-08-16)两只猫头鹰受伤后跌落,警民接力救助送动物园
- (2023-08-16)希腊球迷冲突致1人死10人伤 105名参与者均被拘留候审
- (2023-08-16)金壮龙会见美国霍尼韦尔公司全球首席执行官柯伟茂
- (2023-08-16)数学的欢乐与疯狂:从勾股定理到球面三角学
- (2023-08-16)23青岛债44今日发布发行公告
- (2023-08-16)价格连跌13周,西瓜可以放肆“炫”了
- (2023-08-16)哈尔滨市双城区:打造“党建+”六大检察品牌
- (2023-08-16)豆都话豆事
- (2023-08-16)青海甘肃部分地区多降雨 江南华南对流活跃强降水分散
- (2023-08-16)内蒙古伊金霍洛旗总工会开展安全隐患专项检查和消防安全知识培训
- (2023-08-16)亚冠8月24日小组抽签:泰山二档恐进死亡之组 三镇或开赛前换帅
- (2023-08-16)监督返还被扣押的涉案财物
- (2023-08-16)市水务局大清河管理中心子牙河管理所党支部 在抗洪抢险一线淬炼过硬党性
- (2023-08-16)河南有住院患者坠楼死亡 医院通报:配合公安机关开展调查
- (2023-08-16)国信证券(002736)8月15日主力资金净买入537.85万元
- (2023-08-16)克明食品(002661)8月15日主力资金净买入29.77万元
- (2023-08-16)医生学医不应该是救死扶伤吗?