近年来,美国陆续出台芯片法案、人工智能倡议法案等规则,中美科技战越演愈烈。这是一场交织着技术、产业、经济、政治和全球博弈等多重复杂和综合因素的地缘政治冲突,是中美高科技领域近几十年来竞合和博弈的必然结果。
在这一轮AI大模型竞争中,美国作为AI的重要发源地,拥有众多技术巨头和顶尖研究机构,一直处于领先地位,美国科技公司2023年先后推出高性能的大模型及其升级版,如OpenAI的GPT-4、Google的Gemini模型等;中国则通过前期AI应用的技术积累和科技企业的大量投入,推出阿里巴巴的“通义千问”、百度的“文心一言”等大模型,成为和美国竞争的重要力量。
从训练数据角度来看,中美的数据来源有何差异?公共数据的开放和运营能否成为中文语料的竞争优势?建设中国版大模型数据我们该怎么做?带着这些问题,承接上一期内容,本期专题和大家聊一聊中美大模型训练数据来源,谈一谈如何让大模型底层更为坚实,希望引发一些政策和制度设计层面的思考与共鸣。
分析大模型的数据来源可以从政府和社会力量两方面入手。从政府视角看,哪些公共数据可以支持大模型训练?我们梳理了以下几种:
一是,经过权威认证或凝聚共识的知识,如专利文档、上市公司财报、法院判例/裁判文书、医疗诊断记录、政策文本等,除了可用于预训练语料,还可应用于行业大模型监督微调(SFT)或外挂语料库建设。二是,提供公共管理和服务的counting属性数据,如公共交通、供水、供电、供气等,可用于提升模型多线程处理,调度优化能力。三是,具有科研属性的数据,主要特征有长周期、大规模、多模态、来源清晰、描述详细、可使用,如天气、医疗、地球科学、基础科学领域等,用于AI for Science,让模型提升从复杂数据中提炼规律,提升精准预测的能力,同时拓展AI大模型在更多领域中应用。四是,科研期刊论文,用于提升模型上下文的理解能力和逻辑推理能力。
而社会力量整合政府开放数据与网络公开数据,在拓展广度的同时,提升精细度和专业性。“广”的层面,社会力量将公共数据与网络公开数据融合后做进一步清洗和加工,形成具有多样性、大规模、高质量特点的预训练数据集。“齐”的层面,社会力量通过大量高质量反馈做数据标注,将模型产出与人类价值观对齐。“专”的层面,也会整合领域知识和经验,促进语料的流通和共享,提供行业大模型所需的高质量、专业性的数据供给。由此可见社会力量在大模型训练语料中所起到的主导作用。
美国联邦政府在公共数据中承担了”应开尽开“的职责,由社会力量来探索数据的应用。政府开发了专门针对AI训练数据的开放平台,并针对公共数据和科研数据进行质量维护和运营管理,在保证数据可用性的同时降低公众使用门槛。公共数据开放的范围限定在政府数据,包括各级政府及政府资助的大学和研究机构。
在开放共享阶段,联邦政府会对与AI相关的数据做标识、在数据量大时做”上云“处理、定期更新、分类、清洗、标注、结构化、并确定分级开放权限。在开发利用阶段,政府会提供便捷的用户检索服务、提供数据接口API。在科研论文方面,设立PubMed 论文检索系统,整合国家医学图书馆下属的3个论文数据库资源,记录了3600万+条生物医学文献的引用和摘要,并提供原文链接。在科研属性公共数据方面,国家气象和海洋局(NOAA)从卫星、雷达、船舶等来源每天新产生数十TB数据,按季度更新150个数据集,因数据量庞大存储在云端。为方便公众开发利用,提供了数据集API接口。在权威认证的知识方面,如法院的裁判文书是很好的结构化数据,对于训练法律大模型价值很高。美国遵循“公开是原则,不公开是例外”的理念,除了隐去涉及国家秘密和个人隐私的信息,联邦和地方法院都实现了公开,并提供了API接口供调用。
美国的社会力量整合政府的开放数据与网络的公开数据,提升数据精细度和专业性,形成以开源为主的高质量训练语料。社会力量主要有开源/非盈利组织、互联网公司研究部门、学界、多类型机构合作组成。数据集以开源为主,站在前人的肩膀上不断迭代。以在大模型中被广泛应用的,由开源组织Eleuther AI开发的825GB英文语料库The Pile为例,在22个子数据集中,来源于政府公共数据的有4个(PubMed数据库、商标专利数据库、卫生研究院数据等)。在行业大模型中,社会力量对领域数据集的专业性也起到了重要贡献。以把大模型当做大脑来辅助运行的具身智能机器人为例,Google DeepMind 联合33家学术实验室,汇集了来自 22 种不同机器人类型数据,涵盖100多万条片段,展示机器人在15万项任务上的表现,创建Open X-Embodiment 开源数据集。基于该数据集训练的具身智能模型,解决了机器人在特定任务专业而通用能力差的难题,成功率提高 50%,技能表现提高 2 倍。
在政府与社会力量协同的方面,美国联邦政府发挥了AI训练数据“汇聚融合”的角色。为巩固美国在AI领域的竞争优势,由政府主导推动为期6年的国家人工智能研究资源NAIRR 计划,让AI研究者获得更多算力和数据资源。计划的原则是尊重社会力量的专业性,作为经营主体的指导委员会中有多位来自AI业界和学界的资深人士。NAIRR在数据资源整合中发挥的作用体现在,联邦政府通过建立数据资源服务平台,汇聚政府与社会力量的开源数据资源。通过建立统一的数据汇聚标准,规范数据描述格式,促进多方数据融合。倡导AI-Friendly的数据兼容性,将数据集整理和格式化成易于AI算法处理和学习的形式,如文档的电子化程度、版面编排、以及相关数据来源的完整性。同时推动多方协作的数据资源开发利用,如运营数据集社区、提供数据搜索服务等。
我国的公共数据采用主体性质界分,包含各级行政机关在履行公共管理职能中获取的数据,覆盖范围比美国更广,但在开放共享和开发利用程度上仍有不足。如天气数据的开放,在中国气象数据网查询地面逐小时观测资料时,个人用户需注册,且可选范围被限定在7天以内;而对比NOAA,无需注册即可下载,且以地表温度为例,数据最早可追溯到1951年。在开发利用中,我国也仅对个别数据集提供了API接口。再如法律领域,最高人民法院设立了裁判文书网,除例外情况外统一公布各级人民法院的生效判决书。但近年公开的数量有明显下降趋势,2020年上网文书2300多万,而2023年截至12月仅公开300万。另2024年1月将启用“全国法院裁判文书库”,仅法院人士在内网可查询。
我国的社会力量主要是结合海外优质开源数据集及中文语料,产出训练数据集。以阿里巴巴的“通义千问”大模型为例,训练数据来自公开来源的混合数据,以中文和英文为主。而中文语料主要来自知乎、、等公开网络数据,来源于政府的公共数据非常少。从总体看,中文语料库的开源情况不如英文普遍,据AI应用开放社区Hugging Face数据统计,中文开源数据集数量仅占比英文开源的11%。在行业大模型中,社会力量对行业数据集专业性有一定贡献,推动了在交通、政务、医疗等领域的应用。整体看,用领域知识训练大模型仍面临困难,第一是领域知识积累的专业门槛高、时间周期长。第二是企业出于商业利益和知识产权考虑,对领域知识共享意愿度低。第三是因为我国公共数据开放不足,导致部分行业缺少优质的数据供给。在这种情况下,如果还要试图缩小已经开放的公共数据范围,那么高质量语料短缺的问题将更为突显。
我国尚未形成对大模型提供有效供给的数据资源生态。相比美国政府以公共数据开放服务于训练语料,社会力量以融合公共数据和网络公开数据提升语料广度、精细度和专业性的生态模式,我国可供大模型训练的有效数据资源呈现碎片化分散状态。中文语料、科研成果等高质量数据集开放程度低,企业用于训练的语料来源不清晰、权属不明确,开源后存在一定的合规隐患,使得企业更倾向于自采、自用,大模型数据流通机制尚未形成。此外,由于过多依赖删除手段治理,导致网络上有中式价值观的高质量公开语料供给较少。
根据中美对比的差异,结合我国国情,针对建设中国版通用大模型,我们建议加强政府与社会力量的协同,具体有以下几点:
主动开放人工智能大模型训练公共数据,鼓励受财政支持的科研单位、文化单位开放训练数据
进一步加大大模型训练公共数据的开放力度,借鉴美国经验,在政府侧实现“应开尽开”,由社会力量探索应用场景。对于受财政支持的科研、文化单位所有的知识产权类数据,鼓励通过开放、共享等方式向社会公开,基于非营利性成本补偿原则明确合理收费标准,如国家图书馆收录的大量历史典籍、科研论文等。
在政府信息化项目中主动判断或响应市场主体和技术社区要求,对可以用于AI训练的数据源进行主动标识,提高AI相关数据的开发程度、保障AI相关数据的提供质量。此外还应关注AI相关数据集的开发利用,在提升质量的同时降低公众使用门槛,如开发API接口,更便捷的检索体验,大体量数据上云等。同时,积极探索公共数据的授权运营,鼓励社会力量参与大模型训练公共数据集的开发建设。
社会力量可以汇总整理AI需求数据特征,参与甚至负责AI公共数据集运营。同时还应重点关注数据集的质量提升,一方面建立产业对数据集的评估标准,明确大模型训练语料全面性、准确性、真实性、可靠性、安全性等指标;另一方面根据模型效果和用户的使用反馈,不断优化数据供给。
重点关注工业语料,代码,科研等B端应用语料库的建立和经验传承,定标准、立规范、重引导,根据产业发展实际需求和应用规律提出建设方案。
领域知识的积累和流通难以用堆积人工方式解决,建议设计机制和提供技术基础设施促进专业语料的生成和共享。如通过隐私计算等技术,在大模型“存算分离”的架构下,实现数据“不动”,物理隔离,激励模型共建共享,接口开放,促进垂直语料共享及模型共建和输出。
致谢:感谢阿里巴巴集团政策法规研究室主任刘明、阿里巴巴集团安全部AI安全负责人陈岳峰、阿里巴巴集团高级算法专家李天宇对本文提供理论支持和技术指导。
阿里研究院AI政策研究中心,依托阿里巴巴集团先进的AI科技能力、丰富的AI应用场景、负责任的AI技术生态,总结沉淀AI发展和治理实践经验和方法案例,为AI政策制定实施提供科技企业的智识建议。
4月12日晚,彭博消息,Adobe正在使用Midjourney的图片数据,训练其文生成图模型Firefly。多名Adobe员工向彭博透露,关于使用竞争对手的AI生成图像来训练Firefly模型一直存在非常大的…
【幻影视界】:有数据的研报下载中心,用数据解读行业发展1.数据预训练是AI应用降本增效的重要因素,随着场景落地,数据将成为大模型竞争力提升的高效燃料,预训练数据服务商有望伴随着AI场景落地而快速成长
后续公司将把百度领先的智能对话技术成果应用在文字创作领域、虚拟人实时对话、IP元宇宙空间、教育业务以及其他AIGC技术的应用场景。掌阅科技:国内领先的移动阅读分发平台,正在测试相关的AIGC技术,将利用在内容…
以ChatGPT为代表的大语言模型(LLM)为例,其训练过程分为预训练(Pre-training)、监督微调(SFT)、基于人类反馈的强化学习(RLHF)三个阶段,后两部分又统称为“对齐”(Alignment…
随着大模型技术的突破,新一轮人工智能浪潮正在引领各行各业快速发展,加速推进着人工智能实用化、通用化和普惠化发展进程。数据作为此轮变革的主要驱动力,已成为人工智能发展的关键战略要素。值得注意的是,AI的突破将得益于高质量数据,这是大模型性能提升、行业应用落地的关键。
一个国际研究团队近日在英国《自然》杂志报告说,月球最早可能形成于45.3亿年前,比原来认为的更“年长”。关于月球起源,此前一般认为,月球是在新生地球和一颗火星大小的岩石相撞后形成的,当时月球表面布满了岩浆海洋。根据此前对月球岩石样本以及月球锆石颗粒的研究推算,月球年龄在43.5亿岁至45.1亿岁之间。
很多人可能会因为隐私问题、使用体验不佳或者是想要暂时休息一下而选择注销账号。注销账号后,你的所有数据,包括个人信息、发布的笔记、收藏的内容等都会被永久删除。完成注销:如果一切顺利,你的账号就会被注销,系统会提示你注销成功。
证券之星消息,根据天眼查APP数据显示美的集团(000333)新获得一项实用新型专利授权,专利名为“净水装置及滤芯组件”,专利申请号为CN1.4,授权日为2024年12月24日。
12月25日,AI(人工智能)眼镜概念股快速反弹,雷柏科技(SZ002577)、国星光电(SZ002449)双双涨停,英派斯(SZ002899)、天键股份(SZ301383)等跟涨。消息面上,高盛分析师在最新发布的报告中指出,Meta智能眼镜相关应用的下载量呈现爆炸式增长。
从“发布即网红”的小米汽车,到9天内3次发射的谷神星一号民营火箭,再到驶向大兴机场和北京南站的自动驾驶汽车……今年,北京城南集中“上新”了一批科技“顶流”。这背后是积蓄多年的高精尖产业集群能级不断跃升。今年前11月,囊括丰台、大兴、房山、经开区的城南地区固定资产投资保持7.4%的增速,汽车、航空航天等6个千亿级高精尖产业集群蓬勃发展。
中新网杭州12月25日电(王逸飞邹俊峰)25日,浙江东华航空公司一架塞斯纳206飞机在浙江建德千岛湖通用机场与安徽黄山屯溪机场之间成功执行飞行任务,标志着建德与黄山两地短途运输航线时隔三年正式复航。
IT之家12月25日消息,在今晚举行的2024理想AITalk第一期活动上,理想汽车CEO李想就AI等话题展开对话,他表示一个真正的大模型产品,一定是能够去自主使用所有的设备,会拥有所有的服务,这才是线月,我们就已经确定了,要把人工智能作为真正重要的一个方向,并且我们认为这是未来竞争的关键。
12月25日,利亚德旗下虚拟动点举行“当‘空间计算’遇上‘具身智能’”暨技术成果发布日活动。同期,虚拟动点宣布与松延动力正式成立“具身智能机器人联合实验室”,由虚拟动点空间计算赋能下的机器人送上联合实验室牌匾。虚拟动点董事长兼CEO刘耀东表示,虚拟动点不做机器人,而是赋能合作伙伴做更好的机器人。
12月25日,东南大学第八届国际青年学者论坛在南京开幕。论坛锚定国家重大战略需求,以开放的心态面向全球优秀青年学者,通过学术研讨、人才洽谈和实地考察,促进交流与合作,吸引优秀青年人才抱志归国,加盟东大,助力“双一流”建设。
在人工智能飞速发展的今天,AI系统的决策可信度成为了全球关注的焦点。这起悲剧不仅暴露了技术中的算法漏洞,更凸显了一个深刻问题:当AI系统做出的选择与人类预期不符时,后果可能是灾难性的。偏好学习(PreferenceLearning):通过分析用户的行为数据或直接采集偏好反馈,构建人类意图的数学模型。
![[长运]体育器材-注册登录测速一站式平台](/picture/1524267456.png)