本报记者 田鹏
发展自主可控的大模型是我国抢占数据发展高地的必然选择,而数据要素则是支撑大模型发展的重要引擎。
7月8日,上海数交所总经理汤奇峰在2023世界人工智能大会“大模型时代下的数据要素流通”论坛上表示,大模型建设中,语料库是一个非常重要的方向,语料库采购已经在不少大模型企业成本中占据重要比重,上海数交所希望以市场配置的方式组织数据要素推动语料库建设。
在全球人工智能蓬勃发展背景下,数据与算力、算法共同构成了新一代人工智能发展过程中的三大要素。因此,意识到数据要素重要性的同时,更应该认清目前我国在数据要素利用过程中所面临的阻碍。
目前存在的阻碍有哪些?
语料库建设是一件长期性、专业性的工作,需要遵循相应的质量标准和规范,并保持持续更新和扩充,以适应大模型发展的新需求和新挑战。
“从与大模型相关企业沟通的情况来看,我国语料库建设还存在供给不足、质量不高、多样性匮乏、标准欠缺等现状。”汤奇峰指出。
“数据要素在人工智能大模型的发展中具有关键性的作用,决定了模型的训练质量、性能表现和应用领域的广度与深度。”在中国电子副总经理陆志鹏看来,大模型技术实现高质量发展,数据有效供给是关键,亟需建设安全可信的数据底座。当前数据合规确权、计量估价、协调分配、安全隐私保护等核心难题需要破解。
科大讯飞大数据研究院院长谭昶表示,我们对大模型语料数据方面有三大关注点:首先,语料数据更新问题亟待解决。目前,大模型训练都是按月为周期,能否实现以天为周期值得思考。其次,语料偏见问题目前需要通过一些规则模式将其屏蔽,但这种模式对于大模型来说是一种约束和限制。第三,数据安全问题不容忽视。
在谈及数据流通过程中面临的问题时,中国知网副总经理张宏伟称,在真正的交易流通里面有定价的问题,有确权的问题,有收益分配的问题,尤其是我们的数据,包括它的主体是多元的,有了数据分配之后,如何在这些利益主体之间分配,这个是非常难的问题。
“破题”关键在何方?
数据驱动三大变革,包括经济结构、创新范式、企业模式。面向大模型,数据要素市场大有可为,多层次数据要素市场建设需要提供重要助力。因此,在认清数据要素流通过程中存在的问题之后,更应清楚“破题”关键所在。
关于语料库建设的挑战,汤奇峰认为,可以根据开放程度强弱和数据质量高低将语料数据生态机构分出四类供方,制定差异化工作策略。同时,从政府引导市场主导、丰富种类提高质量、统一标准规范建设、加强监管保障安全四个方向建设大模型时代下的语料库。
汤奇峰称,针对数据质量高但开放程度低的供方,可以通过数据交易链有效破解语料数据流通的信任问题,“核心之一在于产权和参与大模型后的收益分配问题。”
商汤科技联合创始人杨帆认为,对于训练数据的管理和监督必不可少。同时,要实现数据开源,特别是训练数据相关领域的开源,只有开源才是更加健全。
在谈及如何应对上述风险和阻碍时,张宏伟认为,各方权益的保护在某种程度为技术让步的,但也不能过多让步,保护创作者的利益仍然很重要。
大数据流通与交易技术国家工程实验室常务副主任黄丽华表示,多层次数据要素市场的建设需要有明确的数据需求应用场景,数据要素产权制度可以提供重要支撑,合规安全机制提供保障,基于这样的一个市场,数据产品低成本、大规模可得才有可能实现,才能更好地赋能商业高效应用,促进数字化转型。未来,颠覆性创新一定是基于数据+人工智能+行业专业知识发生的。
(编辑 孙倩)