上海数交所总经理汤奇峰:构建大模型时代语料库数据生态,推动数据要素市场创新
据证券时报报道,7 月 8 日,在由上海数据交易所、大数据流通与交易技术国家工程实验室承办的“大模型时代下的数据要素流通”主题论坛上,上海数交所总经理汤奇峰作题为“大模型时代下的语料库”的主旨演讲,带来关于国内语料库建设挑战的观察,并从语料库质量和开放程度两个维度给出建设建议。汤奇峰认为大模型时代下的语料库建设存在语料库供给不足、语料库质量不高、语料库多样性匮乏、语料库标准欠缺等问题。当天活动上,上海数交所正式启动语料数据生态创新合作伙伴计划,携手首批合作伙伴丰富语料库,推动数据要素市场建设。
关于语料库建设的挑战,汤奇峰认为主要集中于开放程度和数据质量两方面:“能否有大模型企业所需的高质量语料?目标对象愿不愿意开放数据?”由此,汤奇峰指出可以根据开放程度强弱和数据质量高低将语料数据生态机构分出四类供方。
上海数交所官网已经于 7 月 7 日正式上线语料库,累计挂牌近 30 个语料数据产品,包含文本、音频、图像等多模态,覆盖金融、交通运输和医疗等领域。