证券时报记者 吴瞬
近日,深译科技在深圳数据交易所(简称“深数所”)指导下发布全国首个高价值、多模态、多语种AI算料数据资产包,估值超过2亿元。超40家企业、50家机构近200名行业领域精英参与活动,共同探讨和分享大模型大数据在各个垂直领域的研究和应用,大力推动人工智能产业发展。
据介绍,作为珠海市新质生产力及人工智能数据要素代表性企业,深译科技发布全国首个高价值AI算料数据资产包。深译科技将充分发挥数据要素乘数效应,赋能经济社会发展,进一步推动人工智能技术生态的发展与建设,为珠海人工智能产业的繁荣贡献力量,为珠海“云上智城”奠定AI产业数据要素基础。
推动全国首批大模型产品数据商品交易
自2023年ChatGPT 4.0版本正式发布以来,我国人工智能产业进入高速发展阶段,截至2023年底,中国人工智能核心产业的规模已经接近6000亿元人民币,诸如盘古、智谱AI、文心一言等诸多行业引领的通用型大模型与细分行业大模型商用化日益成熟,而据全国组织机构统一社会信用代码数据服务中心统计,2024年上半年我国人工智能企业数量同比增长35.65%。经营主体活力涌动的背后,是AI技术的快速迭代及市场需求的不断释放,而AI赋能千行百业的核心基础是语料数据的不断丰富与完善。
在我国语料数据文本量仅占全球1.3%的当下,深圳数据交易所自2023年4月以来加快推动国内外高质量语料数据汇集,先后联合深译科技、华为、华傲科技等语料与人工智能优质厂商构建“开放算料联盟”,加快推动高质量基础语料数据开源,先后发布涵盖12个“数据要素×”领域,包括文本、图像、音频、视频、多模态、3D、GIS等多种数据模态,由42家不同的数据商提供的1000个非开源、可商用的垂直行业多模态算料集,其中大部分算料为全国首发。同时,创新推动人工智能数据专区、开放群岛开源社区大模SIG建设,并率先实现首批国家备案大模型公司入场,推动全国首批大模型产品上市并完成场内数据商品交易。
活动上,作为深圳数据交易所人工智能语料领域的重点合作伙伴,深译科技董事长林余楚表示,依托澳门大学、澳门科技大学等澳门高校的科研力量和人才体系,深译科技不断地创新打造了自研的数据引擎——深数引擎(Deep Data Engine),构建了闭环数据采标SOP、国际化众包平台、AI标注等生产流程和工具。凭借多年来在多模态大数据挖掘、自然语言处理(NLP)、人工智能等前沿技术上的先发优势,深译科技沉淀积累大量自有产权AI大模型全产业开发训练的多语言数据集。
体系化赋能我国“数据丝绸之路”高质量建设
开放包容、互利共赢,促进要素有序自由流动、资源高效配置和市场深度融合,开展更大范围、更高水平、更深层次的区域合作,打造开放、包容、均衡、普惠的区域经济合作架构是我国“一带一路”倡议的核心理念之一。作为深耕大语种专业领域及小语种语料数据的数据要素企业,深译科技通过国际化众包平台,以及深圳数据交易所场内数据流通交易合规安全保障体系与现有香港、新加坡、马来西亚等境外数据商的良好生态体系赋能,深译科技已稳步实现“一带一路”沿线产业整合,在葡语系、“一带一路”小语种领域,数据集数量和质量均处于行业第一梯队。同时,通过产业体系构建,深圳数据交易所与深译科技正在加快推动沿线“数据丝绸之路”建设。在实现需求牵引赋能沿线国家人工智能语料数据清洗、治理、标注产业发展的同时,通过场内数据安全保障体系实现海外高质量语料数据赋能国内大模型训练加工,进而形成我国宏观与细分领域大模型向国际市场推广的良性产业循环,为我国及沿线国家均衡可持续发展增添了崭新动力。
为响应国家数据要素市场发展,构建稳定高效的数据要素产业链,作为推动数据要素市场化配置的重要平台,深圳数据交易所持续聚集优质数据资产化第三方服务生态,面向全国提供涵盖登记、合规、核验、评价、评估、入表、融资等的一站式数据资产增值服务。2024年7月,深圳数据交易所与深译科技携手法律合规机构、资产评估机构、数据质量评估机构等生态合作伙伴,共同围绕深译科技现有超40pb高质量语料数据开展由资源盘点与合规审核上市到数据资产入表的全流程合作,推动深译科技数据资源从数据要素到数据资产的体系化转化。
林余楚表示,在深圳数据交易所的主导下,历时近一年时间,深译科技两个模态的数据资产包成功完成合规审查、上市入表等工作,并通过中评协评估估值2.04亿元。彰显了深译科技发挥优势,深耕数据要素的战略定位和科研实力,多年沉淀和积累成果显著。