当前位置:首页 > 新闻中心 > 集团要闻

数典工程启动!中国电科倾力打造国内首个大数据“辞海”
来源:
发布时间:2020年03月07日 编辑:新闻中心

随着数字经济浪潮席卷全球,大数据产业“炙手可热”。在大数据产业蓬勃发展的同时,伴随着数据释义与内容格式不规范、数据标准难统一等问题,严重制约了大数据资源整合和规范发展。3月3日,记者从中国电科大数据院获悉,他们正在打造国内首个大数据领域词典,让数据资源标准化、规范化,能够直接使用,提高数据的利用率。

打造数典工程势在必行

3月3日,贵阳高新区中国电科大数据研究院,技术人员正在围绕如何开展数典工程展开激烈地讨论。“数典工程简单来说就是打造一本大数据领域的词典,就像我们经常使用的新华词典一样,是用于规范大数据技术发展与融合应用的一种基础工具。”大数据院刘汪洋博士介绍到。

俗话说,没有规矩不成方圆。“中文有辞海,药学有药典,但大数据却没有类似的系统性词典。大数据词典的缺失,为数据规范定义、统一标识以及数据融合应用等带来巨大的困难,造成数据‘难用、滥用、混用’等现象。”刘汪洋表示,打造数典是一项承前启后的基础性工程,对巩固大数据成果、引导大数据规范发展具有重要的意义。

创新方式,逢山开路遇水搭桥

2019年,“数典”这一概念首次在数博会上被提出,同年5月,大数据院启动“数典”策划论证工作,针对数据释义与内容格式不规范、数据标准难统一等问题,提出了打造国内最大规模的数据基础资源集智平台——数典工程,秉承“工具化、平台化、开放化”的建设理念,构建以数典理论为基石、以大数据词典为核心、以数典平台为载体,以标准规范为保障并拓展多项数据服务的“4+N”体系架构。

“目前,我们在使用数据资源进行融合应用时,有大量的资源和精力都花费在数据清洗上面,这很大程度上降低了数据利用效率。就相当于一个句子,你用英语说了前段、我用德语说中段、他用中文说尾段一样,虽然含义上是那个意思,但却组合不起来,需要先翻译成同一种语言。”刘汪洋说,数典工程建设最突出、最直接的作用在于让数据资源标准化、规范化,能够直接使用,提高数据的利用率。

如今,大数据院采用“理论研究+工具研制”相结合的工作思路,已累计收录了术语词条约1.8万条,涵盖了信息技术、大数据技术及其大数据行业领域,同时构建了通用领域数据描述模型约200个,以及公安、检务等行业领域描述模型50余个。目前,正积极梳理构建“互联网+政务服务”领域数据描述模型。为了更好地开展数据描述模型构建和管理,大数据院已完成数据模型管理及可视化工具研制,有力地支撑大规模数据模型存储与管理。

下一步,大数据院将持续推进“数典工程”理论研究和相关工具的研制工作。同时,计划与社会各界一起打造“数典”开源社区,提供在线权威性解释、专业化推荐、用户在线交流等服务,提高政府、企业、社会组织、个人等各方在大数据领域的用词规范性和共识度,并以“众包”模式持续推进数典的更新维护和优化完善,最终实现社会资源集智和知识赋能,助力升华贵阳大数据建设成就,扩大“中国数谷”影响力,引领大数据发展再上新高度。

打印 关闭