河钢集团邯钢分公司冷轧厂 河北省邯郸市 056000
摘要:首先介绍大数据标准化的发展背景和面临的挑战,概述国内外大数据标准化发展现状,进一步详细介绍美国国家标准与技术研究院在大数据标准化方面的工作进展,最后对我国大数据标准化的工作方法和标准化体系提出建议。
关键词:大数据;标准化;大数据分类;大数据参考架构;大数据安全和隐私
1、大数据概述
大数据是继云计算后的新一代信息技术,它的发展和应用已经对政府、企业决策和人们的生活方式产生深远的影响。从2014年Gartner发布的技术成熟度曲线(如图1所示)中可以看出,大数据已经逐渐迈向低谷期。这意味着在经历了持续的概念炒作之后,大数据市场已趋于稳定,并且形成一套合理的方法,大数据技术和应用也得到了长足发展。
目前,大数据企业不断推出各式各样的大数据存储、处理、分析产品,同时,社交网络、金融、通信、政务等大数据存在的领域,也相继建设大数据平台,从平台的存储处理分析等各方面都无不体现着行业特征。这种技术和应用缺乏通用性和标准化的现状,在很大程度上阻碍了大数据的发展。相对于大数据的标准化工作,传统数据标准已经相对成熟,数据管理、数据处理和数据表示等方面的国际国内标准都已形成体系,然而,像NoSQL数据存储系统和GFS文件系统这样的诸多大数据新技术新应用,无论是国际还是国内,迄今为止其标准规范的研究工作还很匮乏。
此外,由于大数据存在领域广泛、存储处理产品众多,不仅大数据的定义、相关术语、分类、架构等方面缺乏统一描述,各种大数据产品的技术要求也不尽相同,这种现状一定程度上阻碍了大数据产业的良性发展。因此,加强大数据标准化研制,对推动我国大数据产业进程,加快技术与标准的相互融合,推动大数据发展国家战略和数据立法具有重要意义。
2、大数据标准化现状
自2012年开始,ITU-T、ISO/IEC、NIST、CCSA等国内外标准研制组织相继组建工作组展开大数据研究和标准化工作,这些工作组在大数据定义、相关术语、需求等方面输出少量研究报告和标准
2012年6月,ITU-TSG13WP6Q26/13TD57中提出“BigData:usecase,requirements,andcapabilities”作为未来可能进行的新项目[1]。2013年1月,NIST(美国国家标准和技术研究院)成立BigDataWorkingGroup(NBD-WG),在大数据定义、术语、要求、安全和隐私、安全隐私架构、参考架构、技术路线方面的研究[2]。2013年3月,CCSATC7WG3中立项《大数据运维技术与标准研究》,针对大数据的分类、组织,以及大数据分布式管理问题、大数据运维的全生命周期管理、大数据迁移、大数据利用和数据销售服务管理等范围进行研究。
2013年10月,CCSATC8WG2中立项《大数据应用安全技术要求》行业标准,该标准从运营商对外数据应用的安全防护层面,研究大数据安全管控技术,包括大数据存储安全技术、挖掘安全处理技术、输出审计安全技术、传输安全技术、运营安全技术等。2013年11月,ISO/IECJTC1建立大数据研究组BD-SG,通过调研现有ICT生态系统中与大数据相关的关键技术、标准、模型、用例和场景等内容,确定大数据中的关键定义和术语,评估大数据标准化市场需求。
2014年3月,CCSATC5WG5立项《移动大数据安全技术研究》研究课题,该课题对大数据安全的基本定义、体系框架、安全技术和保障机制等内容进行研究。2014年3月,CCSATC1WG4立项《大数据需求、场景及架构研究》研究课题,该课题在借鉴国内外电信运营商和互联网企业在大数据方面的应用场景的前提下,侧重于提炼各个行业对大数据系统的需求,并分析大数据系统的体系架构。
2014年3月,CCSATC1WG4立项《电信互联网大数据开放平台标准化研究》研究课题,该课题围绕促进互联互通、数据安全和隐私保护等目标,系统分析大数据开放平台建设、运营、监管中的标准化需求。2014年3月,CESI(中国电子技术标准化研究院)着手《大数据标准化白皮书》征求意见会,重点研究大数据基本概念、特征作用、大数据发展现状、大数据技术参考模型和关键技术,以及大数据标准体系和下一步工作建议等内容。2014年5月,CCSATC11WG1立项《移动互联网大数据技术研究》研究课题,研究电信运营商大数据的范围、数据模型、体系框架、关键技术、保障机制、应用场景和价值模式等内容[4]。2014年6月,ITU-T召开大数据研讨会,旨在探讨大数据对电信运营商的影响以及大数据标准化战略。
2013年1月,NIST建立大数据工作组BigDataWorkingGroup(NBD-WG),该工作组又分为定义和分类(DefinitionandTaxonomySubgroup)、参考架构(ReferenceArchitectureSubgroup)、技术路线图(RoadMapSubgroup)、安全和隐私(SecurityandPrivacySubgroup)、用例及需求(UsecaseandRequirementsSubgroup)、大元数据(BigMetadataSubgroup)六个子工作组。通过工作组定义了数据分析技术和技术基础设施在互操作性、可移植性、可重用性、可扩展性等方面的需求,在大数据定义、术语、要求、安全和隐私、参考架构、技术路线方面展开讨论和研究,从而支持大数据的安全有效利用。
3、大数据标准化工作建议
可以看出,在大数据的国际化进程中,全球范围内大数据的标准化工作还处于研究阶段,无论是术语、架构,还是存储、处理、行业应用等,都尚未形成标准规范,这也是我国引领国际大数据标准化的良好契机。因此,我国应当加快标准化研究和制定,规范大数据行业,推进行业发展,为我国的大数据战略顶层设计做参考。
在大数据行业发展方面,与国外企业相比,国内企业侧重于大数据基础设施和数据存储平台建设,而在基于大数据的挖掘以及创新商业模式上,还更多处于探索阶段。在这种背景下,我国的大数据标准化工作方向有两个,一是研制大数据术语、架构等通用标准,二是各个行业可以根据行业特定需求制定行业大数据应用标准;因此,在借鉴国外先进经验的基础之上,从更加宏观与全面的角度出发,我国的大数据标准化体系研制工作可通过以下几方面开展。
1)国家级标准组织机构牵头建立大数据标准化工作组,政府、产业界、学术界多方参与,针对大数据定义、分类、数据模型、架构、关键技术、数据开放和隐私、盈利模式等议题定期展开讨论,对外发布研究报告及大数据标准化体系纲要。
2)对我国移动互联网、通信、金融、政府、医疗等大数据所在领域的大数据源、数据量、数据模型、存储架构、数据开放等方面展开调研,梳理我国大数据应用场景和需求。
3)研究我国数据开放和隐私相关政策法规,调研产学研用各方对大数据隐私的要求和已有数据开放接口规范。就目前而言,各个标准化机构可先行研制领域大数据标准,为开展大数据标准化顶层设计提供参考依据。具体到标准化工作实施方面,从标准化原则来说,大数据与很多已有技术都有交集,例如关系数据库、数据挖掘等,大数据标准化工作应更侧重于大数据背景下的新技术和新应用,
例如非关系型数据库、实时大数据分析、非结构化大数据统一表示等;从标准化范围来说,大数据全生命周期的各个环节都应考虑在内,同时由大数据引发的新应用和新产品也是标准化工作的重点。基于以上考虑给出大数据标准化体系建议,
大数据标准体系包括以下标准。1)基础标准。包括大数据术语、大数据参考架构、大数据平台架构标准。其中大数据平台架构标准包括整体架构、架构内各个层面(或各个组件)之间的接口标准以及查询、分析和可视化等应用请求与数据存储语言的标准化转换接口的标准化(例如,将应用请求重写为UnQL、JAQL等非关系型存储系统查询语言)。
2)数据表示标准。包括数据编码规范、元数据规范、非结构化数据统一描述规范[、大数据集统一描述规范等。3)数据处理标准。包括数据质量评价标准、数据采集标准、数据组织标准等大数据处理阶段相关的标准规范。4)数据存储标准。包括非关系型数据库规范、非结构数据管理系统规范等大数据背景下的新型存储系统相关规范。
5)大数据服务标准。包括大数据提供服务、大数据实时分析服务、可视化服务等一系列大数据服务的标准化描述和接入。6)大数据安全和隐私标准。包括对外提供大数据服务时,对数据存储安全,数据传输安全,数据分析挖掘安全等方面的标准化。7)行业大数据应用标准。针对电子政务、通信、金融、电子商务、智慧城市、医疗等典型的大数据领域,其领域大数据应用、领域大数据的分类和编码等方面的标准;8)大数据产品测试标准。包括大数据产品的测试场景、测试指标、测试工具等。
4、结语
大数据标准化是大数据行业良性发展的基础之一,在全球范围内大数据标准化尚未形成体系的今天,企业、行业协会、科研机构等各界应当更多投入到大数据标准研制当中,同时积极将我国的大数据诉求输出到国际标准组织中。
参考文献:
[1]韩晶,王健全.The Present Situation and Prospect of Big Data Standardization%大数据标准化现状及展望[J].信息通信技术,2014,000(006):38-42.
[2]宋明顺,鲁伟,郑素丽.大数据标准化现状与发展思路研究:产业发展视角[J].标准科学,2017(5).
[3]张群,吴东亚,赵菁华.大数据标准体系%Big data standards system[J].大数据,2017,003(004):11-19.