数据中台共享服务在北斗中的应用与实现

发表时间:2020/10/10   来源:《中国电业》2020年第16期   作者: 潘飚1 陈新鹏2 李丹丹2 尚枫3
[导读] 针对传统电力业务及未来社会发展需要,积极打造以北斗精准位置服务和全方位地理信息。为此需要提供数据与服务总线的服务支撑能力,以此支撑基于北斗精确位置服务的构建。
        潘飚1   陈新鹏2   李丹丹2  尚枫3
        1国网思极神往位置服务(北京)有限公司
        2.国家电网有限公司信息通信分公司
        3善智互联(北京)网络科技有限公司
        摘要:针对传统电力业务及未来社会发展需要,积极打造以北斗精准位置服务和全方位地理信息。为此需要提供数据与服务总线的服务支撑能力,以此支撑基于北斗精确位置服务的构建。
        关键词:电力业务;北斗系统;数据存储;数据处理
        引言
        北斗数据质量除了受到来自卫星端的影响之外,也会受到接收机以及周围环境和北斗信号传播路径的影响,因此高精度的导航与定位,良好的数据质量是基础。
1.数据总线架构
1.1数据融合
1.1.1数据集成
        把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为北斗提供全面的数据共享。数据集成平台能够按照统一的规则集成并提高数据的质量,通过图形化工具快速灵活地设计与部署实现数据的抽取、转换、加载等功能。
1.1.2数据存储
        分布式存储:将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
        结构化存储:由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域
1.2数据开发
1.2.1数据批处理
        针对于批量处理及分析的数据库,被广泛应用于数据仓库和数据集市的构建。加上自主开发的创新功能组件,有效解决了北斗大数据数据处理和分析的各种技术难题,帮助北斗快速构建和推广数据业务。
1.2.2数据实时处理
        为北斗打造的流计算引擎,主要应用于流数据加工。具有高性能、稳定性好等特征,简化流计算应用的开发以及管理成本。同时兼具批处理和事件两种处理模式,其数据处理的延迟在100毫秒到2秒之间。
1.3数据治理
        提供全方位数据治理评估能力,如数据的重复性、关联性、正确性、完全性、一致性、合规性等,对数据进行全面体检。提供可配置化的度量规则和检核方法生成能力,提供检核脚本的定时调度执行和第三方调度工具的调度执行功能。系统提供报警机制,对检核规则或方法进行阀值设置,对超出阀值的规则进行不同级别的告警和通知。对问题数据问题进行流程处理支持,规范问题处理机制和步骤,强化问题认证,提升数据质量。
1.4数据服务
        基于大数据架构提供统一的数据服务能力,提供北斗数据资源对外开放的共享通道,包括实时接口服务、批量作业服务、文件传输服务,从数据定义、服务开发、服务消费、运行管控实现数据资源的闭环管理。


2数据总线实现
2.1数据抽取和加工
        DI(Data Integration)是一个高性能、易管控的数据集成平台,通过DI 可以完成对各种类型数据的访问、过滤、清洗、转换、加载等 ETL 过程,通过DI 实现不同模式,如:基于触发器、基于时间戳、基于全文比对、基于日志的数据同步,最终实现异构数据的有机整合,在数据集成的过程中,借助  DI 其强大的模型管控能力,在实施过程中进行开发过程的规范化、代码自动化、代码和质量可控化、调度管理统一化和监控可视化。
        Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在平台中的所有设备和基动作流数据。这些数据是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像数据总线一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过数据总线的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。
        元数据平台支持北斗复杂异构数据源的采集,提供多种采集适配器可快速对接北斗各类元数据,建立统一、集中的元数据资源库。提供元模型自定义功能,支持元数据管理需求自定义元模型。支持通过界面或图形的方式进行元数据及关系的维护,提供多层次、细粒度的图形化分析功能;具有强大的元数据版本、元数据变更管理功能。支持元数据批量导出以及分析结果导出,支持元数据全文检索功能。支持分布式部署多个采集器,解决跨云元数据采集问题,对同一个元数据采集来源,支持主、备采集器部署模式,实现高可靠的元数据采集。
        QualityCube 系统集数据质量类别管理、质量度量规则管理、质量检核方法管理、质量检核方法审核、数据质量检核调度、数据质量检核执行、数据质量检核入库、问题数据展现、问题数据趋势分析、数据质量检核监控、检核日志管理、页面配置管理、数据质量报告组件为一体,以暴露和提升系统数据质量为目标,度量规则和检核方法为主线,通过自身调度模块或者第三方调度为触发,帮助北斗建立统一的数据质量管理和度量管理体系。
        2.2数据处理引擎
        Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
        Spark Streaming是北斗的流计算引擎,主要应用于流数据加工。Spark Streaming具有高性能、稳定性好等特征,并且根据在测试和实际部署应用中遇到的问题和需求,丰富Spark Streaming的功能、简化流计算应用的开发以及管理成本;另外Kafka作为生产环境中常用的数据源,Spark Streaming也做了对应的性能优化和功能开发。Spark Streaming同时兼具批处理和事件两种处理模式,其数据处理的延迟在100毫秒到2秒之间,因此Spark Streaming可以满足绝大部分的准实时处理数据的场景。Spark Streaming集群支持灵活的进行线性扩展。Spark Streaming提供高级语言和SQL的编程接口,降低编程难度,通过简单的接口完成复杂的业务处理逻辑。
2.3数据共享中台
        数据服务共享中台(Data Service Platform)基于大数据架构提供统一的数据服务能力,是北斗数据资源对外开放的共享通道,提供实时接口服务、批量作业服务、从数据定义、服务开发、服务消费、运行管控四方面着手,实现数据资源的闭环管理。数据服务的本质是业务活动的抽象,业务活动需求由业务人员提出,数据服务开发人员依据需求进行开发和数据服务的共享发布。中台支持批量作业服务、实时接口服务、文件传输服务三种数据服务形式,并且提供在线、离线两种服务开发方式。过程中可以根据具体业务场景需求,制定服务发布和安全策略。服务消费是在数据服务化后,面向应用的一系列操作动作。数据服务中台为消费者提供数据预览、申请、审批等功能,具备单个、批量申请的能力,具备向消费方推送或由消费方拉取的服务方式;提供数据流量、权限和优先级的服务控制;支持按照计划、事件触发等多种方式进行服务调度。
3结论
        综上,在北斗大量数据中,要发挥其数据的价值必须整合和加工现有或新建的各种信息系统或者业务应用中的数据,并通过将经过处理的数据嵌入到业务流程中,实现智慧化生产,智慧化管理。
        参考文献
        [1]马洪斌;王珂等.大数据时代的空间数据挖掘综述[J].测绘与空间地理信息.2014 (7)
        [2]杨霞;党亚民等.GNSS多卫星系统数据预处理方法研究[J].大地测量与地球动力学.2009 (2)
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: