Page 42 - 网络电信2021年10月刊下
P. 42
解 决 方 案
智慧工程大数据平台技术架构如图1所示。根据数据从来源 度,采用Cloudera Manager监控集群的运行状态。如图1所示。
到应用,实现数据传输的流程,可将大数据技术架构分为采集清 2.关键技术
洗层、数据存储层、数据分析层、数据服务层、平台管理层。 2.1 多源异构数据采集
1.1采集清洗层 数据采集主要实现内外部系统的结构化、半结构化、非结
采用批量和实时采集技术,实现物联网平台的时序数据、 构化等不同类型、不同时效的数据的复制与整合。例如将视频
业务系统结构化数据、日志文件等非结构化数据的标准化统一 监控、日志文本等对象数据,接入到对象存储数据库中;将物
采集和清洗。 联网平台采集的时序数据,如光伏组件监测数据、风力发电机
1.2 数据存储层 组监测数据、升压站监测数据等,接入到时序数据库中;将业
运用HDFS、HBase、Hive、Greenplum等技术,构建统一的 务系统传输过来的业务数据,如计划、调度、运营等结构化数
数据湖平台,实现数据的统一存储和管理,为跨库的数据关联 据,接入到关系存储数据库中。
分析提供基础。 大数据平台集成MapReduce、Spark、Flink并行计算框架以
1.3 数据分析层 提供高效灵活的接入,数据采集技术总体设计特点包括:①支持
基于大数据计算引擎MapReduce、Spark、Flink,采用开 高吞吐量数据的高并发接入;②数据不丢失不重复接入,保证数
源的统计算法、机器学习算法、深度学习算法,构建开放灵活 据高可靠性;③接入数据的事务性,同一批数据要么都接入,要
可扩展的数据分析环境。 么都未接入;④支持复杂网络环境下的可靠数据采集;⑤支持跨
1.4 数据服务层 网段、跨单位的数据采集;⑥支持基于通道、文件的加密传输;
采用微服务架构,搭建适用于各类用户的数据共享服务,如 ⑦支持多种数据接口和传输协议;⑧支持断点续传。
查询服务、数据主题服务、数据订阅服务、统一数据访问服务。 2.2 数据集成处理
1.5 平台管理层 数据集成实现数据的转换、逻辑判断、数据质量的检查、
采用Yarn作为资源管理调度器,为集群的各类计算框架提 异常处理、数据路由、数据的规范化等处理。数据集成包括数
供统一的管理和调度,采用Zookeeper解决分布环境下的数据管 据清洗、数据校验、数据转换、数据标准化。
理问题,采用OOzie工作流调度系统用来管理任务和工作流调 数据清洗目的在于删除重复信息、纠正存在的错误,保证
图 2 数据仓库分层示意图
图 3 大数据技术在智慧工程中的应用
70 网络电信 二零二一年十月