Page 20 - 网络电信2019年3月刊上
P. 20

图 1 联通企业电子档案“两库两平台”示意图                              度,来量化概念间的语义距离,以选取最相近的概念;或者在
                                                                 语义模型中预先定义的一些关系上进行推理检索,同时根据电
                                                                 子档案馆系统中的历史数据对用户的使用习惯进行分析,得出
                                                                 数据评分模型,同时使用基于历史数据的多维度评分算法和检
                                                                 索结果优化算法,进而实现对联通相关部门的推荐和检索结果
                                                                 的排序。
                                                                     (4)档案多维展示平台建设
                                                                     档案多维展示平台建设主要借助计算机的巨大处理能力及
                                                                 计算机图像和图形学基本算法以及可视化算法,将海量的数据
                                                                 转化为图像或图形呈现在人们面前,并允许通过交互手段控制
                                                                 数据的抽取和画面的显示,将隐含于数据之中不可见的规律具
                                                                 象化,因此将可视化技术与地理信息系统结合,为人们分析、
                                                                 理解数据、形成概念、找出规律提供了强有力的手段。在档案
            传输时面临的主要问题。本方案针对这些问题,主要设计一套                          多维展示平台建设过程中,基于虚拟现实和三维可视化技术,
            采集规则,并按一定的资源组织规范存储到云池中,为用户进                          进一步完善和建设现有中国联通电子档案馆,将虚拟三维可
            一步加工处理档案数据以及检索提供有力支撑。电子档案馆的                          视化技术与档案管理无缝融合,实现电子档案直观的管理和检
            数据具有海量、复杂、多样、异构、动态变化等特性,而且目                          索,有效地提高电子档案管理和检索的效率和管理的手段,并
            前这些数据均缺乏统一的采集和存储的标准及规范,形成“数                          支持人性化、个性化和视觉化用户体验,包括档案数据的关联
            据孤岛”。如何存储和管理海量的档案馆数据,使这些数据得                          分析、知识推荐等。
            到高效的利用,是档案信息资源库建设的主要目标。使用MySQL                           针对企业档案数据领域性强,置信度高,形式多样化、
            来进行一些固定数据的存储,利用Hadoop、HBase等大数据技                     结构化数据与非结构化数据并存等特点,从档案的数据结构与
            术,实现档案数据存储及管理,充分利用了其高可靠性、高容                          组织形式、数据分布和规模、数据多样化程度,以及档案利用
            错性、可扩展性等特点。                                          的实际需求等方面出发,全方位考察企业档案大数据的管理方
                (2)档案知识库建设                                       法和利用方式,在建设两库两平台的任务规划上,在海量的档
                在知识经济时代,电子档案管理需要提供一种全新的知识                        案数据中,挖掘和建设业务主题模型,采用语义分析、知识图
            层次的管理模式才能解决传统信息管理模式的各种问题。整个                          谱、文本挖掘、深度学习等先进技术,设计和建设联通数据档
            知识建模的过程就是对信息资源的知识提炼过程,所提供给用                          案元数据标准、分词库、语义本体库,并建设大数据技术支持
            户的不再是原始的档案文件,而是知识层次上的概念与逻辑关                          的存储平台、数据分析/挖掘平台以及可视化展示平台。
            系。语义本体理论作为一种结构化的知识描述语言,能够比较
            好地解决知识表达、知识存储和知识检索等知识管理方面的基                              二、知识图谱驱动的企业电子档案智能利用
            础性问题,有助于解决对档案知识的结构化描述以及准确的知                              将信息组织方法中的主题方法与数据挖掘、机器学习中的
            识识别定位,提高档案管理的效率。                                     聚类方法相结合,从主题角度出发,应用主题聚类方法,构建
                在联通电子档案“两库两平台”建设中,采用本体化协                         联通电子档案主题聚类图谱(图2),分析概念、对象以及属性
            同设计知识库开发方法与技术框架,以本体化知识模型作为基                          之间的因果关系,根据属性对所属对象集合的关联性和形式背
            础,实现知识共享、重用和异构系统的互操作,充分挖掘文档                          景的不断更新,可视化地推断出各属性间的因果关系。针对联
            的语义信息,并以统一的格式描述知识并存储于知识库中,为                          通数字档案馆的档案分类,实现档案数据的智能推理与检索。
            用户进行知识发现提供了一种新的数据存储方式,并以此进一                          相对于传统的关键字搜索引擎,基于知识图谱的推理与检索可
            步构建联通电子档案知识系统。                                       以根据输入的关键字找到最切合关键字的文档,在此基础上根
                (3)档案数据挖掘服务平台建设                                  据最切合关键字的文档所在分类中知识图谱的关联关系,挖掘
                特定领域的语义模型一般都需要定义该领域内大量的概念                        出与之有联系的文档关系图。通过这些关系图就可以实现真正
            及概念之间的关系,并通过这些关系来表达概念之间的语义。
                                                                  图 2 联通电子档案主题聚类图谱
            在联通电子档案“两库两平台”中,档案数据挖掘中引入基于
            本体的语义分析技术,解决业务(主题)目标发现和挖掘对象
            选择的问题,有助于解决档案数据信息处理中的语义化问题,
            同时在传统的数据挖掘算法上引入了语义本体,使得系统能快
            速识别业务需求,可以更高效地选择相应算法,在很大程度上
            可以提高联通电子档案的数据分析以及挖掘的能力,在应用程
            序中利用概念之间的关系来提供推理的规则,将语义模型作为
            相关操作的依据,例如在语义模型上进行语义检索、浏览等。
            现有的基于语义模型的检索模式,通过计算概念之间的相关


                                                       网络电信 二零一九年三月                                            19
   15   16   17   18   19   20   21   22   23   24   25