服务热线: 13472705338
新闻中心 news center

煤矿智能仓储系统研究与设计

伴随互联网、大数据、人工智能技术的迅猛发展,煤矿智能化相关技术与装备水平也在显著提升。同时,随着煤矿智能化程度...
联系我们 contact us
新闻中心
您当前的位置:首页 > 新闻中心 > 元数据仓储结构的伊犁...

元数据仓储结构的伊犁科技文献共享服务平台

信息来源: 发布时间:2022-01-08 点击数:

0 引言

目前,在全国31个省、自治区、直辖市中(不包括港、澳、台),除北京外其余均建立了省级科技文献共享平台[1] ,此外西安、杭州、南宁、宝鸡、常州等地区也建立了市级科技文献共享平台,现已初步建成了国家、省、市三级科技文献共享平台,为科技创新、经济发展提供了强有力的资源保障[1,2,3,4] 。可见,科技文献共享平台的构建已经成为一种趋势。

纵观现有的科技文献共享平台,有很多值得借鉴的地方,但也有需要改进的地方。传统的基于页面分析的网页搜索代理模式的资源整合方式已经不能满足用户的要求,存在检索速度慢、维护复杂、数据著录缺乏统一标准、难以扩展等问题,而且外网用户使用数据库的知识产权也难以保证,此外在当前建设创新型国家的大环境下,政府、科研院所以及企事业的科技人员更加关注能否从海量级资源中高效、便捷的获取最有价值的知识服务,以改变资源超载与知识饥渴并存的现状。鉴于此,亟须将知识服务的理念融入文献资源整合中来,引入元数据整合技术,在此基础上集成互联网采集、文本挖掘和热点发现技术,开发基于元数据仓储的科技文献共享服务平台,从而在实现资源统一检索的同时,进一步扩大检索范围、提高查全率、提升检索效率,为实现传统文献服务向知识服务转变提供强有力的资源支撑,为实现知识深层次挖掘与分析提供依据。伊犁科技文献共享服务平台,在构建过程中充分融入了知识服务的理念,本文将论述伊犁科技文献共享服务平台的结构和功能。

1 元数据仓储知识库

伊犁科技文献共享服务平台将订购的各类资源以及网络上跟踪的资源整合从而实现资源的共享与服务。但由于各类资源异构,甚至缺乏关联,传统的资源整合效果欠佳。因此引入元数据规范,对所有资源采集、整理与加工,构建元数据仓储知识库。

1.1 元数据整合技术

传统的文献资源平台大多采用基于页面分析的网页搜索代理模式,即通过对不同检索系统的页面进行特征分析,提取检索结果的跨库检索方式[5] 。元数据是关于数据的组织、数据域以及关系的信息,也就是“关于数据的数据”[6,7,8,9] 。元数据整合技术通过制定统一的元数据规范,屏蔽系统之间的差异,可以实现对分布在不同物理存储空间的多种资源元数据的采集和集中管理,并通过对抓取数据的转换、清洗、质量检查、数据抽取和深度标引来来构建海量的仓储知识库[10] 。通过对上述两种整合技术进行对比(见表1)不难发现,基于页面分析的整合技术虽然实现了跨库统一检索,但是存在着检索速度慢、维护复杂、数据著录缺乏统一标准、难以扩展等弊端;而基于元数据的整合技术相对页面分析技术来说,通过定义资源元数据规范,将资源进行有序地整合,集中式管理,有效地解决了跨库检索系统检索速度慢、维护复杂等问题,同时由于其具有数据集中存储、检索效率高等优点,在用户统一身份认证、资源的二次开发以及深层次文献服务等方面更具优势,能够为用户提供更高层次的知识挖掘和分析服务,将大大提升平台的资源利用率和服务效果。

  

表1 页面分析整合技术与元数据整合技术对比  下载原图



表1 页面分析整合技术与元数据整合技术对比

表1 页面分析整合技术与元数据整合技术对比

1.2 元数据仓储的架构

元数据仓储知识库是基于统一的元数据规范构建不同资源的元数据库,通过对分散的、异构数据的整合,屏蔽系统之间的差异,满足对元数据的存储需求,实现元数据管理和共享。基于平台资源的现状,根据元数据仓储整合原理,构建了平台元数据仓储架构图,如图1所示。

图1 元数据仓储架构

图1 元数据仓储架构  下载原图


构建元数据仓储知识库首先要做好资源分析,对现有文献资源和外部网络资源进行梳理,确定资源类型,并针对各种不同的类型明确资源的采集方法、加工模型、加工方式、采集接口以及开放协议等,建立统一的元数据规范与加工流程标准。元数据的采集与加工是仓储知识库建设的重要环节,本平台建设中采用关键词抽取、关键词分析、信息重组分类等多项技术,成功开发了数据加工采集系统工具。通过在元数据仓储知识库中建立各个资源元数据加工规范模板,配置相应的采集参数,由元数据仓储系统自动实现元数据的采集与存储。采集过后的数据通过去重去噪、自动标引等功能完成二次加工后再进入元数据仓储知识库。

本平台以元数据仓储技术为核心,整合各类资源,国内外重要工程技术文献中文满足率达90%以上。基于元数据整合模式的跨库检索解决了原数据库系统资源记录孤立、关联度不高、用户使用时难以形成知识间联系网络等问题,同时元数据的使用仅涉及文献的题录文摘等表征数据,不侵犯知识产权,而原文则采用传递等国内外常规方法解决,从而能做到在不影响知识产权的情况下,将国内外优质数据库资源整合起来对用户开放服务。

2 平台的设计与实现

元数据仓储知识库的构建为实现科技文献共享服务平台提供了基础保障。在此基础上集成WEB2.0,AJAX,WEBService,RSS、中文自动分类等技术,应用门户系统把各种应用系统、数据资源和互联网资源统一集成到通用门户之下,根据每个用户使用特点和角色的不同,形成个性化的应用界面。通过对事件和消息的处理传输把用户有机地联系在一起,设计了伊犁科技文献共享服务平台(以下简称“平台”),建成了支持跨平台、分布式、异构数据库环境的综合性工程技术文献检索系统和信息服务系统。其主要功能包括:文献统一检索、用户统一登录、特色专题建设模块。

2.1 文献统一检索

平台通过构建元数据仓储知识库,对存在于不同检索系统的资源根据元数据规范进行数据处理、关联整合,经过元数据分析,构建了期刊、学位、会议、专利、图书、科技成果等11个元数据框架。通过抽取基本相近的元数据,生成统一元数据框架,以满足用户对所有数据资源统一检索功能,提高文献检索效率以及查准查全率。在此基础上,开发了全文检索服务系统,采用开源的全文检索引擎Lucene作为全文检索引擎框架,实现了类似百度、Google的检索界面,简单易用。通过对元数据进行分类处理,将同一类别的元数据进行统一分类,实现了基于年代、学科、资源类型等聚类分析及快速的资源导航功能。

2.2 用户统一登录

通过对资源元数据的整合,将各系统用户进行统一管理,开发用户统一认证模块,以用户管理为纽带,将平台中包括万方知识服务平台、维普信息资源系统、中国知网(CNKI)、国研网在内的文献检索系统集成为一个有机整体,实现了平台用户集中管理与认证,用户相互认证,极大地方便了用户的使用。相对国内一般的文献平台必须进入各自登录系统,实现了登录一个平台就能快捷、高效使用不同网络环境、不同数据结构的文献资源,解决了不同系统用户名、密码不统一、难以记忆的问题。

2.3 特色专题库建设

元数据仓储系统的构建大大提高了特色专题数据库建设的速度和准确率,改变了原先从不同的检索系统中组织人工批量下载再进行数据清洗与整理等一系列的繁杂过程,而且可以根据用户的服务需求个性化定制特色专题服务系统,快速形成各类特色专题数据库系统。以此为基础,开发了特色专题数据库开发工具,实现行业专题数据库的数据下载、加工、组织与发布的功能,从而为用户提供了成熟的特色专题数据服务。到目前为止已建成清洁生产、科技咨询、新材料等特色专题数据库服务系统。

4 结语

伊犁科技文献共享平台在现有文献资源的基础上整合科技政策、科技成果、科技专家、大型仪器、地方科技信息、科技金融、产业动态、项目申报指南等与企业创新各个环节紧密相关的科技资源,以国内外知识管理、知识发现、知识挖掘、知识分析、知识服务等理论为指导,对整合的各类科技资源进行挖掘、整理、重组,形成科技资源共享知识库并研发出科技资源知识服务系统成了平台未来的发展方向。

上海阳合仓储管理
官方二维码

版权所有©:阳合仓储 公司地址:上海市嘉定区南翔嘉美路428号 联系电话:134-7270-5338 沪公网安备 31011402008347号 沪ICP备14036201号-1