首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 742 毫秒
1.
<正>企业信息化使得电子文件成为企业知识的主要载体,例如各类文档、图片、视频、音频、源代码、CAD图纸、方案等,非结构化数据、半结构化数据与日具增;在企业运营过程中,通过文档和客户交流的时间甚至超过90%,应用文档所产生的人工费占总人工费的40%,企业总收入的15%,文档的  相似文献   

2.
2019年12月国家档案局正式发布了《基于文档型非关系型数据库的档案数据存储规范》,并于2020年5月1日开始实施,该标准规定了使用文档型数据库存储档案数据的总体要求,提出了使用文档型数据库存储和管理档案数据的基本功能和实施方法。通过对该《规范》的解读,结合文档型非关系型数据库的功能,以MongoDB数据库为实践对象,可以看出其存储档案数据特别是非结构化档案数据的原理和方法与传统解决方案的不同。采用文档型非关系型数据库存储档案数据具备全新的优势和价值。  相似文献   

3.
介绍了非结构化数据库的概念。分析了非结构化数据库在存储机制和索引机制上的变革及作用。提出了在多类型文档管理中使用非结构化数据库的思想,并分析了相关应用中的若干关键问题。  相似文献   

4.
由于互联网的飞速发展,网络上的海量信息促成了互联网搜索的无限风光,在谷歌、百度,几乎什么都可以查到,给大家带来很多方便。而在信息化浪潮的带动下,企业数据不断增加,企业搜索也得到了普遍应用,搜索从结构化数据的查询发展为对非结构化文档数据的检索。可相比互联网搜索,企业搜索却时常让人感到搜索困难,找不到想要的东西。如何将互联网搜索的优点,融合进企业搜索,从而提升企业搜索,以便提供更好的服务?  相似文献   

5.
面向内容管理的iBASE数据库   总被引:2,自引:0,他引:2  
网络时代,如何迅速、方便地获取所需信息已经是企业正确决策、增强竞争力、取得事业成功的关键。为抓住每一个商机,在市场上保持领先地位,企业需要有效利用其业务所涉及的每一类信息———从传统的字符数值数据到诸如电子文档、图像多媒体内容,到基于Web的内容等等。然而,传统的关系型数据库只能处理占据所有数据类型仅20%的简单结构化数据,而对企业中80%以上以非结构化的形式存在的数据,如文档、手册、E-mail、技术报告、专家陈述等的管理,却爱莫能助。于是,针对非结构化数据内容处理的iBASE数据库管理系统逢时而生。事…  相似文献   

6.
数据价值已经得到社会各界的高度认可。为进一步利用大数据、人工智能等技术释放数据的价值,文档数据化的概念被提出并日益受到重视,也成为图书情报与档案管理学科数字转型的新领域。经多学科概念与方法的综合和推演,本文对文档数据化的概念内涵、内容框架和关键方法展开系统研究。研究发现,文档数据化是面向文档的开发利用,将文档转变为机器可识别、可分析、可计算的数据的过程;智能技术允许机器参与到文档数据化的决策过程中,使得文档数据化呈现出人机协同、利用驱动、粒度细化、面向计算的特点。基于以上研究,本文提出文档数据化的任务框架,包含转录识别、描述增强、关联构建和矢量处理四项任务,呈现出结构化、语义化和智能化三个维度上面向机器的演进机制。对各项任务涉及的基础方法和关键方法进行梳理后可知,以深度学习、自然语言处理等技术为核心的文档数据化方法正在发挥越来越重要的作用。图6。表6。参考文献36。  相似文献   

7.
针对传统的相似度计算方法在海量信息处理过程中暴露出的数据处理规模限制和性能不足等方面的瓶颈问题,以非结构化文档为研究对象,提出一种基于Hadoop分布式环境,结合Hive数据处理平台和PostgreSQL关系型数据库的文档相似度计算方法,并给出关键技术思路、具体实现步骤和实证研究,通过研究证明Hive SQL语言可有效简化分布式数据处理的复杂性,但实时性有待改进。  相似文献   

8.
视频元数据全文检索系统的研究与实现   总被引:3,自引:0,他引:3  
陈玮  陆达 《情报学报》2004,23(1):32-35
本文阐述了采用XML文档按照MPEG 7标准描述视频数据的趋势 ,研究了适合于半结构化视频描述的全文检索索引结构。该索引保存了文档中的结构信息 ,从而可以对视频数据进行全方位多层次的查询。提出了一些缩减索引空间的策略和算法。  相似文献   

9.
文档库技术在档案信息资源共享中的应用探析   总被引:1,自引:0,他引:1  
文档库技术是对书面文档进行描述、存储、处理、管理的基础技术平台,通过公开规范的非结构化操作标记语言,统一面向书面文档处理的访问标准,为应用软件提供书面文档通用操作功能,是对文档处理软件的重大贡献。  相似文献   

10.
[目的/意义]信息资源时代下,数据类型多元化特征显著,透析数据结构化过程中蕴含的目录学思想,有助于解决非结构化数据管理与利用的难题。[研究设计/方法]首先辨析数据结构化的本质过程,并揭示其中蕴含的目录学机理和标引分类思想,说明用目录学思想指导数据结构化过程的可行性,并借由目录工作运用的文献揭示、书目索引编纂、文献标引分类、文献组织等传统方法,解析不同类型非结构化数据的特点,指导其关联整合、索引指示、标引分类、组织重构等主要结构化过程,最终实现非结构化数据的“辨章学术、考镜源流”。[结论/发现]数据结构化基本承袭了以分类标引等为核心的书目思想,在本质上是作为致用之学的目录学在当下环境的延续和发扬。[创新/价值]有助于制定数据结构化过程的范式流程,增强非结构化数据结构化解析过程的复用性。  相似文献   

11.
大数据智能分析是企业技术创新的新希望,也是科技信息机构在服务转型的压力下所面临的新机遇。应用大数据智能分析,企业可以从海量多样的数据中,深入挖掘并呈现满足创新需求的各种关联信息,获得洞悉,并做出更为准确的创新决策。文章面向企业技术创新服务,讨论大数据智能分析系统的机制,并以大数据类型——结构化和非结构化数据为中心,介绍它们不同的处理技术。由于计算机处理结构化数据的简易性和精准性,文章将数据的结构化处理技术作为主要的议题进行讨论,介绍实用的标准技术DITA。最后,以作者研发项目为例,介绍与大数据分析有关的工作及展望。  相似文献   

12.
中文电子病历的分词及实体识别研究   总被引:1,自引:0,他引:1  
[目的/意义]健康医疗大数据是我国重要的基础性战略资源,本研究对中文电子病历分词与实体识别的探讨与实证较好地完成了医疗数据的信息抽取任务,对今后医疗大数据在语义层面的应用发展具有重要意义。[方法/过程]本研究首先融合权威词表、官方标准、健康网站数据及其他医学补充词库构建了词语数量级达到10万的医学词表;然后对电子病历的字段进行分词,对比了jieba工具、导入词典后的jieba、无监督学习及AC自动机4种模型的分词效果;最后,以自动分词和人工标注结果为语料,实现基于条件随机场的电子病历实体识别研究,并比较不同实体类别以及不同文本特征下的实体识别效果,选出最优模板。[结果/结论]分词结果显示,AC自动机的效果最好,F值可达82%;实体识别结果表明,"检查"和"疾病"实体的识别效果最好,而"症状"的识别效果不太理想。  相似文献   

13.
欧盟大数据伦理治理实践及对我国的启示   总被引:1,自引:0,他引:1  
陈一 《图书情报工作》2020,64(3):130-138
[目的/意义] 总结欧盟大数据伦理治理的经验,为我国大数据伦理治理提供参考。[方法/过程] 系统梳理欧盟有关大数据伦理治理的相关政策,分析欧盟大数据伦理治理的实践,重点剖析欧盟社会经济委员会(EESC)的治理措施,在此基础上总结欧盟的治理经验,并根据我国的实际情况,归纳出对我国大数据伦理治理的启示。[结果/结论] EESC从人类生命周期出发,将大数据伦理归纳为包括"意识""控制力"等在内的10个主要问题,并从个人、企业、研究机构多层面提出5项治理举措,同时强调从多视角审视大数据伦理问题。而目前我国数据伦理法律规范的滞后,以及公民伦理意识的缺失给大数据利用带来了巨大的伦理风险,我国应借鉴欧盟治理经验,明确大数据环境下的个人权利,在数据治理过程中关注多利益主体的伦理需求,构建数字教育体系,探索建立研究者持续性审核责任机制。  相似文献   

14.
��[Purpose/significance] Summarizing the experience of EU big data ethics governance and providing experience for big data ethics governance in China.[Method/process] This paper systematically sorted out the relevant policies of EU on the governance of big data ethics, analyzed the practical exploration of EU big data ethics governance, focused on the governance measures of the European Commission for Social Economics (EESC). On this basis, this paper summarized its governance experience, and summed up the enlightenment to the ethical governance of big data in China according to the actual situation of our country.[Result/conclusion] EESC starts from the human life cycle and summarizes the data ethics into 10 ethical issues. 5 governance measures are proposed from the perspectives of individuals, enterprises and research institutes. At the same time, it emphasizes to examine data ethics from multiple perspectives. The lag of the legal norms of data ethics and the lack of citizen's ethical awareness in China have brought great ethical risks to big data utilization. China should learn from EU, clarifying the individual rights in the big data environment, paying attention to the ethical needs of multi-stakeholders in the process of data governance, building a digital education system, and exploring to establish a researcher's continuous review responsibility mechanism.  相似文献   

15.
[目的/意义]近些年来,创业生态系统已经成为创业研究的热点,但是从创业生态系统治理模式角度探索知识流动的研究尚不多见。因此,通过研究创业生态系统不同治理模式下企业间的知识流动特点,促进企业自身创新以及创新成果的扩散,进而带动整个创业生态系统良性发展。[方法/过程]结合创业生态系统治理模式的演化过程,对创业生态系统及其治理模式和知识流动进行界定,提出创业生态系统不同发展阶段的层级治理模式和关系治理模式,并构建不同治理模式下的企业间知识流动模型,即层级治理下的知识流动模型和关系治理下的知识流动模型。[结果/结论]在创业生态系统层级治理模式下,知识流动形成知识供应链;当治理模式处于层级治理和关系治理模式之间,知识流动从知识供应链向知识网络转变;当治理模式为关系治理时,知识流动方向具有多元化特点,形成知识网络。  相似文献   

16.
数据共享视角下跨部门政府数据治理框架构建   总被引:2,自引:1,他引:1  
[目的/意义] 跨部门的政府数据共享面临着巨大挑战,部门之间数据隔离,数据共享进展缓慢。引入跨部门的政府数据治理有助于促进政府的信息资源共享,提升政府服务水平和服务对象的满意度。针对跨部门政府数据治理的相关实践亟需科学理论的指导。[方法/过程] 首先对政府数据治理的含义进行分析和界定,对已有的数据治理框架进行总结论述,然后分析政府数据治理的特殊性所在。[结果/结论] 在国内外认可度较高的数据治理框架基础上,结合政府数据治理的特殊性,提出我国跨部门政府数据治理框架--CGCS数据治理框架,由战略目标、规范与标准、关注范围、治理主体、过程、方法与技术6方面内容组成,并对框架每一部分结合我国实际情况进行阐述。最后,对CGCS数据治理框架在跨部门政府数据治理实践中的应用进行示例分析,阐明CGCS数据治理框架的可用性。  相似文献   

17.
王强  杨文 《档案学研究》2021,35(5):45-51
企业档案机构是确保企业档案工作顺利开展的重要组织保障,优化企业档案机构设置及其运行,直接关系到档案机构本身的履职能力和企业治理现代化目标的实现程度。在对我国企业档案机构相关研究进行梳理的基础上,分析了治理现代化背景下企业档案机构设置及其运行所面临的挑战和机遇,并以中国石油为例,全面介绍和剖析了中国石油档案机构的优化背景、主要做法、运行情况等方面的实践探索。最后,基于治理现代化视阈提出企业档案机构设置及其运行的对策建议,即国家应加大对企业档案机构设置的指导力度,企业设置档案机构应优先考虑管理职能的发挥,企业档案机构应把握发展趋势积极拓展职能。  相似文献   

18.
藏族石刻档案是藏族文化的重要组成部分,保留了中央王朝与藏族珍贵的历史记忆,具有鲜明的民族特色,详细记载了中央王朝为治理边疆所实行的各项措施。本文从边疆治理的视域出发,提出开展藏族石刻档案的整理发掘研究工作,有利于为边疆治理的理论研究和实践创新提供档案支持;并通过文件连续体理论提出整理发掘的思路与对策,结论对少数民族历史档案的整理发掘具有理论意义与现实意义。  相似文献   

19.
大数据治理体系构建方法论框架研究   总被引:5,自引:1,他引:4  
[目的/意义] 弥补大数据治理体系构建方法论研究的不足,提出更具通用性的大数据治理体系构建方法论框架。[方法/过程] 从方法论概念入手,对ISO国际标准化组织关于方法论的定义和现有的方法论研究成果进行系统梳理,识别出方法论要素及类别,并构建方法论框架;基于给定的方法论框架,从理论、概念模型、原则和规则、过程和程序、方法和评估标准等方法论要素对现有大数据治理研究成果进行映射分析;在综合集成大数据治理体系构建方法论要素的基础上,结合戴明环(PDCA)的理论基础对当前大数据治理体系构建方法论进行修正和补充。[结果/结论] 明晰了当前大数据治理体系构建方法论的要素及其关系,并从综合集成视角提出大数据治理体系构建方法论框架构想。  相似文献   

20.
Search result diversification aims to diversify search results to cover different query subtopics, i.e., pieces of relevant information. The state of the art diversification methods often explicitly model the diversity based on query subtopics, and their performance is closely related to the quality of subtopics. Most existing studies extracted query subtopics only from the unstructured data such as document collections. However, there exists a huge amount of information from structured data, which complements the information from the unstructured data. The structured data can provide valuable information about domain knowledge, but is currently under-utilized. In this article, we study how to leverage the integrated information from both structured and unstructured data to extract high quality subtopics for search result diversification. We first discuss how to extract subtopics from structured data. We then propose three methods to integrate structured and unstructured data. Specifically, the first method uses the structured data to guide the subtopic extraction from unstructured data, the second one uses the unstructured data to guide the extraction, and the last one first extracts the subtopics separately from two data sources and then combines those subtopics. Experimental results in both Enterprise and Web search domains show that the proposed methods are effective in extracting high quality subtopics from the integrated information, which can lead to better diversification performance.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号