共查询到17条相似文献,搜索用时 924 毫秒
1.
基于XML的PDF文档信息抽取系统的研究* 总被引:3,自引:0,他引:3
首先设计了科技论文的DTD文档,然后分析了PDF文档的结构。在此基础上, 我们介绍了PDF文档信息抽取系统的设计框架。该框架以上述DTD为模板,把以PDF格式表示的科技论文解析转换为有效的XML文档。 相似文献
2.
XML文档的数据库转换技术研究* 总被引:3,自引:0,他引:3
概述目前XML的几种存储方法,简单分析科技论文的文档类型,最后采用SQL Server 2000对PDF格式的科技论文经元数据信息抽取后所生成的XML文档实现具体的XML的数据库转换。 相似文献
3.
为高质量地将作者提供的插图转换为科技期刊排版系统(方正书版)支持的格式,利用PDF虚拟打印机,将插图转换为PDF文档,再在Photoshop中读取PDF文档,将插图转换为tif等方正排版系统支持的图形格式,从而实现基于Photo-shop的科技期刊插图处理,满足科技期刊高质量图文混排的要求。 相似文献
4.
PDF科技论文语义元数据的自动抽取研究 总被引:1,自引:0,他引:1
在分析PDF文件结构的基础上,解析PDF文件的内容流,并采用基于规则的匹配方法和基于格式的定位方法,自动抽取科技论文中的语义元数据信息。实验结果表明,上述方法对标题、作者等重要的语义元数据信息能够达到较好的抽取效果。 相似文献
5.
2005年12月,国际标准化组织正式颁布了《ISO19005-1文件管理-电子文件长期保存格式第一部分PDF的使用(PDF/A-1)》(以下简称《PDF/A-1》国际标准),并作为电子文件管理中电子文件长期保存格式最新标准在国际上全面实施。一、《PDF/A-1》国际标准的基本概况1、PDF的基本概念PDF的英文全称是"Portable Document Format",中文直译为"可移植文件格式",但一般很少使用其英文全称或中文全称,而直接使用"PDF"(本文也用其简称"PDF",下同)。PDF是表达或显示电子文件的一种格式,采用PDF格式的电子文件一般称为PDF文件。PDF文件既可以直接由PDF格式生成,也可以由其他电子文件格式,如微软的Word格式、金山的WPS字处理格式等转换而来生成,甚至还可以由纸张、缩微胶片和其他载体的文件被数字化后加以转换而生 相似文献
6.
7.
PDF文件格式是档案数字化的一种较理想的途径。不仅传统的纸质档案与各类型的数字档案可以便捷地转换为PDF文件,而且PDF文件的特点也很适合档案管理。基于PDF的数字文件的信息防护是一个较新的领域,当前基于文本格式、语义语法和格式化文本的隐藏算法研究已有一定进展。 相似文献
8.
PDF文件格式是档案数字化的一种较理想的途径.不仅传统的纸质档案与各类型的数字档案可以便捷地转换为PDF文件,而且PDF文件的特点也很适合档案管理.基于PDF的数字文件的信息防护是一个较新的领域,当前基于文本格式、语义语法和格式化文本的隐藏算法研究已有一定进展. 相似文献
9.
以方正书版文件转换所得的几类常见的PDF文件为素材,基于OCR技术和PDF文件编辑技术,探索出2类制作可检索式双层PDF文件的方法。用Readiris法制作的Image-Text型双层PDF操作简便、文件很小、可生成索引书签;用FoxitPDF Editor法制作的Graphic-Text型双层PDF清晰度高、文本精准。这2种双层PDF文件均可以很好地满足网络期刊文献检索的需要。 相似文献
10.
11.
在讨论对期刊的学术不端检测报告作信息化存档重要性的基础上,针对中国知网学术不端检测系统生成的文本复制检测报告单无法直接生成PDF文件的问题,提出利用虚拟打印机生成学术不端检测报告PDF文件的方法,并给出了详细、可行的实现步骤。 相似文献
12.
PDF在编辑工作中的应用 总被引:18,自引:5,他引:13
PDF是近年流行于互联网上的文件交换格式,它能保持原文件的排版格式和创建风格,能高保真压缩,可不依赖原创应用程序和操作科台显示和打印。PDF适宜传递编辑校样和广告图文,还适合编辑部出版专题资料。 相似文献
13.
姚瑞全 《现代图书情报技术》2003,(Z2)
介绍了基于PDF文件自动建库设计与实现方法。该程序用VB设计与实现,可自动提取PDF文件中的文字信息,并通过读取特征库,实现自动构建全文数据库,为建立全文数据库提供了一种自动、高效的文本信息输入手段。本文还探讨了以其它格式存储的文件建立全文数据库的可能性和方法。 相似文献
14.
我国档案馆电子文档长期存取的格式选择 总被引:1,自引:0,他引:1
PDF/A于2009年底正式成为我国的电子文件格式标准,这种国际通用的格式标准,在档案馆有极大的应用价值.有利于档案部门对电子文档的长期存取与利用,保证了系统的独立性并节约了电子文档长期存取的成本.同时,具有良好的技术支持,是我国档案馆电子文档长期存取策略的较佳格式选择. 相似文献
15.
利用方正小样与PDF文件的无缝对接实现远程校对 总被引:3,自引:0,他引:3
利用方正书版软件处理方正小样文件,利用方正PSR-PRO输出软件的虚拟打印机功能将方正大样文件转换成PDF文件,以及Adobe Acrobat软件对PDF格式文件合并创建和注释等功能,以实现方正小样文件与PDF文件的无缝对接,并实现作者的远程校对,从而提高作者校对的质量和效率. 相似文献
16.
介绍多种方正书版文件转换PDF的方法,从转换条件和适用范围、转换效率、转换后文件尺寸、文件质量等方面对其中四种方法进行对比分析。结果表明:书版2008直接输出法、书版大样—标准PS-PDF法的转换效率高、转换质量好,可实现期刊社与作者的无障碍沟通及数字出版和网络出版的要求。研究结果为期刊社在众多转换方法中选择适合自身需求、软件资源和经济实力的方案提供参考,有助于推动期刊社的数字化和网络化进程。 相似文献
17.
阐述如何巧妙利用Nooog PStoPDF软件中EPS转JPG的功能,配合使用Adobe Acrobat将飞腾EPS文件批量转换为PDF文件的方法。该方法转换速度快、转换效果好,生成的PDF文件占硬盘空间较小,图中文本可进行标记注释,很好地满足了用方正飞腾制作EPS图的科技期刊对插图进行远程校对的需要。 相似文献