首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于支持4字节编码汉字的数字化及全文检索发布系统
引用本文:朱人杰,蒋贤春,郑珑.基于支持4字节编码汉字的数字化及全文检索发布系统[J].数字图书馆论坛,2007(5):60-67.
作者姓名:朱人杰  蒋贤春  郑珑
作者单位:北京中易中标电子信息技术有限公司,北京,100029
摘    要:全文数字化是信息资源建设的方向,研究型资源的全文化检索尤其重要.计算器现有系统能处理的汉字,对于中文古籍、辞书、人名地名系统、报刊出版远不够用.几年前,国际标准ISO/IEC 106462003(即Unicode 4.0)编码汉字字符集已经拥有7万余汉字,但其中有4万2千多个汉字是4字节编码,在应用领域的处理方面有一定难度.文章介绍中易公司处理4字节编码汉字的技术成果,并结合在古籍数字化项目中的实际应用,着重说明用自行开发的7万汉字的应用系统,支持数字化工程和全文检索发布的技术特点,强调超大字符集、XML开放数据等标准技术的应用等.通过实践,总结出一套基于支持超大字符集4字节编码汉字的数字化的应用技术,以及信息全文检索发布的可行方法,解决了古籍和文献的数字化工程中的技术难点.

关 键 词:超大字符集  古籍  数字化  全文检索
修稿时间:2007年2月26日

Digitization and Full Text Search Publishing System Supporting 4 Bytes Coding Chinese Character
Zhu Renjie,Jiana Xianchun,Zheng Long.Digitization and Full Text Search Publishing System Supporting 4 Bytes Coding Chinese Character[J].Digital Library Forum,2007(5):60-67.
Authors:Zhu Renjie  Jiana Xianchun  Zheng Long
Abstract:
Keywords:ISO10646-2003  XML
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号