走进青苹果
新闻中心
产品与服务
生产与运营
印前校正
发展规划
30周年纪念
加入青苹果
数字生产工艺
版本一
1) 双录三校数据录入
从1992年以来,青苹果采取自行开发的校对软件(双录三校)进行大规模数据生产,数据质量稳定误差率小于万分之一,在全国同行业中,质量稳居前茅。《家庭藏书集锦》《半月谈》《人民日报图文电子版》等项目均是由于校对质量稳定,青苹果才取得项目制作权。双录三校系统是成熟稳定的生产工艺,我们使用该系统已完成六十多亿汉字的生产。
2) 全文检索工具
青苹果同国内至少十家以上开发全文检索系统的公司有频繁的技术往来,已引进以下全文检索系统作为产品的技术支持:
(1)北信TRS系统,包括文本和PDF 文件全文检索
利用TRS系统,已制作了《家庭藏书集锦》《人民日报图文电子版》《深圳特区报》《南方周末》及其它系列产品;
(2)北大方正渊博系统,包括文本和PDF文件全文检索
利用渊博系统已制作《人民日报98版》;
(3)中文之星智能化全文检索系统
利用中文之星系统,已建立青苹果语料库(20亿汉字)。
3)版式和字体恢复
青苹果参与清华大学OCR2000和北大方正文易系统的设计、测试和鉴 定。青苹果提出的测试意见,对以上两个系统的完善有较大影响。
清华OCR2000是目前国内唯一完善版式恢复系统,在功能上能实现字体、字号的识别,能处理横排、竖排的复杂版面,并能实现最终文件其它格式转换。青苹果是OCR2000最初需求的提出者,是开发过程中的协助方,是第一个使用的测试厂商。青苹果利用OCR2000已完成《南方周末》《深圳特区报》《半月谈》等十余个产品的开发。实践证明,使用OCR2000是一个非常复杂的过程,必须具备完整的软件集成能力,有大量成熟的操作人员,才能使OCR2000的生成文件成为最终产品。青苹果是OCR2000在全国范围内唯一使用成功的用户。
4)平台技术
青苹果1997年成功开发PDF中文转换系统,是国内第一个开发PDF技术的厂商。青苹果利用PDF技术已生产电子出版物产品40余种有成熟的开发、制作PDF产品生产能力。
由青苹果提出需求,并在青苹果协作下不断完善的《青苹果双平台网络版电子报刊系统》是目前国内最完善的报刊电子版平台技术。该系统的特征是:与WWW技术结合,提供灵活方便的多窗口(Windows)双平台数据查询和数据库管理界面。
5)多格式数据制作技术
经过多年国内外技术跟踪青苹果已掌握国际范围内多种数据格式的制作技术,包括:PDF格式、HTML格式、GLASSBOOK格式、SOFTBOOK格式、EBOOK格式、APAPI格式等多种平台所需的文件生产技能。
6)中文标引
青苹果已完成《解放军报》全刊、《人民日报》全刊、《深圳特区报》全刊、《首都公安报》全刊等十八种报纸的中文标引,全公司大部分员工中文标引熟练。
7)美工设计
现有美工5人,美工设计能满足自身生产中页面设计、图书封面设计、包装设计的需求。
8)质量控制体系
青苹果有完整的质量控制体系,包括:
1.文字质量控制体系,通过双录三校方法控制;
2.版式质量控制体系,通过版式检查控制;
3.书签链接功能控制体系,有书签部专门检查书签和链接;
4.有美工质量控制体系,对设计版面有严格检查制度;
5.有对外产品交接控制体系,避免数据交接的失误。
9)繁体汉字产品的经验积累
(1)已完成十三亿古汉语、繁体字产品的制作、包括《四库全书》《二十四史全译本》《传世藏书》《资治通鉴》《万有文库》《太平广记》《全唐诗》《全宋词》《全元曲》以及多种古旧方志。
(2)有成熟的繁体字录入经验,有一批5年以上专业录入员;
(3)设置专业“繁体”部处理古文的造字、转换、排版;
能处理超大古文字库的排序,建立古文数据索引;
软件平台,能适应简繁字体和不同输入法。
版本二
生产工艺是确保生产质量和生产效率的基础,青苹果生产工艺经过不断的革新和优化,已达到十分完善的境地。
1)矢量造字工艺
除应用超大字库补字外,公司针对缺字采用矢量造字工艺,字形美观,能适合不同计算机文件格式。
2)青苹果“双编三校”横纵查错法
青苹果“双编三校”法用于校对修正文字错误,并可采用横向纵向交互查错,保证高标准的文字质量,对内用十万分之一误差率控制生产,对外用万分之一承诺质量。对于特殊稿件还可采用语料纠错技术等各种有效办法。
3)版面细分定框识别技术
对于特殊稿件采用单独行(列)定框技术和单独文字定框技术,可提高20% 文字识别正确率。
4)智能工艺
智能还原数字版面:将版面图像进行智能分析,能自动识别100% 的版面结构,识别80% 的字体字号颜色信息,只有20%的部份需要人工操作。
智能标引:直接从版面识别结果中获取标引内容,由于识别结果采用全信息XML数据存储方式,75%的字段内容可直接从中提取,其余25%的字段内容通过智能辅助标引程序标引,可提高生产效率和数据质量。
智能分类:地区、体裁、人物、报道对象4项类别做到智能自动分类。
5)版面全信息重构技术
对版面所有信息(包括版面结构和版面内容)全部数字化。在文字识别的基础上,对版面结构和版面内容的基元进行了智能提取,实现了数字化版面的智能化还原,以及文章区在版面缩略图中的准确定位和显示。把结构基元(包括字体坐标、字号坐标、行坐标、段落坐标等)和内容基元(文字的内容、字体、字号、颜色等)全部信息内容封装在XML内,最后将XML作为基础数据保存,该数字化结果数据可重复和长期使用。
6)PDF转换及压缩技术
有多套系统进行PDF转换及压缩,可针对不同需求采用不同系统软件。
软件技术
1)基于两种浏览器的全文检索数据库平台
采用TRS检索引擎开发的全文检索数据库平台,市场占有率大,稳定性强;数据库结构开放;数据压缩功能强大,数据膨胀率小于0.5;采用分词索引技术,保证优质的查全率、查准率及响应速度。
数据库平台支持局域网和互联网浏览和检索,同时使用IE(浏览文本)和Acrobat reader(浏览版面)两种浏览器,一次输入检索词,同时实现报纸文本和报纸版面(PDF)检索结果的高亮显示。并具备在检索结果中渐进检索的功能,可与其他检索系统协同工作。
数据库平台具有文章检索、版面检索、图片检索、广告检索、综合检索、专题检索、检索统计、生成专题子光盘、二次检索、同(反)义词检索、与或非表达式等数据检索功能。还具有数据分析、数据统计、创建数据库、创建数据库字段、建立频道导航、数据入库、数据维护、访问管理、信息发布等数据管理功能。
以上全文检索数据库平台自1998年以来,已用于《人民日报》《深圳特区报》《天津日报》《新华日报》《中国日报》《香港文汇报》等40余种报刊数据库,其中《人民日报》《深圳特区报》《广西日报》《天津日报》《中国日报》曾先后获得“王选新闻技术奖”(三次二等奖、一次一等奖)和“北京市电子出版物优秀奖”。该平台技术完全处于成熟阶段。
2)青苹果移动互联网和互联网电子图书阅读平台
公司开发的电子图书阅读平台,适用于台式PC机和苹果机、各式笔记本电脑、平板电脑和手机(兼容安卓系统和苹果系统)。该阅读平台于2012年完成开发, 2013年2月投入使用。
该平台具备图书阅读、数据管理、数据导入和在线支付功能。
3)采用分层隔离的安全访问控制架构技术
数据库的安全体系采用对外访问服务通过前置代理服务器(FEP)隔离的方式。分成外部隔离层和内部隔离层,可以此阻断网络攻击和网络病毒,控制访问地址、账号,可输出访问流量报告等。前置代理服务器基于与后台数据库服务器不同的Unix/Linux操作系统,多用户与多任务的特性,保证了系统对外提供稳定安全的访问服务。该技术已用于“华文报刊文献数据库”和《天津日报》数据库。
4)现刊数字报自动转换对接历史报刊数据库技术
这是一项实用技术,是报业和出版业的需求。青苹果设计开发的数据库入库及标引后台系统,将现刊数字报数据标引入库实现对接历史报刊数据库,确保数据的延续性和减少生产成本。
5)自动生成专题、可移动数据库
对数据库的检索结果筛选并打包生成专题资料集数据库,该数据库免安装,使用方便简单,可使用移动存储介质。
6)数据加密技术
使用硬件加密、软件加密、加密狗多种加密手段对PDF、XML 等格式文件进行加密。青苹果已经在20 余种产品上采用此类加密技术。
计算机软件著作权
青苹果向国家版权局申请登记的计算机软件著作权有以下六项:
1)版面流程管理系统
软件全称:版面流程管理系统。
主要功能:统计、结算处理;报刊查验;特发零售管理。
2)多功能报纸管理系统
软件全称:多功能报纸管理系统。
主要功能:综合检索、浏览导航、图片检索、广告检索、检索统计、二次检索、扩展检索、与或非检索、检索结果排序。
3)数据库加密系统
软件全称:数据库加密系统。
主要功能:更高的安全性,特有的分组分级授权管理;完全开放的策略库,且功能强大的策略自定义功能,可以针对原文件为明文或密文时,分别进行控制。
4)双重检索功能的报纸管理系统
软件全称:双重检索功能的报纸管理系统。
主要功能:日期检索、标题检索、版次检索、版名检索、作者检索、专栏检索、正文检索、二次检索、扩展检索、与或非检索、检索结果排序。
5)自动化语音检测系统
软件全称:自动化语音检测系统。
主要功能:独特的识别服务器的反馈和非语音持续时间双重结束点判定功能,有效的改善了语音结束点的判定;减少识别器的数据处理量;能拒绝非语音的信号;复杂的应用环境下的信号流中分辨出语音信号和非语音信号,并确定语音信号的开始及结束。
报纸加工。
近代报纸
报刊数字化加工一直是青苹果的核心业务,而近代报刊是中国报刊史上不可或缺的一部分。近代报纸一般指新中国成立以前发行的报纸,以《申报》为例,它创刊于1872年,共出版过25600期,数十万版,是旧中国历史最有力的见证者和记录者,是无比珍贵的文史资料。
由于距今已有140年,这些报纸纸质发黄发脆,文字、图像模糊不清等诸多问题。为解决这些问题,青苹果精心研究,采取诸多措施确保既能正常生产,又能保护这些珍贵的文史资料。
1.按照先保护,再生产的原则,对这些历史报刊进行维护保养后在进行扫描等操作,确保报纸安全;
2.对报刊图像模糊部分,先采用高分辨率的扫描,再进行智能修复,确保图像清晰。
3.对文本缺失部分,采用青苹果矢量造字法,智能填补所缺文字,并保证放大无锯齿,字形美观。
青苹果近代报纸加工始终保证高质量、原版面、优阅读为要求,以抢救、发掘、保护为原则,资料保护与文化发扬同步进行,使青苹果在近代报纸加工领域能领袖群伦。
现代报纸
青苹果自成立之初就与各大报社积极互动,从中国第一份电子报刊《解放军报》到屡次获得王选新闻科学技术奖的《广西日报》《深圳特区报》《人民日报》《天津日报》《中国日报》等报刊数字化项目,都是青苹果加工的现代报纸。
图书加工
成立32年来,电子图书加工始终是青苹果支柱产业之一,从最初的纯中文加工到后来英文、日文、德文、法文、韩文、阿拉伯文等多语种加工体系;从单一内容的逐渐发展到古籍、地方志、工具书、领导人文库等多内容加工体系。青苹果客户群超过500家,包括中共中央办公厅、国家图书馆、北京大学、微软、东芝、哈佛大学等,涵盖国内外各大图书馆,世界五百强企业。
数据库生产
青苹果数据库生产一直秉承多样化、个性化、高质量的生产原则,至今已生产数百个数据库,包括历史报刊数据库,图书文献数据库,多媒体数据库,大型应用数据库等。
以《国家大剧院》多媒体演艺资源数据库为例,国家大剧院作为中国最高的艺术表演殿堂,每年积累的演艺资源极为珍贵,这些资料既是珍贵的艺术资源,又是时代历史的见证者,为保护这些珍贵的影音资料,有效的服务广大人民的精神文化需求,对资源展开多层次的利用,青苹果制作了《国家大剧院》多媒体演艺资源数据库。
该数据库具有双平台检索功能,多种浏览方式选择,“节目表”功能模块,艺术分类导航及检索功能,剧目索引及人名索引功能,数据库管理、权限管理功能等个性化的使用方式。
相比同类型数据库,《国家大剧院》多媒体演艺资源数据库具有以下特点:
1、具有完善的数据库管理功能,能进行频道维护,有完善的资料导入导出功能,可根据用户级别设置不同的使用权限;
2、能支持多种检索方式的使用;
3、数据库浏览界面多元化,并且数据内容要有高度相关性;
4、可随时更新,即时信息发布功能;
《国家大剧院》多媒体演艺资源数据库项目建设完成以后,受到了使用者高度评价,这个系统的研发也为我们以后从事类似项目奠定了深厚的技术基础,为我国文化艺术事业发展做出了巨大的贡献,也为青苹果多样化发展打开了广阔的空间。