扫描标准
扫描仪的物理分辨率
分辨率决定了扫描仪所记录图像细节的丰富程度,以单位长度上的信息采样点来表征,其单位是dpi。
光学分辨率
是指扫描仪的物理分辨率,由其光学部件及传动部件构成的光学系统在单位长度上能够采样的最大信息量决定。光学分辨率实际上就是扫描仪的感光元件——CCD的分辨率。 CCD是Charge Couple Device的缩写,称为电荷耦合器件,它是利用微电子技术制成的表面光电器件,可以实现光电转换功能。CCD芯片上有许多光敏单元,它们可以将不同的光线转换成不同的电荷,从而形成对应原稿光图像的电荷图像。如果我们想增加图像的分辨率,就必须增加CCD上的光敏单元数量。所以说,CCD的性能决定了扫描仪的x方向的光学分辨率
测试方法:选用包含不同分辨率的水平及垂直黑白线对的标准测试图片,将被测扫描仪选项设定在光学分辨率上,以灰度模式扫描标准测试图片上的黑白线对,对不同分辨率下水平及垂直黑白线对的扫描结果检查,其中一组可完整、正确、辩识清楚的分辨率最高的黑白线对所代表的分辨率值,即为被测扫描仪的实际光学分辨率。
注:所谓完整、正确、辩识清楚,是指扫描输出的水平或垂直黑白线对间,不能有断线、连线或短线的情形。色彩深度(色彩位数)
指扫描仪在其捕获的每个像素点上可以检测出的最大颜色范围,用每个像素点上颜色的数据位(bit)表示。有18位、24位、30位、36位、42位和48位等规格。通常扫描仪的色彩深度越多,就越能真实反映原始图像的色彩,扫出的图像效果也就越真实。
动态范围
说明扫描仪能记录的色调值宽度的范围—--即所探测到的最淡颜色和最深颜色之间的差值,它描述了扫描仪再现色调细微变化的能力。其单位以D表示。通常范围越宽越好。
测试方法:选用含有连续灰阶(由白色到黑色至少20阶)的标准测试图片,如IT8.7,2,使用密度计测量标准图片上各灰阶的密度值,将被测扫描仪选项设定在光学分辨率上,以灰度模式扫描标准测试图片上的灰阶图形,检查扫描结果,其最高可分辨的灰阶密度值即为被测扫描仪的实际动态范围。
扫描速度
可分成预扫描速度和扫描速度。在扫描条件设定的情况下,计算扫描所花费的时间。单位以s/MB表示。在保证扫描质量的前提下,扫描仪速度当然是越快越好。
测试方法:选用标准测试图片,将被测扫描仪选项设定在光学分辨率上,以彩色模式扫描,确定扫描区域,计算实际所用扫描时间,即可算出被测扫描仪的实际扫描速度。
水平/垂直放大率
指扫描仪光学系统的水平/垂直放大率。放大率与光学分辨率成反比,图像的放大率越大,光学分辨率越低,当使用最大分辨率时,放大率只能小于1。
测试方法:选用自定义的标准测试图片,将被测扫描仪选项设定在光学分辨率上,以灰度模式扫描标准测试图片上的选定的图形区域,利用测试软件,读取测试图片上已定义好的四个端点坐标值。实测值与测试图片上标准水平宽度之比即为水平放大率,实测值与测试图片上垂直高度之比即为垂直放大率。
最大扫描区域
说明扫描设备可以摄取的最大图像原稿的尺寸。
测试方法:选用自定义的标准测试图片,将被测扫描仪选项设定在光学分辨率上,以灰度模式扫描标准测试图片上的选定的图形区域,利用测试软件,读取测试图片边界上两端点坐标值,利用分析程序计算边界误差值。
扫描噪音
指扫描仪在进行扫描时,因机械运动所产生的噪音大小,噪音当然是越小越好。
扫描仪
根据识别稿的质量进行处理
进行扫描识别时,在可能的情况下应尽量选择清晰度与洁净度都很高的识别稿,识别稿的清晰度与洁净度的不同会使扫描后的识别率有很大差距。对一般的印刷稿、打印稿等质量较好的文稿进行识别,只要掌握好方法与技巧,其识别率一般可达到98%以上。而对报纸、杂志等清晰度不佳的原稿进行识别,无论使用何种识别软件都难以达到很高的识别率。
1.对一些带有下划线、分隔线等符号的文本原稿,有些OCR软件是识别不出的,一般会出现乱码。如果必须扫描带有这些符号的原稿,一是要确保使用的识别软件能够识别这些符号。二是使用工具擦掉这些特殊符号,使识别软件能正确识别这些文字。
如果扫描后的文档中含有OCR软件不能识别的图像、图形和一些特殊符号,可以考虑使用“擦拭”工具将文档中的图像、图形和一些特殊符号擦除,同时将图像上一些杂点也一并去除。使图像中除了文字没有多余的东西,这可以大大提高识别率并减少识别后的修改工作。
2.在扫描识别报纸或纸张较薄的文稿时,扫描时稿件背面的文字通常会透过纸张造成错字或乱码,使识别率大大降低。在对这类原稿扫描时,我们可以在原稿的背面覆盖一张黑纸,在进行正式扫描时,适当增加扫描对比度或亮度,即可有效提高识别率。
3.对于一些图文混排的原稿,扫描成一幅图像进行全区识别会严重影响OCR软件的识别率。我们可以根据实际情况将扫描后的版面切分成多个区域后再识别,切分区域的原则是:将图形、图像排除在区域之外,尽量把文字字体、字号一致的划在一个区域内,不要嫌这个过程烦琐而选用自动切分区域,手动选取扫描区域会有更好识别效果,还应注意各识别区域不能有交叉情况。
操作技巧
1.首先要保持工作环境的清洁,扫描仪的玻璃板以及若干个反光镜片及镜头,其中任何一部分脏污都会影响扫描文字图像的效果。因此,保持扫描仪的清洁是确保文字图像扫描质量及识别率较高的重要前提。
2.扫描仪在刚开启时,光源的稳定性较差,而且光源的色温也没有达到正常工作所需的色温,所以开始扫描以前最好先让扫描仪预热一段时间。
3.在放置扫描原稿时,把扫描的文字材料摆放在扫描起始线正中,可以最大限度地避免由于光学透镜导致的失真而影响识别率。
4.扫描后的文字图像经常会有一定角度的倾斜,出现这种情况必须在扫描后使用自动或手动旋转工具进行纠正,OCR软件一般都设有自动纠偏和手动纠偏工具。否则OCR识别软件会将水平笔画当作斜笔画处理,识别率会下降很多。如果扫描后的文字图像倾斜角度超过15°,倾斜校正会产生较大的失真和误差,从而严重影响识别率,这种情况建议摆正原稿重新扫描。
扫描参数的设置
扫描参数的设置主要包括分辨率的设置及亮度和对比度的设置。
1.一般来讲,分辨率越高识别率也就会越高。但这也不是绝对的,对于一些过大过粗的字体,设置过高的分辨率,识别率可能会降低,而且设置高分辨率后,扫描速度会大大降低。根据实际经验,1、2、3号字的文稿推荐使用200dpi,4、小4、5号字的文稿推荐使用300dpi,小5、6号字的文稿推荐使用400dpi,7、8号字的文稿推荐使用600dpi。
2.扫描时适当地调整好亮度和对比度值,对识别率的高低影响很大,在进行扫描亮度和对比度的设定时,以扫描后的图像中文字的笔画较细、均匀,且没有明显断点为准。如果扫描后的文字图像存在黑点、黑斑或文字线条很粗很黑,分不清笔画,说明亮度值太小,应该增加亮度值再重新扫描。如果文字线条凹凸不平,有断线甚至图像中汉字轮廓严重残缺时,说明亮度值太大,应减小亮度后再重新扫描。如果要扫描质量比较差的文稿,比如报纸,扫描出的图像可能会出现大量的黑点,而且在字体的笔画上也会出现粘连现象,为获得较好的识别结果,必须仔细进行亮度和对比度值的调整,反复扫描多次才能获得比较理想的效果。
识别后处理工作
1.文字校正
文字校正是OCR识别工作中比较烦琐的一步。一般OCR软件对可能出现错误的文字,会显示出蓝色标记,请用户确认。但在没有提示出错的地方,也有可能出错。所以大家在校对时应该通读一遍,以提高文字录入的准确率。
2.识别后文本的保存
如果把识别后的文本简单复制粘贴到Word中保存处理,就需要去掉多余的硬回车,这样会非常麻烦。正确方法是:先将识别后的文本存盘,在存盘时设置为软回车就行了。对于《紫光OCR》,则需要在识别完成后,选择文件菜单下的导出命令,将存储类型选为TXT,段内回车字符选为无。
注意:一定不要直接存盘,否则不能自动去掉文章的硬回车。《尚书OCR》、《汉王OCR》和《紫光OCR》都提供了段内去除硬回车的功能。
参考资料
最新修订时间:2023-11-01 20:10
目录
概述
光学分辨率
参考资料