汉字识别(Chinese character recognition) 应用计算机自动识别汉字,是把汉字输入计算机的主要方式之一。
定义
按书写方式区分,汉字识别可分为手写汉字识别和印刷体汉字识别两大类。按工作方式区分,则可分为联机汉字识别和脱机汉字识别两种方式。前者为实时识别,书写者在专用书写书写的汉字即时送入计算机进行识别;后者为非实时识别,打印或已写好的书面文字经光电转换装置(如扫描仪等)变为电信号后送入计算机进行识别,通常把这种设备叫做光电阅读机(optical character reader),记为 OCR。
汉字识别是模式识别的一个分支。汉字是一种特殊的模式,其特点是字数多,字形复杂,有的字形十分相似,印刷体汉字又有多种字体(仿宋、宋、黑、楷书与打印体等)和多种大小不同的字号。因而汉字识别是一个相当困难的问题。
和一般的模式识别相同,汉字识别的基本方法主要有统计法和结构法两种。汉字由笔划组成,具有较严格的拓扑结构,包含丰富的结构信息,因而结构法较适用于汉字识别。中国和日本学者先后提出若干以结构信息为主的统计与结构法相结合的新算法,选用了-些分类能力强、抗畸变和干扰性能好的特征,较好地解决了多子体多字号混合排印的印刷体汉字脱机识别和限制性手写汉字联机识别问题。研制成功几种识别系统,并已付诸应用。
汉字识别系统大体上可分为预处理、特征提取与识别和后处理三部分,见图。在脱机识别系统中,扫描仪将打印或书写在纸上的汉字文稿,转换为电信号输入计算机,经版面分析、逐字分割和归一化等汉字识别预处理后,获得版面上各个汉字的二维点阵图形。特征提取和识别部分的任务是提取识别特征,并将它和存储在识别字典内的每个特征模板逐一进行比较、判别,得出识别结果。汉字识别后处理部分利用词组或上下文关系纠正识别结果中的一些错误,以提高整个系统的正确识别率。
汉字识别的用途十分广泛。用联机手写汉字识别代替击键打字的方式,实时地把汉字输入计算机,比较符合人处理文字资料的习惯。脱机印刷体汉字识别可用于办公室自动化、邮件分拣、机器翻译和盲人机助阅读等方面。脱机手写汉字识别的困难较大,处于研究阶段。采用人工神经网络的汉字识别研究正越来越得到各方面的重视,并已取得一些进展。
文字识别
利用计算机自动识别字符的技术,是模式识别应用的一个重要领域。人们在生产和生活中,要处理大量的文字、报表和文本。为了减轻人们的劳动,提高处理效率,50年代开始探讨一般文字识别方法,并研制出光学字符识别器。60年代出现了采用磁性墨水和特殊字体的实用机器。60年代后期,出现了多种字体和手写体文字识别机,其识别精度和机器性能都基本上能满足要求。如用于信函分拣的手写体数字识别机和印刷体英文数字识别机。70年代主要研究文字识别的基本理论和研制高性能的文字识别机,并着重于汉字识别的研究。
识别系统:
文字识别一般包括文字信息的采集、信息的分析与处理、信息的分类判别等几个部分。
信息采集 将纸面上的文字灰度变换成电信号,输入到计算机中去。信息采集由文字识别机中的送纸机构和光电变换装置来实现,有飞点扫描、摄像机、光敏元件和激光扫描等光电变换装置。
信息分析和处理 对变换后的电信号消除各种由于印刷质量、纸质(均匀性、污点等)或书写工具等因素所造成的噪音和干扰,进行大小、偏转、浓淡、粗细等各种正规化处理。
信息的分类判别 对去掉噪声并正规化后的文字信息进行分类判别,以输出识别结果。
识别方法:
文字识别方法 文字识别方法基本上分为统计、逻辑判断和句法三大类。常用的方法有模板匹配法和几何特征抽取法。
① 模板匹配法 将输入的文字与给定的各类别标准文字(模板)进行相关匹配,计算输入文字与各模板之间的相似性程度,取相似度最大的类别作为识别结果。这种方法的缺点是当被识别类别数增加时,标准文字模板的数量也随之增加。这一方面会增加机器的存储容量,另一方面也会降低识别的正确率,所以这种方式适用于识别固定字型的印刷体文字。这种方法的优点是用整个文字进行相似度计算,所以对文字的缺损、边缘噪声等具有较强的适应能力。
② 几何特征抽取法 抽取文字的一些几何特征,如文字的端点、分叉点、凹凸部分以及水平、垂直、倾斜等各方向的线段、闭合环路等,根据这些特征的位置和相互关系进行逻辑组合判断,获得识别结果。这种识别方式由于利用结构信息,也适用于手写体文字那样变型较大的文字。
中国汉字识别发展现状
随着我国信息化建设的全面开展,OCR文字识别技术诞生20余年来,经历从实验室技术到产品的转变,目前已经进步行业应用开发的成熟阶段。相比发达国家的广泛应用情况,OCR文字识别技术在国内各行各业的应用还有着广阔的空间。随着国家信息化建设进入内容建设阶段,为OCR文字识别技术开创了一个全新的行业应用局面。文通,云脉技术、汉王等中国文字识别的领军企业将会更加深入到信息化建设的各个领域。