中文信息处理是指用计算机对中文的音、形、义等信息进行处理和加工。中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、数学、信息学、
声学等多种学科相关联的综合性学科。
信息处理技术在现代有广泛的应用,从1980年代开始,中文信息处理进入了快速发展阶段,并极大地提高了中文社会的信息处理效率。中文信息处理分为汉字信息处理与汉语信息处理两部分,具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。
范围
基于历史、国家疆域、政治等各种问题,
中文信息处理系统所需要处理的文字,有
时不仅包括
简体汉字、繁体汉字,也包括
藏文、
蒙文、
壮文、
维吾尔文等大量少数民族的文字,周边国家的日本假名、
谚文,还包括古汉语文字、
西夏文、
契丹文等各种不同的文字。中文信息处理可以从硬件及软件两方面去看,以下详述中文信息处理的发展历史、现况及未来发展等多方面的面貌。
范畴
基础研究:汉字字频统计、词频统计、汉语自动分词、句法属性研究、
汉字编码字符集、通用汉字样本库、汉字属性字典、语料库等 输入技术:
中文输入法、中文手写输入、中文语音输入、
文字识别等
输出技术:汉字字模技术(字型库)、汉字激光照排、汉语
语音合成等
存储技术:汉字库标准等
转换技术:繁简转换等
信息处理:中文情报检索、中文文本校对、机器翻译、
自然语言理解、中文人机界面等
相关学科
语言文字学、计算机科学、
模式识别、人工智能、心理学、数学、数理统计、控制论、神经计算、模型论、信息学、形式化理论、
声学等
历史背景
电脑在1946年由IBM发明,当时的电脑主要用于计算。及至1960年代,商用电脑开始普及,电脑被用于处理大规模的数据,当中其一个重要项目是图书馆的目录整理。在当时,美国国会图书馆及多家大学都有不少来自东亚的藏书。为了有效管理这批藏书,必须要有一套有效处理东亚文字的系统。这套系统包括了两方面:其一是如何把东亚文字储存在电脑内;其二是如何在电脑表示出东亚文字。
在过去,每一台电脑都有各自的数据表达方式,使电脑之间不能沟通。及至1960年代
美国信息交换标准码(ASCⅡ)的出现,电脑之间才可以互相沟通。不过,ASCⅡ并不能有效处理英文以外的文字。
最早可以处理中文的电脑,可以追溯到1970年。在当年举办的日本大阪
万国博览会上,IBM公司公开了部分汉字处理系统的技术资料,到了1971年正式发表。当时公布的机种包括有「IBM 2345 汉字印刷机」丶「IBM 029 汉字穿孔机」丶「「IBM System/360-System/370 OS/VS」及「DOS/VSE」等。其後,日本本土公司也争相开发,包括有富士通的JEF(Japanese processing Extended Facility)丶NEC的JIPS(Japanese Information Processing System)及日立的KEIS(Kanji processing Extended Information System)等,全是大型电脑。到了1979年5月,NEC发表了可使用汉字ROM的私人电脑PC-8000系列;到了1982年10月,更开发出有名的16位元的PC-9801私人电脑,能处理汉字的电脑在日本渐渐普及。在七十年代末期,更出现一种专门用作编辑文件的文书处理器,可看成为一种拥有特定功能的小型电脑,八十年代中後期再演化成手提方式,并可打印出汉字。至於输入方式,由1978年9月26日东芝发售「JW-10」起,「假名汉字变换」成为主流的汉字输入法;即以日文拼音的方式,配合人工智能,输入汉字词汇。在还没有真正的中文电脑前,中国大陆部分学者依靠入口日本的电脑来处理中文。
1973年,新华社派出考察团到日本,参观了日本共同社丶日立丶日本电气丶松下及东芝等公司。他们看到共同社采用磁芯技术解决了2000左右汉字和片假名的存储问题,并发现工作人员使用大键盘方式输入稿件。他们回国後,提出了采用电脑技术改善新华社收发编印四方面,并由中国四机部(民用机械丶核工业和核武器丶航空及电子工业)与北京市科技局邀请了富士通等公司到中国进行技术座谈会。後来,四机部提出研制汉字信息处理系统。在1974年8月,中国开始了748工程,包括了用计算机来处理中文字,展开了各种研究工作,后来到1980年公布了
GB2312-80汉字编码的国家标准,1983年
中国科学院研究Unix中文化,1985年推出了Unix中文版。
中国台湾省方面,早期美国空军研究部门,曾经与IBM公司合作研发中文电脑,斥资了六千万、历时十年,研究电脑处理中文字的方法,结论是电脑不能处理中文。而当时美国的图书馆开始电脑化,一批中文书有待编入目录。另外,多家公司也开发了
终端机式的中文系统,包括有王安丶工技院(中华一号到中华三号)及神通等。这些机器多数采用大键盘的输入方式,有数十至数百个键。到了1976年,中文电脑之父
朱邦复发明了一套形意检字法,并在1978年改进为仓颉输入法,以英文键盘输入中文。在1979年,朱邦复提出以图形功能及从显示器的英文字符产生器入手,研发中文电脑,并由宏碁公司出产。之後,在原有英文操作系统上外挂中文系统的方法大行其道,多套中文软件相继推出,包括有国乔丶倚天及
仲鼎等。
中文信息处理至今经历了两次高潮:1980年代中期到1990年代中期之前,核心内容是汉字的计算机处理问题;经过几年的发展低潮之后,1990年代末,中文信息处理的重点转向
语音识别、
语音合成和语义处理方面。
汉字之难——被
打字机抛弃的时代:在
二十世纪上半叶,
英文打字机的普及极大的提高了文字资料的录入速度。而由于汉字的复杂性,使中文打字机迟迟未能设计出来,再加之基础汉字的学习难度大、时间长,连
鲁迅都喊出“汉字不灭,中国必亡”。之后,虽然设计出
中文打字机,但要配备数千个铅字组成的大字盘,昂贵的机器成本和复杂的使用技术决定它不能普及到大众使用。
毛泽东对此也深感无奈,发出了中文“要走世界共同的拼音文字道路”的慨叹。这些局限于历史条件所限而做出的言论,在中文信息处理技术发展后期仍然被经常(断章取义的)提及。
1984年的
《参考消息》有这样的记载:“法新社
洛杉矶8月5日电 新华社派了22名记者,4名摄影记者和4名技术人员在奥运会采访和工作。在全世界报道奥运会的7000名记者中,只有中国人用手写他们的报道”……此时只有中国人仍然用手写从事着创作。
汉字成了被打字机抛弃的“落后文明”,直到
二十世纪八十年代PC技术推广下,中文PC系统问世,中文信息输入的问题,才有了初步解决。汉字的拉丁化问题:
汉字拉丁化,是给汉字进行注音的方法,从而易于中西方交流,或者代替汉字。有些人以为将汉字改造为
字母文字,希望以此在短期内大幅增加中国人民的识字率。
缘起:中西方的交流很早就有了,而不同的文化交流需要语言的沟通,汉字拉丁化可以实现
西方人对中国的了解。近代以前,汉字的拉丁化基本由西方人进行。近代中国遭受了一系列的变故,彻底打破了中国固有的文化自豪感。中国近代的一些思想家认为中国古代的一些历史遗留阻碍了中国的发展,包括
孔子思想、礼教等,其中也包括汉字。
汉字由于其字数众多,学习比较费劲,而且由于师承不同,字的具体写法也有不同。近代科学大量引入中国,汉字在这些概念面前变得不够使用,又由于
新文化运动影响,汉字改革遂成为主流的社会思想。其中
刘半农、鲁迅等提倡尤甚。
过程:最早的
汉字拉丁化的实践来自于中西方的交流,若要介绍中国的一些地名、人名或其他固有名词到西方,必会涉及汉字拉丁化的问题。明清西方传教士为了学习汉字和传教的需要,开始系统用拉丁字母给汉字注音。1605年天主教
耶稣会士、意大利人利玛窦(Matteo Ricci)的
《西字奇迹》具有开创性的系统化意义。1626年耶稣会士
金尼阁出版的
《西儒耳目资》是最早用音素给汉字注音的字汇,所用的拼音方案是利玛窦方案的修正。1867年,在英国使馆任中文秘书的
威妥玛(Thomas F. Wade)出版了一部
《语言自迩集》,创立了一个拉丁化的
威妥玛拼音,使用时间很长,对汉字的拉丁化起了重要作用,以后的方案都有参考。
1918年中华民国教育部公布第一套法定的37个民族字母形式的
注音字母方案,特点是采用符号表示声调,这虽然不是一种直接的拉丁化方案,但用符号表示声调的方法却延续到
汉语拼音方案。
1928年
中华民国教育部公布第一套法定的拉丁化拼音方案-
国语罗马字(简称国罗),特点是用字母的拼法来表示汉语的声调,实际上由于流传时间较短,时间起到的作用不大。1958年,中华人民共和国公布的第二套法定的拉丁化汉语拼音方案,使用了26个拉丁字母,用符号表示声调,但是这种符号不易在西式打字机上实现。1980年代,汉语的信息化进入日程,形成“万码奔腾”的局面,汉语拼音方案作为重要的拼音输入方法得到使用,使汉语较能同信息化接轨。
汉字信息处理阶段:
硬件:联想、巨人、
四通等公司的
汉卡;
浪潮、
紫金的中文电脑;四通中文打字机;大洋字幕机
软件:
输入法:
巨人M6403汉卡
企业:联想、方正、四通等一批靠中文处理产品起家的企业。
标准、基础研究:中文信息处理界基本上完成了词频统计、多种字体显示/打印
字库、汉字显示/打印技术、输入法、
内码标准、
字符集标准等与字相关的所有基础工作。倪院士说,到2000年,中国已制定了70个与中文信息处理相关的国家标准。
学术理论:1990年代中期,最为普及的
计算机操作系统由DOS升级到Windows平台。
微软公司从中文版
Windows 3.2开始,在操作系统里集成了汉字处理技术,使传统中文信息处理产品迅速失去了市场。中文信息处理进入一个低谷,原先做中文信息处理的公司纷纷转行。
Windows2000及以上版本,无论采用何种文字,均已支持中文处理。
互联网时代的中文处理:互联网时代对中文信息处理产生了新需求。互联网上的海
量数据为
中文信息检索提出了新的课题;其次,外文信息已经多到不能人工完翻译的程度,机器翻译的重要性被提到了空前的高度;第三,手机、PDA等移动设备将信息处理需求变成无处不在,非标准键盘的
汉字输入需要有新的方案。大量新的课题出现,重新启动了中文信息工作的热情。
壮文汉语信息处理阶段
数字图书馆:与此同时,为方便使国内各民族电脑化的步伐加快,政府作出一连串行动去使这些民族的语言更便于“计算机化”。这一连串行动包括以下各项:
取消民族语言中的特殊字符,尽可能以26个标准拉丁字母代替。(参看:壮语) 为还未有文字的民族设立以拉丁字母为本的新文字。中国台湾省方面,在1990年代曾引发“中文电脑化”及“电脑中文化”的争议。
资策会方面的意见:认为电脑的操作空间有限。如果不让中文适应电脑环境,中文就会失去新时代的活动能力而变成死的语言。
学界及业界的意见:操作空间有限的只是短时期的问题。随着电脑发展日新月异,操作空间的限制很快就变得没有意义。政府应该在新时代来临以前,及早制定长远的标准。
结果:资策会未能在ISO 10646开始讨论中日韩文字编码空间之前产生一个前瞻性的编码方案,加上当时中国大陆政府的阻挠,使繁体字几乎要在电脑世界消失。后来幸得多方面商讨和配合,同意中日韩三国共享编码空间,成为了今时今日的中日韩统一表意文字,而中国台湾省的一万三千多个字亦准以“民间通用标准”为理由成为了统汉码的参考标准之一。电脑对汉字的亲和性增加,而Unicode在统汉码之后,亦不断推出扩展A、扩展B及扩展C计划,以涵盖历史上所有曾经出现过及使用过的汉字,并为它们编码记录。现时已整理好接近七万个汉字。
中文电脑系统
DOS上的中文系统
天汇汉字系统TW213
希望汉字系统UCDOS
零壹中文系统
国乔中文系统
倚天中文系统,它还有Windows版本,最后一个版本是倚天2000 for Windows
其他
这些都是1980年代出产的软件,随着Windows通行都逐一末落了。
编码
编码 (encoding):用数字代替文字
中文交换码:例如CCCⅡ、CNS11643
字集: 要先选择一定数量的字, 如常用字3500,或某本字典收录的八千字
繁体字(主要是中国台湾地区及香港地区用):Big5,,一万三千多字
繁简混合: GBK (由GB发展而来),二万多字; Unicode2.0(可同时处理日文、韩文等文字),二万多字
输出输入
输出字体
(
印刷字体 font):细明体(不能使用,因错字多)、
标楷体、SimSun(简宋,符合大陆规范)
字型技术(在荧幕及打印机):
点阵(bitmap)、向量(vector)、TrueType、OpenType等 输入
键盘:字形输入:
五笔字型、
仓颉(及因仓颉而衍生的简易等)、快码、九方、纵横等
字音输入:汉语拼音、注音、港式拼音及其他方言拼音
其他:混合字形及字音,使用英文译成中文
外置输入设备
麦克风(语音输入)、手写板(手写认字)、扫描器(字符识别 character recognition)
研究项目
汉字信息处理
这是一项最关键的语言工程,汉字如不能进入计算机,
图书情报工作自动化、印刷出版现代化 、办公室事务自动化都将化为空谈。近10年来,汉字信息处理研究得到很大发展。曾设计了 400多种
汉字编码方案(见汉字编码),其中上机通过试验或已被采用作为输入方式的,已达数十种之多。研制了上百种汉字
信息处理系统和设备。这些系统主要采用两种类型的键盘:一是笔触式大键盘,另一是
小键盘。前一种除整体输入外,一般还有利用部件组合汉字的能力;后一种有的可兼容多种编码方案,有的还带有计算机引导的智能。
汉字信息处理除了在汉字编码方面进行研究外,还制成了若干种
汉字输入输出专用设备,其中有各种类型的汉字输入键盘、汉字字库、汉字显示终端、汉字图形兼容终端、汉字印字机。成套的汉字信息处理系统(包括汉字编码法、通用中外文键盘、通用中外文显示器、汉字打印设备、汉字库和系统软件等)已研制成功,并安排批量生产。一种最新式的编辑排版系统──计算机激光汉字照排系统也已研制成功。中国的字模生产有良好的基础,1985年 5月国家标准局公布了《信息交换用汉字15×16点阵字模集及数据集》和《信息交换用汉字24×24点阵字模集及数据集》两项标准,为各种设备的设计和推广提供了有利条件。
为了使人们摆脱繁重的编码输入工作,汉字的光电自动识别研究提上了日程。近年来有越来越多的单位从事
手写体和印刷体的识别研究。邮电部数据所和
北京邮电学院提出了象限端点和转动惯量特征识别法,
沈阳自动化研究所提出了文字线长度识别法,上海公用事业研究所研制出数字条形识别系统,电子工业部第52研究所设计了提取汉字笔划特征的划分映射法,清华大学研制了有限制性手写体汉字识别系统。
为了使各种系统之间的信息交换有共同性,也为了使各种
输入输出设备的设计有统一的根据,1981年国家标准局公布了《信息交换用汉字编码
字符集基本集》(简称《汉字标准交换码》)。这个标准是根据汉字使用频度制定的,共分两级,一级3755个字,二级3008个字,共6763个字。为了满足少数用字量超过基本集的用户和中国台湾、香港等地区的需要,正在制定《信息交换用汉字编码字符集辅助集》,辅助集将根据使用频度高低分作第一辅助集和第二辅助集,各收8000余字。
机器翻译
计算机和语言的最早结合开始于机器翻译。1956年,机器翻译被列入中国科学工作的发展规划。1957年,机器翻译研究工作正式开始进行。这可以说是中文信息处理的第一项工程。首先研究的是俄汉机器翻译,并于1959年成功地进行了试验,译文输出是代码,而不是汉字,因为当时没有汉字输出装置。1958年底至1960年初,又研制了一套英汉机器翻译规则系统。1966~1975年工作处于停顿状态。近年来,先后上机试验了英汉、俄汉、法汉、日汉和汉外(英、法、德、俄、日)机器翻译系统十余个。有的输出汉字译文。有的输出拼音译文。
语言的对比研究是机器翻译的语言学基础。在外汉
机器翻译系统中调整词序是一个中心任务。词序的调整,首先必须分清层次和确定轴心。为了调整词序,有的系统还建立了一套特殊的成分体系,即
中介成分体系。介词、连词和标点是机器翻译研究中的难点,对它们的正确分析是解决词序调整问题的关键。当
结构分析发生困难时,需要进行
语义分析。
影响机器翻译发展的最大因素在于译文的质量。就已有的成就来看,机译的质量离理想目标仍相差甚远。中国数学家、语言学家
周海中教授曾在论文《机器翻译五十年》中指出:要提高机译的质量,首先要解决的是语言本身问题而不是程序设计问题;单靠若干程序来做机译系统,肯定是无法提高机译质量的。同时,他还指出:在人类尚未明了人脑是如何进行语言的模糊识别和逻辑判断的情况下,机译要想达到“信、达、雅”的程度是不可能的。
中文情报检索
为了提供标引和检索蓝本,1979年
中国科学技术情报研究所编辑出版了10卷本的《
汉语主题词表》。中国已有上百个单位开展
电子计算机情报检索的试验研究,其中十几个单位已进入定题情报服务 (SDI)的应用阶段。不少单位正在建立各种汉字文献数据库,同时还在考虑联机网络问题。
情报检索系统中的关键问题是
情报检索语言的建立(见
计算机情报检索)。除一般的词汇语法问题外,中文情报检索系统中还有一个特殊问题,就是词的切分,因为检索是以词(关键词)为基础的。
④言语统计:中国利用电子计算机进行言语统计是机器翻译工作者开始的。1978年语言研究所和计算技术研究所在合作研究 ECMT-78英汉机器翻译系统的过程中曾编制一个排序统计程序,加工过一些外文资料和汉语拼音资料。1981年
北京语言学院北京航空学院等单位开始更大规模的汉语统计工作,要在2000万字的语料中进行字频和词频统计。部分字频统计结果已经得出,从1977~1982年的1200多万字的语料中统计出8969个不同的汉字,并提供了这些汉字根据不同学科分类的26种使用频度表。
辞海
由于词的自动切分问题尚未解决,因而词频统计都是在人工调查统计或人工分词的基础上进行的。
另外,
中国文字改革委员会和
武汉大学利用计算机对
《辞海》1.6 万多个汉字的部件进行了统计分析,以研究汉字的结构特点。为了研究人名用字的使用情况,中国文字改革委员会和
山西大学根据人口调查材料对人的姓名分别进行了统计。很多省份“王”为大姓,而福建省“陈”、“林”为大姓。
汉语理解系统
最近几年,随着人工智能的进展,语言研究所、心理研究所、自动化研究所和一些大学开展了汉语理解系统(人机对话)的研究。只限于书面语言理解,而且主要是问答型的。输入方式采用汉语拼音。上机试验结果表明,有的系统已有识别30多种句型的能力(见汉语书面理解系统)。汉语语音理解系统的研制正在酝酿之中。
计算机辅助语言教学
近年来很多人关心这一课题。
华东师范大学现代化教育技术研究所、
哈尔滨工业大学、
上海交通大学等单位已研制出语言教学软件多种(见
计算机辅助语言教学)。
语音识别和言语合成
语音打字的任务早在1958年便已提出。1964年实现了“元音识别机”,1970年前后又实现了10个口呼汉语数字的识别机。但利用电子计算机进行识别研究,则始于 1972年。
声学研究所利用语音图样匹配方法在一定范围内实现了单呼语言的识别,正确率达99.5%以上。哈尔滨工业大学利用音素分析法进行汉语识别,正确率达90%以上。
汉语合成的研究已在一些单位进行,一般尚处于研究实验阶段。
清华大学自动化系最近试制成功一种会说话的中文计算机,机器里存有汉语声韵母等语言数据,计算机会自动根据拼音规则实现拼接,合成语音。
方言研究
国外有人曾将汉语方言资料输入计算机,让计算机提供各个方言
声母、
韵母、
声调的出现频率,以及
鼻化、
腭化现象分布的百分比。这些数据不仅有利于方言的共时描写和比较,而且还有利于检验各种历史构拟假说的正确性。中国已开始利用计算机进行方言研究和绘制方言地图。
索引词表和词典的编制
1980年武汉大学开始语言自动处理工作,主要是编制逐字索引,同时提供汉字统计数据。他们计划编辑《现代汉语语言资料索引》23辑,收录现代著名作家9人的作品共33部,总字数500多万。前 5部作品(
《骆驼祥子》、《倪焕之》、《雷雨》、《日出》和《北京人》)的逐字索引和统计资料已相继印出。最近,他们又与
山东省社会科学院合作,完成了
《论衡》的语词索引和统计资料。其他一些书籍的索引工作也在进行之中。
修辞学研究
武汉大学等单位利用现有的语料库开始进行风格学研究,随着语料的扩充和统计方法的改进,将会提供不同作家的风格特点和各种风格对比研究的成果。
利用计算机编制词表、词典也已提上日程。语言研究所正在编制《多语对照语言学词汇(英、法、德、俄、中)》。机编词典除能加快辞书的编辑出版过程外,还可以随时扩充、修改,保持词典的先进性。
中文信息处理研究方兴未艾。随着研究手段的改善和研究工作的深入,还将有更多更新的项目涌现。
外延
加在其他操作系统或硬件上,如Linux,Macintosh,PPC,Palm,手提电话等
搜寻器 (search engine)
语义网 (sementic web)
电子书 (ebook)
电脑辅助翻译 (computer aided translation)
软件的国际化(internationalization)和本土化(globalization)
其他