扫描处理是指扫描程序的任务是从
源代码中读取字符并形成由
编译器的以后部分(通常是分析程序)处理的
逻辑单元。由扫描程序生成的
逻辑单元称作记号(token),将字符组合成记号与在一个英语句子中将字母构成单词并确定单词的含义很相像。此时它的任务很像拼写。
记号有若干种类型,这其中包括了保留字(reserved word),如I F 和THEN ,它们表示
字符串“ if ”和“ then ”;第2 类是特殊符号(special symbol),如算术符号加(PLUS)和减(MINUS),它们表示字符“+”和“-”。第3 类是表示多字符串的记号,如NUM 和ID ,它们分别表示数字和
标识符。作为逻辑项的记号必须与它们所表示的字符串完全区分开来。例如:保留字记号IF 须与它表示的两个字符“ if ”的串相区别。为了使这个区别更明显,由记号表示的字符串有时称作它的串值(string value )或它的词义(lexeme)。某些记号只有一个词义:保留字就具有这个特性。但记号还可能表示无限多个语义。例如
标识符全由单个记号ID表示,然而标识符有许多不同的串值来表示它们的单个名字。因为编译器必须掌握它们在
符号表中的情况,所以不能忽略这些名字。因此,扫描程序也需用至少一些记号来构造串值。任何与记号相关的值都是记号的属性(attribute),而串值就是属性的示例。记号还可有其他的属性。