当时主要是基于
文本的
图像检索技术(Text-based Image Retrieval,简称TBIR),利用文本描述的方式描述图像的特征,如绘画作品的作者、年代、流派、尺寸等。到90年代以后,出现了对图像的内容语义,如图像的
颜色、纹理、布局等进行分析和检索的
图像检索技术,即基于内容的图像检索(Content-based Image Retrieval,简称
CBIR)技术。
何谓图像检索
从20世纪70年代开始,有关
图像检索的研究就已开始.
CBIR属于基于内容检索(Content-based Retrieval,简称CBR)的一种,CBR中还包括对动态视频、音频等其它形式
多媒体信息的检索技术。
在检索原理上,无论是基于
文本的
图像检索还是基于内容的
图像检索,主要包括三方面:一方面对用户需求的分析和转化,形成可以检索
索引数据库的提问;另一方面,收集和加工图像资源,提取特征,分析并进行标引,建立图像的
索引数据库;最后一方面是根据相似度算法,计算用户提问与索引数据库中记录的相似度大小,提取出满足
阈值的记录作为结果,按照相似度降序的方式输出。
为了进一步提高检索的准确性,许多系统结合
相关反馈技术来收集用户对检索结果的反馈信息,这在
CBIR中显得更为突出,因为CBIR实现的是
逐步求精的图像检索过程,在同一次检索过程中需要不断地与用户进行交互。
基于文本
基于文本的
图像检索沿用了传统
文本检索技术,回避对图像可视化元素的分析,而是从图像名称、
图像尺寸、压缩类型、作者、年代等方面标引图像,一般以关键词形式的提问查询图像,或者是根据等级目录的形式浏览查找特定类目下的图像,如Getty AAT使用近133,000个术语来描述艺术、艺术史、建筑以及其它文化方面的对象,并推出30多个等级目录,从7方面描述图像的概念、物理属性、类型和刊号等。又如Gograph将图像分为动态图像、照片、图标、背景、艺术剪辑图、插图、壁纸、界面、成套图像8个一级类,下设数量不等的子类。在图像数字化之前,档案管理者、图书管理员都是采用这种方式组织和管理图像。 图像所在页面的主题、图像的文件名称、与图像密切环绕的文字内容、图像的链接地址等都被用作图像分析的依据,根据这些
文本分析结果推断其中图像的特征。
基于内容
基于内容的
图像检索根据图像、图像的内容语义以及上下文联系进行查找,以图像语义特征为线索从
图像数据库中检出具有相似特性的其它图像。因为图像的规模一般要大于纯粹的文本信息,因此,基于内容的
图像检索在检索的速度和效率上要求更高。目前已有不少应用于实践环境的基于内容
图像检索系统,如由
IBM公司开发的最早商业化QBIC系统,以及由
哥伦比亚大学研发的WebSeek系统、
麻省理工学院研发的Photobook系统等。通过基于内容的技术检索Web图像,首先需要从Web中剥离图像,组成图像集,对图像集中的各个对象进行基于内容的特征分析、相似度匹配。
基于内容的
图像检索系统一般包括图像处理模块、查询模块、对象库和特征库和知识库
网络上
根据基于文本的
图像检索和基于内容的图像检索的实现原理可以发现,一般图像检索系统提供给用户的查询方法主要包括下列几种形式:
关键词查找:关键词查找输入关键词对查找图像进行描述,大多数
网络搜索引擎提供的是关键词查找的方式检索,例如,希望查找山水风景的图片,可以输入“山水画”;又如希望查找关于猫的图片,可以直接输入“猫”。
浏览查找:浏览查找是指通过等级式类目组织的
图像检索人口,图像按照不同的主题进行归类,用户在查找自己希望的图像时,通过点击层层类目的链接,到达自己所希望的类目下的图像。
特征输入查找:对图像的特征参数进行设置,如希望图像中的色彩比例为“R:128 ; G:128; B:64”,或者是对图像的明亮度在0~100%之间加以调节。
草图查找:用户亲自动手绘制希望查找的图像特征,以用户描绘的草图为训练样本,查找与之相似的其它图像。
示例查询:包括系统随机给出样本和用户提交样本两种,由系统随机给出一组图像训练样本时,让用户对这组图像进行评价,选择与自己的检索需求相似的图像,然后根据用户选择的图像进行分析,检出与之相似的其它图像。另外,也可以由用户提供一副图像的地址信息,由
图像检索系统即时抓取、即时分析。
归纳而言,
图像检索的方法对应于图像特征的三个层次,也可以归结为相应的三个层次:
简单的可视化特征层次:对图像的简单可视化特征进行查询,如颜色、纹理、形状或者是图像中元素的空间,这些特征反应的一般是图像本身客观的一些属性,因此,一般不需要任何外界知识的辅助。
中间的对象层次:对图像的个体特征进行查询是介于简单的可视化特征查询和高级的抽象语言特征查询的中间状态,一般表现为对局部的特征查询,例如检索图像中的某个对象或者是某个人物等。这种查询一般需要对识别和检索的目标进行一定程度的逻辑推理,所以需要借助外界知识的辅助。
高级抽象的特征层次:对图形的抽象属性的查询,包括检索与某个事件或者是某个活动相关的图像,例如查找反映某种情感色彩,或者是符合某种风格流派的图像,这时需要对这些抽象的目标和场景所代表的意义进行分析,需要对其进行更高级的推理,同时这类特征带有较强的主观色彩,因此,更需要外界知识的辅助。
研究的三个方向
基于
文本和基于内容是
图像检索发展的两个分支,不过从目前
图像检索研究的趋势而言,尤其结合网络环境下图像的特征——嵌入在具有文本内容的Web文档中,出现了三个不同的研究着眼点。
立足于文本,对图像进行检索。试图将传统的
文本检索技术移植于对
多媒体信息的检索上,因为基于文本的检索技术发展已经成熟。如Page-Rank方法、概率方法、位置方法、摘要方法、分类或聚类方法、词性标注法等,不仅技术发展较为成熟,同时分析和实现的难度略小。但是因为受控词汇本身的局限,易歧义,更新慢,所以不太容易应对网络上日新月异的各类图像。
立足于图像内容,对图像进行分析和检索。相比而言,尽管
图像检索已经出现了诸如
直方图、颜色矩、颜色集等多种表征图像特征的方法,但是要突破对低层次特征的分析,实现更高语义上的检索,实现难度大,进展慢。不过,基于内容的图像检索建立在
多媒体信息的内容语义上,能够更为客观地反映媒体本质的特征。
结合文本和内容,进行融合性研究。发挥各自的优势促进图像的高效、简单检索方式的实现,尤其是网络环境下,结合图像所在Web文档的特征分析,推断图像的特征,同时结合对图像的内容分析,共同标引达到对图像的分析和检索。
可以说,三个方向都是相互影响和促进的,任何一个方向的进展都会促进
图像检索技术向前更进一步。