企业搜索是用户利用搜索引擎对企业进行快速查询的一种人性化、智能化查询方式。
引言
研究部门把由传统关系
数据库
管理系统处理的数据
信息称为结构化
数据,把包括纸质文件、
电子文档、
传真、报告、
表格、图片、
音频和视频文件等在内的信息称为
非结构化数据或内容(content)。通过调查发现,在
企业存储的海量
信息中,结构化
数据仅占数据信息总量的15%,而
非结构化数据却占数据信息总量的85%。有序地
存储、管理并
挖掘非结构化数据的利用价值是目前全球一切成功
企业提高竞争力和生产力的主要手段。
随着中国经济的高速发展,中国市场的竞争日益激烈,竞争的方式将从
企业的外延比如统一、高效的营业服务
系统,向
企业的内涵比如管理决策方面转移。国内各个机构近几十年投入巨资大力发展IT应用,已经初步建成了各自统一的营业服务
系统和企业内部
信息传递
管理系统,经过多年的运行积累,
存储了海量的信息资源。由于历史的原因,这些海量的
信息资源管理分散、共享困难,形成彼此隔离的信息孤岛。科学管理和合理开发这些
信息资源尤其是大量的、
非结构化数据信息,是国内
企业界面临的巨大挑战。
推动业务发展的是
信息,即存入
传统数据库中的“结构化”数据和包括可用信息库中内容的“非结构化”数据。顾名思义,
非结构化数据的管理也就是我们在本方案中所提及的内容管理。
对
企业搜索形式和内容进行了深刻思考,并经历了企业搜索在企业的应用研究与实践,形成了一套完整的
企业搜索平台(Enterprise Search Platform,简称ESP)。通过管理实施和内容整合两个方面来提升客户
企业提升核心竞争力和业务支撑能力。在管理实施方面,通过对
企业内容的管理规划和实施咨询,实现企业管理水平的快速提升。在内容整合上面,专注于“
企业搜索平台”产品的研发和实施,实现内容为企业价值服务的目标。
产品,是基于
企业搜索理论基础之上,通过对企业内容整合,配置超过50种文档类型,搭配各种
数据索引方式,辅之以可靠的
安全策略,构建一套完整的
企业搜索平台,为客户提供完整的、智能的、安全的、强大的企业搜索服务。
挑战
在全球经济危机的影响下,
企业 IT投资预算将会大大降低,应用
系统集中化、
数据管理集中化、IT 管控集中化等越来越受到
企业的关注,在通过 ERP 整体解决方案的实施解决业务支撑一体化的同时,企业也迫切需要一个可以实现内外资源整合的高效 IT 工作平台,以提升管理支撑的能力。具体表现在:
(1) 需要一个统一接入和访问的 IT平台
多年的
信息化建设导致企业的应用
系统往往比较多,访问方式多样,越来越多企业和员工希望有一个统一的访问方式,只需要输入一次
账号就可以根据自己的权限访问各种应用系统,更进一步则希望能够根据自己的需求组织应用功能和操作界面,方便使用。
(2) 高效的业务协同管理工作平台
企业各个业务线、部门都存在大量的流程,一方面希望实现业务线内、部门内流程的固化,提高内部协作的效率,另一方面迫于市场和竞争的压力,更希望能够实现跨业务、跨部门、跨
系统的流程管理,从而提高企业整体运作效率。
(3)需要加强各种文档类资料的统一管理
过去在
信息化建设过程往往重视人、财、物这些有形的物质资产的数字化管理,忽视了业务活动过程中产生的大量文档类资料的管理,容易引起类似员工流失带走知识、急需某文档却找不到的现象,无形中增加
企业成本,因此需要实现对企业内外的文档资料、专家经验进行有效的获取、沉淀、共享、应用、学习和创新,从而提高员工的素质和技能、执行力。
随着
企业各类应用
系统积累的
数据越来越多,数据的准确性、统一性、及时性问题越来越突出,需要一个平台能够实现对数据的统一管理, 向业务人员和管理人员提供及时、 准确、多维度的各种业务数据,通过数据集中展现与分析发现生产、 经营中的问题, 便于领导决策。
经济危机、激烈的市场竞争给
企业带来巨大压力,提高 IT 基础设施、应用
系统采购的性价比,减少系统维护及维护人员成本,降低业务人员掌握 IT 的学习成本,将有助提升企业IT建设的
投资回报,使IT建设和价值更好地得到企业的认可。
价值
企业信息源的日益多元化令管理者和员工查找信息的成本越来越高;而
互联网搜索的模式是如此简单,使用者只要输入一个关键词并按下 Enter 键,
系统就会自动地将符合的结果列出,即使面对的是数千万的网页,入口网站依然在一秒内就完成查询。通用的
互联网搜索引擎对人们使用习惯的巨大影响力使Google化的
企业搜索成为企业用户的梦想。
但是当公司真要导入时,却发现
系统的复杂度远超过先前的想象,常会因为评估期过程太长而导致项目无疾而终。虽然
企业信息搜索复杂,但
信息利用的成本/收益分析证明企业搜索不仅必要而且重要。Web 2.0的模式不断渗透
企业日常行为,大量
数据、信息和知识的电子化,其带来的知识共享诉求要求企业搜索深入参与企业知识建设。
图一、问题与挑战
对多数的
企业来说,在购买企业搜索引擎时的出发点都很简单,往往只是要解决几个典型的问题,比如:
2. 公司内
数据越来越多难以管理,且储存在不同计算机内。
3. 离职员工的文件
数据已完成备份,但想使用时却难以发现。
4. 同一份文件需要重复的提供给不同的人。
5. 不同部门对内部文件都有自己的管理方式,难以整合。
企业内容
检索的应用,能够通过对企业内容的有效整合,搭建一套安全的基于角色的、统一可靠的的检索入口访问企业内容。产品专注于提高
企业内容利用效率,提升企业产能和效益,以企业内容管理为基础,以应用开发为平台,全面帮助企业实现价值最大化。
经过多年的行业应用和演变,提出四大核心竞争优势:
企业级安全(灵活可扩展的用户体系、
基于角色的访问控制、文档级/记录级的权限级别),更高的准确性和智能化(概念检索、基于
统计的中文语言处理、主题抽取算法),稳定强大
全文检索功能(优异的性能、T级
数据支撑能力、亚秒级响应
速度,7*24全年稳定运行),低成本高灵活度的按需定制(强大的接口扩展能力、
集群、分布式按需扩展)
定位与目标
专注于为
企业提供一套完整的企业搜索平台,包括企业内容采集、内容
存储、文档管理、语言处理、安全管理、统一检索门户、应用开发平台等。
其中:
统一检索:以多个分布式异构
数据源为对象,向用户提供统一的检索接口,将用户的检索要求转化为不同数据源的检索表达式,并发地检索本地、局域网和
广域网上的多个分布式异构数据源,并对检索结果加以整合,在经过消重和排序等操作后,以统一的格式将结果呈现给用户的检索。更能够为不同用户提供不同的界面展现方式,即满足通用检索需求,又能够实现个性化需要。
语言处理:
中文分词是
企业搜索必须具备的技术之一,应用中文分词技术才能使搜索结果更加符合用户习惯,更加接近用户的期望结果,产品集成了中文分词技术,并有着40万词库的支持,用户也可以根据自己的需要和行业特色来添加和维护词库。
中文分词技术的准确率达到96%以上。
安全
系统:实现了各类文档、资料、
数据等
信息的访问安全,采用独创的分级安全体系来保障不同安全级别的信息必须经过授权才能够访问;通过对检索结果进行文档级安全和集合级安全的分类来实现授权体系的灵活与强大功能。更能够与绝大部分业务
系统的用户体系整合,并可以继承原有的权限系统,支持LDAP、
数据库、Domino等。
内容
存储:实现各类文档、资料、数据等
信息的分布式存储,是能够最大限度地提高部署灵活性和可扩展性,所有的元数据和
全文索引分别存储在不同的单元上。支持主流
数据库平台、操作
系统、
浏览器、门户、应用程序服务器和开发标准,从而提供了一个不受供应商限制的体系结构。 这一灵活性可保护您在现有 IT 基础架构中的
投资, 进而可降低总体拥有成本。
文档管理:超过50种文档类型的支持,通过将文档元
数据和索引
信息进行分开
存储实现了强大的元数据管理功能,辅以基于文档安全级别的控制体系,对文档的整个生命周期进行全面管理。能够通过创新的回溯功能查看文档的
历史版本,严格的法规遵从策略,全面提升
企业文档到知识的转换能力。
内容采集:除了支持所有主流
数据库和文件
系统的采集以外,还支持内容仓库的采集,支持Domino、Documentum等
企业内容管理中的数据,能够针对指定文件所在目录进行高效检索,并内置文件解析器,可对PDF、OFFICE、HTML、TXT、
音频、视频等多种
文件格式自动解析。同时根据需要能够定制从其它各类
数据源获取要检索的数据内容,例如:XML文件、其它数据池等等。即使在同一个应用中,也可以通过配置同时从多个
数据源获取数据并提供
检索服务。
应用开发平台:是一个完整的
企业搜索平台,能够完成企业内容整合过程的绝大部分功能,将功能强大的作为整个解决方案的应用基础,充分利用其底层应用功能,并封装为更易于使用的服务来提高应用开发的效率,更好地满足不断变化的业务需求。
应用架构
坚持以人为导向的设计原则, 以满足不同使用者应用需求的
企业搜索入口为统一展现手段,以开放的应用开发平台为应用支撑,提供经过安全级别控制与过滤的安全检索、管理企业内容和知识,根据企业实际需求拓展内容管理、知识管理、协同应用等大量功能,通过内容整合技术实现对企业 ERP、PDM、CRM等业务
系统的
数据和流程。以灵活、方便、快捷地方式组合应用,满足
企业管理支撑的各种业务需要。
功能架构如下图所示:
图四、应用架构
图五、非结构化内容处理
部分功能列表
为
企业提供全面的管理支撑应用,具有丰富的应用功能模块,以满足不同企业在不同时期的业务需求,企业根据需求灵活地组合各种应用模块构建适合自己的应用解决方案。下表是部分功能清单及简单功能描述。