计算机听觉
基于音频信号处理和机器学习对数字声音与音乐的内容进行理解和分析的学科
计算机听觉是一个基于音频信号处理和机器学习对数字声音与音乐的内容进行理解和分析的学科。计算机听觉通用技术框架包括声音采集,预处理,声源分离或去噪/增强,音频事件检测,提取或学习音频特征,声音分类、声音目标识别及定位等模块。音频事件指一段具有特定意义的连续声音。音频场景是一个保持语义相关或一致性的声音片段,通常由多个音频事件组成。一般音频的计算机听觉技术在医疗卫生、安全监控、交通运输与仓储、制造业、农林牧渔业、水利环境、公共设施管理业、建筑业、采矿业、日常生活、身份识别、军事等领域具有众多应用。
概念
使用计算方法对数字化声音与音乐的内容进行理解和分析的交叉学科。面向音乐的CA也可称为音乐信息检索MIR,面向环境声的CA可称为基于一般音频的计算机听觉。主要基础学科是音频信号处理和人工智能-机器学习。
通用技术框架
一个完整的CA系统包含如下步骤:(1)采集声音数据(2)预处理(3)音频事件检测或端点检测(4)声源分离或去噪/增强(5)提取各种时频域音频特征(6)声音分类、声音目标识别及定位等。基于一般音频/环境声的CA算法设计与MIR技术高度类似,区别在于声音的本质不同,一般需要某种特定声音的领域知识。
事件与场景
音频事件
指一段具有特定意义的连续声音,时间可长可短。例如笑声、鼓掌声、枪声、犬吠、警笛声等。也可称为音频镜头。音频事件检测,亦称声音事件检测,环境声音识别,旨在识别音频流中事件的起止时间和类型,有时还包括其重要性。面向实际系统的音频事件检测需要在各种背景声音的干扰下在连续音频流中找到声音事件的边界再进行分类,比单纯的分类问题要更困难。
音频场景
是一个保持语义相关或一致性的声音片段,通常由多个音频事件组成。例如,一段包含枪声、炮声、呐喊声、爆炸声等声音事件的音频很可能对应一个战争场景。对于实际应用中的连续音频流,音频场景识别首先进行时间轴语义分割,得到音频场景的起止时间即边界,再进行音频场景分类。音频场景识别是提取音频结构和内容语义的重要手段,是基于内容的音频、视频检索和分析的基础。场景检测的研究,主要是基于图像和视频。音频同样具有丰富的场景信息,基于音频既可独立进行场景分析,也可以辅助视频场景分析,以获得更为准确的场景检测和分割。音频场景的类别并没有固定的定义,依赖于具体应用场景。在电影等视频中,可粗略分为语音、音乐、歌曲、环境音、带音乐伴奏的语音等几类。环境音还可以进行更细粒度的划分。基于音频分析的方法用户容易接受,计算量也比较少。
应用
计算机听觉在数十个领域具有应用。(1)医疗卫生领域:咳嗽、打鼾、言语、喘息、呼吸等呼吸系统疾病,心脏系统疾病,其它相关疾病如嗓音疾病、胎音和胎动、药剂吞服、血液流动、肌音。(2)公共场所监控和私密场所监控。(3)交通运输、仓储领域:铁路运输业,道路运输业(车型及车距识别、交通事故识别、交通流量检测、道路质量检测),水上运输业,航空运输业(航空飞行器识别、航空飞行数据分析),管道运输业,仓储业。(4)制造业:铁路、船舶、航空航天和其他运输设备制造业,通用设备制造业(发动机、金属加工机械制造、轴承齿轮和传动部件制造、包装专用设备制造),电气机械和器材制造业,纺织业,黑色及有色金属冶炼和压延加工业,非金属矿物制品业,汽车制造业,农副食品加工业,机器人制造。(5)农、林、牧、渔业:农业,林业,畜牧业。(6)水利、环境和公共设施管理业:水利管理业,生态保护和环境治理业。(7)建筑业:土木工程建筑业,房屋建筑业。(8)采矿业、日常生活、身份识别、军事等。
参考资料
最新修订时间:2024-08-21 23:15
目录
概述
概念
通用技术框架
事件与场景
参考资料