Siri
苹果智能语音助手
Siri 是 Speech Interpretation & Recognition Interface 的首字母缩写,原义为语音识别接口,是苹果公司iPhoneiPadiPod TouchHomePodApple WatchApple TV、Apple CarPlay等产品上应用的一个语音助手,利用Siri用户可以通过手机查找信息、拨打电话、发送信息、获取路线、播放音乐、查找苹果设备等。
基本介绍
研究背景
Siri成立于2007年,2010年被苹果以2亿美金收购,最初是以文字聊天服务为主,随后通过与全球最大的语音识别厂商Nuance合作,Siri实现了语音识别功能。
技术来源
Siri 技术来源于美国国防部高级研究规划局所公布的 CALO 计划:一个让军方简化处理一些繁复庶务,并具学习、组织以及认知能力的数字助理,其所衍生出来的民用版软件 Siri 虚拟个人助理。
支持设备
原生:
iPhone 14 Plus
iPhone 14 Pro Max
iPhone SE(第三代)
iPhone 15
iPhone 15 Plus
iPhone 15 Pro
iPhone 15 Pro Max
iPad Pro
注:iPhone4S的Siri支持中文需要iOS 6.0(或更高版本)
The new iPad支持Siri需要iOS6.0(或更高版本)
以及任何iPhone 4s 和 iPad 升级至iOS 6.0(或更高版本)的设备
Apple Watch 任何版本均支持Siri
越狱后:
以及任何iPhone 4s 和 iPad 升级至iOS 7.0之后的设备
注:1.越狱后是利用Siri Proxy 中转接入苹果官方服务器或FeelSiri服务器。
2.iPhone 3GS 和 iPod touch 4 支持iOS 5iOS 6 系统下的Siri移植。由于iOS 7 不支持这两款设备,故不能移植。
3.iPhone 4 除支持iOS 5iOS 6 外,因为可以升级iOS 7。不排除iOS 7移植Siri可能。
4. iPad 1 可以在IOS 5下移植Siri。由于不能升级iOS 6和iOS 7 故不能移植。
5.除iPad 1不是完美GUI移植。在iOS 6 环境下,iPad 2完成了完美GUI移植。
功能介绍
使用者可以通过声控、文字输入的方式,来搜寻餐厅、电影院等生活信息,同时也可以直接收看各项相关评论,甚至是直接订位、订票;另外其适地性(location based)服务的能力也相当强悍,能够依据用户默认的居家地址或是所在位置来判断、过滤搜寻的结果。
不过其最大的特色,则是人机的互动方面,不仅有十分生动的对话接口,其针对用户询问所给予的回答,也不至于答非所问,有时候更是让人有种心有灵犀的惊喜,例如使用者如果在说出、输入的内容包括了『喝了点』、『家』这些字(甚至不需要符合语法,相当人性化...),Siri 则会判断为喝醉酒、要回家,并自动建议是否要帮忙叫出租车。
Siri 和系统的整合更加紧密
Siri 在并购前的版本整合了大量网络服务的 APIs 。比如 OpenTable,Tickets,Taxi Magic 等等。
而 Siri 被苹果收购了之后, 他已经被整合为系统的一部分了。
iOS 5的 Siri 视频中,出现新短消息之后,交互由 Siri 发起。说明他已经常驻系统后台并且可以接管重要的系统功能了。(除了短消息还有天气,时钟,Maps 等等)
Siri 支持的语言
截至IOS6.1,Siri支持中文(普通话 - 中国),中文(粤语 - 中国香港),德文(德国),德文(瑞士),意大利文(意大利),意大利文(瑞士),日文,法文加拿大),法文(法国),法文(瑞士)英文(澳大利亚),英文(美国),英文(英国),英文(澳大利亚),西班牙文墨西哥),西班牙文(美国),西班牙文(西班牙)和韩文
中性语音
2022年,苹果公司在推出的最新版本iOS操作系统中加入了一种新的Siri声音,该“声音”在苹果的官方解释中被标注为:既不来自男性也不来自女性,开始为Siri提供中性语音的选项。
聊天属性
2024年5月10日消息,知情人士透露,苹果公司预计将在6月举行的年度全球开发者大会(WWDC)上展示其人工智能领域的进展,届时该公司将发布改进后的Siri语音助手,后者将更具对话性和多功能性。据悉,Siri的底层技术将包括一个新的生成式AI系统,该系统将赋予Siri聊天功能,而不是一次回答一个问题。
使用技术
概况介绍
Siri所用到的技术,很多人会回答,人工智能以及云计算,的确,总体来说,是这两样技术,不过,这种概述感觉几乎没有任何意义,何不直接说“计算技术”(注意,不是计算机技术)呢。因此,在本文,我将介绍下我了解 Siri 可能采用的技术(由于有个人猜测,不一定准确)。
前端方面
在前端方面,即面向用户,和用户交互(User Interface,UI)的技术,主要是语音识别以及语音合成技术。语音识别技术是把用户的口语转化成文字,其中需要强大的语音知识库,因此需要用到所谓的“云计算”技术。而语音合成则是把返回的文字结果转化成语音输出,这个技术理论上本地就能完成,但不知道Siri是否如此,当然,在云端完成也并无不可,在当前无线带宽下,那点语音流量根本不算什么。
后台技术
后台技术,这些其实才是真正的大角色。这些技术的目的就是处理用户的请求,并返回最匹配的结果,这些请求类型很多,千奇百怪,要处理好并不简单。基本的结构猜测可能是分析用户的输入(已经通过语音转化),根据输入类型,分别采用合适的技术(合适的技术后台)进行处理。这些合适的后台技术包括,①以Google 为代表的网页搜索技术;②以Wolfram Alpha为代表的知识搜索技术(或者知识计算技术);③以Wikipedia 为代表的知识库(和 Wolfram Alpha 不同的是,这些知识来自人类的手工编辑)技术(包括其他百科,如电影百科等);④以Yelp 为代表的问答以及推荐技术。
网页搜索
大家天天用的Google就是这个技术的代表,而国内则以百度为代表。
知识计算
(搜索)技术(Computational Knowledge)
这个技术的代表是WolframAlpha
不同于搜索互联网信息,Wolfram|Alpha将从公众的(包括公开的网页等)和获得授权的资源中,发掘、建立起一个异常庞大的经过组织的数据库,再利用高级的自然语言算法进行处理,最终构造出一个类似于谷歌搜索的工具。
和网页搜索技术不同的是,在这个系统中,得到的答案结构化程度很高,比如搜索China,能得到和中国相关的各种参数以及资料,并以接近表格的方式呈现。Wolfram|Alpha也能理解部分自然语言,比如输出How old are you,其会回答Wolfram|Alpha的年龄。想测试这项技术的请移步Wolfram|Alpha。
这个技术国内做的应该有,但还没有产品,也许百度的框计算算是半个。所以机会大大的有。
知识库技术
相比于网页搜索技术,基本以一个词条或者主题为单位,因此得到的数据价值高,知识量大,并且结构化程度好。相比于知识计算技术,这些技术需要人的参与,这有利也有弊,利就是,毕竟暂时人比机器聪明,编辑出来的知识更丰富,准确;弊就是,人力有限,即使像维基那样,发动社区的力量,也不能产生足够的知识,而知识计算,理论上,只需要算法够,是可以产生“无限”的知识的。
问答推荐技术
其实这不能称为一个技术,应该属于知识库的技术。不同的是,这个技术针对的是一些生活信息,这些信息的地域化程度很高,典型代表为Yelp。由于这东西比较简单,就不仔细介绍了。
这是如何提升Siri识别企业和餐厅等本地兴趣点名称的方法,融合了用户所在地的知识,也就是所谓的Geo-LM,借此提升Siri的语音识别能力。这些模型让Siri可以更好地评估用户的发音内容。
发展历程
2016年6月13日,在苹果开发者大会WWDC发布了产品Siri的新功能。
2017年苹果WWDC开发者大会上,Siri的更新当中,加入了实时翻译功能,支持英语、法语、德语等语言,未来将陆续进行支持,与此同时,Siri的智能化还进一步得到提升,支持上下文的预测功能,类似此前发布的谷歌助手,用户甚至可以用Siri作为Apple TV的遥控器。
2022年2月,抖音搜索与苹果Siri达成合作。
2023年6月6日,苹果公司于2023苹果全球开发者大会上将唤醒词Hey Siri精简成Siri。
2024年6月6日消息,据知情人士透露,苹果将于下周召开的年度全球开发者大会上宣布对包括Siri在内的软件产品进行一系列生成式人工智能升级。人工智能功能包括协助撰写信息、编辑照片等。
2024年12月11日,苹果发布了iPhone、iPad和Mac软件的更新,其中包括了融合ChatGPT的Siri。
软件应用
iPhone 4S的苹果发布会中苹果称 Siri Voice
Assistant 将会成为 iOS 的一部分。Siri 原是一个第三方应用,是苹果花费2亿美元购买所得的。虽然在收购后很长的一段时间里我们仍能在 App Store 上看到这一应用的身影,不过它将近有一年多的时间没有更新。而直到苹果在发布会上介绍Siri这一功能后,Siri 这一应用才正式下架。
大家可能没有注意到的是,Siri 下架是精心安排的:Siri 在苹果大会上第一次被提及的时候,这一应用还能在 App Store 上轻松的找到。但在大会结束后,这一应用就再也找不着了。看起来Siri这一应用是在大会结束的同时下架的。
为什么要下架呢?这可能是因为苹果担心第三方应用若能够实现 iPhone 4S 的功能的话,会影响现有的 iPhone 用户购买新 iPhone 的欲望,从而影响销量。
Siri 支持英文、法文和德文的语音识别,其中英文部分只支持美国、英国和澳大利亚的口音,对于其他国家和地区的英语口音在识别上还存在困难。
此外,被苹果定义为仍处在“测试阶段”的 Siri 支持在美国进行地图和本地搜索,不过苹果官网的 Siri FAQ 页面也承诺,相关功能在2012年将拓展到其他国家。
苹果公司搭载在 iOS6 上的 Siri,新的 Siri 支持语言包括日语、意大利语、中国汉语、中国台湾地区、中国香港地区等地区语言,你可以用 Siri 查看当前的球赛信息,足球,篮球,排球等。包括比分和球员信息等;用它搜索最新的电影资讯,和附近的电影院;Siri 甚至可以帮你寻找餐馆美食,价格,位置,甚至有评星功能。
北京时间2012年9月20日凌晨,苹果在iPod、iPhone和iPad设备上正式放出iOS6操作系统更新。据更新信息显示,该升级包将有超过200项新功能,其中内置了全新的苹果地图。在此次更新中,Siri也将支持中文。
2013年6月10日,苹果在iPod、iPhone和iPad设备上正式放出iOS7操作系统更新。其中在Siri方面去除了“测试版”字样。
十一功用
1.Siri 可以创建、修改、删除闹钟
这应该是用户最容易想到的Siri的“正经”用法了。按住“Home”键,告诉Siri,“早上7点15的时候叫醒我”;想打会儿小盹,就说“40分钟后叫醒我”。只要准确地报上时间,Siri将是最好用的闹钟。
2.用 Siri 寻找咖啡厅
喝咖啡是很多上班族的习惯,一杯咖啡能够迅速地将人调整成工作状态。出门在外的时候,想找个咖啡厅?利用Siri就可以搞定这一切。告诉 Siri,寻找离当前位置最近的咖啡厅即可。如果你没有附加更多的要求,Siri将反馈给还算不错的答案,很可能是告诉你最近的星巴克在哪。如果星巴克还不能满足你的要求,还是用更专业的应用Help吧,它会给你更详细的答案。
3.想去哪,Siri 告诉你
查找出行路线的过程中往往要输入不少文字。想省事的话,还是用Siri完成这一切吧。报上要去的地点,Siri会调用 Google 地图来寻找出行路线的方案。从测试过的这种用法的用户的反馈上看,Siri还没有出过什么差错,就像GPS那样好使。2016年9月14日,苹果iOS 10正式版问世,易到iOS10中首个支持Siri语音叫车的软件。Siri可以直接启动易到,并帮用户完成订车。
4.用 Siri 播放随机音乐
如果你厌倦了固定顺序的音乐播放列表,可以试着用Siri播放随机音乐。首先,你需要将喜欢的音乐导入到一个名为“最爱”的播放列表中。开始听音乐的时候,告诉Siri”放皇后乐队的歌曲”。紧接着,Siri就会在“最爱”列表中匹配皇后乐队的歌曲并将其播放。这样就实现了随机播放音乐的功能。
5.发送短信,Siri 代劳
还在边走路边发短信?行路不安全不说,发短信还费劲,以后用Siri代劳吧。走路的时候,将iPhone放在耳边,告诉Siri“用短信告诉她,我将晚点到家”。不用匆忙,告诉Siri你想表达的内容,即可轻轻松松地发送短信。
6.天气预报,Siri 知道
这也是Siri十分擅长的一项功能。关于气象信息的问题,Siri都能正确理解。想要知道明天的天气怎样,问问Siri就知道了。
7.用Siri提醒日程安排
既然能把Siri当闹钟用,你当然可以用它来提醒日程安排。很多人都有使用Google日历的习惯,用Google日历安排自己的各项日程。生活中的一些需要提醒的小事,完全没有必要一项项地加到Google日历中去,用Siri就可以搞定这个问题。比如说,“十点钟的时候,提醒我去刷牙”。
8.用 Siri 提醒地点
Siri 提醒地点的功能还不是很完善。除了“家”或“上班处”,Siri 对于一些位置称呼的理解能力不佳。但是,Siri 对“这里”的理解十分准确,即当前的GPS坐标位置。所以你可以这样用 Siri 的提醒功能,途经一家不错的小店时,可以将它的位置标记为“这里”并设置好提醒,以便日后有时间时再次光顾。
9.Siri 为你答疑解惑
珠穆朗玛峰多高?美国的GDP是多少?回答不上来的话,无需 Google,张嘴问问 Siri 吧。Siri 本身是不知道这些问题的答案的,它会从“知识问答引擎”Wolfram Alpha中寻找答案。所有的回答都会以自然语言的形式呈现。这也是 Siri 被认为将对 Google 重要威胁的原因。当然,Siri 在相当长的一段时间肯定不能取代Google,但对 Google 的威胁将是长远的。当 Siri 足够智能的时候,人们用它取代 Google 并不是没有可能。
10.用 Siri 发送微博(支持新浪微博、腾讯微博
不过在使用 Siri 发微博前,还得做一些必要的设置。
11.用 Siri来订电影票。(美国)
iOS 9 中的 Siri 拥有新外观、新声音和新功能。它的界面经过重新设计,以淡入视图浮现于任意屏幕画面的最上层。Siri 回答问题的速度更快,还能查询更多信息源,如百度百科。它可以承担更多任务,如回电话、播放语音邮件、调节屏幕亮度,以及更多
专利侵权
2012年7月3日,上海某法院确认,已经收到上海智臻网络科技有限公司(下称“智臻网络”)的诉状,被告正是苹果电脑贸易(上海)有限公司和美国的苹果公司。
智臻网络认为苹果公司iPhone 4S中的Siri侵犯了其发明专利权。本报记者通过中国国家知识产权局专利检索看到,这个名为“一种聊天机器人系统”的专利,申请日为2004年8月13日,公告日为2006年2月15日。
在该专利的公开说明中,注明专利权人为上海赢思软件技术有限公司和袁辉,后者也是智臻网络的法定代表人。他们都与一个使用MSN工具的人熟悉的应用“小i机器人”有关,在该公司网站上,袁辉被称为“中国网络机器人之父”、小i机器人董事长。此外,小i机器人的产品合作商,还包括联想智能电视中国移动京东商城上海人力资源和社会保障局等公司、部门。
反垄断调查听证会后,苹果公司又因一起百亿元诉讼被推上风口浪尖。8月3日,小i机器人宣布正式向上海市高级人民法院提起诉讼,要求苹果公司停止Siri专利侵权,并暂计索赔100亿元。苹果方面回应并未侵权。
流量需求
苹果的iPhone 4S, iPhone 5iPad3,iPad4,iPad mini1,iPod touch 5都带有一个智能的语音助手 Siri。已经能够完成类似网页搜索、接打电话、设置提醒事件、发送短信和邮件等任务。
但是有一个很大的问题,就是 Siri 需要网络才能工作。Siri 接收到用户的命令之后会把语音传给苹果的服务器,经过处理后服务器将结果传回用户的手机,Siri 便会给出相应的回答或执行相应的动作。但是有些任务压根用不着网络连接(建立一个提醒事项),要是网络连接状况不好甚至没有 Wi-Fi时就很让人头痛了。更进一步考虑,有些用户认为使用 Siri 还有个更大的弊端:如果你敞开用,月底数据流量费用可能会让你吓一跳。流量费用并不便宜,这个问题确实会越来越突出。不过,Siri 消耗的流量可能真的会“吓你一跳”呢。
在进行 11 种不同的测试时仔细观察了数据量,分别有本地设备上的任务和需要上网查询的任务。我们还进行了 4 次听写测试。当然了,每位用户具体的流量数值是完全基于如何使用 Siri 以及使用频度的。以下是的测试结果。
执行任务
我们执行了 6 项应该属于本地的任务。其中包括:“设定一个 3 小时候之后的闹钟,”“设置一个周五下午 2 点的约见,”(之后让 Siri 取消了这项任务)“我到家后提醒我总结开支报告,”以及“Ars Technica 的联系人信息是什么?”
这些任务执行后的数据流量是 220 KB,平均每个任务消耗 36.7 KB。实际上,流量最低的任务用掉了 18 KB,最多的 60 KB。我们认为这和执行任务所用的句子复杂程度以及何种语言有关。
另外五个任务是需要上网查询的,有些可以直接从 Wolfram Alpha 获取结果,有些会提示我们是否要用我们告诉 Siri 的关键词在浏览器进行搜索。比如我们问了“一个松饼里有多少卡路里?”“Kevin Bacon 一共演了多少部电影?”(这一条要进行 Google 搜索,我们说了 yes)以及“Lady Gaga 的真实姓名是什么?”等问题。
这五个任务的数据流量消耗是 473.5 KB,平均每个任务 94.72 KB。具体流量从 23 KB 到 187 KB 不等,这随问题本身的情况而定。
统计一下,我们的这 11 个任务总共用掉 693.6 KB 数据流量,平均每个任务 63 KB。从上文你可以看到,本地的 Siri 任务消耗的流量明显更少,这是符合逻辑的。
除了这 11 个任务之外,我们还用 Siri 进行了 4 次听写:两个简短的电子邮件(一封有 15 词,另一封大概 40 词),和两条短信(每条大约 6-10 个词)。短信听写用掉的流量分别为 12 KB 和 18 KB,平均每条 15 KB。电子邮件的分别为 36 KB 和 109 KB,平均每条 72.5 KB。很明显,消息长度越长,所耗流量就越多,这完全取决于你的措辞。
结果
如果你使用iPhone4S,通过手机数据流量(比如 3G 网络)让 Siri 每天都执行一遍这 11 项任务,那么 30 天后消耗的流量大约为 20 MB。但每个用户肯定会问不同的问题,并且使用频度也会大不一样。
根据调查(包括身边的同事、以及在 Twitter上开展的调查),大概可以把不同用户的使用频度分为三类:每天 1-3 次的,每天 4-6 次的,和每天 10-15 次的。也有用户说自己每天使用的次数超过 20 次,但这种情况是极少数的。从我个人角度来讲,看到这么大的数字颇有些惊讶,我自己每天使用的次数不过 2-3 次,不过我的同事 Ken Fisher 说他每天会使用大约 15 次。
这些数字实在不容易看出什么。而且我们之前说过,你的用量完全取决于你的措辞、你要求执行的任务种类以及你的使用频度。这些统计数字就仅作参考吧,它们只能显示出一个大致范围。
如果你每天使用 2-3 次 Siri,每次用掉 63 KB 流量,那么每天的用量将达到 126 KB 到 189 KB,所以每月流量消耗为 3.7 MB 到 5.5 MB。对于每天使用 4-6 次的用户来说,每天的流量会达到 252 KB 到 378 KB,每个月要用掉 7.4 MB 到 11 MB 左右。如果你一天使用 10-15 次,每天的流量将是 630 KB 到 945 KB,每个月要消耗 18.5 MB 到 27.7 MB 的数据流量。
正如我们一再强调的,由于使用频度的不同等几大主要因素,每个用户所产生的实际流量也不尽相同。这些数值就是我们测试的结果,可以作为自己选定数据套餐时的参考。
苹果针对Verizon版本的iPhone 5发布了运营商升级包,以解决出现的无线问题。
产品争议
涉黄
2012年10月,有网友称苹果iPhone手机的语音对话软件Siri可以提供“三陪”场所信息,这一说法引发舆论热议。调查发现,苹果提供的部分场所确有“涉黄”嫌疑。苹果公司回应称,Siri不能进行关键词屏蔽设置,但专家指出,苹果具有对敏感词进行特殊处理的设计,只是并未将上述内容列入屏蔽名单。
到2012年10月28日,Siri不会再搜索“嫖娼”的场所了!苹果公司客服人员表示,已经将“三陪”信息列入屏蔽范围。
Siri不再提供“三陪”场所的信息。对此,苹果公司客服人员称,根据用户的反映,也将“三陪”信息列入屏蔽范围;屏蔽范围除“三陪”等涉黄信息外,还包括涉及暴力等违反中国法律的信息。
考虑到这种信息为性交易提供便利,可能会危害社会秩序。而且,由于用户众多,潜在危害面也较大,苹果公司必须及时做出纠正,且职能部门可以出面进行监管。
根据现有法律,互联网信息服务提供商不得登载和传播淫秽、色情等中华人民共和国法律、法规禁止的不良信息内容。但是Siri提供“三陪”场所信息,并不像淫秽图片和视频等直接对未成年人身心造成伤害,因此够不上违法。
然而,根据《互联网站禁止传播淫秽色情等不良信息自律规范》,互联网信息服务提供商不得开设或变相开设为不道德性行为和性交易提供便利的频道或专栏。若违反该自律规范的,应及时纠正违规行为;经劝说、警告无效的,中国互联网协会互联网新闻信息服务工作委员会有义务向政府有关部门建议,取消其提供相关信息服务的资质。
监管部门可要求苹果公司对已销售和将要销售的手机产品统一“打补丁”,屏蔽潜在的危害社会秩序的内容。
如果Siri提到的场所不是涉黄场所,苹果公司也可能要冒被这些场所民事诉讼、索赔的风险。
泄密
2019年8月28日,苹果公司正式在其官网上致歉称,“我们知道客户近期一直为苹果人工审查Siri录音感到困扰,这是我们提高Siri使用质量的一部分,我们称之为‘评级’。当我们得知了用户的担忧之后,立即停止了所有人工对Siri的‘评级’的项目,并对所有的环节和政策进行了一个全面的评估。我们决定对Siri做一些改变。”苹果公司在其官网的博文中承诺,将减少从Siri语音记录中搜集到的用户数据,也不会将存储在服务器中的数据,作为销售用途。
相关事件
2020年8月,国内人工智能技术公司小i机器人正式向上海市高级人民法院提起诉讼,要求苹果公司停止Siri(智能助理)专利侵权,并暂计索赔金额100亿元。
语音搜索
2022年2月8日,抖音搜索与苹果 Siri 达成合作,iPhone 用户可以通过 Siri 语音指令直接搜索抖音的视频内容。
2023年6月,苹果在WWDC 2023 开发者大会上,宣布唤醒 Siri 语音助手的唤醒词正式从“Hey Siri”,更改为“Siri”。苹果宣布用户在升级 iOS / iPadOS 17 版本更新之后,可以更容易地唤醒虚拟语音助手。
最新修订时间:2024-12-12 08:58
目录
概述
基本介绍
参考资料