何晓冬,
IEEE Fellow、京东集团副总裁、
京东探索研究院院长、京东科技智能服务业务部负责人。何晓冬博士二十多年来从事自然语言处理和语言与视觉多模态智能等人工智能领域的研究,是本领域世界级科学家之一,吴文俊人工智能杰出贡献奖获得者。他发表了200多篇论文,引用4万余次,并多次获得ACL杰出论文奖、IEEE SPS Best Paper等奖项。2018年加入京东后,他领导团队聚焦智能技术的前沿突破及产品创新,打造了 “言犀”人工智能应用平台,孵化了京东智能客服、交互式营销业务,大规模应用在政务、医疗、零售、金融等行业。
人物经历
何晓冬本科毕业于清华大学,硕士毕业于中国科学院,后赴美国密苏里大学哥伦比亚分校学习,获得博士学位后加入微软。从2012年至今任西雅图的华盛顿大学电机与计算机系兼任教授、博士生导师。
二十载学术生涯中,何晓冬的研究贯穿语音识别、语言理解、图像与语言多模态信息处理等领域。
何晓冬曾就职于美国微软雷德蒙研究院十余年,担任首席研究员及深度学习技术中心负责人。
2018年加入京东至今,现任京东集团副总裁、京东探索研究院院长。加盟京东后,何晓冬一方面在北京、成都、硅谷等地组建语音语义与智能人机交互技术实验室,聚焦多模态人机对话等前沿课题,另一方面组建智能客服产品部门推动实验室产出的前沿技术落地到大规模产业应用。
基于其对自然语言理解和语言与视觉多模态信息处理的贡献,2018年底何晓冬当选IEEE Fellow。
社会任职
何晓冬是IEEE Fellow,京东集团技术副总裁,京东人工智能研究院常务副院长,深度学习及语音和语言实验室的负责人。他还担任
香港中文大学(深圳),华盛顿大学(西雅图),和同济大学(上海)兼职教授,以及
中央美术学院(北京)的荣誉教授。在加入京东集团之前,他曾担任微软雷德蒙德研究院深度学习技术中心的首席研究员和负责人。他的研究主要集中在人工智能领域,包括深度学习,自然语言处理,语音识别,
计算机视觉,信息检索和多模态智能。他发表100余篇论文, 谷歌学术统计引用数过万次。他的工作包括深层结构化语义模型(DSSM),分层注意力网络(HAN),AttnGAN等,广泛应用于语言,视觉,IR和知识表示等任务。他于2019年入选国际电气和电子工程师协会院士(IEEE Fellow)。他于1996年获得清华大学(北京)学士学位,1999年获得中国科学院(北京)硕士学位,2003年获得
美国密苏里大学哥伦比亚分校博士学位。
学术贡献
何晓冬发表了200多篇论文,引用4万余次。多次获得ACL杰出论文奖、IEEE SPS最佳论文奖等奖项。提出多个基础方法和经典模型,推动和启发了众多国内外科技创新:
2013年,提出了深度结构化语义模型DSSM(Deep Structured Semantic Models),将多样化的自然语言所表达的含义表示成为一个多维度连续语义空间中的向量,以此来帮助搜索、推荐、分类、问答等实际应用。时至今日,几乎所有做搜索推荐场景的大厂仍在使用DSSM及其衍生模型。
2014年,他与深度学习三巨头之一Yoshua Bengio等人给IEEE TASLP投稿的《Using RNN for Slot Filling in Spoken Language Understanding》,提出了基于深度循环神经网络的口语理解模型,为口语理解领域带来突破。
2018年的时候,何晓冬就提出了语言 - 视觉深度多模态语义模型(DMSM),以及在 2018 年进一步提出了现在业界广为采用的 Bottom-Up and Top-Down attention(BUTD)跨模态注意力机制,单篇引用量已超过 4128 次,一直推动和见证了多模态技术的实用化。
2018年,何晓冬与沈向洋、李笛等人在中国工程院刊FITEE发表论文《From Eliza to XiaoIce: Challenges and Opportunities with Social Chatbots》,深度探讨了构建先进人机对话系统的设计原则,获得业界广泛关注,并获得2018年度优秀论文奖。
产业贡献
何晓冬团队研发的语言和视觉多模态智能机器人三部曲,包括Caption Bot、Attentive VQA、Drawing Bot,为行业贡献了大量的技术实例。其研究成果对微软产品如 Office、Seeing AI、搜索及广告、智能云服务、微软小冰等有着重要价值。
加入京东后,他先后在北京、成都、硅谷等地组建智能人机交互技术实验室,并组建了智能客服产品部推动技术的产业化落地。他领导团队研发了业界第一个大规模商用情感智能客服系统,服务超过5亿用户,并在多个行业落地大型企业标杆案例与成功实践。
何晓冬延续了此前在对话式 AI、多模态等领域的研究,牵头搭建了京东内部大规模对话式 AI 系统的搭建工作,聚焦于To B为主的真实场景的具体问题和任务驱动型的对话。并带领团队将一系列研究成果迅速转化,应用在京东的智能服务业务中,包括知识融合的预训练模型 K-PLUG、长文本阅读 Read-over-Read 模型、数值推理 OPERA 模型、时序知识图谱 TSQA 模型等。
何晓冬和团队研发了产业界第一个大规模商用的情感智能客服系统—言犀,涵盖客户服务、营销导购、流程自动化等客户全生命周期管理与服务的智能化解决方案。言犀是业界首个大规模商用的情感机器人,依托前沿AI技术,实现了从文字、语音到多模态,从对话智能到情感智能的多元交互模式,通过“在线咨询机器人”、“语音外呼”、“语音导航”、“语音应答”、“数字人”等在内的产品及服务矩阵,在京东内部,言犀早在强有力的研发力量与京东无可比拟的场景优势加持下,言犀有足够的底气,打磨出业内更出色的智能服务系统——服务5.5亿用户,覆盖近1000万自营商品SKU,沉淀超过3000万知识点、7*24小时全渠道秒级响应能力,识别率超过95%。
2022年,何晓冬带领团队推出言犀2.0,伴随着产业数字化的浪潮,作为京东集团最佳实践的言犀也将自身成熟的能力开放出来,为政务、金融、零售、制造、物流、医疗等千行百业,提供以用户为中心的、涵盖客户服务、营销导购、流程自动化的整体智能化解决方案,助力政企客户实现服务和营销数智化转型升级。
在政务行业,推出了京东云智能政务热线解决方案,以科技力量助力全国各地政务热线数智化升级。
在金融行业,江南农商银行与京东智能客服言犀共同合作推出的VTM数字员工正式“上岗“,是全国第一个能独立、全程办理银行真实交易的数字人。
在制造行业,京东云与中联重科联手打造的业内首个“泵送机械AI专家诊断系统”,依托京东智能客服团队成熟的技术能力,以人工智能技术为驱动实现工业自动化与智能化,极大提升了设备故障诊断效率,有效保障了客户施工的连续性,每年可帮助售后团队节省故障排查时间4200小时,单次设备维修时间缩短了20%以上,为单产品线创造间接经济效益超过230万元。
2023年7月,何晓冬所带领研发的言犀大模型正式对外发布,言犀大模型融合了70%的通用数据与30%京东数智供应链原生数据,具有“更高产业属性、更强泛化能力、更多安全保障”的优势,致力于面向知识密集型、任务型产业场景,解决真实产业问题。
所获荣誉
ACL杰出论文奖
IEEE SPS最佳论文奖
2019年获得多跳推理机器阅读理解(Wikihop)第一名(Tu, et al. ACL 2019)
2020年文档级关系抽取DocRED第一名(Zhou, et al. AAAI21)
2021年获得可解释的多跳推理机器阅读理解(HotpotQA)第一名(Tu, et al. AAAI 2020)
2021年获得多轮对话式机器阅读理解(QuAC)第一名(Zhao, et al. EMNLP 2021)
2022年离散推理型阅读理解榜单DROP Leaderboard冠军
2023年5月6日,中国智能科学技术最高奖“吴文俊人工智能科学技术奖”颁奖典礼在北京举行,60个获奖项目及个人受到表彰奖励。京东集团副总裁、京东探索研究院院长何晓冬获颁“吴文俊人工智能杰出贡献奖”。
人物观点
产业AI的核心是服务实体行业,在复杂、真实场景中最大化AI价值。
何晓冬指出:“在多年的技术落地实践中,我们意识到,用AI来提升、赋能传统实体行业才能最大化影响力和应用价值,传统实体行业的体量足够大,提升1%就能创造巨大的应用价值。”
首先,传统实体产业体量大,新增价值更显规模化效应。传统实体行业是国民经济的重要支柱,已积累的大规模数据可以为Al嵌入提供充足燃料,简单提升即可创造巨大价值;其次,传统产业能带动技术升级的生态链裂变,传统行业已经形成规模化上下游生态,技术变革将牵动整体生态链价值提升。
除此之外,传统实体产业转型积淀深、门槛高、场景复杂,企业需求各异,定制化程度高。传统实体行业各有特点,需要采集数据、清洗数据等,一个综合性AI系统迁移成本低、适用能力强,更核心的能够产生一些实际的价值。
产业智能时代,企业应坚定长期投入
相比于通用大模型,何晓冬更看好有产业应用价值的大模型,强调“布局大模型应结合具体场景,从产业价值出发”。
“大模型应该产业化才能产生价值,而且在落地产业的时候必然会遇到很多问题,这样才能不断迭代进步。”何晓冬表示。在他看来,“企业拥抱大模型产业机遇,还是要坚持长期主义,坚定长期投入。”
下一步AGI将走向多模态和具身智能
“理论上视觉信息中每个物体和物体之间的关系动作,甚至包括颜色、姿态、空间关系以及时间关系,都蕴含着大量的知识。但目前的知识网络还是在文字层面,通过调用一个简单的API实现的多模态,并没有真正实现语言信息和视觉信息的融合,所以从智能涌现角度来说,深层次融合的程度”,何晓冬表示。
何晓冬预测,也许明年或下一代的GPT大模型就能够做到。多模态的智能涌现一旦突破了,将会有一个很惊艳的效果。“自然语言处理是有语义的,但其实视觉也有语义,从视觉最底层的像素,再往上构造成物体,再往上就变成语义,然后再往上就是整体的融合。我感觉是如果能达到那一步应该会有很多的想象空间,可能真的能够把整个宇宙数字化了。”