孙茂松
欧洲人文和自然科学院外籍院士
孙茂松,欧洲人文和自然科学院外籍院士,国际计算语言学协会会士,中国人工智能学会会士,中国中文信息学会会士,清华大学计算机科学与技术系长聘教授、博士生导师,清华大学人工智能研究院常务副院长、清华大学计算机学位评定分委员会主席、清华大学大规模在线开放教育研究中心主任。
人物经历
1981年,本科毕业于清华大学计算机科学与技术专业,获得工学学士学位。
1988年,硕士研究生毕业于清华大学计算机科学与技术专业,获得工学硕士学位。
2004年,博士研究生毕业于香港城市大学计算语言学专业,获得哲学博士学位。
2007年4月至2010年11月,担任清华大学计算机科学与技术系主任。
2010年12月至2018年1月,担任清华大学计算机科学与技术系党委书记。
2020年8月,当选欧洲人文和自然科学院外籍院士。
2021年6月,增选为中国人工智能学会会士;12月18日,增选为中国中文信息学会会士。
2022年12月,当选国际计算语言学协会会士(ACL Fellow)。
主要成就
科研成就
孙茂松的研究重点之一是中文信息处理最为基础性的课题:汉语自动分词。他提出了若干重要概念,如“最大交集型歧义切分字段”“真切分歧义与伪切分歧义”“全局统计量与局部统计量”,并在大规模汉语语料库上对“最大交集型歧义切分字段”进行了考察,给出了有效的处理策略,并以此为基础,研制出一个集自动分词、词性标注、专名识别和新词识别于一体的汉语分析软件CSegTag,应用于清华与欧盟近10个国家合作的FP6项目“超对等语义搜索引擎”中。他还就与汉语分词相关联的若干问题进行了研究,如探讨了中文文本自动分类的基本单元是基于字的N-gram还是基于词这个问题,初步得到一个重要结论:在分类粒度较粗的条件下,基于字的Bigram的分类性能和基于词的分类性能几乎相当。
孙茂松提出了“基于极大规模自然标注语料库的自然语言处理”的学术思想,其基本想法是系统地利用用户在Web环境下实现相关应用任务过程中不经意输入或建立的各类信息,以有效提高自然语言处理系统在开放环境下的处理能力(包括对Web的适应能力)。自然标注包括两类,一类是显式的,如各种标点、Anchor文本、查询日志、博客标签、维基百科等;一类是隐式的,如各种语言模板。
2012年以来,孙茂松在深度学习(Deep Learning)范式下系统性地开展了一系列前沿研究,内容涵盖大规模结构化知识图表示学习基础方法、预训练语言模型乃至大模型等,形成了有一定国际影响力的成果。据Gitstar Ranking统计数据,基于孙茂松研究团队核心成果的开源项目THUNLP在GitHub上获得了近8万个星标(Star),机构排名居全球高校前列。2013年,孙茂松在清华大学的战略部署下率领团队设计并实现了中国第一个中文大规模开放在线课程平台“学堂在线”,并成为联合国教科文组织(UNESCO)国际工程教育中心(ICEE)的在线教育平台,全球学习者人数累计超过一亿人;2015年,孙茂松领衔研制了人工智能中国古典诗词写作系统“九歌”。这也是中国较早的AIGC(人工智能生成内容)深入研究。
截至2021年3月,孙茂松已获国家发明专利4项,日本专利1项。
截至2021年3月,孙茂松已主持973二级课题、863重大专项二级课题和探索类课题、国家自然科学基金重点项目和面上项目、国际合作项目等约20项,主持信息处理ISO国际标准2项。
截至2021年3月,孙茂松在国际刊物、国际会议、中国国内核心刊物上共发表论文约130篇,Google Scholar总引用数约1400次。
人才培养
孙茂松所讲授的课程“计算语言学”被评为清华大学精品课程。
荣誉表彰
社会任职
人物评价
孙茂松在工作中客观、严谨、理性,在生活中细腻、和蔼、感性,能够设身处地关心学生的心理变化。(清华大学评)
孙茂松是计算机学者中少有的具备深厚文化底蕴的老师,他身上有中国知识分子的气息——正直、正义、有情怀。(清华大学计算机科学与技术系副教授刘知远评)
参考资料
历任领导.清华大学计算机科学与技术系.
孙茂松.清华大学计算机科学与技术系.
最新修订时间:2024-04-17 16:01
目录
概述
人物经历
参考资料