自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理处理的内容涉及到语言的各个层次,包括字、词、句、段落、篇章和语义。ITNLP实验室在汉语处理的各个层次都开展了深入的研究:
目前实验室主要在以下方向开展工作:
1、统计语言模型: 统计语言模型是自然语言处理的主流技术之一。我们研究的主要内容包括各种语言模型的构建、改进以及应用,包括N元文法模型、隐马尔科夫模型、最大熵模型等。
2、非齐次概率建模:在自然语言处理领域中,各级语言元素(字、词、词性、组块、短句……)因其语法语义属性不同,其可以充当的语言成分不同,因此,其在语言元素序列中出现的位置和范围具有一定的规律性。上述规律性通常对应概率模型中的非齐次性假设,因此又称为语言元素的非齐次属性。语言元素非齐次现象是语言元素的普遍现象,语言元素的非齐次属性是语言元素的本质属性。非齐次概率建模期望将语言元素的非齐次属性进行量化表示并加以利用,从而提高传统概率模型的性能,增强概率模型在自然语言处理各项任务中的应用效果。
3、汉字处理: 汉字处理解决在计算机及移动设备上输入汉字的问题。研究内容包括音字转换、手写体识别以及键盘输入等问题。
4、词法分析:词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息。词法分析是很多中文信息处理任务的必要步骤。很多应用,如搜索引擎、机器翻译都需要词法分析的支持。词法分析的主要研究内容包括自动分词、词性标注、歧义消解、新词识别等,采用的方法主要以统计机器学习为主。
5、命名实体识别:命名实体识别的任务是自动识别文本中的人名、地名、机构名等各种实体。命名实体识别可以提高语言理解的准确性,是信息抽取系统的重要组成部分。命名实体识别的主要研究内容包括识别语料的标注、识别规则的自动抽取、识别模型的构建以及识别特征的自动选取等。
6、句法分析:句法分析是对句子和短语的结构进行分析。句法分析可分为完全句法分析和浅层句法分析。句法分析是语言学理论和实际的自然语言应用的一个重要桥梁。一个实用的、完备的、准确的句法分析将是计算机真正理解自然语言的基础。
7、语义分析:在过去,计算语言学研究集中在词法分析和句法分析上,基于规则、基于统计的语法分析技术率先在自然语言处理领域得到广泛运用。目前,随着Internet网络应用的普及和深入,多语种内容信息的理解和处理逐渐受到人们的关注。语义分析的研究,如词义排歧和语义归纳、推理等,开始处于萌芽期并将逐步走向前台,成为下一阶段计算语言学研究的一个亮点。计算机本身没有智能,自然语言的语义分析和内容信息的理解,离不开相应的语义知识库的支持,它是帮助计算机“了解”人类语言的一个媒介和桥梁,也是让计算机逐渐“聪明”起来的一个物质前提。语义分析主要研究基于语义知识库的语义相似度的计算方法、语义知识库的自动构建等内容。
8、语料库多级加工:语料库语言学是以语料库为基本知识源来研究自然语言规律的学科,其中语料库加工的理论、方法和工具和基于语料库的知识获取是语料库语言学研究的主要内容。语料库是按照一定的原则组织在一起的真实的自然语言数据(包括书面语和口语)的集合,主要用于研究自然语言的规律,特别是统计语言学模型的训练以及相关系统的评价和测试。所谓语料库标注或加工就是对电子语料(包括书面语和口语)进行不同层次的语言学分析,并添加相应的显性的解释性的语言学信息过程。与不同层次的自然语言分析相对应,语料库的加工主要包括词性标注、句法标注、语义标注、言语标注和语用标注等,由于汉语书写的特殊性,汉语的语料加工还包括分词。
研发人员:王晓龙、刘秉权、王强、刘桃、孙承杰、李鹏、姜维、孙广路、张德园、孙珂、杜新凯、贾文杰、潘晓燕