当前位置:首页  新闻公告  新闻资讯
ITNLP的自动分词内部测试版(Insun ELUS 2.3版 系统)开始发布
发布人:test  发布时间:2005-04-18   浏览次数:18
经过几代博士、博士生的不断努力,在原有成熟的语料库加工平台ICUS系统的基础上,ITNLP的自动分词内部测试版(Insun ELUS 2.3版 系统)开始发布。
    该系统目前具有自动汉语分词与词性标注加工功能!分词模块包括快速分词和精确分词两种选择,能够自
动识别时间、数字、人名、地名、机构名等名实体(注:更重要的是还可以定制识别的名实体类型)。词性标注部分,采用北京大学的词性标注集,系统提供多种词性标注的方法,包括HMM(隐马尔科夫)、ME(最大熵)、MEMM(最大熵码尔科夫)、SVM(支持向量机)、以及多模型融合标注方式!
    在实现上,新的版本充分考虑到中文汉语分词的特点,采用传统算法与目前前沿算法相结合的策略。内部
针对优化汉语分词、词性标注进行优化。
由于测试版本中仍存在一些需要优化参数,以及现有语料资源的还有待增加,正在进行完善中!
    下面给出在第一届Sighan北大语料的开放测试初步评测结果(供参考):
TOTAL TRUE WORDS RECALL: 0.957369
TOTAL TEST WORDS PRECISION: 0.943216
F MEASURE: 0.95024
OOV Rate:  0.0957311
OOV Recall Rate: 0.800729
IV Recall Rate: 0.974695
    该系统正在完善中!欢迎测试,并提出宝贵意见!ftp://192.168.140.157/ELUS/
    Email: JiangWei@insun.hit.edu.cn
(姜维)