Skip to content
徐伟 edited this page Aug 30, 2016 · 7 revisions

基于神经网络的序列标注(中文分词、词性标注、命名实体识别)任务

目标

Slogan : 构建工业级的序列标注框架,达到高准确率,高速度的要求。

Fact : 最好用RNN的结构做一个序列标注框架出来,关键是快,但是准确率不能低。

进展

  1. 阶段一:完成基础模型构建 [已完成]
  2. 阶段二:探索具有更高准确率或更高速度的模型 [进行中]
  3. 阶段三:总结模型 [TODO]
  4. 阶段四:实现模型 [TODO]

数据记录

中文分词

  1. 中文分词-数据集信息
  2. 中文分词-LTP结果评价及速度
  3. 中文分词-实验结果

词性标注

  1. 词性标注-LTP结果评价
  2. 词性标注-初始实验
  3. 词性标注-实验
  4. 词性标注-尝试提高

命名实体识别

  1. 命名实体识别-LTP结果评价
  2. 命名实体识别-实验结果

问题记录

  1. 分词评价程序的不一致性
  2. 在RNN结构中加入上下文信息

代码记录

  1. 词性标注-MLP的代码结构分析
  2. 代码错误总结