Skip to content

rohithkodali/pos_blstm

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

pos_blstm

POS for PFR corpus

采用1998年人民日报词性标注语料库,模型为BLSTM神经网络模型

系统要求:
tensorflow>= 1.3(更低版本的没试过,不过高于1.0的应该就可以)
pandas
numpy
tqdm

运行:

download_data.py 用来下载语料库

gen_pos_file.py
1.将POS语料库中的[国务院/ns 侨办/ns]nt 转化为 国务院侨办/nt

get_pickle.py 用来将词和标签转换为id并存为pkl。_vaild 和 _test 文件对应于生成验证和测试数据
pos_blstm.py用来训练模型
pos_test.py用来测试


测试结果(包含非实体词的标记准确率):
Epoch training 22564, acc=0.971225, cost=0.0978384, speed=8.92383 s/epoch
TEST RESULT:
Test 1960, acc=0.983952, cost=0.0537742

输入句子测试:
**POS标记结果为:
词法/nz 分析/v 终于/d 完成/v 了/y 。/w

由于公司保密要求,词法分析三个模块均为基础模型,仅供学习使用。

如有问题,可以发邮件联系我:[email protected]

About

Chinese POS tagger

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published