pos_blstm

POS for PFR corpus

采用1998年人民日报词性标注语料库，模型为BLSTM神经网络模型

系统要求:
tensorflow>= 1.3(更低版本的没试过，不过高于1.0的应该就可以)
pandas
numpy
tqdm

运行：

download_data.py 用来下载语料库

gen_pos_file.py
1.将POS语料库中的[国务院/ns 侨办/ns]nt 转化为国务院侨办/nt

get_pickle.py 用来将词和标签转换为id并存为pkl。_vaild 和 _test 文件对应于生成验证和测试数据
pos_blstm.py用来训练模型
pos_test.py用来测试

测试结果（包含非实体词的标记准确率）:
Epoch training 22564, acc=0.971225, cost=0.0978384, speed=8.92383 s/epoch
TEST RESULT:
Test 1960, acc=0.983952, cost=0.0537742

输入句子测试：
**POS标记结果为:
词法/nz 分析/v 终于/d 完成/v 了/y 。/w

由于公司保密要求，词法分析三个模块均为基础模型，仅供学习使用。

如有问题，可以发邮件联系我:[email protected]

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
bin		bin
ckpt		ckpt
data		data
data_utils		data_utils
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

pos_blstm

About

Releases

Packages

Languages

License

rohithkodali/pos_blstm

Folders and files

Latest commit

History

Repository files navigation

pos_blstm

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages