KoGrammar

Korean Grammar Correction Model based on LLM

A Project for Introduction to Text Processing(LIS3813)

This project is ongoing.

Dataset: 국립국어원 맞춤법 교정 말뭉치 2022
Backbone Model: KoBART(gogamza/kobart-base-v2)

Model

How To Use

Requirements
```
torch
transformers
```

Inference

from transformers import BartConfig
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
from transformers import pipeline

checkpoint = 'theSOL1/kogrammar-base'
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
config = BartConfig.from_pretrained(checkpoint)
model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint, config=config, device_map='auto')
pipe = pipeline('text2text-generation', model=model, tokenizer=tokenizer)

sample_text = 'ㄴㅏ는 ㄱㅏ끔 눈물을흘린다'
corrected_text = pipe(sample_text)
print(corrected_text)

Name		Name	Last commit message	Last commit date
Latest commit History 76 Commits
assets		assets
docs		docs
result-data		result-data
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
baseline-train.ipynb		baseline-train.ipynb
baseline_train_colab.ipynb		baseline_train_colab.ipynb
dataview.ipynb		dataview.ipynb
distil_tiny_train_colab.ipynb		distil_tiny_train_colab.ipynb
distil_train_colab.ipynb		distil_train_colab.ipynb
prepare-data.ipynb		prepare-data.ipynb
quantize.ipynb		quantize.ipynb
requirements.txt		requirements.txt
result-analysis.ipynb		result-analysis.ipynb
small_model_train.ipynb		small_model_train.ipynb
test-colab.ipynb		test-colab.ipynb
test.ipynb		test.ipynb
test_utils.py		test_utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

KoGrammar

Model

How To Use

Docs

About

Releases

Packages

Contributors 2

Languages

License

SOL1archive/KoGrammar

Folders and files

Latest commit

History

Repository files navigation

KoGrammar

Model

How To Use

Docs

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages