Skip to content

Latest commit

 

History

History
22 lines (17 loc) · 1.42 KB

README.md

File metadata and controls

22 lines (17 loc) · 1.42 KB

Korean Contextualized Topic Models

모델 소개

BERT 기반의 문맥을 반영한 한국어 토픽 모델입니다. 모델은 CombinedTM을 사용하고 한국어에서 사용할 수 있도록 토크나이저와 SBERT를 수정하였습니다.

  • Paper : https://arxiv.org/abs/2004.03974
  • 토크나이저로는 형태소 분석기 Mecab을 사용.
  • BERT로는 다국어 SBERT인 'sentence-transformers/xlm-r-100langs-bert-base-nli-stsb-mean-tokens'를 사용.
  • 토픽의 수는 임의로 50으로 결정.
  • 별도 불용어 제거 등의 추가 전처리는 진행하지 않았음. (진행할 경우 더 좋은 결과를 얻을 수 있을 것으로 기대.)
  • 실험을 위해 Vocab size는 3,000을 사용. (단, 원본 Repo에 따르면 영어의 Vocab size는 2,000 단어 이하를 권장.)

시각화 결과

topic model

High-level sketch of CombinedTM

  • CombinedTM은 Bag of Words 문서 벡터와 SBERT로부터 얻은 Contextualized Embedding을 concat하여 사용하는 모델입니다.

image

참고) 유사 BERT 기반 한국어 토픽 모델

  • BERT 기반의 한국어 토픽 모델을 찾으신다면 아래의 모델도 참고하시기 바랍니다.
  • KoBERTopic