Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

뉴스데이터 품질개선 #27

Open
wolfrev0 opened this issue Apr 30, 2021 · 0 comments
Open

뉴스데이터 품질개선 #27

wolfrev0 opened this issue Apr 30, 2021 · 0 comments
Assignees
Labels
enhancement New feature or request

Comments

@wolfrev0
Copy link
Collaborator

wolfrev0 commented Apr 30, 2021

문제
1일에 뉴스 A,B,C와 주가 x%p 변동을 수집하고, 뉴스 A가 주가에 큰 영향을 주고 뉴스 B,C가 의미없는 기사일때,
현재는 A B C에 모두 x%p로 라벨링해서 동일한 중요도로 처리해주고 있어서 학습에 굉장히 악영향이 있을듯

대안
주가변동라벨 1개당 뉴스 1개만 수집(검색 첫결과의 뉴스) 혹은 2개 수집하여 연결

기타
변동이 거의 없는 일자는 아예 데이터에서 제거하는것도 고려해보자.
주의점: 일자 제거시 [공휴|공휴|제외|공휴|공휴|영업] 일때 영업일에 영향을 주는건 제외 이후 2개의 공휴일과 영업일의 기사이다.

문제2
[원본보기], ▲ 등 불필요한 메타데이터(?) 들을 제거하면 성능향상에 도움이 될거같다.

방법
메타데이터 형태에 따라 정규식을 만들어 인식하고 제거하면 될듯함

@wolfrev0 wolfrev0 added the enhancement New feature or request label Apr 30, 2021
wolfrev0 added a commit that referenced this issue May 10, 2021
@wolfrev0 wolfrev0 self-assigned this May 10, 2021
@wolfrev0 wolfrev0 linked a pull request May 10, 2021 that will close this issue
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

Successfully merging a pull request may close this issue.

1 participant