-
Notifications
You must be signed in to change notification settings - Fork 6
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[Feat] 길이 분포 시각화 #37
[Feat] 길이 분포 시각화 #37
Conversation
1606243
to
93d8312
Compare
train과 test 데이터 중 입력으로 사용되는 피쳐들의 길이 분포를 시각화함 선지 개수 별 분포를 시각화함 자주 등장하는 단어 분포를 시각화함 Fixes: #18
Fixes: 18
93d8312
to
5382266
Compare
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Fixes #18
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
테스트 관련 EDA가 대회 규정 상 괜찮을지 의문이네요. 대회 규정과 무관하게는 학습 데이터와 테스트 데이터를 비교하면서 그래프 출력해주신게 좋았습니다! 우선 Approve 하겠습니다.
📝 Summary
data EDA와 시각화를 진행하였습니다.
✅ Checklist
- [ ] 테스트가 완료되었습니다.- [ ] 문서 업데이트가 포함되었습니다.📄 Description
data_length_EDA.ipynb
파일이 추가되었습니다.해당 데이터는 링크에서 다운 받으실 수 있습니다.
💡 Notice (Optional)
choices 컬럼의 경우 내 전체 선지들의 문장 길이 분포를 확인한 뒤,
str -> list
로의 타입 변경이 이루어집니다.순차 실행을 고려하여 코드가 작성되어 있습니다.
순차적으로 실행하지 않을 경우, [Choices String 길이 분포]의 결과가 달라질 수 있으니 유의 부탁드립니다.
🔗 Related Issue(s)
#18