Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Feat] 길이 분포 시각화 #37

Merged
merged 6 commits into from
Nov 23, 2024
Merged

Conversation

canolayoo78
Copy link
Contributor

@canolayoo78 canolayoo78 commented Nov 22, 2024

📝 Summary

data EDA와 시각화를 진행하였습니다.

  • data 내 column 별 str 길이 분포 시각화
  • 선지 개수 별 분포 시각화
  • kiwi 형태소 분석기 활용한 N-gram 시각화 등

✅ Checklist

  • 관련 이슈가 명시되어 있습니다.
    - [ ] 테스트가 완료되었습니다.
    - [ ] 문서 업데이트가 포함되었습니다.
  • 코드 리뷰를 위한 사전 검토를 완료했습니다.

📄 Description

  • data_length_EDA.ipynb 파일이 추가되었습니다.
  • EDA 결과의 경우 링크에서 확인 가능합니다.
  • 선다가 4개인 문제 중 모델이 정답을 5번이라 대답하는 경우는 없는지 확인하기 위해 output file을 사용하였습니다.
    해당 데이터는 링크에서 다운 받으실 수 있습니다.

💡 Notice (Optional)

choices 컬럼의 경우 내 전체 선지들의 문장 길이 분포를 확인한 뒤, str -> list로의 타입 변경이 이루어집니다.
순차 실행을 고려하여 코드가 작성되어 있습니다.
순차적으로 실행하지 않을 경우, [Choices String 길이 분포]의 결과가 달라질 수 있으니 유의 부탁드립니다.

# string 형식의 'choices' list화
df_train['choices'] = df_train['choices'].apply(literal_eval)
df_test['choices'] = df_test['choices'].apply(literal_eval)

🔗 Related Issue(s)

#18

@canolayoo78 canolayoo78 added Priority: Low 천천히 진행해도 되는 작업 Type: Experiment 실험 결과 및 아이디어 공유 Status: Completed 완료 labels Nov 22, 2024
@canolayoo78 canolayoo78 self-assigned this Nov 22, 2024
@canolayoo78 canolayoo78 linked an issue Nov 22, 2024 that may be closed by this pull request
2 tasks
@canolayoo78 canolayoo78 force-pushed the feature/18-data-length-eda branch from 1606243 to 93d8312 Compare November 22, 2024 05:39
train과 test 데이터 중 입력으로 사용되는 피쳐들의 길이 분포를 시각화함
선지 개수 별 분포를 시각화함
자주 등장하는 단어 분포를 시각화함

Fixes: #18
@canolayoo78 canolayoo78 force-pushed the feature/18-data-length-eda branch from 93d8312 to 5382266 Compare November 22, 2024 14:20
Copy link
Contributor

@eyeol eyeol left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

image

datapath 부분을 최신 버전의 데이터로 수정해주실 수 있을까요?

@eyeol
Copy link
Contributor

eyeol commented Nov 22, 2024

스크린샷 2024-11-23 001030
해당 파일을 실행하기 위해서 data 폴더에 어떤 파일이 필요한지, PR 본문에 명시해주시면 좋을 것 같습니다.

@canolayoo78
Copy link
Contributor Author

image

datapath 부분을 최신 버전의 데이터로 수정해주실 수 있을까요?

가장 최근 데이터로 수정 완료하였습니다!

@canolayoo78 canolayoo78 reopened this Nov 22, 2024
@canolayoo78
Copy link
Contributor Author

스크린샷 2024-11-23 001030 해당 파일을 실행하기 위해서 data 폴더에 어떤 파일이 필요한지, PR 본문에 명시해주시면 좋을 것 같습니다.

Description 내에 추가하였습니다.
추후에는 선 제공될 수 있도록 확인하겠습니다. 감사합니다!

Copy link
Contributor

@jagaldol jagaldol left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

저는 생각해보지도 못한 방향(n gram 등)으로 데이터 분석을 많이 진행해주셔서 도움이 많이 되었습니다! 수고하셨습니다!


주피터 노트북에는 코드 흐름을 보고 알 수 있지만, 따로 차트 시각화만을 사용한다면 아래 두 차트는 제목이 같아 헷갈릴 수 있을 것 같습니다. 나중에 보고서나 streamlit 등에 사용하는 차트에는 제목에 2 gram(명사) 라고 작성하면 혼동을 방지할 수 있을 것 같아요.

image

image

현재 PR은 구태여 수정안하셔도 될거 같고, 나중에 쓰실 때만 주의하면 좋을 것 같아요!

Copy link
Contributor

@gsgh3016 gsgh3016 left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

테스트 관련 EDA가 대회 규정 상 괜찮을지 의문이네요. 대회 규정과 무관하게는 학습 데이터와 테스트 데이터를 비교하면서 그래프 출력해주신게 좋았습니다! 우선 Approve 하겠습니다.

@canolayoo78 canolayoo78 merged commit e661427 into main Nov 23, 2024
6 checks passed
@jagaldol jagaldol deleted the feature/18-data-length-eda branch December 4, 2024 07:13
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Priority: Low 천천히 진행해도 되는 작업 Type: Experiment 실험 결과 및 아이디어 공유
Projects
None yet
Development

Successfully merging this pull request may close these issues.

[DISC] train과 test 데이터 내 길이 분포 위주 분석
4 participants