| 사용 라이브러리 : selenium<br>
- accommodation_table, accommodation_review_table, accommdation_price_table => parquet 형태로 buffer에 임시 저장
- buffer : parquet 데이터 => S3 UPLOAD
- Crawling_Detail 실행 : [selenium]과 [accommodation_table.accommodation_ID] 을 이용한 크롤링
- accommodation_Location_table, accommodation_Facilities_table
- buffer : parquet 데이터 => S3 UPLOAD
| 사용 라이브러리
: snowflake.connector
-
S3/~~.parquet => snowflake.project2.RAW_DATA
-
snowflake.project2.RAW_DATA => snowflake.project2.Analytics_tables
> pip install -r requirements.txt
매주 월요일 00:00:10분에 실행되도록 cron scheduling 생성 후
> python Crawling_Lambda_Script.py
> python Load_Snowflake_Lambda_Script.py
=> 실행
-
Event Bridge : Cron 매주 월요일 00:00:10
-
Lambda 구성 [Trigger : Event Bridge] -> [Lambda : Crawling_Lambda_Script.py] => [이전 성공 시 : python Load_Snowflake_Lambda_Script.py]
-
beautifulsoup4==4.12.3
-
selenium==4.26.1
-
boto3==1.35.54
-
pandas==2.0.3
-
snowflake-connector-python==3.12.3
-
snowflake-sqlalchemy==1.6.1