Badge source
This project aims to analyze news content by converting it into a text network, with the goal of demonstrating the phenomenon of political polarization across different media.
- Data Type : Web crawler
- Data Source
- Keyword
- 萊豬
- 藻礁
- 公投綁大選
- 核四
├── Dockerfile
├── LICENSE
├── analysis
│ ├── nlp_analysis.py
│ └── test.py
├── assets
│ ├── setup_db_flow.jpg
│ └── stop_words.txt
├── data
│ ├── backup
│ │ ├── 20230825145838_Chinatimes_萊豬.json
│ │ ├── 20230825185848_Libnews_萊豬.json
│ │ ├── 20230829111408_Udn_萊豬.json
│ │ ├── 20230829133811_Udn_藻礁.json
│ │ ├── 20230829134139_Libnews_藻礁.json
│ │ ├── 20230829165101_Chinatimes_藻礁.json
│ │ ├── 20230830121006_Udn_公投綁大選.json
│ │ ├── 20230830121148_Chinatimes_公投綁大選.json
│ │ ├── 20230830121156_Libnews_公投綁大選.json
│ │ ├── 20230830173313_Udn_核四.json
│ │ ├── 20230830173634_Chinatimes_核四.json
│ │ └── 20230830181537_Libnews_核四.json
│ ├── db
│ │ └── news_political_polarization.sqlite
│ ├── extract_data
│ │ ├── t-SNE_full_result
│ │ │ ├── algal_reef_plt.png
│ │ │ ├── alongside_elections_plt.png
│ │ │ ├── nuclear_power_plt.png
│ │ │ └── ractopamine_plt.png
│ │ ├── threshold_0.3
│ │ │ ├── algal_reef.csv
│ │ │ ├── alongside_elections.csv
│ │ │ ├── nuclear_power.csv
│ │ │ └── ractopamine.csv
│ │ ├── threshold_0.3 2
│ │ ├── threshold_0.5
│ │ │ ├── algal_reef.csv
│ │ │ ├── alongside_elections.csv
│ │ │ ├── nuclear_power.csv
│ │ │ └── ractopamine.csv
│ │ ├── threshold_0.6
│ │ │ ├── algal_reef.csv
│ │ │ ├── alongside_elections.csv
│ │ │ ├── nuclear_power.csv
│ │ │ └── ractopamine.csv
│ │ └── threshold_0.7
│ │ ├── algal_reef.csv
│ │ ├── alongside_elections.csv
│ │ ├── nuclear_power.csv
│ │ └── ractopamine.csv
│ ├── raw_data
│ │ ├── Chinatimes_核四.csv
│ │ ├── Chinatimes_萊豬.csv
│ │ ├── Chinatimes_藻礁.csv
│ │ ├── Chinatimes_公投綁大選.csv
│ │ ├── Libnews_核四.csv
│ │ ├── Libnews_萊豬.csv
│ │ ├── Libnews_藻礁.csv
│ │ ├── Libnews_公投綁大選.csv
│ │ ├── Udn_核四.csv
│ │ ├── Udn_萊豬.csv
│ │ ├── Udn_藻礁.csv
│ │ └── Udn_公投綁大選.csv
│ └── tokenized_data
│ ├── algal_reef.csv
│ ├── alongside_elections.csv
│ ├── nuclear_power.csv
│ └── ractopamine.csv
├── docs
│ ├── crawlers_docs
│ │ ├── chinatimes_spider_doc.md
│ │ ├── libnews_spider_doc.md
│ │ └── udnews_Spider_doc.md
│ └── src_docs
│ └── src_doc.md
├── model
│ ├── sentence_transformer_model
│ └── tf_idf_model
│ ├── algal_reef
│ │ ├── algal_reef_tfidf_matrix.pickle
│ │ └── algal_reef_vectorizer.pickle
│ ├── alongside_elections
│ │ ├── alongside_elections_tfidf_matrix.pickle
│ │ └── alongside_elections_vectorizer.pickle
│ ├── nuclear_power
│ │ ├── nuclear_power_tfidf_matrix.pickle
│ │ └── nuclear_power_vectorizer.pickle
│ └── ractopamine
│ ├── ractopamine_tfidf_matrix.pickle
│ └── ractopamine_vectorizer.pickle
├── readme.md
├── references
├── reports
├── setup.py
├── src
│ ├── __init__.py
│ ├── buildup_src
│ │ ├── gpu_inspector.py
│ │ └── setup_db.py
│ ├── crawlers_src
│ │ ├── chinatimes
│ │ │ ├── chinatimes
│ │ │ │ ├── __init__.py
│ │ │ │ ├── items.py
│ │ │ │ ├── middlewares.py
│ │ │ │ ├── pipelines.py
│ │ │ │ ├── settings.py
│ │ │ │ └── spiders
│ │ │ │ ├── __init__.py
│ │ │ │ └── chinatimesSpider.py
│ │ │ └── scrapy.cfg
│ │ ├── libnews
│ │ │ ├── libnews
│ │ │ │ ├── __init__.py
│ │ │ │ ├── items.py
│ │ │ │ ├── middlewares.py
│ │ │ │ ├── pipelines.py
│ │ │ │ ├── settings.py
│ │ │ │ └── spiders
│ │ │ │ ├── __init__.py
│ │ │ │ └── libnewsSpider.py
│ │ │ └── scrapy.cfg
│ │ └── udnews
│ │ └── udnSpider.py
│ ├── data_src
│ │ ├── data_initial_processing.py
│ │ └── data_integrity_verifier.py
│ └── nlp_src
│ ├── nlp_analysis_and_visualization.py
│ ├── nlp_tfidf_model_training.py
│ └── nlp_tokenization.py
└── utils
├── __init__.py
├── db_query.py
├── db_utils.py
├── etl_utils.py
├── gpu_utils.py
├── log_utils.py
├── network_utils.py
├── nlp_utils.py
└── tf_idf_utils.py
- Exploratory data analysis
- Text Mining
- Natural Language Processing / NLP
- TF-IDF
- Network analysis
- Python
- Scrapy
- Selenium
- Ckiptagger