deprecation fixes

hydroshare · Mar 21, 2023 · b3ea2a6 · b3ea2a6
1 parent d14f307
commit b3ea2a6
Show file tree

Hide file tree

Showing 79 changed files with 43 additions and 20 deletions.
diff --git a/jinja-report/collect_data.py b/jinja-report/collect_data.py
@@ -186,7 +186,7 @@ def get_stats_data(users=True, resources=True,
                    skip=True, deidentify=False):
 
     # standard query parameters
-    host = 'localhost'
+    host = 'elasticsearch'
     port = 9200
 
     ufile = os.path.join(dirname, 'users.pkl')
@@ -257,7 +257,7 @@ def get_stats_data(users=True, resources=True,
             print(f'--> file exists: {afile}...skipping')
         else:
             print('--> downloading activity metrics')
-            elastic.get_es_data(host, port, aindex, query=aquery,
+            elastic.get_es_data(host=host, port=port, index=aindex, query=aquery,
                                 outpik=afile, outfile=acsv, drop=drop,
                                 return_es_index=True)
     else:

diff --git a/jinja-report/doi.py b/jinja-report/doi.py
@@ -119,17 +119,21 @@ def citations(input_directory='.',
             url = ('https://doi.crossref.org/servlet/getForwardLinks?'
                    f'usr={creds.username}&pwd={creds.password}&'
                    f'doi={doi}')
-            res = requests.get(url)
-            root = etree.fromstring(res.text.encode())
-            citations = root.findall('.//body/forward_link',
-                                     namespaces=root.nsmap)
-            dois = []
-            for citation in citations:
-                doi = citation.find('.//doi', namespaces=root.nsmap).text
-                dois.append(doi)
-
-            df.at[idx, 'citations'] = len(dois)
-            df.at[idx, 'citing_dois'] = ','.join(dois)
+            try:
+                res = requests.get(url)
+                root = etree.fromstring(res.text.encode())
+                citations = root.findall('.//body/forward_link',
+                                        namespaces=root.nsmap)
+                dois = []
+                for citation in citations:
+                    doi = citation.find('.//doi', namespaces=root.nsmap).text
+                    dois.append(doi)
+
+                df.at[idx, 'citations'] = len(dois)
+                df.at[idx, 'citing_dois'] = ','.join(dois)
+            except ConnectionError as e:
+                print(f'Warning: issue with DOI connection: {e}')
+                continue
 
         df.to_pickle(os.path.join(input_directory, 'doi-citations.pkl'))
     else:

diff --git a/jinja-report/elastic.py b/jinja-report/elastic.py
@@ -7,8 +7,10 @@
 import argparse
 from tqdm import tqdm
 from elasticsearch import Elasticsearch
-from pandas.io.json import json_normalize
+from pandas import json_normalize
+from dotenv import load_dotenv
 
+load_dotenv('../.env')
 
 # standard elasticsearch fields to trim from the dataframe
 DEFAULT_TRIM = ['@version', 'beat.hostname', 'beat.name', 'count', 'fields',
@@ -59,7 +61,9 @@ def get_es_data(host,
                 return_es_index=False):
 
     # connect to the hydroshare elasticsearch server
-    es = Elasticsearch(f"{scheme}://{host}:{port}", basic_auth=(os.getenv('ELASTIC_USERNAME', 'elastic'), os.getenv('ELASTIC_PASSWORD', 'changeme')))
+    elastic_url = f"{scheme}://{host}:{port}"
+    print(f"Connecting to: {elastic_url}")
+    es = Elasticsearch(elastic_url, basic_auth=(os.getenv('ELASTIC_USERNAME', 'elastic'), os.getenv('ELASTIC_PASSWORD', 'changeme')))
 
     # perform search
     try:
@@ -71,6 +75,12 @@ def get_es_data(host,
     # get the total size of dataset
     total_size = temp_r['hits']['total']
 
+    try:
+        total_size = int(total_size.get('value'))
+    except Exception as e:
+        print(f'Error attempting to access total_size: {e}')
+        print(f"Total size is: {total_size}")
+
     # calculate the scroll size
     min_scroll, max_scroll = 1000, 10000
     inc_scroll = int(total_size / 25)

diff --git a/jinja-report/plot.py b/jinja-report/plot.py
@@ -64,6 +64,8 @@ def line(plotObjs_ax1,
     annotate = figure_dict.pop('annotate_series', False)
     annotate_legend = figure_dict.pop('annotate_legend', False)
     for pobj in plotObjs_ax1:
+        if len(pobj.y) == 0:
+            continue
         label = pobj.label
 
         if annotate_legend:

diff --git a/jinja-report/users_pie.py b/jinja-report/users_pie.py
@@ -57,7 +57,7 @@ def all(input_directory='.',
                   % (drp, df[drp].sum()))
             df.drop(drp, inplace=True, axis=1)
         except Exception as e:
-            print(e)
+            print(f'Error dropping from users pie df: {e}')
 
     # calculate total and percentages for each user type
     ds = df.sum()

diff --git a/jinja-report/utilities.py b/jinja-report/utilities.py
@@ -19,15 +19,21 @@ def save_data_to_csv(data_dict, index='date'):
 
 #            # set the index
 #            d.set_index('date', inplace=True)
+            if d.empty:
+                continue
 
             dfs.append(d)
 
-        # combine dataframes
-        df_concat = pandas.concat(dfs, axis=1)
+        try:
+            # combine dataframes
+            df_concat = pandas.concat(dfs, axis=1)
 
-        df_concat.to_csv(k)
+            df_concat.to_csv(k)
 
-        print(f'--> data saved to: {k}')
+            print(f'--> data saved to: {k}')
+        except ValueError as e:
+            print(f'Warning: looks like there is some data missing! {e}')
+            print(f'Attempted to save this dict to csv: {data_dict}')
 
 
 def subset_by_date(dat, st, et, date_column='date'):

diff --git a/report-generation/README.md → old/report-generation/README.md b/report-generation/README.md → old/report-generation/README.md
diff --git a/report-generation/activity-pie.py → old/report-generation/activity-pie.py b/report-generation/activity-pie.py → old/report-generation/activity-pie.py
diff --git a/report-generation/activity.py → old/report-generation/activity.py b/report-generation/activity.py → old/report-generation/activity.py
diff --git a/report-generation/build-report.py → old/report-generation/build-report.py b/report-generation/build-report.py → old/report-generation/build-report.py
diff --git a/report-generation/collect_data.py → old/report-generation/collect_data.py b/report-generation/collect_data.py → old/report-generation/collect_data.py
diff --git a/...rt-generation/dat/collect_universities.py → ...rt-generation/dat/collect_universities.py b/...rt-generation/dat/collect_universities.py → ...rt-generation/dat/collect_universities.py
diff --git a/report-generation/dat/cuahsi-members.csv → old/report-generation/dat/cuahsi-members.csv b/report-generation/dat/cuahsi-members.csv → old/report-generation/dat/cuahsi-members.csv
diff --git a/report-generation/dat/university-data.csv → ...report-generation/dat/university-data.csv b/report-generation/dat/university-data.csv → ...report-generation/dat/university-data.csv
diff --git a/report-generation/doi.py → old/report-generation/doi.py b/report-generation/doi.py → old/report-generation/doi.py
diff --git a/report-generation/elastic.py → old/report-generation/elastic.py b/report-generation/elastic.py → old/report-generation/elastic.py
diff --git a/report-generation/funding.py → old/report-generation/funding.py b/report-generation/funding.py → old/report-generation/funding.py
diff --git a/report-generation/general_stats.py → old/report-generation/general_stats.py b/report-generation/general_stats.py → old/report-generation/general_stats.py
diff --git a/report-generation/git.py → old/report-generation/git.py b/report-generation/git.py → old/report-generation/git.py
diff --git a/report-generation/latex.py → old/report-generation/latex.py b/report-generation/latex.py → old/report-generation/latex.py
diff --git a/report-generation/organizations.py → old/report-generation/organizations.py b/report-generation/organizations.py → old/report-generation/organizations.py
diff --git a/report-generation/requirements.txt → old/report-generation/requirements.txt b/report-generation/requirements.txt → old/report-generation/requirements.txt
diff --git a/report-generation/resources.py → old/report-generation/resources.py b/report-generation/resources.py → old/report-generation/resources.py
diff --git a/report-generation/users-pie.py → old/report-generation/users-pie.py b/report-generation/users-pie.py → old/report-generation/users-pie.py
diff --git a/report-generation/users.py → old/report-generation/users.py b/report-generation/users.py → old/report-generation/users.py
diff --git a/scripts/README.md → old/scripts/README.md b/scripts/README.md → old/scripts/README.md
diff --git a/scripts/check_for_test_users.py → old/scripts/check_for_test_users.py b/scripts/check_for_test_users.py → old/scripts/check_for_test_users.py
diff --git a/scripts/cms.py → old/scripts/cms.py b/scripts/cms.py → old/scripts/cms.py
diff --git a/scripts/doi_citation_count.py → old/scripts/doi_citation_count.py b/scripts/doi_citation_count.py → old/scripts/doi_citation_count.py
diff --git a/scripts/download-frequency.ipynb → old/scripts/download-frequency.ipynb b/scripts/download-frequency.ipynb → old/scripts/download-frequency.ipynb
diff --git a/scripts/elastic.py → old/scripts/elastic.py b/scripts/elastic.py → old/scripts/elastic.py
diff --git a/scripts/environment.yml → old/scripts/environment.yml b/scripts/environment.yml → old/scripts/environment.yml
diff --git a/scripts/gdd-references/get_gdd_references.py → ...ipts/gdd-references/get_gdd_references.py b/scripts/gdd-references/get_gdd_references.py → ...ipts/gdd-references/get_gdd_references.py
diff --git a/scripts/gdd-references/terms.txt → old/scripts/gdd-references/terms.txt b/scripts/gdd-references/terms.txt → old/scripts/gdd-references/terms.txt
diff --git a/scripts/general_stats.py → old/scripts/general_stats.py b/scripts/general_stats.py → old/scripts/general_stats.py
diff --git a/scripts/get_funding_agencies.py → old/scripts/get_funding_agencies.py b/scripts/get_funding_agencies.py → old/scripts/get_funding_agencies.py
diff --git a/scripts/getdata.py → old/scripts/getdata.py b/scripts/getdata.py → old/scripts/getdata.py
diff --git a/scripts/github/README.md → old/scripts/github/README.md b/scripts/github/README.md → old/scripts/github/README.md
diff --git a/scripts/github/__init__.py → old/scripts/github/__init__.py b/scripts/github/__init__.py → old/scripts/github/__init__.py
diff --git a/scripts/github/collectcommits.py → old/scripts/github/collectcommits.py b/scripts/github/collectcommits.py → old/scripts/github/collectcommits.py
diff --git a/scripts/github/collectdata.py → old/scripts/github/collectdata.py b/scripts/github/collectdata.py → old/scripts/github/collectdata.py
diff --git a/scripts/github/commit.py → old/scripts/github/commit.py b/scripts/github/commit.py → old/scripts/github/commit.py
diff --git a/scripts/github/gitstats.py → old/scripts/github/gitstats.py b/scripts/github/gitstats.py → old/scripts/github/gitstats.py
diff --git a/scripts/github/issue.py → old/scripts/github/issue.py b/scripts/github/issue.py → old/scripts/github/issue.py
diff --git a/scripts/github/plot.py → old/scripts/github/plot.py b/scripts/github/plot.py → old/scripts/github/plot.py
diff --git a/scripts/github/tabular.py → old/scripts/github/tabular.py b/scripts/github/tabular.py → old/scripts/github/tabular.py
diff --git a/scripts/hs-funding/funding.csv → old/scripts/hs-funding/funding.csv b/scripts/hs-funding/funding.csv → old/scripts/hs-funding/funding.csv
diff --git a/scripts/hs-funding/funding.pkl → old/scripts/hs-funding/funding.pkl b/scripts/hs-funding/funding.pkl → old/scripts/hs-funding/funding.pkl
diff --git a/scripts/metricutils.py → old/scripts/metricutils.py b/scripts/metricutils.py → old/scripts/metricutils.py
diff --git a/scripts/purge_test_user_data.py → old/scripts/purge_test_user_data.py b/scripts/purge_test_user_data.py → old/scripts/purge_test_user_data.py
diff --git a/scripts/reporting/README.md → old/scripts/reporting/README.md b/scripts/reporting/README.md → old/scripts/reporting/README.md
diff --git a/scripts/reporting/activity.py → old/scripts/reporting/activity.py b/scripts/reporting/activity.py → old/scripts/reporting/activity.py
diff --git a/scripts/reporting/collect_data.py → old/scripts/reporting/collect_data.py b/scripts/reporting/collect_data.py → old/scripts/reporting/collect_data.py
diff --git a/...pts/reporting/dat/collect_universities.py → ...pts/reporting/dat/collect_universities.py b/...pts/reporting/dat/collect_universities.py → ...pts/reporting/dat/collect_universities.py
diff --git a/scripts/reporting/dat/cuahsi-members.csv → old/scripts/reporting/dat/cuahsi-members.csv b/scripts/reporting/dat/cuahsi-members.csv → old/scripts/reporting/dat/cuahsi-members.csv
diff --git a/scripts/reporting/dat/university-data.csv → ...scripts/reporting/dat/university-data.csv b/scripts/reporting/dat/university-data.csv → ...scripts/reporting/dat/university-data.csv
diff --git a/scripts/reporting/doi.py → old/scripts/reporting/doi.py b/scripts/reporting/doi.py → old/scripts/reporting/doi.py
diff --git a/scripts/reporting/elastic.py → old/scripts/reporting/elastic.py b/scripts/reporting/elastic.py → old/scripts/reporting/elastic.py
diff --git a/scripts/reporting/funding.py → old/scripts/reporting/funding.py b/scripts/reporting/funding.py → old/scripts/reporting/funding.py
diff --git a/scripts/reporting/general_stats.py → old/scripts/reporting/general_stats.py b/scripts/reporting/general_stats.py → old/scripts/reporting/general_stats.py
diff --git a/scripts/reporting/git.py → old/scripts/reporting/git.py b/scripts/reporting/git.py → old/scripts/reporting/git.py
diff --git a/scripts/reporting/latex.py → old/scripts/reporting/latex.py b/scripts/reporting/latex.py → old/scripts/reporting/latex.py
diff --git a/scripts/reporting/organizations.py → old/scripts/reporting/organizations.py b/scripts/reporting/organizations.py → old/scripts/reporting/organizations.py
diff --git a/scripts/reporting/resources.py → old/scripts/reporting/resources.py b/scripts/reporting/resources.py → old/scripts/reporting/resources.py
diff --git a/scripts/reporting/users-pie.py → old/scripts/reporting/users-pie.py b/scripts/reporting/users-pie.py → old/scripts/reporting/users-pie.py
diff --git a/scripts/reporting/users.py → old/scripts/reporting/users.py b/scripts/reporting/users.py → old/scripts/reporting/users.py
diff --git a/scripts/save_stats.py → old/scripts/save_stats.py b/scripts/save_stats.py → old/scripts/save_stats.py
diff --git a/scripts/session_stats.py → old/scripts/session_stats.py b/scripts/session_stats.py → old/scripts/session_stats.py
diff --git a/scripts/spam-detection/knearest.py → old/scripts/spam-detection/knearest.py b/scripts/spam-detection/knearest.py → old/scripts/spam-detection/knearest.py
diff --git a/scripts/spam-detection/resources.csv → old/scripts/spam-detection/resources.csv b/scripts/spam-detection/resources.csv → old/scripts/spam-detection/resources.csv
diff --git a/scripts/spam-detection/resources.pkl → old/scripts/spam-detection/resources.pkl b/scripts/spam-detection/resources.pkl → old/scripts/spam-detection/resources.pkl
diff --git a/scripts/spam-detection/spam-output.txt → old/scripts/spam-detection/spam-output.txt b/scripts/spam-detection/spam-output.txt → old/scripts/spam-detection/spam-output.txt
diff --git a/scripts/spam-detection/spam.py → old/scripts/spam-detection/spam.py b/scripts/spam-detection/spam.py → old/scripts/spam-detection/spam.py
diff --git a/scripts/spam-detection/training_data.txt → old/scripts/spam-detection/training_data.txt b/scripts/spam-detection/training_data.txt → old/scripts/spam-detection/training_data.txt
diff --git a/scripts/spam-detection/users.csv → old/scripts/spam-detection/users.csv b/scripts/spam-detection/users.csv → old/scripts/spam-detection/users.csv
diff --git a/scripts/spam-detection/users.pkl → old/scripts/spam-detection/users.pkl b/scripts/spam-detection/users.pkl → old/scripts/spam-detection/users.pkl
diff --git a/scripts/user_stats.py → old/scripts/user_stats.py b/scripts/user_stats.py → old/scripts/user_stats.py
diff --git a/scripts/workbook.py → old/scripts/workbook.py b/scripts/workbook.py → old/scripts/workbook.py
diff --git a/requirements.txt b/requirements.txt
@@ -35,6 +35,7 @@ PyLaTeX==1.4.1
 pyparsing==3.0.9
 pyrepl==0.9.0
 python-dateutil==2.8.2
+python-dotenv==1.0.0
 pytz==2022.7.1
 PyYAML==6.0
 rdflib==5.0.0