Moduł do procesowania zebranych danych - tabularyzacji, wyszukiwania wzorców i rozpoznawania obiektów w plikach.
Napisany w Dashu - służy do jasnej i przejrzystej prezentacji wyników naszej pracy. Instrukcja uruchomienia znajduje się na dole tego pliku.
Moduł składa się z 2 submodułów. Napisany przy wykorzystaniu biblioteki Beautiful Soup 4 w Pythonie.
Funkcja pobierania linków pracuje wielokątkowo (domyślnie jest to 6 linków per wątek, czyli w przypadku zadania potrzeba 9 wątków). Przyjmuje listę linków. Tworzy pliki JSON zawierające:
klucz
- urlwartość
- true/false w zależności czy dana strona została odwiedziona Wątki odwiedzają kolejne nieodwiedzone podstrony danej wejściowej domeny z listy. Każda wejściowa domena posiada timeout (domyślnie 30 minut), który ogranicza sytuacje wolnego połączenia do strony.
Za pomocą słów kluczowych w linkach pobierane są odpowiednie PDFy z plikami SFCR oraz z audytami. Zapis odbywa się do uporządkowanej struktury plików oraz same nazwy plików są zgodne z wymaganiami.
- cd Supervision3mISIe
- pip install -r requirements.txt
- python app/app2.py
- Przejdź do http://127.0.0.1:8050/.
- Enjoy:)