🐎PEGASUS v0.1.0 リリースノート
PEGASUS (Parsing Extracting Generating Automated Scraping Utility System) の最初の公開版 v0.1.0 をリリースしました。PEGASUS は、ウェブサイトを再帰的にクロールし、そのコンテンツを美しくフォーマットされた Markdown ドキュメントに変換する、パワフルで柔軟な Python パッケージです。
主な機能
- 指定した URL から始まり、リンクを再帰的にたどってウェブサイトを探索します。
- HTML コンテンツを美しくフォーマットされた Markdown に変換します。
- 柔軟な設定オプションにより、クロールと変換のプロセスをカスタマイズできます。
- ヘッダー、フッター、ナビゲーションなどの不要な要素を除外できます。
- 特定のドメインのみをクロールするように制限できます。
- 特定のキーワードを含む URL を除外できます。
- コマンドラインインターフェイス (CLI) から実行することも、Python スクリプトから直接使用することもできます。
インストール方法
pip を使用して PEGASUS をインストールできます。
pip install pegasus-surf
使用方法
PEGASUS は以下のようにコマンドラインまたは Python スクリプトから使用できます。
コマンドラインから:
pegasus https://example.com/start-page output_directory --exclude-selectors header footer nav --include-domain example.com --exclude-keywords login --output-extension txt
Python スクリプトから:
from pegasus import Pegasus
pegasus = Pegasus(
base_url="https://example.com/start-page",
output_dir="output_directory",
exclude_selectors=['header', 'footer', 'nav'],
include_domain="example.com",
exclude_keywords=["login"]
)
pegasus.run()
注意事項
- PEGASUS は、適切な使用方法とウェブサイトの利用規約に従ってご利用ください。
- 過度なリクエストを送信しないよう、適切な遅延を設けてください。
PEGASUS を使用すれば、ウェブサイトを再帰的に探索し、コンテンツを美しい Markdown ドキュメントに変換できます。ドキュメンテーションの自動化、コンテンツの管理、データ分析などにぜひお役立てください。フィードバックや機能リクエストをお待ちしております。