Skip to content

🐎PEGASUS v0.1.0 リリースノート

Compare
Choose a tag to compare
@Sunwood-ai-labs Sunwood-ai-labs released this 08 Jun 16:23
· 42 commits to main since this release

a-captivating-digital-art-piece-that-combines-surr-Efmxhb3GR_GO916U5ZM2-w-tfIjE3rDQwqpofSeztgRRw

PEGASUS (Parsing Extracting Generating Automated Scraping Utility System) の最初の公開版 v0.1.0 をリリースしました。PEGASUS は、ウェブサイトを再帰的にクロールし、そのコンテンツを美しくフォーマットされた Markdown ドキュメントに変換する、パワフルで柔軟な Python パッケージです。

主な機能

  • 指定した URL から始まり、リンクを再帰的にたどってウェブサイトを探索します。
  • HTML コンテンツを美しくフォーマットされた Markdown に変換します。
  • 柔軟な設定オプションにより、クロールと変換のプロセスをカスタマイズできます。
  • ヘッダー、フッター、ナビゲーションなどの不要な要素を除外できます。
  • 特定のドメインのみをクロールするように制限できます。
  • 特定のキーワードを含む URL を除外できます。
  • コマンドラインインターフェイス (CLI) から実行することも、Python スクリプトから直接使用することもできます。

インストール方法

pip を使用して PEGASUS をインストールできます。

pip install pegasus-surf

使用方法

PEGASUS は以下のようにコマンドラインまたは Python スクリプトから使用できます。

コマンドラインから:

pegasus https://example.com/start-page output_directory --exclude-selectors header footer nav --include-domain example.com --exclude-keywords login --output-extension txt

Python スクリプトから:

from pegasus import Pegasus

pegasus = Pegasus(
    base_url="https://example.com/start-page",
    output_dir="output_directory",
    exclude_selectors=['header', 'footer', 'nav'],  
    include_domain="example.com",
    exclude_keywords=["login"]
)
pegasus.run()

注意事項

  • PEGASUS は、適切な使用方法とウェブサイトの利用規約に従ってご利用ください。
  • 過度なリクエストを送信しないよう、適切な遅延を設けてください。

PEGASUS を使用すれば、ウェブサイトを再帰的に探索し、コンテンツを美しい Markdown ドキュメントに変換できます。ドキュメンテーションの自動化、コンテンツの管理、データ分析などにぜひお役立てください。フィードバックや機能リクエストをお待ちしております。