Skip to content

🐎PEGASUS v0.3.0 リリースノート

Latest
Compare
Choose a tag to compare
@Sunwood-ai-labs Sunwood-ai-labs released this 10 Jun 14:25

a-striking-futuristic-digital-art-piece-that-showc-ysSnRCD6Sfa6QytJb9pnng-1F1rOu1yQGSLpXtO9oEVLw

新機能

検索スクレイピング機能の追加 🔍 (#3)

  • pegasus search コマンドを使用して、特定の検索クエリに基づいたスクレイピングが可能になりました。
  • DuckDuckGo検索エンジンを活用し、指定されたクエリに関連するWebページを効率的に収集できます。
  • 例: pegasus search --search-query "お好み焼き レシピ"

再帰スクレイピングと検索スクレイピング機能の統合 🔄 (#3)

  • 再帰スクレイピングと検索スクレイピングのメソッドを1つのクラスに統合し、コードの可読性と保守性を向上させました。
  • CLIの選択肢を拡大し、searchrecursiveの2つのモードを実行可能にしました。

機能改善

文字化け検出機能の追加 🐛 (#1)

  • スクレイピング中に文字化けを自動検出し、不正なテキストが含まれるページを除外するようになりました。
  • ASCII範囲外の文字が多い場合、内容が文字化けしているとみなし、処理から除外します。

スクレイピングオプションの説明の更新 📝 (#2)

  • READMEファイル内のコマンド例を更新し、正確な使用方法を反映しました。
  • 出力ファイル拡張子の指定方法を明確化し、.txtの形式で統一して記載するよう修正しました。

ドキュメントの改善 📄

SourceSageドキュメント自動生成機能の追加 (#4)

  • SourceSageを用いたドキュメント自動生成のコマンド例をREADMEに追記し、具体的な使用方法を示しました。
  • ドキュメント生成に必要なパラメータを明記し、ユーザーが容易に機能を利用できるようにしました。

その他の変更

依存関係の更新 📦 (#3)

  • DuckDuckGo searchライブラリを依存関係に追加し、新機能のサポートを強化しました。

.gitignoreの更新 🔧 (#4)

  • ローカル開発中に生成されるmemo.mdファイルをGitの追跡対象から除外するように変更しました。