Agile育成ブログ
未来を変える喜びを
未分類

サイトスクレイピング(Dify)

1. Wait For Results

説明: クロールが完了するまで結果を待つかどうかを指定します。

選択肢:

• True: クロールが完了して結果が返されるまで待機。

• False: クロールが非同期で実行され、すぐに次の処理に進む。

推奨: 小規模サイトの場合はTrue。大規模サイトではFalseでWebhookを使用。

2. URL Patterns to Exclude

説明: クロールしないURLパターンを指定します(除外するページのURLを正規表現や部分文字列で指定)。

例:

• /private, /admin → /privateや/adminを含むURLを除外。

3. URL Patterns to Include

説明: クロール対象とするURLパターンを指定します。

例:

• /products, /blog → /productsや/blogを含むURLのみをクロール。

4. Maximum Crawl Depth

説明: クロールの最大深度を指定します。

例:

• 2: 指定したURLからリンクを辿る深さを2までに制限。

推奨: サイトの構造に応じて設定(通常2〜3が適切)。

5. Ignore Sitemap

説明: サイトマップ(sitemap.xml)を無視してクロールするかどうかを指定します。

選択肢:

• True: サイトマップを無視してすべてのリンクをクロール。

• False: サイトマップを参考にしてクロール。

推奨: Falseを推奨(サイトマップが正しい場合、効率的なクロールが可能)。


6. Maximum Pages to Crawl

説明: クロールする最大ページ数を指定します。

例:

• 5: 最大5ページまでクロール。

7. Allow Backward Crawling

説明: クロールがサイトの内部リンクを逆方向に辿るかどうかを指定します。

選択肢:

• True: 逆リンク(親ページ)を辿る。

• False: 親ページは辿らない。

推奨: False(通常は不要)。

8. Allow External Content Links

説明: 外部リンクを辿るかどうかを指定します。

選択肢:

• True: 外部リンクをクロール。

• False: 外部リンクはクロールしない。

推奨: False(外部リンクを含めると範囲が広がりすぎる場合が多い)。

高度な設定

9. Webhook

説明: クロール完了後に結果を通知するWebhookのURLを指定します。

例:

• https://example.com/webhook

10. Formats

説明: 取得するデータ形式を指定します(複数の形式をカンマで区切る)。

例:

• json, text → JSON形式やテキスト形式のデータを取得。

1. Headers

説明: クロールリクエストに追加するHTTPヘッダーを指定します。

例:

{
  "Authorization": "Bearer YOUR_API_KEY",
  "User-Agent": "DifyCrawler/1.0"
}

12. Include Tags

説明: クロールで取得するデータを特定のHTMLタグに絞る場合に使用します。

例:

• h1, h2, p → 見出しや段落タグのみを取得。

13. Exclude Tags

説明: クロールで無視するHTMLタグを指定します。

例:

• script, style → JavaScriptやCSSタグを除外。

14. Only Main Content

説明: メインコンテンツ部分のみをクロール対象とするかどうかを指定します。

選択肢:

• True: メインコンテンツのみを取得。

• False: 全体をクロール。

推奨: サイトのHTML構造に応じて設定。

15. Wait For

説明: 動的サイトの場合、指定時間(ミリ秒)待機してコンテンツをレンダリング後にクロールする設定。

例:

• 5000 → 5秒待機。