1. Wait For Results
• 説明: クロールが完了するまで結果を待つかどうかを指定します。
• 選択肢:
• True: クロールが完了して結果が返されるまで待機。
• False: クロールが非同期で実行され、すぐに次の処理に進む。
• 推奨: 小規模サイトの場合はTrue。大規模サイトではFalseでWebhookを使用。
2. URL Patterns to Exclude
• 説明: クロールしないURLパターンを指定します(除外するページのURLを正規表現や部分文字列で指定)。
• 例:
• /private, /admin → /privateや/adminを含むURLを除外。
3. URL Patterns to Include
• 説明: クロール対象とするURLパターンを指定します。
• 例:
• /products, /blog → /productsや/blogを含むURLのみをクロール。
4. Maximum Crawl Depth
• 説明: クロールの最大深度を指定します。
• 例:
• 2: 指定したURLからリンクを辿る深さを2までに制限。
• 推奨: サイトの構造に応じて設定(通常2〜3が適切)。
5. Ignore Sitemap
• 説明: サイトマップ(sitemap.xml)を無視してクロールするかどうかを指定します。
• 選択肢:
• True: サイトマップを無視してすべてのリンクをクロール。
• False: サイトマップを参考にしてクロール。
• 推奨: Falseを推奨(サイトマップが正しい場合、効率的なクロールが可能)。
6. Maximum Pages to Crawl
• 説明: クロールする最大ページ数を指定します。
• 例:
• 5: 最大5ページまでクロール。
7. Allow Backward Crawling
• 説明: クロールがサイトの内部リンクを逆方向に辿るかどうかを指定します。
• 選択肢:
• True: 逆リンク(親ページ)を辿る。
• False: 親ページは辿らない。
• 推奨: False(通常は不要)。
8. Allow External Content Links
• 説明: 外部リンクを辿るかどうかを指定します。
• 選択肢:
• True: 外部リンクをクロール。
• False: 外部リンクはクロールしない。
• 推奨: False(外部リンクを含めると範囲が広がりすぎる場合が多い)。
高度な設定
9. Webhook
• 説明: クロール完了後に結果を通知するWebhookのURLを指定します。
• 例:
• https://example.com/webhook
10. Formats
• 説明: 取得するデータ形式を指定します(複数の形式をカンマで区切る)。
• 例:
• json, text → JSON形式やテキスト形式のデータを取得。
1. Headers
• 説明: クロールリクエストに追加するHTTPヘッダーを指定します。
• 例:
{
"Authorization": "Bearer YOUR_API_KEY",
"User-Agent": "DifyCrawler/1.0"
}
12. Include Tags
• 説明: クロールで取得するデータを特定のHTMLタグに絞る場合に使用します。
• 例:
• h1, h2, p → 見出しや段落タグのみを取得。
13. Exclude Tags
• 説明: クロールで無視するHTMLタグを指定します。
• 例:
• script, style → JavaScriptやCSSタグを除外。
14. Only Main Content
• 説明: メインコンテンツ部分のみをクロール対象とするかどうかを指定します。
• 選択肢:
• True: メインコンテンツのみを取得。
• False: 全体をクロール。
• 推奨: サイトのHTML構造に応じて設定。
15. Wait For
• 説明: 動的サイトの場合、指定時間(ミリ秒)待機してコンテンツをレンダリング後にクロールする設定。
• 例:
• 5000 → 5秒待機。