サイトスクレイピング（Dify）

1. Wait For Results

• 説明: クロールが完了するまで結果を待つかどうかを指定します。

• 選択肢:

• True: クロールが完了して結果が返されるまで待機。

• False: クロールが非同期で実行され、すぐに次の処理に進む。

• 推奨: 小規模サイトの場合はTrue。大規模サイトではFalseでWebhookを使用。

2. URL Patterns to Exclude

• 説明: クロールしないURLパターンを指定します（除外するページのURLを正規表現や部分文字列で指定）。

• 例:

• /private, /admin → /privateや/adminを含むURLを除外。

3. URL Patterns to Include

• 説明: クロール対象とするURLパターンを指定します。

• 例:

• /products, /blog → /productsや/blogを含むURLのみをクロール。

4. Maximum Crawl Depth

• 説明: クロールの最大深度を指定します。

• 例:

• 2: 指定したURLからリンクを辿る深さを2までに制限。

• 推奨: サイトの構造に応じて設定（通常2〜3が適切）。

5. Ignore Sitemap

• 説明: サイトマップ（sitemap.xml）を無視してクロールするかどうかを指定します。

• 選択肢:

• True: サイトマップを無視してすべてのリンクをクロール。

• False: サイトマップを参考にしてクロール。

• 推奨: Falseを推奨（サイトマップが正しい場合、効率的なクロールが可能）。

6. Maximum Pages to Crawl

• 説明: クロールする最大ページ数を指定します。

• 例:

• 5: 最大5ページまでクロール。

7. Allow Backward Crawling

• 説明: クロールがサイトの内部リンクを逆方向に辿るかどうかを指定します。

• 選択肢:

• True: 逆リンク（親ページ）を辿る。

• False: 親ページは辿らない。

• 推奨: False（通常は不要）。

8. Allow External Content Links

• 説明: 外部リンクを辿るかどうかを指定します。

• 選択肢:

• True: 外部リンクをクロール。

• False: 外部リンクはクロールしない。

• 推奨: False（外部リンクを含めると範囲が広がりすぎる場合が多い）。

高度な設定

9. Webhook

• 説明: クロール完了後に結果を通知するWebhookのURLを指定します。

• 例:

• https://example.com/webhook

10. Formats

• 説明: 取得するデータ形式を指定します（複数の形式をカンマで区切る）。

• 例:

• json, text → JSON形式やテキスト形式のデータを取得。

1. Headers

• 説明: クロールリクエストに追加するHTTPヘッダーを指定します。

• 例:

{
  "Authorization": "Bearer YOUR_API_KEY",
  "User-Agent": "DifyCrawler/1.0"
}

12. Include Tags

• 説明: クロールで取得するデータを特定のHTMLタグに絞る場合に使用します。

• 例:

• h1, h2, p → 見出しや段落タグのみを取得。

13. Exclude Tags

• 説明: クロールで無視するHTMLタグを指定します。

• 例:

• script, style → JavaScriptやCSSタグを除外。

14. Only Main Content

• 説明: メインコンテンツ部分のみをクロール対象とするかどうかを指定します。

• 選択肢:

• True: メインコンテンツのみを取得。

• False: 全体をクロール。

• 推奨: サイトのHTML構造に応じて設定。

15. Wait For

• 説明: 動的サイトの場合、指定時間（ミリ秒）待機してコンテンツをレンダリング後にクロールする設定。

• 例:

• 5000 → 5秒待機。

サイトスクレイピング（Dify）

【Dify × Slack】話題ニュースをAIで取得して朝9時に通知してくれる機能(...

エラー集3 Hydration failed

React の onKeyDown イベント