웹 크롤러를 사용하여고급 AI 상담사 로 콘텐츠를 가져올 수 있습니다. 이를 통해 AI 상담사 외부 웹사이트의 정보를 기반으로 고객 질문에 대한 AI 생성 답변을 만들 수 있습니다.
이 문서는 웹 크롤러를 사용하여 고급 AI 상담사 위한 콘텐츠를 가져올 때 발생할 수 있는 문제를 해결하는 데 도움이 됩니다.
이 문서에서는 다음과 같은 주제를 다룹니다.
- 시간이 초과되어 크롤링하지 못했습니다.
- 크롤링에 누락된 페이지가 있습니다.
- 크롤링에 불필요한 페이지가 포함되어 있습니다.
- 크롤링은 올바른 페이지를 포함하지만 잘못된 콘텐츠를 포함합니다.
관련 문서:
시간이 초과되어 크롤링하지 못했습니다.
웹 크롤링이 몇 시간 후에 실패하는 경우에는 보통 시간 초과가 원인입니다. 크롤링은 기본적으로 5시간으로 제한됩니다. 가져오기가 시작된 지 5시간 후에 실패가 발생했다면 시간 초과일 가능성이 있습니다.
이 경우 다음과 같은 몇 가지 해결 단계를 시도할 수 있습니다.
- 웹사이트가 JavaScript에 의존하지 않는 경우에는크롤러 유형을훨씬 더 빠른 크롤러인 원시 HTTP 클라이언트(Cheerio)로 설정하고 다시 시도하세요.
- 사이트에 실제로 필요하지 않은 콘텐츠가 포함되어 있다는 사실을 알고 있다면크롤링에 불필요한 페이지가 포함됨의 안내를 참조하세요.
- URL 포함또는URL 제외설정을 사용하여 웹사이트의 일부만 스크래핑하는 두 개 이상의 개별 크롤링으로 크롤링을 분할합니다.
크롤링에 누락된 페이지가 있습니다.
크롤링에서 전체 URL이나 문서가 누락된 경우에는시작 URL및URL 포함을사용하여 크롤링 범위를 넓힙니다. 설정이 올바른데도 여전히 문서가 없는 경우에는가져오기 요약에서 크롤링된 페이지 수를 확인하세요. 기본크롤링할 최대 페이지 수(4,000개) 정도인 경우에는 이 설정을 늘려 보세요.
크롤링에 불필요한 페이지가 포함되어 있습니다.
크롤링에 필요한 것보다 더 많은 페이지나 문서가 포함된 경우(예: 스페인어만 필요한 영어 페이지 또는 AI 상담사 가 고객 질문에 답변할 필요가 없는 콘텐츠와 같이 반복적이거나 해당되지 않는 콘텐츠)URL 제외설정을 사용합니다.
한 가지 피해야 할 것은 실수로 특정 하위 페이지를 제외하는 것입니다. 시작 URL은크롤러가 시작될 위치를 정의합니다. 그런 다음 지정된최대 크롤링 깊이까지 해당 페이지 및 후속 페이지의 모든 링크를 따라갑니다. 하지만 페이지를 제외하면 제외된 페이지에서만 연결된 페이지는시작 URL로 별도로 지정되지 않는 한 절대 크롤링되지 않습니다.
다음 다이어그램의 예를 참조하세요. 각 원은 페이지를 나타내고, 각 화살표는 해당 페이지의 링크를 나타냅니다. 유일한시작 URL인 맨 위 페이지에서 크롤링이 시작되고 보라색 페이지가 제외되면 다음 조건이 충족됩니다.
- 빨간색 페이지는 크롤링할 수 없습니다.
- 모든 옐로 페이지가 크롤링됩니다.
- 녹색 페이지는 포함된 노란색 페이지 중 하나에서도 연결되므로 제외된 보라색 페이지에서 연결되더라도 크롤링됩니다.

크롤링은 올바른 페이지를 포함하지만 잘못된 콘텐츠를 포함합니다.
크롤링이 올바른 페이지를 리턴하지만 그러한 페이지 내에 잘못된 콘텐츠를 리턴하는 경우에는고급 크롤러 설정에그러한 콘텐츠를 찾아서 포함하거나 제외하는 도구가 포함됩니다. 포함하거나 제외하려는 요소에 대한 올바른 CSS 선택기를 찾은 다음 올바른 설정에 삽입해야 합니다. 그렇게 하려면 CSS 선택기가 무엇이고 어떻게 찾는지 이해하면 유용합니다.
이 섹션에서는 다음과 같은 주제를 다룹니다.
CSS 선택기 이해하기 및 찾기
이 섹션에서는 CSS 선택기를 소개하고 올바른 선택기를 찾는 방법을 안내합니다. 이 정보에 이미 익숙하다면 아래의 문제 해결 섹션으로 건너뛰세요.
이 섹션에서는 다음과 같은 주제를 다룹니다.
CSS 선택자에 대한 정보
CSS 선택기는 웹 페이지에서 특정 HTML 요소를 선택하고 대상으로 지정하는 데 사용되는 패턴입니다. 복잡한 웹 페이지에서 필요한 데이터를 더 쉽게 찾고 추출할 수 있습니다.
웹 크롤링 및 스크래핑에서 CSS 선택기는 <div>, <span>, 또는 특정 클래스 및 ID가 있는 요소. 예를 들어 선택자는 .product-title클래스가 있는 모든 요소를 대상으로 함 "product-title". 우물정자(#)는 고유 ID별로 요소를 선택하는 데 사용됩니다. 예를 들어, #main-header가 있는 요소를 선택합니다. id="main-header".
CSS 선택기 찾기
먼저 사용하려는 CSS 선택기를 찾아야 합니다. 다음 안내에서는 Chrome 웹 브라우저를 사용한다고 가정합니다. 하지만 단계는 다른 브라우저에서도 비슷할 수 있습니다.
CSS 선택기를 찾으려면 다음과 같이 하세요.
- 대상으로 지정하려는 웹 페이지에서 텍스트나 클릭 가능한 항목을 찾습니다.
- 해당 요소를 마우스 오른쪽 버튼으로 클릭하고검사를선택합니다.
Chrome DevTools 창이 열리고 일치하는 코드가 강조 표시됩니다.
- DevTools 창에서 강조 표시된 코드를 마우스 오른쪽 버튼으로 클릭하고복사를선택합니다. > 선택기 복사.
이제 CSS 선택기가 클립보드에 복사되었습니다.
CSS 선택기 확인하기
CSS 선택기를 찾은 후에는 확인하는 것이 좋습니다.
CSS 선택기를 확인하려면 다음과 같이 하세요.
- DevTools가 열려 있는 상태에서 Ctrl+F(Windows 또는 Linux의 경우) 또는 Cmd+F(Mac의 경우)를 누릅니다.
이렇게 하면 DevTools 창의 요소 탭 안에 검색 창이 활성화됩니다.
- 방금 복사한 CSS 선택기를 이 검색 상자에 붙여넣습니다.
- HTML과 페이지 자체에서 강조 표시된 요소(종종 컬러 윤곽선으로 표시됨)가 예상과 일치하는지 확인합니다.
원하는 요소만 강조 표시되면 선택기가 정확한 것입니다. 너무 많거나 잘못된 요소가 강조 표시되면 상위 요소를 사용해 보거나 선택 항목을 조정하세요.
선택 사항으로 다른 선택기를 테스트할 수 있습니다. 경우에 따라 더 짧거나 더 구체적인 선택기가 더 효과적입니다. HTML에서 상위 또는 하위 요소를 클릭하여 해당 CSS 클래스나 ID를 보고 그러한 선택기를 복사해 볼 수도 있습니다.
다음 두 섹션에서는 이러한 선택기를 사용하여 크롤링하거나 원하지 않는 콘텐츠를 대상으로 지정하는 방법을 안내합니다.
크롤링이 페이지 콘텐츠를 건너뛰고 있습니다.
크롤링에 올바른 페이지가 있지만 해당 페이지의 콘텐츠가 누락된 경우에는 다음과 같은고급 크롤러 설정이도움이 될 수 있습니다.
- HTML 변환기 크롤러는 처음에 페이지에서 모든 HTML을 스크랩한 다음 HTML 변환기를 적용하여 관련 없는 콘텐츠를 제거합니다. 때로는 너무 멀리 가서 실제로 유지하려는 콘텐츠를 제거할 수 있습니다. 따라서 콘텐츠가 누락된 경우 가장 먼저 이 설정을 없음으로 설정하여 콘텐츠가 제거되지 않도록 한 다음가져오기 요약을 확인합니다.
- HTML 요소 유지 하나 이상의 CSS 선택기를 제공하여 특정 HTML 요소만 유지합니다. 다른 모든 콘텐츠는 무시되므로 관련 정보에 집중할 수 있습니다.
-
클릭 가능한 요소 확장 이 옵션을 사용하여 아코디언 및 드롭다운 뒤에 있는 콘텐츠를 캡처합니다. 기본 설정은 표준 웹 개발 방식을 따르고 드롭다운을
aria=false. 즉, 크롤러가 그러한 요소를 발견하면 클릭하여 열리게 됩니다. 숨겨진 콘텐츠를 확장하는 버튼이나 링크 등 클릭해야 하는 모든 요소에 대한 CSS 선택기를 입력합니다. 이로써 크롤러가 모든 텍스트를 캡처하는 데 도움이 됩니다. 선택기가 올바른지 확인하세요. - 컨테이너를 고정으로 설정 다른 요소를 클릭할 때 확장형 콘텐츠가 닫히는 경우에는 이 설정을 사용하여 그러한 요소가 클릭된 후에도 계속 열려 있도록 할 수 있습니다. 클릭해야 하는 요소에 대해 CSS 선택기를 입력한 다음 숨겨진 콘텐츠를 확장하는 버튼이나 링크와 같이 다른 요소를 클릭한 후에도 계속 열려 있어야 합니다.
-
선택자 대기및선택자 소프트 대기: 페이지에 특정 시간이 지난 후에만 나타나는 동적 콘텐츠 있는 경우에는 기다리라고 지시하지 않는 한 크롤러가 해당 콘텐츠를 놓칠 수 있습니다. CSS 선택기를 사용하여 크롤러에 대기하도록 지시하는 두 가지 방법이 있습니다.
- 동적 콘텐츠 대기설정은 크롤러가 기다리는 시간을 결정합니다. 제한 시간 전에 선택기를 찾지 못하면 실패한 요청으로 간주되어 몇 번 다시 시도합니다.
- 선택기의 소프트 대기 시간은크롤러가 기다리는 시간이지만 선택기를 찾을 수 없는 경우에도 크롤러가 페이지를 계속 크롤링하여 실패를 방지합니다.
- 이러한 설정은 JavaScript 콘텐츠를 가져오지 않으므로 원시 HTTP 클라이언트(Cheerio) 크롤러 유형에서는 작동하지 않습니다.
- 최대 스크롤 높이: 일부 페이지가 너무 길어 크롤러가 끝나기 전에 포기합니다. 특정 지점 아래에서 콘텐츠가 누락된 경우 이 설정을 사용하여 크롤러가 지정된 픽셀 수를 스크롤하도록 할 수 있습니다.
크롤링이 너무 많거나 지저분한 페이지 콘텐츠를 리턴함
크롤링에 올바른 페이지가 있지만 그러한 페이지에 추가 콘텐츠 또는 불필요한 콘텐츠(예: 마케팅 텍스트, 탐색, 머리글이나 바닥글, 심지어 쿠키)가 AI 상담사의 답변을 방해한다고 의심되는 경우에는 다음고급 크롤러를사용하세요. 설정하여 해당 콘텐츠를 제외하려면 다음과 같이 하세요.
- HTML 요소 유지 하나 이상의 CSS 선택기를 제공하여 특정 HTML 요소만 유지합니다. 다른 모든 콘텐츠는 무시되므로 관련 정보에 집중할 수 있습니다. 많은 헬프 센터에서 탐색, 관련 문서, 불필요한 배너 및 헤더를 피하면서 주요 문서 콘텐츠가 대상이 되도록 하는 가장 간단한 접근 방식입니다.
- HTML 요소 제거 CSS 선택기를 사용하여 크롤링에서 제거할 HTML 요소를 지정합니다. 이는 지정된 알려진 콘텐츠를 제외하는 가장 정확하고 강력한 방법입니다.
번역 고지 사항: 본 문서는 콘텐츠에 대한 기본적인 이해를 제공하기 위해 자동 번역 소프트웨어를 사용하여 번역되었습니다. 정확한 번역을 제공하고자 합당한 노력을 기울였으나 Zendesk는 번역의 정확성을 보장하지 않습니다.
번역된 문서에 포함된 정보의 정확성과 관련하여 질문이 있으시면 문서의 공식 버전인 영문 버전을 참조하시기 바랍니다.