어드밴스드 AI 상담사를 위한 웹 크롤러 가져오기 문제 해결하기

사용 중인 플랜

Add-on

AI agents - Advanced

어드밴스드 AI 상담사로 콘텐츠를 가져오기 위해 웹 크롤러를 사용할 수 있습니다. 이로써 AI 상담사가 외부 웹사이트의 정보를 기반으로 고객 질문에 대한 AI 생성 답변을 만들 수 있습니다.

이 문서는 웹 크롤러를 사용하여 어드밴스드 AI 상담사를 위한 콘텐츠를 가져올 때 직면할 수 있는 문제를 해결하는 데 도움이 됩니다.

이 문서에서는 다음과 같은 주제를 다룹니다.

시간 초과로 인해 크롤링에 실패한 경우
크롤링에 페이지가 누락된 경우
크롤링에 불필요한 페이지가 포함된 경우
크롤링에 올바른 페이지가 포함되어 있지만 콘텐츠가 잘못된 경우

시간 초과로 인해 크롤링에 실패한 경우

몇 시간 후 웹 크롤링이 실패한다면 보통 시간 초과로 인한 것입니다. 크롤링은 기본적으로 5시간으로 제한됩니다. 가져오기를 시작하고 5시간 후 실패했다면 시간이 초과되었을 가능성이 높습니다.

이 경우 시도해 볼 수 있는 몇 가지 해결 단계는 다음과 같습니다.

웹사이트가 JavaScript에 의존하지 않는다면 크롤러 유형을 훨씬 빠른 크롤러인 원시 HTTP 클라이언트(Cheerio)로 설정하고 다시 시도해 보세요.
사이트에 실제로 필요하지 않은 콘텐츠가 포함되어 있다는 것을 알고 있다면, 크롤링에 불필요한 페이지가 포함된 경우의 안내를 참조하세요.
URL 포함 또는 URL 제외 설정을 사용하여 크롤링을 두 개 이상의 별도 크롤링으로 분할하여 각각 웹사이트의 일부만 스크래핑하도록 합니다.

크롤링에 페이지가 누락된 경우

크롤링에 전체 URL이나 문서가 누락되었다면 시작 URL 및 URL 포함을 사용하여 크롤링의 범위를 늘리세요. 설정이 정확한데도 여전히 문서가 누락된다면 가져오기 요약에서 크롤링된 페이지 수를 확인하세요. 대략 기본 크롤링할 최대 페이지 수(4,000)에 가깝다면 이 설정을 늘려 보세요.

크롤링에 불필요한 페이지가 포함된 경우

크롤링에 필요 이상으로 많은 페이지나 문서가 포함된 경우(예: 반복적이거나 관련 없는 콘텐츠, 스페인어만 필요한데 영어 페이지가 포함된 경우, AI 상담사가 고객 질문에 답변하는 데 필요하지 않은 콘텐츠) URL 제외 설정을 사용하세요.

한 가지 피해야 할 점은 특정 하위 페이지를 실수로 제외하는 것입니다. 시작 URL은 크롤러가 시작할 위치를 정의합니다. 해당 페이지와 후속 페이지의 모든 링크를 따라 지정된 최대 크롤링 깊이까지 이동합니다. 하지만 페이지를 제외하면 제외된 페이지에서만 링크된 페이지는 시작 URL로 별도로 지정하지 않는 한 크롤링되지 않습니다.

한 예로 다음 다이어그램을 참조하세요. 각각의 동그라미는 페이지를 나타내며, 각각의 화살표는 해당 페이지의 링크를 나타냅니다. 크롤링이 맨 위 페이지에서 시작하고(유일한 시작 URL인 경우) 보라색 페이지가 제외되면 다음과 같이 크롤링이 실행됩니다.

빨간색 페이지는 크롤링될 수 없습니다.
노란색 페이지는 모두 크롤링됩니다.
녹색 페이지는 제외된 보라색 페이지에서 링크되어 있더라도, 포함된 노란색 페이지 중 하나에서도 링크되어 있기 때문에 크롤링됩니다.

크롤링에 올바른 페이지가 포함되어 있지만 콘텐츠가 잘못된 경우

크롤링이 올바른 페이지를 리턴하지만 그러한 페이지 안에 잘못된 콘텐츠를 리턴한다면 고급 크롤러 설정에는 그러한 콘텐츠를 찾아서 포함하거나 제외하는 도구가 포함되어 있습니다. 포함하거나 제외하려는 요소에 대해 올바른 CSS 선택기를 찾은 다음 올바른 설정에 삽입해야 합니다. 이를 위해서는 CSS 선택기가 무엇인지, 그리고 어떻게 찾는지 이해하는 것이 유용합니다.

이 섹션에서는 다음과 같은 주제를 다룹니다.

CSS 선택기 이해하기 및 찾기
크롤링이 페이지 콘텐츠를 건너뛰는 경우
크롤링이 너무 많거나 지저분한 페이지 콘텐츠를 리턴하는 경우

CSS 선택기 이해하기 및 찾기

이 섹션에서는 CSS 선택기를 소개하고 올바른 CSS 선택기를 찾는 방법을 안내해 드립니다. 이 정보를 이미 잘 알고 있다면 아래의 문제 해결 섹션으로 건너뛰세요.

이 섹션에서는 다음과 같은 주제를 다룹니다.

CSS 선택기에 대한 정보
CSS 선택기 찾기
CSS 선택기 확인하기

CSS 선택기에 대한 정보

CSS 선택기는 웹 페이지에서 특정 HTML 요소를 선택하고 대상으로 하는 데 사용되는 패턴입니다. 복잡한 웹 페이지에서 필요한 데이터를 더 쉽게 찾고 추출할 수 있습니다.

웹 크롤링과 스크래핑에서 CSS 선택기는 <div>, <span> 또는 특정 클래스 및 ID가 있는 요소 등 페이지 구조의 정확한 부분을 찾아내어 데이터를 추출하는 데 도움을 줍니다. 예를 들어, .product-title 선택기는 "product-title" 클래스가 있는 모든 요소를 대상으로 합니다. 파운드 기호(#)를 사용하여 고유 ID를 기준으로 한 요소를 선택합니다. 예를 들어, #main-header는 id="main-header"인 요소를 선택합니다.

CSS 선택기 찾기

먼저, 사용하려는 CSS 선택기를 찾아야 합니다. 다음 안내는 Chrome 웹 브라우저를 사용하고 있다고 가정합니다. 하지만 다른 브라우저에서도 단계는 비슷할 가능성이 높습니다.

CSS 선택기를 찾으려면 다음과 같이 하세요.

대상으로 하려는 웹페이지에서 텍스트나 클릭 가능한 항목을 찾습니다.
해당 요소를 마우스 오른쪽 버튼으로 클릭하고 검사를 선택합니다.
Chrome DevTools 창이 열리고 일치하는 코드 부분이 하이라이트됩니다.
DevTools 창에서 하이라이트된 코드를 마우스 오른쪽 버튼으로 클릭하고 복사 > 선택기 복사를 선택합니다.
이제 CSS 선택기가 클립보드에 복사되었습니다.

CSS 선택기 확인하기

CSS 선택기를 찾은 후에는 확인해 보는 것이 좋습니다.

CSS 선택기를 확인하려면 다음과 같이 하세요.

DevTools가 아직 열려 있는 상태에서 Ctrl+F(Windows 또는 Linux의 경우) 또는 Cmd+F(Mac의 경우)를 누릅니다.
DevTools 창의 요소 탭 안에 있는 검색 창이 활성화됩니다.
방금 복사한 CSS 선택기를 이 검색 상자에 붙여 넣습니다.
HTML에서 하이라이트된 요소와 페이지 자체(종종 색상의 윤곽선이 있음)가 예상과 일치하는지 확인합니다.

원하는 요소만 하이라이트되어 있다면 선택기가 정확한 것입니다. 너무 많거나 잘못된 요소가 하이라이트되어 있다면 상위 요소를 시도하거나 선택을 조정합니다.

선택 사항으로 서로 다른 선택기를 테스트할 수 있습니다. 때로는 더 짧거나 더 구체적인 선택기가 더 효과적입니다. HTML에서 상위 또는 하위 요소를 클릭하여 CSS 클래스나 ID를 보고 그러한 선택기도 복사해 볼 수 있습니다.

다음 두 섹션에서는 이러한 선택기를 사용하여 크롤링할 콘텐츠와 크롤링하지 않을 콘텐츠를 지정하는 방법을 안내해 드립니다.

크롤링이 페이지 콘텐츠를 건너뛰는 경우

크롤링에 올바른 페이지가 있지만 그러한 페이지의 콘텐츠가 누락된 경우에는 다음과 같은 고급 크롤러 설정이 도움이 될 수 있습니다.

HTML 변환기: 크롤러는 처음에 페이지에서 모든 HTML을 스크래핑한 다음 HTML 변환기를 적용하여 불필요한 콘텐츠를 제거합니다. 때로는 변환기가 실제로 유지하고 싶은 콘텐츠까지 제거해 버릴 수도 있습니다. 따라서 콘텐츠가 누락되었을 때 가장 먼저 시도해야 할 것은 이 설정을 없음으로 변경하여 콘텐츠가 제거되지 않도록 한 다음 가져오기 요약을 확인하는 것입니다.
HTML 요소 유지: 하나 이상의 CSS 선택기를 제공하여 특정 HTML 요소만 유지합니다. 다른 모든 콘텐츠는 무시되어 관련 정보에 집중할 수 있습니다.
클릭 가능한 요소 확장: 이 옵션을 사용하여 아코디언 및 드롭다운 뒤에 있는 콘텐츠를 캡처합니다. 기본 설정은 표준 웹 개발 관행을 따르며 드롭다운을 aria=false로 정의하는 웹페이지를 다루도록 되어 있습니다. 즉, 크롤러가 그러한 요소를 만나면 클릭하여 엽니다. 숨겨진 콘텐츠를 확장하는 버튼 또는 링크와 같이 클릭되어야 하는 모든 요소에 대해 CSS 선택기를 입력합니다. 이로써 크롤러가 모든 텍스트를 캡처하는 데 도움이 됩니다. 반드시 선택기가 유효하도록 하세요.
컨테이너를 고정으로 설정: 다른 요소가 클릭될 때 확장 가능한 콘텐츠가 닫힌다면 이 설정을 사용하여 그러한 요소가 클릭된 후에도 계속 열려 있도록 할 수 있습니다. 숨겨진 콘텐츠를 확장하는 버튼 또는 링크와 같이 클릭된 다음 다른 요소가 클릭된 후에도 계속 열려 있어야 하는 모든 요소에 대해 CSS 선택기를 입력합니다.
선택기 대기 및 선택기 소프트 대기: 페이지에 일정 시간이 지난 후에만 나타나는 동적 콘텐츠가 있는 경우, 대기하도록 지시되지 않는 한 크롤러에서 누락될 수 있습니다. CSS 선택기를 대기하도록 크롤러에게 알리는 두 가지 방법이 있습니다.
- 동적 콘텐츠 대기 설정은 크롤러가 대기하는 시간을 결정합니다. 제한 시간 내에 선택기를 찾지 못하면 실패한 요청으로 간주되며 몇 번 다시 시도합니다.
- 선택기 소프트 대기 설정은 크롤로가 얼마나 오래 대기하는지 결정하는 것은 물론 선택기를 찾지 못한 경우에도 페이지를 계속 크롤링하여 실패를 방지합니다.
- 이러한 설정은 JavaScript 콘텐츠를 가져오지 않는 원시 HTTP 클라이언트(Cheerio) 크롤러 유형에서는 작동하지 않습니다.
최대 스크롤 높이: 일부 페이지는 너무 길어서 크롤러가 끝까지 가지 전에 포기합니다. 특정 지점 아래의 콘텐츠가 누락되는 경우에는 이 설정을 사용하여 크롤러가 지정된 픽셀 수를 스크롤하도록 강제할 수 있습니다.

크롤링이 너무 많거나 지저분한 페이지 콘텐츠를 리턴하는 경우

크롤링에 올바른 페이지가 있지만 그러한 페이지에 AI 상담사의 답변을 방해하는 것으로 의심되는 추가 또는 불필요한 콘텐츠가 있다면(예: 마케팅 텍스트, 내비게이션, 머리글이나 바닥글, 쿠키) 다음의 고급 크롤러 설정을 사용하여 해당 콘텐츠를 제외합니다.

HTML 요소 유지: 하나 이상의 CSS 선택기를 제공하여 특정 HTML 요소만 유지합니다. 다른 모든 콘텐츠는 무시되어 관련 정보에 집중할 수 있습니다. 많은 헬프 센터의 경우, 탐색, 관련 문서 및 불필요한 배너와 헤더를 피하는 동시에 주요 문서 콘텐츠를 대상으로 하도록 보장하는 가장 간단한 접근 방식입니다.
HTML 요소 제거: CSS 선택기를 사용하여 크롤링에서 제거할 HTML 요소를 지정합니다. 이 방법은 지정된 알려진 콘텐츠를 제외하는 가장 정확하고 강력한 방법입니다.