网络抓取程序可以抓取外部内容并建立索引,用于帮助中心搜索和生成式搜索。通过网络抓取程序,您可以实施联合搜索,而无需使用开发者资源。您可以设置多个抓取程序,以抓取相同或不同网站的各种内容并建立索引。
当用户在帮助中心进行搜索时,抓取程序发现的相关外部内容将进行排名,并显示在搜索结果页面上。用户可以筛选这些结果,并单击链接以在另一个浏览器标签中查看外部内容链接。
关于网络抓取程序
您可以设置一个或多个网络抓取程序,以抓取相同或不同网站中的外部内容并建立索引,供帮助中心搜索和生成式搜索使用。您要抓取的外部网站必须有一个网站地图,其中列出了网络抓取程序可以抓取的页面。此外,您要抓取的页面必须是公开的(无需身份验证)。
配置完成后,抓取程序计划每 30 分钟运行一次,访问您在设置过程中指定的网站地图中的页面,并将这些来源的内容提取到帮助中心的搜索索引中。网络抓取程序会在初始页面加载时为页面源中的内容建立索引,即使该内容已被 UI 元素(如可折叠面板)隐藏。然而,由于抓取程序不运行 JavaScript,它们无法抓取 JavaScript 呈现的内容或初始页面加载后动态呈现的其他内容。
网络抓取程序并不抓取所访问页面上的链接,它们只能按照配置访问网站地图中可以使用的页面。如果抓取程序在定期计划抓取过程中未能从网站收集信息(例如,网站瘫痪或出现网络问题),帮助中心将保留上一次抓取的结果,这些结果仍可在帮助中心搜索。
设置网络抓取程序
网络抓取程序可用于在帮助中心进行联合搜索,而无需使用开发者资源。您可在帮助中心设置多个抓取程序,用以抓取相同或不同网站的内容并将其编入索引。
- 网络抓取程序不适用于使用 gzip 文件压缩编码的网站。您将不会看到来自这些网站的搜索结果。
- 网络抓取程序不会遵守外部网站 robots.txt 记录中设置的抓取延迟。
- 更改频率标签绝对不会影响网络抓取程序。
设置网络抓取程序
-
在知识管理中,单击侧栏中的设置 (
)。
- 单击搜索设置。
- 在抓取程序下,单击管理。

- 单击添加抓取程序。

- 在命名此抓取程序中,输入以下内容:
- 您要分配给抓取程序的名称。这是一个内部名称,旨在识别抓取程序管理列表中您的网络抓取程序。
-
负责人是负责抓取程序维护和故障排除的知识管理员。默认情况下,抓取程序所有者是创建抓取程序的用户。但是,您可以将此名称更改为任意知识管理员。
抓取程序负责人在抓取程序成功运行和出现错误通知时都会收到电邮通知,例如域名验证、网站地图处理或抓取页面等方面的问题。

- 在添加您要抓取的网站中,配置以下内容:
- 网站 URL:输入您要抓取的网站 URL。
- 我确认我有权抓取此网站 - 请阅读此复选框下方的信息,然后选中以确认您有权抓取此网站。

- 在添加网站地图的网站地图 URL 中,输入您希望抓取程序在抓取您的网站时使用的网站地图 URL。
网站地图必须遵循网站地图 XML 协议,并包含要抓取的网站中所有页面的列表。网站地图可以是包含网站所有页面的标准网站地图,也可以是列出您希望抓取页面的专用网站地图。所有网站地图都必须托管在抓取程序配置为要抓取的域名中。网络抓取程序不支持网站地图索引。
您可以在同一网站上设置多个抓取程序,每个抓取程序使用不同的网站地图,它们分别定义了您希望网络抓取程序抓取的页面。

- 在添加筛选以帮助人员找到此内容中,配置终端用户用于筛选搜索结果的来源和类型筛选。来源是指外部内容的来源,例如论坛、问题跟踪程序或学习管理系统。类型是指内容的类型,例如博客文章、技术说明或错误报告。
- 来源 - 单击箭头后从列表中选择来源,或选择 + 创建新来源,以添加描述此内容所在位置的名称。
- 类型 - 单击箭头后从列表中选择类型,或选择 + 创建新类型,以添加描述此内容属于何种类型的名称。

- 单击完成。网络抓取程序已创建,处于待处理状态。抓取程序将在 24 小时内验证域名的所有权,然后抓取并解析指定的网站地图。网站地图处理成功后,抓取程序即开始抓取页面,并对其内容建立索引。如果抓取程序在域名验证或处理网站地图时失败,抓取程序所有者将收到一封带有故障排除提示的电邮通知,以帮助解决问题。抓取程序将在 24 小时后重试。注意:Zendesk/External-Content 是网络抓取程序的用户代理。要防止抓取程序由于防火墙阻止请求而失败,请将 Zendesk/External-Content 加入白名单(或允许列表)。
- 帮助中心搜索,则您需要选择要在帮助中心搜索结果中包含和排除的内容。请参阅在帮助中心搜索结果中包含外部内容。
- 专员背景信息面板的“知识”组别,请参阅在背景信息面板中配置知识。