Zendesk 联合搜索使您的终端用户可以在您的帮助中心搜索结果中查看来自您的帮助中心的内容,例如外部知识库、学习管理软件、博客和您的网站页面。您可以使用 Zendesk 联合搜索API或搜索爬取器实施联合搜索。
搜索爬取器在您的帮助中心搜索设置中可用,使您可以在帮助中心内实施联合搜索,而无需开发者资源(请查阅 设置搜索爬取器)。您可使用此文章排除爬取程序设置和页面错误,在您应用程序设置搜索爬取器时遇到的问题。
此文章包含以下主题:
爬取程序设置错误
搜索爬取器设置错误当搜索爬取器无法成功运行时,由于域名所有者验证或站点地图处理错误。爬取程序设置错误会生成一个发送到搜索爬取器设置期间配置的爬取者所有者的电邮通知。
无法验证域名所有者
搜索爬取者每次运行时都尝试验证域名所有者,可能需要 24 小时。尽管域名验证失败,但当域名验证失败时,您可以在编辑搜索爬取器页面立即测试验证。请查阅 管理搜索爬取者。
要排除域名验证错误,验证以下情况:
- 您的网站(否则称为索引或根页面)正在公开提供。页面不应有任何用户登录、密码、IP限制,或其它身份验证要求。
- 您已从爬取器实施正确的标签。它是免费的错误,并在<头实施>部分您想要爬取的网站。即使您的爬取器已配置用于爬取页面的子集,但域名验证标签应始终放在网站中。您可以编辑爬取器以查看当前的域名验证信息。请查阅 管理搜索爬取者。
注意:您可以有多个验证标签用于相同域名的不同爬取者。
例如
<html>
<head>
<meta name="zd-site-verification" content="crawler-verification-token">
<title>Title</title>
<style>
<!-- style info here -->
</style>
</head>
<body>
<!-- body of the page here -->
</body>
</html>
记录错误
没有设置错误时发生记录错误,但搜索爬取器无法成功对爬取网站地图中定义的页面进行索引(请查阅设置搜索爬取器)。当发生记录错误时,会发送一封电邮通知给爬取者所有者,其中链接到一个列出受影响的页面及其关联错误的文件CSV文件。
区域设置未检测到
错误“区域设置未检测到”表明搜索爬取器无法检测到任何区域设置,或检测到区域设置不匹配任何当前的帮助中心区域设置。
要确定记录区域设置,爬取器会尝试以下方法。第一个成功策略决定了记录区域设置。
- 从 < html 中的朗属性提取区域设置>标签
- 从内容语言页首提取区域设置
- 从<Meta提取区域设置>标签
- 对内容进行文本分析(CLD - 紧凑语言检测)
“区域设置未检测到”错误来自以下问题的一个问题:
- 识别的区域设置或语言不匹配您帐户中任何帮助中心中配置的语言或语言。要查看您帐户中每个帮助中心配置的语言,请查阅 配置您的帮助中心以支持多种语言。根据产品查找您配置的语言区域设置代码,以 Zendesk 语言支持。
- 搜索爬取器无法确定区域设置或语言。
要解决此问题,验证以下情况:
- HTML 标签中的 lang 属性匹配帮助中心的一个区域设置。
- HTTP 内容语言页首与帮助中心区域设置匹配。
- 带有http-等属性中内容语言的元元素与帮助中心区域设置匹配。
请查阅 理解搜索爬取区区域设置。
未检测到标题
“未检测到标题”表明搜索爬取器无法检测到记录的标题。搜索爬取器使用以下方法来确定记录的标题:
- 提取<>标签的内容
- 提取<h1 的内容>标签
- 从<人提取文本内容>标签。
第一个成功策略决定了记录区域设置。如果前两个方法中的一个成功,爬取内容的前 255 个字符是提取内容的前 255 个字符。如果这些策略无法确定标题,则记录未索引。
要解决此问题,请确保受影响的页面有上面列出的标签之一。
未找到正文
“未找到正文”表明搜索爬取器无法检测到页面的正文。要解决此问题,请确保受影响的页面已正确标为<人>标签。
HTTP[状态代码]
如果记录中的CSV中的错误代码字段包含 HTTP 和状态代码,这意味着页面无法索引,因为页面无法访问。如果页面已成功索引(HTTP 2xx),您将无法收到 HTTP 状态代码错误代码。
最常见的错误代码是:
- 404 - 未找到专页 - 页面 不存在或已被移动到另一个URL。要解决此问题,请确保爬取者正在使用的站点地图是当前状态,并且 站点地图中的所有 URL 都指向现有的页面。
-
403 - 禁止 - 爬取者受限于访问页面,因为某些访问权限控制机制,例如在登录或IP地址限制后面。要解决此问题,验证以下情况:
- 您已添加 Zendesk/外部内容、搜索爬取者用户专员,到您的允许列表。
- 您要索引的页面是公开可访问的,因为爬取器无法爬取受限访问的页面。如果您想爬取和索引的页面无法公开访问,那么您应使用联合搜索(外部内容)API探索索引。请查阅 设置 Zendesk 联合搜索API。
- 5xx - 服务器错误 - 由于 服务器错误,页面无法爬取。网站可能暂时不可用。要解决此问题,访问出现此错误的一个或多个页面,以确保网站出现错误。如果网站关闭,联系网站管理员。当错误固定时,等待爬取器在它的常规节奏中再次运行(每 12-24 小时)。
无效URL域名
错误“无效URL域名”表示您在 爬取程序设置期间配置的页面URL不是您配置域名的。
要解决此问题,验证触发错误的页面域名与搜索爬取器定义的域名相同。如果您的网站地图链接页面指向一个托管在爬取器设置期间配置的不同域名的页面,您可以进行以下其中一项:
为受影响的页面设置新的搜索爬取程序
将页面从外部域名移动到为搜索爬取器配置的域名。
不确定
“未确定”错误可能导致一个或多个以下原因:
- 您已超出实例的外部记录限制 - 搜索爬取器 限制为 50,000 条外部记录。如果您已超出 5 万条外部记录限制,超过限制的最新外部记录将不会被索引或更新。要查看您爬取器所使用的外部记录数量,审阅搜索爬取器信息。请查阅 管理搜索爬取者。要解决此问题,您可以进行以下一个或多个操作:
-
页面使用JavaScript位置重定向 - 搜索爬取器不观察 JavaScript位置重定向。如果页面使用JavaScript位置重定向,爬取器无法到达页面的内容。
要解决此问题,请进行以下其中一项:
- 确保站点地图直接指向您要索引的页面。
- 实施 HTTP 重定向。
翻译免责声明:本文章使用自动翻译软件翻译,以便您了解基本内容。 我们已采取合理措施提供准确翻译,但不保证翻译准确性
如对翻译准确性有任何疑问,请以文章的英语版本为准。