“无论您从事营销、业务开发还是 IT 工作,。或者也许是一个机会?”
当我们对这个确切的短语、这个确切的页面进行站点搜索时,我们什么也没找到。这意味着 Google 尚未索引该内容。
使用工具爬行
现在大多数爬虫工具都具有爬取 JavaScript 的功能。例如,میںScreaming Frog中,您可以转到配置 > 蜘蛛 > 渲染 > 然后从下拉菜单中选择”JavaScript”并点击保存. DeepCurl和SiteBlob都具有此功能۔
从这里,您可以输入您的域名/URL,并在您选择的工具完成抓取后查看呈现的页面/代码。
例子:
在尝试回答这个问题时,我倾向于将域名放入 Google 的移动友好度工具中,复制源代码,并 按行业划分的特定数据库 查找页面上的关键元素(例如标题标签、<h1>、正文等)。使用DefChecker之类的工具将呈现的 HTML 与实际 HTML 进行比较也很有帮助。
对于我们的例子,移动友好性工具的输出向我们展示了这一点。
经过一番搜索,很明显这里页面上缺少一些重要的元素。
我们还进行了第二次测试,并确认 Google 没有索引该页面上的物理内容。
这个位置意味着 Googlebot 没有按照我们希望的方式查看我们的内容,这是一个问题。
让我们继续看看我们可以向客户推荐什么。
问题 3:如果我们认为 Googlebot 没有正确抓取我们的内容,我们应该提出什么建议?
现在我们知道域名正在使用 JavaScript 加载重要内容,并且我们知道 Googlebot 可能没有 此外保持高效也有助于 看到这些内容,最后一步是向客户提出一个理想的解决方案。关键词:建议,不要强制执行。我们的职责就是向客户通报问题、解释问题的重要性(以及潜在的影响)并强调理想的解决方案。我们并不能 100% 地代替开发人员尝试利用他们独特的堆栈/资源/等等来寻找理想的解决方案。
我们该怎么做呢?
您需要服务器端渲染。
Google 目前无法看到 Sitecore 的登录页面的主要原因是 Sitecore 的登录页 临时邮箱 面要求用户(我们,Googlebot)完成将 JavaScript 加载到其页面上的繁重工作。换句话说,他们正在使用客户端 JavaScript。
Googlebot 实际上会登陆页面,尝试尽可能地运行 JavaScript,然后需要离开才能有机会看到任何内容。
Sitecore 登录页面没有在这里进行修复,而是加载到了他们的服务器上。换句话说,我们希望将 Google Bot 的繁重工作转移到 Sitecore 的服务器上。这将确保当 Googlebot 访问该页面时,它不必进行任何繁重的工作,而是可以抓取呈现的 HTML。
在这种情况下,Googlebot 进入该页面并查看 HTML(以及所有内容)。
还有更多具体选项(如同构设置)
这是事情变得有点棘手的地方,但确实存在混合解决方案。这时候最好的就叫做同构。