img

奇闻

既然假期已经到来,我们大家都可能会兴奋起来所以我想我会对我们最喜欢的搜索引擎有一些乐趣:Google,Yahoo,Bing,YouTube和Blekko At Nine By Blue,我一直在开发自动检查网站的技术搜索引擎优化最佳实践的软件通常我们在客户的网站上运行它来快速检查问题并监控它们以应对任何未来的问题但是我很想知道如果我将软件指向一些典型的页面,我会发现什么搜索引擎的网站,然后将他们的实施与我们通常推荐的技术搜索引擎优化最佳实践进行比较下面是我在没有特定订单中找到的一些问题的列表免责声明#1:此列表旨在指出它有多困难全面优化搜索引擎优化网站,特别是大型企业网站,我并没有声称我可以做得更好,即使我完全掌控这些网站免责声明#2:是的,我知道谷歌的搜索引擎优化报告卡,但我从来没有读过它,因为它太长了而且,我不想受其影响我审查的大多数网站都有许多不同的网址导致主页这可能是因为跟踪参数(即http:// wwwsitecom /

ref = affilliate1)或默认文件名(即http:// wwwsitecom / indexphp),甚至是重复的子域名(http:// www1sitecom /)因此,我总是建议放一个主页上的link rel = canonical标签这确保了指向这些不同主页URL的链接都被计为指向同一个URL我还建议为可能有类似问题的任何其他页面添加此标记我很惊讶地发现Bing唯一一个在主页上有正确链接rel = canonical标签的网站YouTube上也有一个链接rel = canonical标签,但它指的是一个不正确的网址“/”而不是完整的网址“http:// wwwyoutubecom / “除了少数例外,我已经能够找到我审查的网站的副本我有一个典型子域列表 - 如www1,dev,api,m等 - 通常会显示网站的副本其他重复的网站副本可以在IP地址找到(即http:// 19216811 /而不是http:// wwwsitecom /)和探测DNS的其他主机名或域这些重复的子域或重复的网站对SEO有负面影响,因为它们使搜索引擎抓取您的网站的多个副本只是为了获得一个副本它也可以导致特定页面的链接在多个副本之间分散,从而降低了页面的权限解决此问题的最佳方法是使用永久(301)重定向到该URL的规范子域版本如果不可能,那么链接rel =指向规范子域页面的规范标签几乎也可以正常工作例如,Bingcom的整个副本可以在http:// www1bingcom / Compounding获得这是一个事实,页面也有链接rel = canonical标签也指向http:// w ww1bingcom /和页面上的所有链接指向www1以及其他子域名,例如www2到www5和www01,都正确地重定向到wwwbingcom,301 Blekko在http://上有一个旧的,预发布的网站副本apiblekkocom /(这是他们的旧执行页面)幸运的是,这个子域有一个机器人文件文件阻止它被抓取但是这些页面,如http:// apiblekkocom / mgmthtml的旧执行页面也可以在http://获得devblekkocom / mgmthtml和http:// blekkocom / mgmthtml的主要子域301最好将这些URL重定向到http:// blekkocom / ws / + / management的当前管理页面,而不是将它们的多个副本保留在不同的位置子域名YouTube将其重复的子域名www1到www5重定向到wwwyoutubecom,这符合最佳做法不幸的是,它重定向了302(临时)重定向而不是推荐的301(永久)重定向另一种类型的网站重复副本我通过y find是网站的SSL / https版本https适用于需要安全性的页面,如登录页面或用于编辑用户配置文件的页面,但对于不需要安全性的页面,它是重复内容的来源导致爬网效率低下和链接扩散建议的解决方案是尽可能将页面从https重定向到http 我们的软件检测到大多数网页的重复https副本,包括Microsoft的帮助页面,有关网页的YouTube,Google的公司页面,甚至Google网站管理员指南Google网站管理员指南页面(以及其他Google帮助页面)的重复内容问题也是复杂的通过链接rel = canonical标记指向URL的http或https版本,具体取决于请求的URL确保链接rel = canonical标记始终指向页面的预期规范版本非常重要,因此动态生成此元素时要小心由于SSL证书不匹配,请求https:// wwwbingcom /会产生安全警告(如下所示)这对于使用Akamai进行全局服务器负载平衡的站点来说很常见它甚至会弹出https: // wwwwhitehousegov /我不知道如何解决这个问题,虽然我很乐意在Akamai谈论这个网站通常有不同类型的网页他们不想拥有搜索引擎的索引这可能是因为这些页面不太可能转换或者不是用户登陆的良好体验,例如“创建帐户”或“发表评论”页面或者它可能因为该页面不适用于Web浏览器,例如对API调用的Bing响应Bing的搜索API调用,这些调用是以http:// apibingcom /或http:// apibingnet /开头的URL进行的,可以由蜘蛛抓取到robotstxt文件这可能会对抓取效率造成破坏性,因为搜索引擎会继续抓取这些XML结果,即使它们对浏览器没用

在Google上搜索[site:apibingnet OR site:apibingcom]目前返回大约260个结果,但是基于我已经对客户的Web访问日志文件进行了分析,它比已被抓取和拒绝的URL多​​了很多倍

图像应始终通过ALT属性提供备用文本(不是我在某些网站上看到的TITLE或NAME)这很好对于屏幕阅读器等可访问性问题,它提供了有关搜索引擎页面的其他上下文虽然检查页面上的许多图像都有适当的替代文本,但我不禁注意到Duane Forrester在其个人资料页面上的图像没有但是他很好,因为拉里,谢尔盖,埃里克和其他谷歌执行团队都没有链接上的A rel = nofollow属性告诉搜索引擎不要将链接视为其链接图的一部分偶尔,我将审查一个试图利用这一事实控制PageRank“流过”网站的方式的网站这种技术通常被认为是无效的,实际上会适得其反,我总是建议反对它(rel = nofollow仍然有效用途)内部链接上的属性,例如链接到被robotstxt抓取的页面的链接)我检查过的搜索引擎页面都没有以这种方式使用rel = nofollow属性YouTube主页例外情况在下图中,nofollowed链接以红色突出显示最常查看和最受欢迎的链接正在向搜索引擎显示,但一般音乐,娱乐和体育视频不是不会导致有效页面应该直接返回404(找不到页面)响应代码如果向Bing的社区博客站点发送了无效的URL,它将重定向到404页面这是链:建议的最佳做法是第一个URL到直接返回404如果不可能,则重定向应更改为301(永久)重定向雅虎的公司信息页面在获取无效URL时执行一些有趣的操作请求http:// infoyahoocom / center / us / yahoo / anypagehtml,这不是一个有效的URL,正确返回404(找不到页面)响应但404页面包含一个旧学校元刷新,时间为一秒,重定向到http:// infoyahoocom / center / us /雅虎/ A 301重定向到这个页面是处理这些类型的无效URL的推荐方法我是使用缓存控制标头来提高爬网效率和降低页面速度的忠实粉丝(关于这个主题的文章在这里)我觉得有趣的是,所有的仅检查了少量Google网址的网址If-Modified-Since请求且不支持任何网址If-None-Match作为网站审核的一部分,我喜欢使用http:// intodnscom /等在线资源http:// robtexcom /检查DNS配置 DNS是技术搜索引擎优化的一个重要组成部分,因为如果某些内容破坏了DNS,那么该网站将会停止运行并且不会被抓取幸运的是,这种情况很少发生但是,我已经审查了受DNS更改影响的网站

我已经回顾了几个在同一个子网上拥有DNS服务器的大型网站,实质上是为他们的整个业务创建单点故障正如预期的那样,所有搜索引擎都没有严重的DNS问题我很惊讶地发现其中有两个有递归在他们的名称服务器上启用,因为在一些罕见的情况下可能存在安全风险我建议的最佳做法是至少每季度运行一次这类检查这些是我常见或认为很重要的一些问题还有其他的,但它们是相对较小或微妙的东西,如短标题,重复/缺少元描述,缺少标题,每页有太多静态资源通常,我会有加入ss到Web访问日志文件和网站管理员工具,这允许我们的软件检查更多的东西,我希望这给你一些想法,以便在你自己的网站上查看的东西我希望当你找到一些你认识到甚至搜索的东西引擎有自己的技术搜索引擎优化问题本文中表达的意见是客座作者的意见,不一定是搜索引擎土地工作人员的作者在这里列出

News