风亭叶SEO博客为大家讲解SEO知识,和百度,360等搜索引擎算法
当前位置:风亭叶SEO博客 > 谷歌优化 > 谷歌seo如何分析你的网站日志?

谷歌seo如何分析你的网站日志?

09-21 谷歌优化

   日志文件分析应该是每个SEOPro的工具带的一部分,但大多数SEO从来没有进行过。这意味着大多数SEO错过了常规爬行工具无法产生的独特而宝贵的洞察力。

  让我们揭开日志文件分析的神秘面纱,这样它就不会那么吓人了。如果你对日志文件的精彩世界感兴趣,以及它们能给你的网站审核带来什么,那么这个指南肯定是给你的。
  什么是日志文件?
  日志文件是包含关于向您的网站服务器发出请求的人和内容的详细日志的文件。每次机器人向您的站点、数据(如时间、日期、IP地址、用户代理等)提出请求时存储在这个日志中。这个有价值的数据允许任何搜索引擎优化找出Googlebot和其他爬虫在你的网站上做什么。不像常规爬行,如与尖叫青蛙SEO蜘蛛,这是真实世界的数据-而不是估计你的网站是如何被抓取。这是一个关于您的站点如何被爬行的精确概述.
  拥有这些准确的数据可以帮助您识别爬行预算浪费的区域,轻松查找访问错误,了解您的SEO工作如何影响爬行等等。最棒的是,在大多数情况下,您可以使用简单的电子表格软件来完成这个任务。
  在本指南中,我们将重点介绍Excel来执行日志文件分析,但我还将讨论其他工具,例如尖叫青蛙的不太知名的日志文件分析器,它可以帮助您管理更大的数据集,从而使工作变得更容易和更快。
  注意:拥有Excel以外的任何软件都不需要遵循本指南,也不需要使用日志文件。
  如何打开日志文件
  将.log重命名为.csv
  当您得到一个扩展名为.log的日志文件时,它实际上就像重命名文件扩展名.csv和在电子表格软件中打开文件一样简单。如果您想编辑这些文件,请记住将您的操作系统设置为显示文件扩展名。
  如何打开拆分日志文件
  根据站点的服务器配置,日志文件可以包含一个大日志或多个文件。一些服务器将使用服务器负载平衡来分布跨服务器池或服务器场的通信量,从而导致日志文件被分割。好消息是,合并非常容易,您可以使用这三种方法中的一种来组合它们,然后按正常方式打开它们:
  通过Shift+右键单击包含日志文件的文件夹并选择“从这里运行Powershell”,在Windows中使用命令行
  然后运行以下命令:
  复制*.log mylogfiles.csv
  现在可以打开mylogfile.csv,它将包含所有日志数据。
  或者,如果您是Mac用户,首先使用cd命令转到日志文件的目录:
  CD文档/MyLogFiles/
  然后,使用cat或串联命令连接您的文件:
  CAT*.log>mylogfiles.csv
  2)使用免费工具,日志文件合并,将所有日志文件组合在一起,然后将文件扩展名编辑为.csv并按常规方式打开。
  3)用尖叫的Frog日志文件分析器打开日志文件,这就像拖放日志文件一样简单:
  分裂串
  (请注意:如果您使用的是尖叫青蛙的日志文件分析器,则不需要此步骤)
  打开日志文件后,需要将每个单元格中繁琐的文本拆分为列,以便以后更容易排序。
  Excel的Textto-Column函数在这里很有用,并且可以选择所有填充的单元格(Ctrl/Cmd+A),转到Excel>Data>Text到列,并选择“分隔”选项,分隔符是空格字符。
  一旦将其分隔开来,您还可能希望按时间和日期进行排序-您可以在时间和日期标记列中这样做,通常使用“:”冒号分隔符来分隔数据。
  您的文件应该类似于下面的文件:
  如前所述,如果日志文件看起来不完全相同,请不要担心-不同的日志文件有不同的格式。只要您有那里的基本数据(时间和日期,URL,用户代理等)你可以走了!
  理解日志文件
  既然您的日志文件已经准备好进行分析,我们就可以深入了解我们的数据了。日志文件可以使用多个不同的数据点采用多种格式,但它们通常包括以下内容:
  服务器IP
  日期和时间
  服务器请求方法(例如GET/POST)
  请求URL
  http状态码
  用户代理
  如果您对具体细节感兴趣,可以在下面找到更多关于通用格式的详细信息:
  WC3
  Apache和Nginx
  亚马逊弹性负载平衡
  HA代理
  杰森
  如何快速揭示预算浪费
  作为一个快速的回顾,爬行预算是一个搜索引擎在每次访问你的网站时爬行的页数。影响爬行预算的因素很多,包括链接公平或域权限、站点速度等等。与日志文件分析,我们将能够看到什么样的抓取预算你的网站有,哪里有问题,导致抓取预算被浪费。
  理想情况下,我们希望给爬虫提供最有效的爬行体验。爬行不应该浪费在低价值的页面和URL上,优先级页面(例如产品页面)不应该有更慢的指数化和爬行率,因为一个网站有那么多自重页面。游戏的名称是爬行预算节约,具有良好的爬行预算转换带来更好的有机搜索性能。
  请参见按用户代理爬行的URL。
  查看站点的URL被爬行的频率,可以很快地揭示搜索引擎将时间花在爬行上的位置。
  如果您对单个用户代理的行为感兴趣,这很容易过滤掉Excel中的相关列。在本例中,我使用一个WC3格式日志文件,通过Googlebot过滤cs(User-Agent)列:
  然后过滤URI列以显示Googlebot爬行此示例站点主页的次数:
  这是一种快速查看单个用户代理的URI干是否存在问题区域的方法。通过查看URI茎列的筛选选项(在本例中为cs-uri-梗),您可以进一步了解这一点:
  从这个基本菜单中,我们可以看到哪些URL(包括资源文件)正在被爬行以快速识别任何问题URL(例如,不应该被爬行的参数化URL)。
  您还可以使用数据透视表进行更广泛的分析。要获取特定用户代理爬行特定URL的次数,请选择整个表(Ctrl/cmd+A),转到INSERT>PivotTable,然后使用以下选项:
  我们所做的就是通过用户代理进行过滤,将URL词干作为行,然后计算每个用户代理发生的次数。
  通过我的示例日志文件,我得到了以下内容:
  然后,为了通过特定的用户代理进行过滤,我单击了包含“(ALL)”的单元格上的下拉图标,并选择了Googlebot:
  了解哪些不同的机器人正在爬行,移动机器人如何与桌面爬行不同,以及爬行最多的位置,可以帮助您立即了解爬行预算浪费的地方,以及站点的哪些领域需要改进。
  查找低值添加URL
  爬行预算不应该浪费在低增值的URL上,这通常是由会话ID、无限的爬行空间和分面导航引起的。
  为此,请返回日志文件,并通过包含“?”的URL进行筛选。或URL列中的问号符号(包含URL词干)。若要在Excel中执行此操作,请记住使用“~?”或倾斜问号,如下所示:
  单曲“?”或问号,如自动筛选窗口中所述,表示任何单个字符,因此添加倾斜符就像转义字符,并确保筛选出问号符号本身。
  这不容易吗?
  查找重复URL
  重复的URL可能是一个爬行预算浪费和一个大的SEO问题,但找到他们可能是一个痛苦。URL有时会有一些细微的变体(例如尾随斜杠相对于URL的非尾随斜杠版本)。
  最终,找到重复URL的最好方法也是最不有趣的方法-你必须按照网址的词干按字母顺序排序,并且手动地盯着它。
  找到相同URL的尾随和非尾随斜杠版本的一种方法是在另一列中使用替代函数,并使用它移除所有正斜杠:
  =替换(C2,“/”,“)
  在我的例子中,目标细胞是C2,因为茎数据位于第三列。
  然后,使用条件格式来标识重复的值并突出显示它们。
  然而,不幸的是,目瞪口呆是目前最好的方法。
  查看子目录的爬行频率。
  找出哪些子目录被抓取最多是另一种快速的方法来揭示爬行预算浪费。尽管要记住,仅仅因为一个客户的博客从来没有获得过一个反向链接,而且每年只能从企业主的祖母那里获得三个视图,并不意味着你应该考虑它的预算浪费-在整个网站中,内部链接结构应该一直都很好,从客户的角度来看,可能有一个很好的理由。
  要按子目录级别查找爬行频率,您需要主要关注它,但下面的公式可以帮助您:
  =IF(RIGHT(C2,1)="/",SUM(LEN(C2)-LEN(SUBSTITUTE(C2,"/","")))/LEN("/")+SUM(LEN(C2)-LEN(SUBSTITUTE(C2,"=","")))/LEN("=")-2, SUM(LEN(C2)-LEN(SUBSTITUTE(C2,"/","")))/LEN("/")+SUM(LEN(C2)-LEN(SUBSTITUTE(C2,"=","")))/LEN("=")-1)
  上面的公式看起来有点模糊,但它所做的只是检查是否有尾随斜杠,并根据答案计算尾随斜杠的数目,并从数字中减去2或1。如果您使用正确的公式从URL列表中删除所有尾随斜线,则可以缩短此公式,但谁有时间。剩下的是子目录计数(从0开始作为第一个子目录)。
  用第一个URL干/URL单元替换C2,然后将公式复制到整个列表中以使其正常工作。
  确保用适当的开始单元格替换所有的C2s,然后将新的子目录计数列排序为最小到最大,以便按逻辑顺序获得一个良好的文件夹列表,或者按子目录级别轻松地进行筛选。例如,如下面的截图所示:
  上面的图像是按级别排序的子目录。
  上面的图像是按深度排序的子目录。
  如果您没有处理大量的URL,您可以简单地按字母顺序对URL进行排序,但是您将无法获得子目录计数筛选,这对于较大的站点来说可能要快得多。
  按内容类型查看爬行频率
  找出哪些内容正在被抓取,或者是否有任何内容类型正在占用爬行预算,这是一个很好的检查,以发现抓取预算浪费。频繁地在不必要的或低优先级的CSS和JS文件上爬行,或者是如何在图像上进行爬行,如果您试图优化图像搜索,可以很容易地发现这种策略。
  在Excel中,查看内容类型的爬行频率就像使用Ends With Filter选项按URL或URI词干进行过滤一样容易。
  快速提示:您也可以使用“不以结尾”过滤器,并使用.html扩展名查看非HTML页面文件是如何被爬行的-总是值得检查,以防在不必要的js或CSS文件,甚至图片和图像变化(看看你的Wordpress)上的预算浪费。此外,请记住,如果您有一个站点的尾随和非尾随斜杠URL,以考虑这一点与“或”运算符与过滤。
  监视机器人:了解网站爬行行为
  日志文件分析允许我们了解机器人的行为,让我们了解它们是如何排序的。不同的机器人在不同的情况下表现如何?有了这些知识,你不仅可以加深你对搜索引擎优化和爬行的理解,还可以给你一个巨大的飞跃,了解你的网站架构的有效性。
  查看大多数和最少的爬行URL。
  这个策略以前已经通过用户代理查看爬行的URL而得到了改进,但它甚至更快。
  在Excel中,选择表格中的一个单元格,然后单击“插入”>“数据透视表”,确保所选内容包含必要的列(在本例中,是URL或URI词干和用户代理),然后单击“确定”。
  创建枢轴表后,将行设置为URL或URI茎,并将之和值设置为用户代理。
  在那里,您可以在User-agent列中右键单击,并通过爬行计数将URL从最大到最小排序:
  现在,您将有一个很好的表格,可以从或快速查看图表,并查找任何有问题的区域:
  在查看这些数据时,需要问自己的一个问题是:您或客户端希望爬行的页面是吗?隔多长时间?频繁爬行并不一定意味着更好的结果,但它可以显示出google和其他内容用户代理最优先考虑的内容。
  每天、每周或每月爬行频率
  检查爬行活动,以确定在一段时间内,在Google更新之后或在紧急情况下出现的问题,可以告诉您问题可能在哪里。这就像选择“Date”列一样简单,确保该列是“Date”格式类型,然后在Date列上使用日期筛选选项。如果您希望分析整个星期,只需选择相应的日子与过滤选项可用。
  按指令爬行频率
  了解谷歌所遵循的指令(例如,如果你在robots.txt中使用一个不允许的甚至没有索引的指令)对于任何SEO审计或活动都是必不可少的。例如,如果一个站点使用带有分面导航URL的“不允许”,那么您需要确保这些内容被遵守。如果它们不是,那么推荐一种更好的解决方案,比如页面上的指令,比如元机器人标签。
  要通过指令查看爬行频率,需要将爬行报告与日志文件分析结合起来。
  (警告:我们将使用VLOOKUP,但它并不像人们想象的那样复杂)
  要获得合并的数据,请执行以下操作:
  使用你最喜欢的爬行软件从你的网站抓取。我可能有偏见,但我是一个尖叫青蛙SEO蜘蛛的超级粉丝,所以我将使用这个。
  如果您也在使用爬行器,请逐字执行步骤,否则,进行自己的调用以获得相同的结果。
  从SEOSpider导出内部HTML报告(InternalTab>“Filter:HTML”),并打开“inalall.xlsx”文件。
  从这里,您可以过滤“索引状态”列并删除所有空白单元格。为此,请使用“不包含”筛选器,并将其保留为空白。还可以添加“and”运算符,并通过使筛选值相等而筛选出重定向URL“不包含”→“重定向”,如下所示:
  这将向您展示规范化的,无索引的元机器人和规范化的URL.
  复制这个新表(仅包含Address和Indexability状态列),并将其粘贴到日志文件分析导出的另一张表中。
  现在是一些VLOKUP魔法。首先,我们需要确保URI或URL列数据与爬行数据的格式相同。
  日志文件通常在URL中没有根域或协议,所以我们需要在新制作的工作表中使用“查找和替换”删除URL的头,或者在日志文件分析表中创建一个新列,将协议和根域附加到URI茎。我更喜欢这种方法,因为这样您就可以快速地复制和粘贴您正在发现问题的URL,并进行查看。但是,如果您有一个大量的日志文件,那么使用“查找和替换”方法可能会大大减少CPU的占用。
  要获得完整的URL,请使用以下公式,但将URL字段更改为您正在分析的任何站点(并确保协议也是正确的)。还需要将D2更改为URL列的第一个单元格
  ="https://www.example.com“&D2将公式拖到日志文件表的末尾,并获得一个完整URL的很好的列表:
  现在,创建另一列并将其称为“索引状态”。在第一个单元格中,使用类似于以下内容的VLOOKUP:=VLOOKUP(E2,CrawlSheet!$1:B$1128,2,false)。用“完整URL”列的第一个单元格替换E2,然后将查找表放入新的。爬行床单。记住起诉美元签名,这样查找表就不会随着你的变化而改变。将公式应用于进一步的角色。然后,选择正确的列(1将是索引表的第一列,因此第2列是我们要查找的列)。使用虚假范围查找模式进行精确匹配。现在,您有了一个很好的URL列表,以及它们与爬行数据匹配的索引状态:
  按深度和内部链接爬行频率
  通过这种分析,我们可以看到站点的体系结构在爬行预算和爬行能力方面的表现。主要目的是看看你是否有比你更多的请求-如果你有一个问题。机器人不应该“放弃”爬行你的整个网站,不发现重要的内容或浪费抓取预算的内容是不重要的。
  提示:除了这个分析之外,还值得使用爬行可视化工具来查看站点的总体架构,并查看哪些地方有“断点”或内部链接不佳的页面。
  要获得这些所有重要的数据,请执行以下操作:
  使用您喜欢的爬行工具爬行您的站点,并导出与每个URL同时具有单击深度和内部链接数量的报表。
  在我的例子中,我使用尖叫的青蛙SEO蜘蛛,导出内部报告:
  使用VLOOKUP将您的URL与“爬行深度”列和Inlink的数量相匹配,这将为您提供如下内容:
  根据您希望看到的数据类型,您可能希望只筛选出此时返回200个响应代码的URL,或者在我们稍后创建的Pivot表中使它们具有可过滤的选项。如果您正在检查电子商务站点,您可能希望只关注产品URL,或者如果您正在优化图像的爬行,则可以通过使用爬行导出的“ContentType”列过滤日志文件的URI列,并选择使用枢轴表进行筛选。和所有这些检查一样,你有很多选择!
  使用枢轴表,您现在可以使用以下选项分析爬行深度(在本例中由特定的BOT进行过滤)的爬行速度:
  要获得以下内容:
  比搜索控制台更好的数据?识别爬行问题
  搜索控制台可能是每一个搜索引擎优化的一个尝试,但它肯定有缺陷。历史数据很难获得,而且您可以查看的行数也有限制(在编写时是1000行)。但是,通过日志文件分析,天空才是极限。通过下面的检查,我们将发现爬行和响应错误,以便对您的站点进行全面的健康检查。
  发现爬行错误
  要向您的库添加一个显而易见的快速检查,只需对4xx和5xx错误筛选日志文件的Status列(在我的例子中,“sc-state”具有W3C日志文件类型):
  查找不一致的服务器响应
  随着时间的推移,特定的URL可能有不同的服务器响应,这可能是正常的行为,例如,当一个断开的链接被修复时,或者出现了严重的服务器问题,例如当您的站点的大量流量导致更多的内部服务器错误并影响您的站点的可爬行性时。
  分析服务器响应就像按URL和日期进行过滤一样容易:
  或者,如果您想快速查看URL在响应代码中的变化情况,可以使用Pivot表,其中行设置为URL,列设置为响应代码,并计算URL生成该响应代码的次数。要实现此设置,请创建具有以下设置的枢轴表:
  这将产生以下结果:
  正如您在上表中所看到的,您可以清楚地看到“/inconcistent.html”(在红色框中突出显示)具有不同的响应代码。
  按子目录查看错误
  为了找出哪个子目录产生的问题最多,我们只需要做一些简单的URL过滤。筛选出URI列(在我的示例中为“cs-uri-Stemy”),并使用“Contained”筛选选项来选择一个特定的子目录和子目录中的任何页面(带有通配符*):
  对于我来说,我签出了blog子目录,这产生了以下结果:
  用户代理查看错误
  找出哪些机器人正在挣扎是有用的,因为许多原因,包括看到不同的网站性能的移动和桌面机器人,或哪个搜索引擎最能抓取更多的你的网站。
  您可能想看看哪个特定的URL会导致某个特定的BOT出现问题。最简单的方法是使用Pivot表来过滤特定响应代码在每个URI中发生的次数。为此,使用以下设置创建一个枢轴表:
  在这里,您可以通过选择的bot和响应代码类型(如下面的图像)进行筛选,我在此筛选Googlebot桌面以查找404错误:
  或者,您也可以使用Pivot表来查看一个特定bot产生不同响应代码的次数,方法是创建一个Pivot表,该表根据bot过滤、按URI发生计数,并将响应代码用作行。为此,请使用以下设置:
  例如,在枢轴表(下面)中,我将查看每个响应代码Googlebot接收的数量:
  诊断页面上的问题
  网站不仅需要为人类设计,还需要为机器人设计。页面的加载速度不应该慢,或者是大量的下载,通过日志文件分析,您可以从bot的角度看到每个URL的这两个指标。
  查找慢页和大页
  虽然您可以将日志文件从“占用的时间”或“加载时间”列从最大到最小来排序,以找到最慢的加载页,但最好查看每个URL的平均加载时间,因为除了网页的实际速度之外,还有其他因素可能导致请求的缓慢。
  为此,创建一个Pivot表,将行设置为URI茎或URL,并将之和值设置为加载或加载时间所需的时间:
  然后使用下拉箭头,在这种情况下,它表示“所用时间的总和”,然后转到“Value Field Settings”:
  在新窗口中,选择“Average”,您就都设置好了:
  现在,当您按最大的、最小的和平均的时间对URI茎进行排序时,应该有类似的内容:
  查找大页
  现在可以使用下面所示的设置添加下载大小列(在我的例子中是“sc-字节”)。请记住,根据您希望看到的内容,将大小设置为平均值或和。对我来说,我做到了平均水平:
  您应该得到类似于以下内容的内容:
  BOT行为:验证和分析机器人
  了解bot和爬行行为的最好和最简单的方法是使用日志文件分析,因为您再次获得了现实世界的数据,而且它比其他方法少得多。
  查找未爬行的URL
  只需使用您选择的工具抓取您的网站,然后将您的日志文件作为比较URL,以找到唯一的路径。您可以使用Excel或条件格式的“删除重复项”特性来实现这一点,尽管前者的CPU密集型要小得多,特别是对于较大的日志文件。放轻松!
  识别垃圾邮件机器人
  来自垃圾邮件和欺骗机器人的不必要的服务器应变很容易通过日志文件和一些基本的命令行操作符来识别。大多数请求也会有一个与其相关的IP,所以使用您的IP列(在我的例子中,它的标题是W3C格式日志中的“c-IP”),删除所有副本以查找每个请求IP的个体。
  在这里,您应该遵循Google文档中概述的验证IP的过程(注意:对于Windows用户,使用nslookup命令):
  https:/Support.google.com/webmaster/答案/80553?hl=en
  或者,如果您正在验证必应机器人,请使用它们的方便工具:
  https://www.bing.com/toolbox/verify-bingbot
  结论:日志文件分析-不像听起来那么可怕
  使用一些简单的工具,您可以深入了解Googlebot的行为。当你了解一个网站如何处理爬行时,你可以诊断出比你能咀嚼的更多的问题-但日志文件分析的真正力量在于能够测试你关于Googlebot的理论,并扩展上述技术来收集您自己的见解和启示。
  你会用日志文件分析测试什么理论?除了上面列出的日志文件之外,您还能从日志文件中收集到什么见解?请在下面的评论中告诉我。

版权保护: 本文由 风亭叶SEO博客 杭州SEO 原创,转载请保留链接: http://www.tingyeseo.com/googleseo/68.html