SEO 实践(1):开展 SEO 前的数据准备

本贴最后更新于 1669 天前,其中的信息可能已经时移俗易

当我们开始开展一项 SEO 工作时,第一件要做的事情是要保证我们做的任何事情都可以有数据的支撑——而不是自己的直觉。SEO 的主要数据来源来自两块:网站的服务器日志、第三方流量分析工具。

网站服务器日志

Apache,Nginx 等常用服务器的内置日志配置格式 Combine 已经可以满足大多数 SEO 分析需求。它看上去类似是这样的:

111.111.111.111 – - "[20/Feb/2012:18:09:25 +0800]""GET / HTTP/1.1″ 200 3121"http://***.org/" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

必须记录的信息诸如:访问来源 IP、访问时间、访问页面、HTTP 响应状态码、访问来源及客户端标识等,这些在 Combine 日志格式里面都有。

在确保服务器日志可以满足其他部门的分析需求下,至少要确保上面提到的几项被记录在服务器日志里面。但也不要将任何可以记录的数据都记录下来,只选择实际需要的部分,不然会使得网站日志体积非常大,不利于分析起来的效率。这些内容可能需要和运维进行沟通解决。

然后关于日志的分析,我认为没太多固定的准备工作可做,因为它的数据来源是原始的(raw 似乎听上去会更有感觉?),所以可选择的数据维度几乎是无限的。因此尤其要按实际需求进行相应的处理与分析。

对于一些要求并不是特别高的日志分析需求,可以尝试使用光年日志分析系统。虽然我个人对所有图形界面的实用类程序都不带好感,但它提供了一些很不错的数据维度的思路。

听说有一家大型的旅游网站是采用 MongoDB 结合 Map/Reduce 进行日志分析的,我个人也用过 MongoDB 实现过前面提到的光年日志分析的一部分重要功能。所以感觉 MongoDB 是个可以考虑的选择。

第三方流量分析工具

Google Analytics 的安装

对于免费流量分析工具,Google Analytics 绝对是其中的佼佼者(以下简称 GA)。不过如果网站的月浏览量大于 500W 的话,只有 Google Adwords 的用户,才能继续免费使用 GA 进行流量的记录与分析。下面都以它为例。

在 GA 添加需要追踪流量的网站以后,它会提示你添加一段 JavaScript 代码,到每一个你需要追踪页面的标记之前。代码的添加可能是一件很轻松的工作,但也可能非常麻烦,主要取决于网站的模板层。

先提下常见开源博客程序 WordPress 的方法,它采用了包含的模板处理方式,比如网站首页、列表页、文章页等自身的模板,都是只有当中一部分的。而包含网页 LOGO 等的网页头部,都使用 WordPress 的 get_header 方法来加载另一个独立的模板文件(get_header 方法本质上是 PHP 里面的 include 函数)。简言之,只要在 header.php 那个文件上面添加代码,包含它的所有网页都会跟着改,很快就可以把 GA 代码添加好。

但情况并不总是理想的,尤其对于使用网站框架自己进行开发的网站,有时并没有将包含这样的方式很好的运用。这可能是网站的建设规范不完善的关系,也可能是网站需求导致了确实无法使用和 WordPress 类似的包含方式。那么,至少要在每个网页的头部,额外包含一小段加载全局 JavaScript 的区块,以方便的添加全局性的 JavaScript 代码。

虽然未必在添加 GA 代码时,对可能糟糕的网站模板结构去进行更改,最多到几十个不同的模板文件里面去分别加下代码就是了(当然也要花些时间去保证没有漏过哪些页面)。但一次性搞定一些本质性的问题会带来很多日后的便利性——比如又要换一套统计代码。

相对最麻烦的事情或许是如何说服程序员为了一些看似小的需求而修改模板结构,这边就略过了。

一些基础的 Google Analytics 设置

对于 SEO 而言,一项最基础的设置,就是要把网站上对 SEO 有价值的页面进行归类。对页面进行区分,并以此掌握了它们的流量现状及趋势以后,才能把握 SEO 的侧重点,及更好的分析网站上每次 SEO 修改的成效等等。

如最简单的例子,对于一个网站,如果手头有 1000 条外链,应该给网站的栏目页还是产品页?这主要取决于哪类页面有更高的转化率与更大的 SEO 流量提升空间。

对于每个网站而言,都存在不同的情况。比如一个书籍类的电商网站,它列表页不会有太多流量,没多少人搜索什么“计算机书籍”,但会更多人搜索《乔布什自传》之类,因为用户有很明确的需求。而对于一个服饰电商,相应更多人会搜索“衬衫”之类,而非“2012 年春季新款白色衬衫”等,因为用户只是想到网站上挑衣服,他们只有需求的意向,但具体需求是模糊的。

以上两个是比较典型的例子,但有更多情况我们无法用自己的直觉做出准确的判断,那就需要用流量数据来收集事实。

尽管博客的流量数据分析起来没太大价值,出色的文章是博客的一切,但这里还是以 SEMWATCH 为例来简单介绍下方法。假设我们需要把网站的栏目页和文章页流量进行区分,它们的 URL 分别是类似这样的:/category/seo/,/2012/02/post/

首先要到 GA 的数据页面内,找到高级细分一项,点击右侧新自定义细分。然后进行类似下图的设置:

通常情况下,将页面的 URL 匹配相应的正则以后,就可以把它们区分开来。注意,如果网站的初期 URL 规划不完善,可能会导致无法用 URL 来区分页面类型的非常非常糟糕的情况,务必保证每一类页面拥有其独立的 URL 标识。

在该例中,SEMWATCH 的栏目页匹配正则表达式是:^/category/.*?/,文章页是:^/2[0-9]{3}/[0-9]{2}/.*?/

尽量用最严格的正则表达式写法,这样可能可以在无形中规避很多不必要的错乱。还需要注意的是,老版本的 GA 默认情况下筛选器的“包含”即使用正则表达式,新版 GA 一定要选择“匹配正则表达式”这项。

关于正则表达式,篇幅所限不可能进行解释,如果你不懂的话,可以考虑去寻找程序员求助。但我的个人建议是尽可能的要自己掌握它,这是一个比较基础的技术要求,SEO 不应该被它所难倒。正则表达式虽然看上去很恶心——至少我从来看不懂自己写出来的正则,但其实挺容易学的。

总之通过上面的步骤,我们就简单的把页面类型区分开来了。回到最初的例子,如果有 1000 外链给 SEMWATCH 随便分配,现在应该把外链给予哪些页面呢?可以发现的是栏目页几乎没流量、而文章页天生流量就很高。多数情况下这证明了文章页具有更大的流量发展空间,此时把外链分配给文章页就是最明智的做法。(但也不能武断的说,不能排除栏目页的 SEO 有巨大问题的可能性,这问题一点都不罕见。所以还要结合我们的常识及其他方面的分析来综合判断。)

最后的总结

实际可能要面临的问题还有很多很多,当然不可能是一篇文章所能涵盖的。前面提到的只是两个主要数据,实际 SEO 过程中,还或许需要用到的数据如网站级的 Google Webmaster Tool,估算流量的爱站、SEMRush、Google Adplanner、HitWise,关键词的 Google Keyword Tool、百度司南,链接类的 MajesticSEO、Ahrefs 等等。

最近我在看《麦肯锡方法》,提到:“以事实为基础,严格的结构化,以假设为导向”,类似的稍总结下 SEO 的话:“以数据为基础,严格的逻辑化,以效果为目标、技术为手段”。本文是为了作为根基的数据垫下基础而已,它本身是没任何价值的——光看数据的话,它只不过是死板的数字罢了。

如何借由数据的辅助,在最需要的地方进行 SEO 的更改,使得流量获得大的突破并给网站产生价值,这是我们要真正关注的部分,之后再慢慢分解。

  • SEO

    发布对别人有帮助的原创内容是最好的 SEO 方式。

    35 引用 • 200 回帖 • 27 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • 阿里云

    阿里云是阿里巴巴集团旗下公司,是全球领先的云计算及人工智能科技公司。提供云服务器、云数据库、云安全等云计算服务,以及大数据、人工智能服务、精准定制基于场景的行业解决方案。

    84 引用 • 324 回帖 • 1 关注
  • Lute

    Lute 是一款结构化的 Markdown 引擎,支持 Go 和 JavaScript。

    28 引用 • 197 回帖 • 33 关注
  • Oracle

    Oracle(甲骨文)公司,全称甲骨文股份有限公司(甲骨文软件系统有限公司),是全球最大的企业级软件公司,总部位于美国加利福尼亚州的红木滩。1989 年正式进入中国市场。2013 年,甲骨文已超越 IBM,成为继 Microsoft 后全球第二大软件公司。

    107 引用 • 127 回帖 • 344 关注
  • Excel
    31 引用 • 28 回帖
  • Elasticsearch

    Elasticsearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful 接口。Elasticsearch 是用 Java 开发的,并作为 Apache 许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

    117 引用 • 99 回帖 • 209 关注
  • FFmpeg

    FFmpeg 是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。

    23 引用 • 32 回帖
  • WordPress

    WordPress 是一个使用 PHP 语言开发的博客平台,用户可以在支持 PHP 和 MySQL 数据库的服务器上架设自己的博客。也可以把 WordPress 当作一个内容管理系统(CMS)来使用。WordPress 是一个免费的开源项目,在 GNU 通用公共许可证(GPLv2)下授权发布。

    66 引用 • 114 回帖 • 194 关注
  • Rust

    Rust 是一门赋予每个人构建可靠且高效软件能力的语言。Rust 由 Mozilla 开发,最早发布于 2014 年 9 月。

    58 引用 • 22 回帖 • 10 关注
  • Vim

    Vim 是类 UNIX 系统文本编辑器 Vi 的加强版本,加入了更多特性来帮助编辑源代码。Vim 的部分增强功能包括文件比较(vimdiff)、语法高亮、全面的帮助系统、本地脚本(Vimscript)和便于选择的可视化模式。

    29 引用 • 66 回帖
  • Kubernetes

    Kubernetes 是 Google 开源的一个容器编排引擎,它支持自动化部署、大规模可伸缩、应用容器化管理。

    116 引用 • 54 回帖 • 3 关注
  • JWT

    JWT(JSON Web Token)是一种用于双方之间传递信息的简洁的、安全的表述性声明规范。JWT 作为一个开放的标准(RFC 7519),定义了一种简洁的,自包含的方法用于通信双方之间以 JSON 的形式安全的传递信息。

    20 引用 • 15 回帖 • 23 关注
  • HHKB

    HHKB 是富士通的 Happy Hacking 系列电容键盘。电容键盘即无接点静电电容式键盘(Capacitive Keyboard)。

    5 引用 • 74 回帖 • 503 关注
  • FreeMarker

    FreeMarker 是一款好用且功能强大的 Java 模版引擎。

    23 引用 • 20 回帖 • 458 关注
  • Shell

    Shell 脚本与 Windows/Dos 下的批处理相似,也就是用各类命令预先放入到一个文件中,方便一次性执行的一个程序文件,主要是方便管理员进行设置或者管理用的。但是它比 Windows 下的批处理更强大,比用其他编程程序编辑的程序效率更高,因为它使用了 Linux/Unix 下的命令。

    124 引用 • 74 回帖 • 1 关注
  • abitmean

    有点意思就行了

    37 关注
  • Vditor

    Vditor 是一款浏览器端的 Markdown 编辑器,支持所见即所得、即时渲染(类似 Typora)和分屏预览模式。它使用 TypeScript 实现,支持原生 JavaScript、Vue、React 和 Angular。

    367 引用 • 1842 回帖
  • Spring

    Spring 是一个开源框架,是于 2003 年兴起的一个轻量级的 Java 开发框架,由 Rod Johnson 在其著作《Expert One-On-One J2EE Development and Design》中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之一就是其分层架构,分层架构允许使用者选择使用哪一个组件,同时为 JavaEE 应用程序开发提供集成的框架。

    948 引用 • 1460 回帖
  • 前端

    前端技术一般分为前端设计和前端开发,前端设计可以理解为网站的视觉设计,前端开发则是网站的前台代码实现,包括 HTML、CSS 以及 JavaScript 等。

    245 引用 • 1338 回帖
  • 链书

    链书(Chainbook)是 B3log 开源社区提供的区块链纸质书交易平台,通过 B3T 实现共享激励与价值链。可将你的闲置书籍上架到链书,我们共同构建这个全新的交易平台,让闲置书籍继续发挥它的价值。

    链书社

    链书目前已经下线,也许以后还有计划重制上线。

    14 引用 • 257 回帖 • 2 关注
  • HBase

    HBase 是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文 “Bigtable:一个结构化数据的分布式存储系统”。就像 Bigtable 利用了 Google 文件系统所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力。

    17 引用 • 6 回帖 • 58 关注
  • jsDelivr

    jsDelivr 是一个开源的 CDN 服务,可为 npm 包、GitHub 仓库提供免费、快速并且可靠的全球 CDN 加速服务。

    5 引用 • 31 回帖 • 105 关注
  • Hprose

    Hprose 是一款先进的轻量级、跨语言、跨平台、无侵入式、高性能动态远程对象调用引擎库。它不仅简单易用,而且功能强大。你无需专门学习,只需看上几眼,就能用它轻松构建分布式应用系统。

    9 引用 • 17 回帖 • 628 关注
  • Windows

    Microsoft Windows 是美国微软公司研发的一套操作系统,它问世于 1985 年,起初仅仅是 Microsoft-DOS 模拟环境,后续的系统版本由于微软不断的更新升级,不但易用,也慢慢的成为家家户户人们最喜爱的操作系统。

    227 引用 • 476 回帖
  • HTML

    HTML5 是 HTML 下一个的主要修订版本,现在仍处于发展阶段。广义论及 HTML5 时,实际指的是包括 HTML、CSS 和 JavaScript 在内的一套技术组合。

    108 引用 • 295 回帖
  • 笔记

    好记性不如烂笔头。

    310 引用 • 794 回帖
  • 大疆创新

    深圳市大疆创新科技有限公司(DJI-Innovations,简称 DJI),成立于 2006 年,是全球领先的无人飞行器控制系统及无人机解决方案的研发和生产商,客户遍布全球 100 多个国家。通过持续的创新,大疆致力于为无人机工业、行业用户以及专业航拍应用提供性能最强、体验最佳的革命性智能飞控产品和解决方案。

    2 引用 • 14 回帖
  • wolai

    我来 wolai:不仅仅是未来的云端笔记!

    2 引用 • 14 回帖 • 2 关注