网站数据的分析 - UCD大社区

数据科普──网站数据是怎么来的

dong_hong1 — 2011-06-29 20:36:03

想要进行网站数据的分析，就先要知道网站数据是怎么来的。

用户在访问互联网的时候，会向服务器发送服务的请求。发送的请求，就被服务器以一条单独记录的方式记录在服务器的日志中，这就是最原始的网站数据日志。

先看apache的日志。

10.1.1.95 - user [18/Mar/2005:12:21:42 +0800] “GET /stats/awstats.pl?config=user HTTP/1.1″ 200 899 “http://10.1.1.1/pv/” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; Maxthon)”

以上是一条apache的标准日志。

这行内容由9项构成，上面的例子中有两项空白，但整行内容仍旧分成了9项。

· 第一项信息是远程主机的地址。也就是访问者本机器的IP。服务器就是根据这个IP给访问者发回复的信息的。

· 第二项是空白，用一个”-”占位符替代。实际上绝大多数时候这一项都是如此。这个位置用于记录浏览者的标识，这不只是浏览者的登录名字，而是浏览者的 email地址或者其他唯一标识符。这个信息由identd返回，或者直接由浏览器返回。很早的时候，这个位置往往记录着浏览者的email地址。然而，由于有人用它来收集邮件地址和发送垃圾邮件，所以它未能保留多久，很久之前市场上几乎所有的浏览器就取消了这项功能。因此，到了今天，我们在日志记录的第二项看到email地址的机会已经微乎其微了。

· 第三项也是user。这个位置用于记录浏览者进行身份验证时提供的名字。当然，如果网站的某些内容要求用户进行身份验证，那么这项信息是不会空白的。但是，对于大多数不要求登录验证的网站来说，日志文件的大多数记录中这一项仍旧是空白的。

· 日志记录的第四项是请求的时间。这个信息用方括号包围，而且采用所谓的”公共日志格式”或”标准英文格式”。因此，上例日志记录表示请求的时间是2005年3月18日12:21:42。时间信息最后的”+0800″表示服务器所处时区位于世界标准时间之后的8小时，事实上国内服务器的时间都是+8000。

· 日志记录的第五项信息或许是整个日志记录中最有用的信息，它告诉我们服务器收到的是一个什么样的请求。该项信息的典型格式是”方法资源协议”。

在上例中，方法是GET，其他经常可能出现的方法还有POST和HEAD。此外还有不少可能出现的合法方法，但主要就是这三种。

资源是指浏览者向服务器请求的文档，或URL。在这个例子中，浏览者请求的是”/stats/awstats.pl?config=user “。

协议通常是HTTP，后面再加上版本号。

· 日志记录的第六项信息是状态代码。它告诉我们请求是否成功，或者遇到了什么样的错误。大多数时候，这项值是200，它表示服务器已经成功地响应浏览器的请求，一切正常。一般地说，以2开头的状态代码表示成功，以3开头的状态代码表示由于各种不同的原因用户请求被重定向到了其他位置，以4开头的状态代码表示客户端存在某种错误，以5开头的状态代码表示服务器遇到了某个错误。

· 日志记录的第七项表示发送给客户端的总字节数。它告诉我们传输是否被打断（即，该数值是否和文件的大小相同）。把日志记录中的这些值加起来就可以得知服务器在一天、一周或者一月内发送了多少数据。

· 日志记录的第八项记录的是客户在提出请求时所在的目录或URL。这次的是”http://10.1.1.1/pv/”即10.1.1.1的pv目录下的首页。大多数情况下，首页会是在httpd.conf中DocumentRoot 指令后面规定的那些类型和名字的web文件。

· 日志记录的第九项表示客户端的详细信息。

上面是apache日志的记录的解释。

那么换成是IIS的日志呢！　记录也大同小异，只是由identd返回的登录身份验证，由于一直是空的，变成了发送或者接受的cookie内容，还有多了一些协议的子状态的内容。

从上面可以看到，我们所有分析的大部分数据都可以得到了，但是还是有一些问题，用户点击浏览器上的前进和后退按钮，客户端的浏览器是先读取缓存的，只有在缓存找不到的情况下，才重新向服务器请求，所以服务器是否能记下用户点击了后退或者前进之后的页面，完全看页面的写法和本机的状态。

采用原始日志进行分析的，一些分的很小的ifram等的页面会被分别请求，导致打开一个页面的请求数并不一定是１，这也是原始日志的一些弊端。

同时，这些记录主要是为了跟踪服务器状态和服务器安全的，还有一些数据没有被记录下来。

· 页面的之间的关系没有被记录下来，用户到底是从那个页面访问哪个页面的关系没有。

· 不能区分出一个用户来的某一次访问来，尤其是对不需要就能访问的网站。

· 不能记录页面的操作，尤其是点击的操作。

于是一些网站制作了自己的记录方法，一般是用JS或者一个一像素图片的请求去记录这些些信息。

这样有几个信息又被记录下来了，访问的来源页面refer，session的编号，cookie的编号，以及点击所产生的数据。并且这些数据可以被直接记录进数据库里面。

采用这样的方式，的确降低了分析的难度，并且增加了可分析的信息，但是确是牺牲了一定的准确性。可谓是有得有失。

· 首先是可记录的数据，由于是在客户端产生的，所有凡是出现服务器错误的情况，数据100%会丢失，服务器根本没有相应，怎么能出数据呢！并且，由于需要启动了js才能呢高进行数据的传送，所有数据也会有一定的丢失，一般，服务器状态不差的情况下，98%的准确率是可以被接受的。

· 来源页面的数据还是会丢失，由于页面间跳转和协议的关系，来源页面中有一定的量会出现丢失的问题，　比较麻烦的是https的页面由于是采用加密的协议进行传输的，无论采用什么方法，到http的页面上都会丢失。

· 受页面语言和协议的影响比较大，页面上的调用，ajax，js什么的都可能影响的记录的准确性。

· 最后是所有页面都要加上代码，别小看这点，如果是页面多的话，这点上还真是个问题，那个页面如果是忘记了，都会去整体的数据产生影响。

· 找不到机器的IP，这点上的IP和日志上IP有一些区别，在某些多机器共用IP的情况下，记录的不是用户最终机器上的IP而是互联网接入路由上的IP。

综合以上，网站分析上面，由于数据的取得方式和网站本身的程序方式的关系比较复杂，所以在分析网站数据的时候，需要比较谨慎，数据中的故障和陷阱随时都可能发生。

网站的访问数据为何很少被应用

dong_hong1 — 2011-07-11 22:13:46

在互联网公司的众多数据中，营业的数据、财务的数据往往是比较容易得到应用，但是网站访问的数据往往是应用得最少的。这是什么原因，网站数据该如何应用呢？

先说应用少的原因：

1、首先是数据的重要程度的认识。

交易数据、财务数据往往是关系到公司的生死，如果这个数据出现问题了，那么公司的运转就会出现了紧张状况。所以上到CEO，CFO；下到公司的具体员工都在关心这个数据。

网站数据只关系到公司产品自身的好坏，而在公司发展的阶段，这点上体现并不明显，在国内尤其不明显，很多公司都可以凭借一流的销售，三流的产品去抢占市场，一部分的网站，甚至不要什么优秀的产品，光是靠着大量的投资，打广告，吸引到到用户量，出业务的数据就可以融到大笔的资金，所以网站本身的数据就一定程度上被忽视下来了，而能作到在产品上大投入的公司，凭借的也不是网站的数据，而是产品人员自身的实力。

2、其次是数据处理的成本。

业务数据通每条业务是一个单独的数据，这样数据在处理的关联上简单很多，数据量也相对网站数据要少很多很多。同时在保证数据准确性方面，由于业务数据关系到财务问题，都是有多台服务器和多系统保证其准确性的。

网站数据往往是由用户-独立会话-访问页面构成的一个序列的数据，这些矩阵的数据在处理上增加了很大的难度，单单从数据量上讲，往往是交易量几十倍，数据量的增加还不是根本难度，难度是从分析一条数据，变成了分析一个序列的数据；同时另一个难度是这么庞大的数据量，已经很难保证不丢失数据了，事实上，大部分网站记录中，丢失1%-5%的数据是正常的现象，而即使是1%，对于序列的分析也有不小的影响。

3、网站数据更难于理解。

由于交易/财务是传统行业就有的，所以有比较明确的定义，交易量，交易额这些数据大部分人都能知道他的意义，（财务数据除外）; 对于专业的人员，这些数据不存在任何歧义。而且在获取数据的过程中，获取方法，统计方法都比较规范，很少在这期间产生疑义。

网站的数据随着互联网的发展才发展起来，数据上没有明确的定义，往往是两个统计系统里面，同样的名词表示不同的意义；不同的名词表示相同的意义；同样的名词表示着不同的意义；名称和意义都一样，但是获取的方式不同；而且这方面的分析也少有专业人员，相关的人员，例如产品经理，交互设计师甚至有独立用户数，独立IP数，独立会话数，流量数的却别都搞不清楚的。同时，在数据获取的过程中，由于相应开发语言，跳转方式，服务器配置的不同，获取数据的方式也不统一，在理解上更增加了一层的难度。

4、网站数据应用上困难。

传统数据，往往是很容易就应用到实际当中，投入和产出的对比让很多判断可以比较容易的下决定。并且业务的情况往往是2选1、N选1的状况，当数据证明一个比一个好的时候，是比较容易作决定的。同时，由于长期的积累，交易数据有成型的数据解释结构，看到××数据，就知道这个数据是受××几个数据影响。

网站的数据往往难以下决定，数据往往是很难直接应用到实际的修改之中。除了A/Btest是方案的对比，其他的数据多数不是方案的对比，而是同一个产品的优化。某页面的转化率低，产品经理也不能直接将这个页面舍弃，还是要进行优化，这让数据的判断和处理的难度增加了许多。同时网站的数据，由于受到系统和人的意识两个方面的影响，还没有成型的结构去解释数据受什么关联数据的影响，并且，一但是判断结果是用户不继续进行操作，数据上就陷入到了荒原。

以上是网站数据对比业务数据的弱势，但是并不是说网站的数据没有意义，只是还没有到发挥的时候，等到地盘划定，各个公司要拼内功的时候，优化业务数据的时候，网站数据的作用也就体现出来了。