﻿<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xmlns:xg="http://ucdchina.com/schemas/rss">	
 		<channel>
 			<title>数据挖掘 - UCD大社区</title>
 			<link>http://ucdchina.com/rss/topic_posts?id=356</link>
 			<description>数据挖掘 - UCD大社区</description>
 			<webMaster>qingping.hu@gmail.com</webMaster>
			<pubDate>2026-05-13 11:12:00</pubDate>			<item>
				<title>数据科普 - 网站数据的营销应用１</title>
				<link>http://ucdchina.com/snap/10614</link>
				<description>&lt;p&gt;&lt;span style=&quot;font-size:14px&quot;&gt;大部分的网站，在营销监控上，都采用广告跳转页面的方式，一个空的页面，通过广告代码来表示广告的来源。&lt;/span&gt;&lt;/p&gt;
 
&lt;p&gt;&lt;span style=&quot;font-size:14px&quot;&gt;例如：&lt;/span&gt;&lt;a href=&quot;http://www.abc.com/ad?=1122334455&quot; target=&quot;_blank&quot;&gt;&lt;span style=&quot;font-size:14px&quot;&gt;www.abc.com/ad?=1122334455&lt;/span&gt;&lt;/a&gt;&lt;span style=&quot;font-size:14px&quot;&gt; 这类型是广告页面url常见的链接，这个页面的作用就是记录下自己的URL，自然是包含广告来源的参数，然后页面将其跳转到活动的页面，这个页面几乎不花任何成本。和直接打开目的页面差不多。&lt;/span&gt;&lt;/p&gt;
 
&lt;p&gt;&lt;span style=&quot;font-size:14px&quot;&gt;当然，也有采用写用户cookie记录的方式，这样的方式虽然可以记录到营销的效果，但是其他数据将少的可怜，所以这里只是这里以这类方式讨论。&lt;/span&gt;&lt;/p&gt;
 
&lt;p&gt;&lt;strong&gt;&lt;span style=&quot;font-size:14px&quot;&gt;为什么不用页面上直接加参数的方式呢？这样还多一次跳转。&lt;/span&gt;&lt;/strong&gt;&lt;/p&gt;
 
&lt;p&gt;&lt;span style=&quot;font-size:14px&quot;&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; 相比之下，还是有一些差别的，如果仅仅是很小的静态的html页面或者分析的是存日志的文件，这个差别还不太重要，但是对于大部分活动页面，这个还是有影响到分析结果的差别的。&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;font-size:14px&quot;&gt;&amp;nbsp;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;font-size:14px&quot;&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; 主要受到影响的，还是记录的准确性，我们采用的都是第三方记录的方式，这段记录的代码是被放在页面最底部的，这就使得页面的记录会有或多或少的丢失，对于早期以静态页面为主的新闻页面上，这个丢失的比例很低，但是在现在各类技术不停的发展的情况下，JS记录的丢失已经增加了，甚至对于普通的动态页面，这个丢失率都可能影响到分析的结果。&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;font-size:14px&quot;&gt;&amp;nbsp;&lt;/span&gt;&lt;br /&gt;&lt;span style=&quot;font-size:14px&quot;&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; 不巧的是，营销的页面，富媒体的方式被应用的越来越多，这就使得页面上充满了各类的flash，JS等等，并且页面的大小体积越来越大，同时大部分时候，页面的实现方式也多样化起来，这就使得JS记录的丢失会更加严重。笔者曾经见过很多JS数据记录比apache日志记录少上30%的情况。&lt;/span&gt;&lt;/p&gt;
 
&lt;p&gt;&lt;span style=&quot;font-size:14px&quot;&gt;&amp;nbsp;&lt;/span&gt;&lt;/p&gt;
 
&lt;p&gt;&lt;span style=&quot;font-size:14px&quot;&gt;总体监控：&lt;/span&gt;&lt;strong&gt;&lt;span style=&quot;font-size:14px&quot;&gt;&lt;/span&gt;&lt;/strong&gt;&lt;/p&gt;
 
&lt;p&gt;1、从某个渠道过来的了多少用户，有多少是成功的，从这个角度看，总体的数据能直接告诉我们，这个活动花了多少成本，赢得了多少利益。&lt;/p&gt;
 
&lt;p&gt;2、对这个数据的一个细分是，可以把每个活动的一个入口细分，看看每一个投放点的效果，是可以达到什么样的效果。&lt;/p&gt;
 
&lt;p&gt;3、还有一类的监控是某类产品用什么活动推广好，比较集中是是，查询出每个活动销售了几件这个产品。&lt;/p&gt;
 
&lt;p&gt;&lt;br /&gt;通过广告进入页面和成功页面记录下来的cookie_ID进行对比，如果这两个cookie_id相同，就至少说明用户用广告进入页面进来，并且完成了操作，而根据广告进入页面的中包含广告代码的参数，就可以知道用户进入的时候， 是从哪家网站进来的，看的是哪个活动的宣传,&lt;br /&gt;通过这样连带的关系，自然也就知道了上面所列出的三个内容。&lt;/p&gt;
 
&lt;p&gt;&amp;nbsp;&lt;/p&gt;
 
&lt;p&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; 第一个内容比较简单。只需要查询到广告页面上，参数中包含某个广告代码的量的cookie_id的次数和数量。就能知道该渠道带来了多少的用户，而查询广告页面打开时间之后，cookie_id相同，并且当前页面是设定的成功页面的次数，就能知道这些广告带来了多少浏览上的收益。&lt;br /&gt;&amp;nbsp;&lt;br /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; &amp;nbsp;第二个内容和第一个内容一样，区别只是将一个渠道的多个入扣广告分成不同的广告代码。&lt;br /&gt;&amp;nbsp;&lt;br /&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; 第三个内容则是先查询出设定的成功页面的cookie_id，之后反向去查询，这些cookie_id中有哪些是访问了广告跳转页面的，并且分解出其中的广告代码是什么。&lt;/p&gt;
 
&lt;p&gt;&amp;nbsp;&lt;/p&gt;
 
&lt;p&gt;&lt;strong&gt;这里要注意的有两个要注意的事情：&lt;/strong&gt;&lt;/p&gt;
 
&lt;p&gt;&amp;nbsp;&lt;/p&gt;
 
&lt;p&gt;&lt;span style=&quot;font-size:14px&quot;&gt;一个是营销时效问题，一个营销活动到底有多长时间的效果，是一次的浏览，还是当天，还是一周，后者是一个月，全站的营销活动是不是相同。当然，所有人都能理解，如果用户在持续时间内清楚了cookie，不能别记录到是没问题。&lt;/span&gt;&lt;/p&gt;
 
&lt;p&gt;&lt;span style=&quot;font-size:14px&quot;&gt;另一个问题是活动的优先方式，如果一个用户有了行为结果，但是却在两个营销活动有效的营销时效内有营销活动代码的记录，究竟如何区分，到底算哪个活动的效果，是按着那个先记录算哪个，还是按着哪个后记录算哪个，还有按着活动的优先级计算，还是两个活动都算等等。&lt;/span&gt;&lt;/p&gt;&lt;p&gt;相关话题：&lt;a href=&quot;http://ucdchina.com/topic/356&quot; target=&quot;_blank&quot;&gt;数据挖掘&lt;/a&gt;&amp;nbsp;源地址：&lt;a href=&quot;http://hi.baidu.com/koob/blog/item/373cb60a1fa7a325b0351d33.html&quot; target=&quot;_blank&quot;&gt;http://hi.baidu.com/koob/blog/item/373cb60a1fa7a325b0351d33.html&lt;/a&gt;&lt;/p&gt;</description>
				<author>dong_hong1</author>
				<pubDate>2011-09-01 10:25:40</pubDate>
			</item>			<item>
				<title>数据科普──网站数据是怎么来的</title>
				<link>http://ucdchina.com/snap/10027</link>
				<description>&lt;div&gt;想要进行网站数据的分析，就先要知道网站数据是怎么来的。&lt;/div&gt;
&lt;div&gt;&amp;nbsp;&lt;/div&gt;
&lt;div&gt;用户在访问互联网的时候，会向服务器发送服务的请求。发送的请求，就被服务器以一条单独记录的方式记录在服务器的日志中，这就是最原始的网站数据日志。&lt;/div&gt;
&lt;div&gt;&amp;nbsp;&lt;/div&gt;
&lt;div&gt;&lt;strong&gt;&lt;span style=&quot;font-size:20px&quot;&gt;先看apache的日志。&lt;/span&gt;&lt;/strong&gt;&lt;/div&gt;
&lt;div&gt;&amp;nbsp;&lt;/div&gt;
&lt;div&gt;10.1.1.95 - user [18/Mar/2005:12:21:42 +0800] &amp;ldquo;GET /stats/awstats.pl?config=user HTTP/1.1&amp;Prime; 200 899 &amp;ldquo;http://10.1.1.1/pv/&amp;rdquo; &amp;ldquo;Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; Maxthon)&amp;rdquo;&lt;/div&gt;
&lt;div&gt;&amp;nbsp;&lt;/div&gt;
&lt;div&gt;以上是一条apache的标准日志。&lt;/div&gt;
&lt;div&gt;&amp;nbsp;&lt;/div&gt;
&lt;p&gt;这行内容由9项构成，上面的例子中有两项空白，但整行内容仍旧分成了9项。&lt;/p&gt;
&lt;p&gt;&amp;middot; &amp;nbsp; &amp;nbsp; &amp;nbsp;第一项信息是远程主机的地址。也就是访问者本机器的IP。服务器就是根据这个IP给访问者发回复的信息的。&lt;/p&gt;
&lt;div&gt;&amp;middot; &amp;nbsp; &amp;nbsp; &amp;nbsp;第二项是空白，用一个&amp;rdquo;-&amp;rdquo;占位符替代。实际上绝大多数时候这一项都是如此。这个位置用于记录浏览者的标识，这不只是浏览者的登录名字，而是浏览者的 email地址或者其他唯一标识符。这个信息由identd返回，或者直接由浏览器返回。很早的时候，这个位置往往记录着浏览者的email地址。然而，由于有人用它来收集邮件地址和发送垃圾邮件，所以它未能保留多久，很久之前市场上几乎所有的浏览器就取消了这项功能。因此，到了今天，我们在日志记录的第二项看到email地址的机会已经微乎其微了。&lt;/div&gt;
&lt;div&gt;&amp;middot; &amp;nbsp; &amp;nbsp; &amp;nbsp;第三项也是user。这个位置用于记录浏览者进行身份验证时提供的名字。当然，如果网站的某些内容要求用户进行身份验证，那么这项信息是不会空白的。但是，对于大多数不要求登录验证的网站来说，日志文件的大多数记录中这一项仍旧是空白的。&lt;/div&gt;
&lt;div&gt;&amp;middot; &amp;nbsp; &amp;nbsp; &amp;nbsp;日志记录的第四项是请求的时间。这个信息用方括号包围，而且采用所谓的&amp;rdquo;公共日志格式&amp;rdquo;或&amp;rdquo;标准英文格式&amp;rdquo;。因此，上例日志记录表示请求的时间是2005年3月18日12:21:42。时间信息最后的&amp;rdquo;+0800&amp;Prime;表示服务器所处时区位于世界标准时间之后的8小时，事实上国内服务器的时间都是+8000。&lt;/div&gt;
&lt;div&gt;&amp;middot; &amp;nbsp; &amp;nbsp; &amp;nbsp;日志记录的第五项信息或许是整个日志记录中最有用的信息，它告诉我们服务器收到的是一个什么样的请求。该项信息的典型格式是&amp;rdquo;方法 资源 协议&amp;rdquo;。&lt;/div&gt;
&lt;div&gt;在上例中，方法是GET，其他经常可能出现的方法还有POST和HEAD。此外还有不少可能出现的合法方法，但主要就是这三种。&lt;/div&gt;
&lt;div&gt;资源是指浏览者向服务器请求的文档，或URL。在这个例子中，浏览者请求的是&amp;rdquo;/stats/awstats.pl?config=user &amp;ldquo;。&lt;/div&gt;
&lt;div&gt;协议通常是HTTP，后面再加上版本号。&lt;/div&gt;
&lt;div&gt;&amp;middot; &amp;nbsp; &amp;nbsp; &amp;nbsp;日志记录的第六项信息是状态代码。它告诉我们请求是否成功，或者遇到了什么样的错误。大多数时候，这项值是200，它表示服务器已经成功地响应浏览器的请求，一切正常。一般地说，以2开头的状态代码表示成功，以3开头的状态代码表示由于各种不同的原因用户请求被重定向到了其他位置，以4开头的状态代码表示客户端存在某种错误，以5开头的状态代码表示服务器遇到了某个错误。&lt;/div&gt;
&lt;div&gt;&amp;middot; &amp;nbsp; &amp;nbsp; &amp;nbsp;日志记录的第七项表示发送给客户端的总字节数。它告诉我们传输是否被打断（即，该数值是否和文件的大小相同）。把日志记录中的这些值加起来就可以得知服务器在一天、一周或者一月内发送了多少数据。&lt;/div&gt;
&lt;div&gt;&amp;middot; &amp;nbsp; &amp;nbsp; &amp;nbsp;日志记录的第八项记录的是客户在提出请求时所在的目录或URL。这次的是&amp;rdquo;http://10.1.1.1/pv/&amp;rdquo;即10.1.1.1的pv目录下的首页。大多数情况下，首页会是在httpd.conf中DocumentRoot 指令后面规定的那些类型和名字的web文件。&lt;/div&gt;
&lt;div&gt;&amp;middot; &amp;nbsp; &amp;nbsp; &amp;nbsp;日志记录的第九项表示客户端的详细信息。&lt;/div&gt;
&lt;div&gt;&amp;nbsp;&lt;/div&gt;
&lt;div&gt;上面是apache日志的记录的解释。&lt;/div&gt;
&lt;div&gt;&amp;nbsp;&lt;/div&gt;
&lt;div&gt;那么换成是IIS的日志呢！　记录也大同小异，只是由identd返回的登录身份验证，由于一直是空的，变成了发送或者接受的cookie内容，还有多了一些协议的子状态的内容。&lt;/div&gt;
&lt;div&gt;&amp;nbsp;&lt;/div&gt;
&lt;div&gt;从上面可以看到，我们所有分析的大部分数据都可以得到了，但是还是有一些问题，用户点击浏览器上的前进和后退按钮，客户端的浏览器是先读取缓存的，只有在缓存找不到的情况下，才重新向服务器请求，所以服务器是否能记下用户点击了后退或者前进之后的页面，完全看页面的写法和本机的状态。&lt;/div&gt;
&lt;div&gt;&amp;nbsp;&lt;/div&gt;
&lt;div&gt;采用原始日志进行分析的，一些分的很小的ifram等的页面会被分别请求，导致打开一个页面的请求数并不一定是１，这也是原始日志的一些弊端。&lt;/div&gt;
&lt;div&gt;&amp;nbsp;&lt;/div&gt;
&lt;div&gt;同时，这些记录主要是为了跟踪服务器状态和服务器安全的，还有一些数据没有被记录下来。&lt;/div&gt;
&lt;div&gt;&amp;middot; &amp;nbsp; &amp;nbsp; &amp;nbsp;页面的之间的关系没有被记录下来，用户到底是从那个页面访问哪个页面的关系没有。&lt;/div&gt;
&lt;div&gt;&amp;middot; &amp;nbsp; &amp;nbsp; &amp;nbsp;不能区分出一个用户来的某一次访问来，尤其是对不需要就能访问的网站。&lt;/div&gt;
&lt;div&gt;&amp;middot; &amp;nbsp; &amp;nbsp; &amp;nbsp;不能记录页面的操作，尤其是点击的操作。&lt;/div&gt;
&lt;div&gt;&amp;nbsp;&lt;/div&gt;
&lt;div&gt;&lt;strong&gt;&lt;span style=&quot;font-size:20px&quot;&gt;于是一些网站制作了自己的记录方法，一般是用JS或者一个一像素图片的请求去记录这些些信息。&lt;/span&gt;&lt;/strong&gt;&lt;/div&gt;
&lt;div&gt;&amp;nbsp;&lt;/div&gt;
&lt;div&gt;这样有几个信息又被记录下来了，访问的来源页面refer，session的编号，cookie的编号，以及点击所产生的数据。并且这些数据可以被直接记录进数据库里面。&lt;/div&gt;
&lt;div&gt;&amp;nbsp;&lt;/div&gt;
&lt;div&gt;采用这样的方式，的确降低了分析的难度，并且增加了可分析的信息，但是确是牺牲了一定的准确性。可谓是有得有失。&lt;/div&gt;
&lt;div&gt;&amp;nbsp;&lt;/div&gt;
&lt;div&gt;&amp;middot; &amp;nbsp; &amp;nbsp; &amp;nbsp;首先是可记录的数据，由于是在客户端产生的，所有凡是出现服务器错误的情况，数据100%会丢失，服务器根本没有相应，怎么能出数据呢！并且，由于需要启动了js才能呢高进行数据的传送，所有数据也会有一定的丢失，一般，服务器状态不差的情况下，98%的准确率是可以被接受的。&lt;/div&gt;
&lt;p&gt;&amp;middot; &amp;nbsp; &amp;nbsp; &amp;nbsp;来源页面的数据还是会丢失，由于页面间跳转和协议的关系，来源页面中有一定的量会出现丢失的问题，　比较麻烦的是https的页面由于是采用加密的协议进行传输的，无论采用什么方法，到http的页面上都会丢失。&lt;/p&gt;
&lt;p&gt;&amp;middot; &amp;nbsp; &amp;nbsp; &amp;nbsp;受页面语言和协议的影响比较大，页面上的调用，ajax，js什么的都可能影响的记录的准确性。&lt;/p&gt;
&lt;p&gt;&amp;middot; &amp;nbsp; &amp;nbsp; &amp;nbsp;最后是所有页面都要加上代码，别小看这点，如果是页面多的话，这点上还真是个问题，那个页面如果是忘记了，都会去整体的数据产生影响。&lt;/p&gt;
&lt;p&gt;&amp;middot; &amp;nbsp; &amp;nbsp; &amp;nbsp;找不到机器的IP，这点上的IP和日志上IP有一些区别，在某些多机器共用IP的情况下，记录的不是用户最终机器上的IP而是互联网接入路由上的IP。&lt;/p&gt;
&lt;p&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;综合以上，网站分析上面，由于数据的取得方式和网站本身的程序方式的关系比较复杂，所以在分析网站数据的时候，需要比较谨慎，数据中的故障和陷阱随时都可能发生。&lt;/p&gt;&lt;p&gt;相关话题：&lt;a href=&quot;http://ucdchina.com/topic/356&quot; target=&quot;_blank&quot;&gt;数据挖掘&lt;/a&gt;&amp;nbsp;&lt;a href=&quot;http://ucdchina.com/topic/367&quot; target=&quot;_blank&quot;&gt;网站数据的分析&lt;/a&gt;&amp;nbsp;源地址：&lt;a href=&quot;http://hi.baidu.com/koob/blog/item/09dbe616c1572401962b432e.html&quot; target=&quot;_blank&quot;&gt;http://hi.baidu.com/koob/blog/item/09dbe616c1572401962b432e.html&lt;/a&gt;&lt;/p&gt;</description>
				<author>dong_hong1</author>
				<pubDate>2011-06-29 20:36:03</pubDate>
			</item>			<item>
				<title>使用tag来做数据挖掘及tag的其它用途</title>
				<link>http://ucdchina.com/snap/1950</link>
				<description>&lt;p&gt;&lt;br /&gt;&lt;span style=&quot;font-size: medium;&quot;&gt;&lt;strong&gt;google这样在用tag&lt;/strong&gt;&lt;/span&gt;&lt;/p&gt;
 
&lt;div&gt;&lt;img src=&quot;http://img.ucdchina.com/upload/snap/2009-02/3bce75e4a81f40d5ee043a45f38f9302.jpeg&quot; border=&quot;0&quot; alt=&quot;&quot; /&gt; &lt;br /&gt;google的阅读器的tag就相当于文件夹&lt;br /&gt;&lt;br /&gt; 
&lt;div&gt;&lt;img src=&quot;http://img.ucdchina.com/upload/snap/2009-02/6e182d082849c2f243289e81d3a570b2.jpeg&quot; border=&quot;0&quot; alt=&quot;&quot; /&gt;&lt;/div&gt;
 google日历的tag，用来区别不同类型的事件.在google earth里也有同样的用法，用来在地图里标识是否显示&amp;ldquo;学校 宾馆 .......&amp;rdquo;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt; 
&lt;div&gt;&lt;img src=&quot;http://img.ucdchina.com/upload/snap/2009-02/5ea6f0251eaa5faf385cc9b634dd93e3.jpeg&quot; border=&quot;0&quot; alt=&quot;&quot; /&gt;&lt;br /&gt;看到上面那个&amp;ldquo;收件箱&amp;rdquo;的tag了吗，刚开始发现的时候还真是吓我一跳，原来在收件箱里的邮件只是为该邮件加了一个&amp;ldquo;收件箱&amp;rdquo;的tag，移除这个tag该邮件就变为存档邮件了。&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;font-size: medium;&quot;&gt;&lt;strong&gt;&lt;a href=&quot;http://www.tudou.com&quot;&gt;土豆&lt;/a&gt;把一个tag做成了视频专题&lt;/strong&gt;&lt;/span&gt;&lt;/div&gt;
 
&lt;div&gt;&lt;img src=&quot;http://img.ucdchina.com/upload/snap/2009-02/4198c86fcdfb0f7e0736771efac66558.jpeg&quot; border=&quot;0&quot; alt=&quot;&quot; /&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style=&quot;font-size: medium;&quot;&gt;&lt;strong&gt;&lt;a href=&quot;http://www.koubei.com&quot;&gt;口碑&lt;/a&gt;用了很多不同类型的tag来整合信息&lt;/strong&gt;&lt;/span&gt;&lt;/div&gt;
 &lt;br /&gt; 
&lt;div&gt;&lt;img src=&quot;http://img.ucdchina.com/upload/snap/2009-02/e1254d4a298c83a62e8568b55833606f.jpeg&quot; border=&quot;0&quot; alt=&quot;&quot; /&gt;&lt;br /&gt;口碑网每个店铺有很多种标签，这些标签的来源多样，用途也多样。作为一个设计者值得去明白这些标签的来龙去脉，从口碑添加店铺，搜索店铺，添加点评，玩口碑腐败魔法都可以体会到这些标签的精到。&lt;/div&gt;
 &lt;span&gt;&lt;span&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-size: medium;&quot;&gt;&lt;strong&gt;上面简单罗列了tag的一些有趣的应用，下面主要讲讲使用tag来做数据挖掘&lt;/strong&gt;&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;http://www.zhenai.com&quot;&gt;珍爱网&lt;/a&gt;提供了长长一串的高级搜索条件，你可以保存你的搜索条件，珍爱网会定期给你推荐符合你条件的对象。我们可以把这些搜索条件看成TAG，珍爱网使用的是固定的预设的tag，更像是分类。&lt;br /&gt; 
&lt;div&gt;&lt;br /&gt;&lt;img src=&quot;http://img.ucdchina.com/upload/snap/2009-02/98bef614ca1f3e8e18d859b74b353f8b.jpeg&quot; border=&quot;0&quot; alt=&quot;&quot; /&gt;&lt;br /&gt;&lt;br /&gt;珍爱网的tag范围是少量且有限的（可以理解为分类），而对于tag范围是巨量或者说是无限的情况则可以通过长期跟踪用户在网站的行为来整理出可以作为用户数据挖掘对象的tag。比如&lt;a href=&quot;http://www.douban.com&quot;&gt;豆瓣&lt;/a&gt;的豆瓣猜，每一本书都有tag，用户关注的书对应的tag就自然也是用户关注的tag，利用这些tag就可以给用户匹配对应的书。&lt;span style=&quot;color: #ff0000;&quot;&gt;这里的关键是要给每个用户的每个tag计算一个权重值。&lt;/span&gt;&lt;/div&gt;
 &lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;也许我们可以让用户来设置自己的tag&lt;/strong&gt;&lt;br /&gt;&lt;br /&gt; 
&lt;div&gt;
&lt;div&gt;&lt;img src=&quot;http://img.ucdchina.com/upload/snap/2009-02/5e4daf9c124bc0780e3c4ca8c78cbfae.jpeg&quot; border=&quot;0&quot; alt=&quot;&quot; /&gt;&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
 
&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;相关话题：&lt;a href=&quot;http://ucdchina.com/topic/164&quot; target=&quot;_blank&quot;&gt;标签(tag)和分类&lt;/a&gt;&amp;nbsp;&lt;a href=&quot;http://ucdchina.com/topic/356&quot; target=&quot;_blank&quot;&gt;数据挖掘&lt;/a&gt;&amp;nbsp;源地址：&lt;a href=&quot;http://hi.baidu.com/mooqii/blog/item/6032e3f4227401e87709d716.html&quot; target=&quot;_blank&quot;&gt;http://hi.baidu.com/mooqii/blog/item/6032e3f4227401e87709d716.html&lt;/a&gt;&lt;/p&gt;</description>
				<author>mooqii</author>
				<pubDate>2009-02-05 04:52:04</pubDate>
			</item>			<item>
				<title>腾讯鲜为人知的重武器 之 秘密武器“数据挖掘”</title>
				<link>http://ucdchina.com/snap/4878</link>
				<description>&lt;p&gt;&lt;span&gt;在深圳跟一些业内人士聊天，他们甚至认为，腾讯一个最具门槛性的核心竞争力是&amp;ldquo;数据挖掘&amp;rdquo;。数据挖掘不是一个新词，比如微软、戴尔，他们都是真正的高手，甚至有一条数字管理神经。数据挖掘的真正含义是，他们就像水质检测仪，面对一个数亿记的消费群，谁能把握消费之水的流动，谁就掌握了规则。&lt;/span&gt;&lt;/p&gt;
 
&lt;p&gt;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&amp;mdash;&lt;/p&gt;
 
&lt;p&gt;&amp;nbsp;&lt;/p&gt;
 
&lt;p&gt;像马化腾一样关注产品的互联网CEO还有不少，比如丁磊和史玉柱，他们也是著名的用户体验派。但是，马化腾用户体验战略的冰山下面，还隐藏着一个不为人知的巨大基座。&lt;/p&gt;
 
&lt;p&gt;&lt;br /&gt; 这一冰山基座就是数据挖掘系统，就是从大量数据中获取有效的、新颖的、潜在可用的、最终可理解的信息，以辅佐公司战略的数字神经系统。这是一个真正的重武器，即使整个中国互联网，真正拥有这一系统的公司也极少，只有那些具备平台级优势的公司才拥有&amp;mdash;&amp;mdash;腾讯、百度、阿里巴巴、盛大。&lt;/p&gt;
 
&lt;p&gt;&lt;br /&gt; 五年前开始，马化腾开始要求各条业务线的主管每天给他发送一封反映业务指标数字的邮件，内容包括包月用户是多少？增加了多少？减少了多少？跟上个周同日比，或者说是跟上个月同日比？分别升跌了多少？有什么异动？&amp;ldquo;这个是需要每天都去关注的东西，如果说你做管理者不去看这些东西的话，很久才看一下，中间会错掉很多东西，或者说你反应速度会慢很多。&amp;rdquo;马化腾说。&lt;/p&gt;
 
&lt;p&gt;&lt;br /&gt; 不仅自己看数字，马化腾也要求每一个高管、部门负责人、甚至产品经理也要对数字保持密切关注。&lt;/p&gt;
 
&lt;p&gt;&lt;br /&gt; 去年底，马化腾开始把数字经营的理念引入到腾讯门户网站的运营管理中，&amp;ldquo;原来广告就有点粗放，往往都是季度末才开始冲业绩，找代理，今年开始就每天都有一封信，上面有广告资源的消耗，黄金位置消耗了多少等。为什么会这样？过去他们还没有建立这样的体系，今年我们就开始要求他们每天要看，所有的网络媒体、广告销售部门的领导班子，每人一封信都会看到这个数字，培养这种数字运营的感觉，很重要的。大家就不会人浮于事，到最后找各种理由来推托。有什么事应该早知道，要多问。希望靠这种思路能够把我们每一块业务都带起来。&amp;rdquo;&lt;/p&gt;
 
&lt;p&gt;&lt;br /&gt; 数据是每一家互联网公司安身立命的基础之一，不过像腾讯这样长期坚持以数据为导向的公司并不多。1999年，腾讯刚刚成立不久，当时天使投资人刘晓松决定向腾讯注资的一个主要原因就是因为他发现，&amp;ldquo;当时虽然他们的公司还很小,但已经有用户运营的理念,后台对于用户的每一个动作都有记录和分析。&amp;rdquo;&lt;/p&gt;
 
&lt;p&gt;&lt;br /&gt; 在成为用户最多的互联网公司后，腾讯所掌握的用户数据量日益丰富，挖掘这些数据成为腾讯后来在多元业务扩展时屡试不爽的重武器。有分析人士甚至说，&amp;ldquo;数据挖掘&amp;rdquo;才是腾讯最具门槛性质的技术。在中国，腾讯绝对是数据挖掘的高手，但是和微软这类国际强者比起来，仍是起步阶段。&lt;/p&gt;
 
&lt;p&gt;&lt;br /&gt; 数据挖掘的更深层部分是腾讯在IDC(互联网数据中心)上的积累，比如高速上传、大容量邮件传输的后台及基础技术支持。&amp;ldquo;我们每一天用户上传的照片数，可能就是中国一个其他的互联网公司一个月的数据量。&amp;rdquo;&lt;br /&gt; 2007年，腾讯成立了腾讯研究院，研究院共有六大研究方向，数据挖掘正是其中之一，&amp;ldquo;以用户为中心，如果你对用户什么都不了解，那是空话。&amp;rdquo;郑全战说。&lt;/p&gt;
 
&lt;p&gt;&lt;br /&gt; &amp;ldquo;用户一尝试，用一两秒钟就退出来了，这说明这个可能没做好，而不是他不想用。或者他连光顾都不光顾，没这个需求。这是通过我们后台都可以看出来。我们也有对竞争产品相同功能的一些监测，这样的话我们可以有个比较，比如一个功能用户（在竞争产品上）停留了二十分钟，我们这边只有五分钟，那说明我们的性能有问题。&amp;rdquo;郑全战介绍。&lt;/p&gt;
 
&lt;p&gt;&lt;br /&gt; 数据挖掘还有一个特种部队，T4专家组。T4就是专家工程师，在腾讯的技术职业路径里，一共6级，从T1（工程师）到T6（首席科学家），T4是一个中流砥柱般的存在，必须做过亿次级的用户量级才能当选，目前不到50人。一旦遇到重大的产品难题，由T4组成的特别小组就会加入，他们亿次级用户量级的经验将发挥作用。&lt;/p&gt;
 
&lt;p&gt;&lt;br /&gt; 对用户的数据挖掘后来在腾讯网络游戏的崛起中也发挥了大作用。腾讯从2003年开始运营网络游戏，曾遭遇挫折，直到2008年，腾讯才在多个细分市场找到了合适的韩国游戏作品，在代理韩国游戏的过程中，腾讯提出来要介入所代理游戏的研发，例如对《穿越火线》中子弹射出后的弹道设置，腾讯根据对用户的挖掘数据认为，韩方原本设计的逼真效果对中国用户并不合适，用户对腾讯设计出的&amp;ldquo;比较爽快的，节奏快的，鲜明的&amp;rdquo;的弹道设计更加兴奋。最后的结果表明，腾讯是对的。&lt;/p&gt;
 
&lt;p&gt;&lt;br /&gt; 腾讯强大的数据挖掘和产品能力仅有的几次失效出现在搜索和电子商务。搜索的技术门槛颇高，&amp;ldquo;搜索的研发需要时间。&amp;rdquo;马化腾说。&lt;/p&gt;
 
&lt;p&gt;&lt;br /&gt; &amp;ldquo;那是最难了。&amp;rdquo;马化腾承认腾讯拍拍网在C2C领域的处境困难。&amp;ldquo;C2C是有很强的网络效应，不是你单方面做好系统就行了，还要买家、卖家都要一起成长，如果是卖家不多，买家自己不来；买家不来，那卖家也不愿意在里面花精力去伺候你，淘宝应该说是占了很大的先发优势。&amp;rdquo;&lt;/p&gt;
 
&lt;p&gt;&lt;br /&gt; 对数据的挖掘不仅可以用来进行用户研究，还大大提升了腾讯的运营效率。早期，腾讯曾经过度使用群发广告来推广产品，这样的大规模推送广告不仅&amp;ldquo;大部分是浪费掉的，而且还引起很多人的反感&amp;rdquo;。这两年，腾讯开始进行推广资源的控制。&lt;/p&gt;
 
&lt;p&gt;&lt;br /&gt; 比如，公司分配给业务单位的群发数保持恒定，同时公司的战略发展部门派出一个小组来专门管控群发广告的效率，这个小组会先给业务部门做测试，比如业务部门要发几千万条广告，就会被要求先发几万条试一下，一旦发现效果不好，必须进行修改，或者是更换广告发送的用户群，如果广告后发送的点击率和用户满意度下降，下个月分配给这个业务的推广预算就会被扣除，反之，如果效率高，这个产品就会得到更多的营销资源奖励。这一模式逼迫得业务部门对用户数据挖掘得更加精细后才会进行广告群发。&amp;ldquo;要靠这个奖惩来控制营销的资源&amp;rdquo;。&lt;/p&gt;
 
&lt;p&gt;&lt;br /&gt; 这一制度执行的结果是，&amp;ldquo;起码把四分之三的水分挤掉了，只有以前四分之一的推广量，但是效果其实没有变化太大。&amp;rdquo;马化腾说。&lt;/p&gt;
 
&lt;p&gt;&amp;nbsp;&lt;/p&gt;
 
&lt;p&gt;&amp;nbsp;&lt;/p&gt;
 
&lt;p&gt;&amp;nbsp;&lt;/p&gt;
 
&lt;p&gt;&amp;nbsp;&lt;/p&gt;&lt;p&gt;相关话题：&lt;a href=&quot;http://ucdchina.com/topic/281&quot; target=&quot;_blank&quot;&gt;腾讯的模仿与创新&lt;/a&gt;&amp;nbsp;&lt;a href=&quot;http://ucdchina.com/topic/356&quot; target=&quot;_blank&quot;&gt;数据挖掘&lt;/a&gt;&amp;nbsp;源地址：&lt;a href=&quot;http://blog.sina.com.cn/s/blog_53bfd67a0100fhqk.html&quot; target=&quot;_blank&quot;&gt;http://blog.sina.com.cn/s/blog_53bfd67a0100fhqk.html&lt;/a&gt;&lt;/p&gt;</description>
				<author>金错刀</author>
				<pubDate>2009-10-15 20:38:06</pubDate>
			</item>			<item>
				<title>数据挖掘是神马</title>
				<link>http://ucdchina.com/snap/8585</link>
				<description>&lt;div&gt;&lt;strong&gt;&lt;span style=&quot;color: #800000;&quot;&gt; 
&lt;div&gt;&lt;font face=&quot;楷体_gb2312&quot;&gt;&lt;/font&gt;&lt;/div&gt;
&lt;font face=&quot;楷体_gb2312&quot;&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&lt;font face=&quot;楷体_gb2312&quot;&gt;&lt;/font&gt; 
&lt;div&gt;&lt;strong&gt;&lt;font face=&quot;楷体_gb2312&quot; color=&quot;#800000&quot;&gt;1、数据挖掘需要&amp;lsquo;神马样&amp;rsquo;的流程？&lt;/font&gt;&lt;/strong&gt;&lt;/div&gt;
 
&lt;div&gt;&lt;font face=&quot;楷体_gb2312&quot;&gt;&lt;img style=&quot;MARGIN: 0px 10px 0px 0px; WIDTH: 554px; HEIGHT: 388px&quot; title=&quot;数据挖掘必须了解几个概念 - Data Mining - 数据挖掘数据分析&quot; src=&quot;http://img.ucdchina.com/upload/snap/2010-11/c354c16f7b561e2d92b0eb607b0c5268.jpeg&quot; alt=&quot;数据挖掘必须了解几个概念 - Data Mining - 数据挖掘数据分析&quot; width=&quot;504&quot; height=&quot;353&quot; /&gt;&lt;/font&gt;&lt;/div&gt;
 
&lt;div&gt;&lt;strong&gt;&lt;font face=&quot;楷体_gb2312&quot; color=&quot;#800000&quot;&gt;&amp;nbsp;2、哥，有没有详细点的，来个给力的！&lt;/font&gt;&lt;/strong&gt;&lt;/div&gt;
 
&lt;div&gt;
&lt;div&gt;&lt;font face=&quot;楷体_gb2312&quot;&gt;&lt;img style=&quot;MARGIN: 0px 10px 0px 0px&quot; title=&quot;数据挖掘是&amp;lsquo;神马&amp;rsquo; - Data Mining - 数据挖掘数据分析&quot; src=&quot;http://img.ucdchina.com/upload/snap/2010-11/51af3c49f94e24e672c7ae5bb99b8d47.jpeg&quot; alt=&quot;数据挖掘是&amp;lsquo;神马&amp;rsquo; - Data Mining - 数据挖掘数据分析&quot; width=&quot;641&quot; height=&quot;463&quot; /&gt;&lt;/font&gt;&lt;/div&gt;
&lt;font face=&quot;楷体_gb2312&quot;&gt;&amp;nbsp;&lt;/font&gt;&lt;/div&gt;
 
&lt;div&gt;&lt;strong&gt;&lt;font color=&quot;#800000&quot;&gt;&lt;/font&gt;&lt;/strong&gt;&lt;font face=&quot;楷体_gb2312&quot;&gt;&amp;nbsp;&lt;/font&gt;&lt;/div&gt;
 
&lt;div&gt;&lt;strong&gt;&lt;font face=&quot;楷体_gb2312&quot; color=&quot;#800000&quot;&gt;3、数据挖掘在商业上的理解是？&lt;/font&gt;&lt;/strong&gt;&lt;/div&gt;
&lt;font face=&quot;楷体_gb2312&quot;&gt;&amp;nbsp; &lt;/font&gt; 
&lt;div&gt;&lt;font face=&quot;楷体_gb2312&quot;&gt;&lt;img style=&quot;MARGIN: 0px 10px 0px 0px&quot; title=&quot;数据挖掘必须了解几个概念 - Data Mining - 数据挖掘数据分析&quot; src=&quot;http://img.ucdchina.com/upload/snap/2010-11/f9549168655b962c8ef4136c9707abf8.jpeg&quot; alt=&quot;数据挖掘必须了解几个概念 - Data Mining - 数据挖掘数据分析&quot; /&gt;&lt;/font&gt;&lt;/div&gt;
 
&lt;div&gt;&lt;strong&gt;&lt;font face=&quot;楷体_gb2312&quot; color=&quot;#800000&quot;&gt;4、数据在统计意义上有哪些类型？&lt;/font&gt;&lt;/strong&gt;&lt;/div&gt;
 
&lt;div&gt;
&lt;div&gt;&lt;font face=&quot;楷体_gb2312&quot;&gt;&lt;img style=&quot;MARGIN: 0px 10px 0px 0px&quot; title=&quot;数据挖掘必须了解几个概念 - Data Mining - 数据挖掘数据分析&quot; src=&quot;http://img.ucdchina.com/upload/snap/2010-11/7bbbb7aab2dd30879079972e2342ded4.jpeg&quot; alt=&quot;数据挖掘必须了解几个概念 - Data Mining - 数据挖掘数据分析&quot; /&gt;&lt;/font&gt;&lt;/div&gt;
 
&lt;div&gt;&lt;strong&gt;&lt;font face=&quot;楷体_gb2312&quot; color=&quot;#800000&quot;&gt;5、他们的含义是什么呢？&lt;/font&gt;&lt;/strong&gt;&lt;/div&gt;
 
&lt;div&gt;
&lt;div&gt;&lt;font face=&quot;楷体_gb2312&quot;&gt;&lt;img style=&quot;MARGIN: 0px 10px 0px 0px&quot; title=&quot;数据挖掘必须了解几个概念 - Data Mining - 数据挖掘数据分析&quot; src=&quot;http://img.ucdchina.com/upload/snap/2010-11/2a24dca1d11f0f58c159cad5c8d439a6.jpeg&quot; alt=&quot;数据挖掘必须了解几个概念 - Data Mining - 数据挖掘数据分析&quot; /&gt;&lt;/font&gt;&lt;/div&gt;
 
&lt;div&gt;&lt;font face=&quot;楷体_gb2312&quot; color=&quot;#800000&quot;&gt;&lt;strong&gt;6、基本的探测指标有哪些？&lt;/strong&gt;&lt;/font&gt;&lt;/div&gt;
 
&lt;div&gt;&lt;font face=&quot;楷体_gb2312&quot;&gt;&lt;img style=&quot;MARGIN: 0px 10px 0px 0px&quot; title=&quot;数据挖掘必须了解几个概念 - Data Mining - 数据挖掘数据分析&quot; src=&quot;http://img.ucdchina.com/upload/snap/2010-11/b8b9f8a2399438144d1356a0b344f42d.jpeg&quot; alt=&quot;数据挖掘必须了解几个概念 - Data Mining - 数据挖掘数据分析&quot; /&gt;&lt;/font&gt;&lt;/div&gt;
 
&lt;div&gt;&lt;strong&gt;&lt;font face=&quot;楷体_gb2312&quot; color=&quot;#800000&quot;&gt;7、数据挖掘的算法有哪些呢？&lt;/font&gt;&lt;/strong&gt;&lt;/div&gt;
 
&lt;div&gt;
&lt;div&gt;&lt;font face=&quot;楷体_gb2312&quot;&gt;&lt;img style=&quot;MARGIN: 0px 10px 0px 0px&quot; title=&quot;数据挖掘必须了解几个概念 - Data Mining - 数据挖掘数据分析&quot; src=&quot;http://img.ucdchina.com/upload/snap/2010-11/98baf585db9711d12344a09bfdd5183c.jpeg&quot; alt=&quot;数据挖掘必须了解几个概念 - Data Mining - 数据挖掘数据分析&quot; /&gt;&lt;/font&gt;&lt;/div&gt;
 
&lt;div&gt;&lt;strong&gt;&lt;font face=&quot;楷体_gb2312&quot; color=&quot;#800000&quot;&gt;8、需要掌握的工具有哪些？&lt;/font&gt;&lt;/strong&gt;&lt;/div&gt;
 
&lt;div&gt;
&lt;div&gt;&lt;font face=&quot;楷体_gb2312&quot;&gt;&lt;img style=&quot;MARGIN: 0px 10px 0px 0px&quot; title=&quot;数据挖掘必须了解几个概念 - Data Mining - 数据挖掘数据分析&quot; src=&quot;http://img.ucdchina.com/upload/snap/2010-11/ca01e01530b1618358a70883eef6a759.jpeg&quot; alt=&quot;数据挖掘必须了解几个概念 - Data Mining - 数据挖掘数据分析&quot; /&gt;&lt;/font&gt;&lt;/div&gt;
 
&lt;div&gt;&lt;strong&gt;&lt;font face=&quot;楷体_gb2312&quot; color=&quot;#800000&quot;&gt;9、知道这些工具不知道如何在工作中用呀？有没有&amp;lsquo;浮云&amp;rsquo;般的角度？&lt;/font&gt;&lt;/strong&gt;&lt;/div&gt;
 
&lt;div&gt;&lt;font face=&quot;楷体_gb2312&quot;&gt;&amp;nbsp; &lt;/font&gt; 
&lt;div&gt;&lt;font face=&quot;楷体_gb2312&quot;&gt;&lt;img style=&quot;MARGIN: 0px 10px 0px 0px&quot; title=&quot;数据挖掘是&amp;lsquo;神马&amp;rsquo; - Data Mining - 数据挖掘数据分析&quot; src=&quot;http://img.ucdchina.com/upload/snap/2010-11/1db17148f1afbdd26d879fbdaa4aaf85.jpeg&quot; alt=&quot;数据挖掘是&amp;lsquo;神马&amp;rsquo; - Data Mining - 数据挖掘数据分析&quot; width=&quot;632&quot; height=&quot;431&quot; /&gt;&lt;/font&gt;&lt;/div&gt;
&lt;font face=&quot;楷体_gb2312&quot;&gt;&amp;nbsp;&lt;/font&gt;&lt;/div&gt;
 
&lt;div&gt;&lt;strong&gt;&lt;font face=&quot;楷体_gb2312&quot; color=&quot;#800000&quot;&gt;10、结果如何可视化的展现？&lt;/font&gt;&lt;/strong&gt;&lt;/div&gt;
 
&lt;div&gt;&lt;font face=&quot;楷体_gb2312&quot;&gt;&lt;img style=&quot;MARGIN: 0px 10px 0px 0px&quot; title=&quot;数据挖掘必须了解几个概念 - Data Mining - 数据挖掘数据分析&quot; src=&quot;http://img.ucdchina.com/upload/snap/2010-11/6541bbe4127534d3a317a5f575f30239.jpeg&quot; alt=&quot;数据挖掘必须了解几个概念 - Data Mining - 数据挖掘数据分析&quot; /&gt;&lt;/font&gt;&lt;/div&gt;
 
&lt;div&gt;&lt;strong&gt;&lt;font face=&quot;楷体_gb2312&quot; color=&quot;#800000&quot;&gt;11、还有没有更人性化、智能化的展现？&lt;/font&gt;&lt;/strong&gt;&lt;/div&gt;
 
&lt;div&gt;&lt;font face=&quot;楷体_gb2312&quot;&gt;&amp;nbsp;&lt;/font&gt;&lt;/div&gt;
 
&lt;div&gt;&lt;font face=&quot;楷体_gb2312&quot;&gt;&lt;img style=&quot;MARGIN: 0px 10px 0px 0px&quot; title=&quot;数据挖掘必须了解几个概念 - Data Mining - 数据挖掘数据分析&quot; src=&quot;http://img.ucdchina.com/upload/snap/2010-11/6f73e52380ebfb87d3b4ec29b50c15c5.jpeg&quot; alt=&quot;数据挖掘必须了解几个概念 - Data Mining - 数据挖掘数据分析&quot; width=&quot;528&quot; height=&quot;443&quot; /&gt;&lt;/font&gt;&lt;/div&gt;
 
&lt;div&gt;&lt;strong&gt;&lt;font face=&quot;楷体_gb2312&quot; color=&quot;#800000&quot;&gt;12、上面这图看起来很给力，背后很复杂吧？&lt;/font&gt;&lt;/strong&gt;&lt;/div&gt;
 
&lt;div&gt;
&lt;div&gt;&lt;font face=&quot;楷体_gb2312&quot;&gt;&lt;img style=&quot;MARGIN: 0px 10px 0px 0px&quot; title=&quot;数据挖掘是&amp;lsquo;神马&amp;rsquo; - Data Mining - 数据挖掘数据分析&quot; src=&quot;http://img.ucdchina.com/upload/snap/2010-11/ca8d1611779f74bc0a0131076b9451a5.jpeg&quot; alt=&quot;数据挖掘是&amp;lsquo;神马&amp;rsquo; - Data Mining - 数据挖掘数据分析&quot; width=&quot;549&quot; height=&quot;251&quot; /&gt;&lt;/font&gt;&lt;/div&gt;
&lt;font face=&quot;楷体_gb2312&quot;&gt;&amp;nbsp;&lt;/font&gt;&lt;/div&gt;
 
&lt;div&gt;&lt;strong&gt;&lt;font face=&quot;楷体_gb2312&quot; color=&quot;#800000&quot;&gt;13、职业的发展道路如何？&lt;/font&gt;&lt;/strong&gt;&lt;/div&gt;
 
&lt;div&gt;
&lt;div&gt;&lt;font face=&quot;楷体_gb2312&quot;&gt;&lt;img style=&quot;MARGIN: 0px 10px 0px 0px&quot; title=&quot;数据挖掘必须了解几个概念 - Data Mining - 数据挖掘数据分析&quot; src=&quot;http://img.ucdchina.com/upload/snap/2010-11/423bb370fcd5ed6c22a5a7bc24573a86.jpeg&quot; alt=&quot;数据挖掘必须了解几个概念 - Data Mining - 数据挖掘数据分析&quot; /&gt;&lt;/font&gt;&lt;/div&gt;
&lt;font face=&quot;楷体_gb2312&quot;&gt;&amp;nbsp;&lt;/font&gt;&lt;/div&gt;
 
&lt;div&gt;&lt;strong&gt;&lt;font face=&quot;楷体_gb2312&quot; color=&quot;#800000&quot;&gt;&amp;nbsp;14、我的性格适合吗？（有志者，事竟成）&lt;/font&gt;&lt;/strong&gt;&lt;/div&gt;
 
&lt;div&gt;
&lt;div&gt;&lt;font face=&quot;楷体_gb2312&quot;&gt;&lt;img style=&quot;MARGIN: 0px 10px 0px 0px&quot; title=&quot;数据挖掘必须了解几个概念 - Data Mining - 数据挖掘数据分析&quot; src=&quot;http://img.ucdchina.com/upload/snap/2010-11/cc39f8388c51be295b09c39cafa56067.jpeg&quot; alt=&quot;数据挖掘必须了解几个概念 - Data Mining - 数据挖掘数据分析&quot; /&gt; &lt;/font&gt; 
&lt;div&gt;&lt;strong&gt;&lt;font face=&quot;楷体_gb2312&quot; color=&quot;#800000&quot;&gt;15、都说这行很累？NO！ 懂得生活。。。。&lt;/font&gt;&lt;/strong&gt;&lt;/div&gt;
 
&lt;div&gt;
&lt;div&gt;&lt;font face=&quot;楷体_gb2312&quot;&gt;&lt;img style=&quot;MARGIN: 0px 10px 0px 0px&quot; title=&quot;数据挖掘是&amp;lsquo;神马&amp;rsquo; - Data Mining - 数据挖掘数据分析&quot; src=&quot;http://img.ucdchina.com/upload/snap/2010-11/f71aa204a1555b155c296dc107ce6056.jpeg&quot; alt=&quot;数据挖掘是&amp;lsquo;神马&amp;rsquo; - Data Mining - 数据挖掘数据分析&quot; /&gt;&lt;/font&gt;&lt;/div&gt;
&lt;/div&gt;
 
&lt;div&gt;&lt;strong&gt;&lt;font face=&quot;楷体_gb2312&quot; color=&quot;#800000&quot;&gt;&amp;nbsp;16、转载的留个来源&amp;nbsp;，毕竟是我辛苦收集和想出来的，谢谢！&lt;/font&gt;&lt;/strong&gt;&lt;/div&gt;
 
&lt;div&gt;&lt;strong&gt;&lt;font color=&quot;#800000&quot;&gt; 
&lt;div&gt;&lt;font face=&quot;楷体_gb2312&quot;&gt;&lt;img style=&quot;MARGIN: 0px 10px 0px 0px&quot; title=&quot;数据挖掘是&amp;lsquo;神马&amp;rsquo; - Data Mining - 数据挖掘数据分析&quot; src=&quot;http://img.ucdchina.com/upload/snap/2010-11/48930b22dcd6dedc9bf29a9585ada831.jpeg&quot; alt=&quot;数据挖掘是&amp;lsquo;神马&amp;rsquo; - Data Mining - 数据挖掘数据分析&quot; /&gt;&lt;/font&gt;&lt;/div&gt;
&lt;font face=&quot;楷体_gb2312&quot;&gt;&amp;nbsp;&amp;nbsp; &lt;/font&gt;&lt;/font&gt;&lt;/strong&gt;&lt;/div&gt;
&lt;font face=&quot;楷体_gb2312&quot;&gt;&amp;nbsp;&lt;/font&gt;&lt;/div&gt;
&lt;font face=&quot;楷体_gb2312&quot;&gt;&amp;nbsp;&lt;/font&gt;&lt;/div&gt;
 
&lt;div&gt;
&lt;div&gt;&lt;font face=&quot;楷体_gb2312&quot;&gt;&amp;nbsp;&lt;/font&gt;&lt;/div&gt;
&lt;font face=&quot;楷体_gb2312&quot;&gt;&amp;nbsp;&lt;/font&gt;&lt;/div&gt;
&lt;font face=&quot;楷体_gb2312&quot;&gt;&amp;nbsp;&lt;/font&gt;&lt;/div&gt;
&lt;font face=&quot;楷体_gb2312&quot;&gt;&amp;nbsp;&lt;/font&gt;&lt;/div&gt;
 
&lt;div&gt;&lt;font face=&quot;楷体_gb2312&quot;&gt;&amp;nbsp;&lt;/font&gt;&lt;/div&gt;
&lt;font face=&quot;楷体_gb2312&quot;&gt;&amp;nbsp;&lt;/font&gt;&lt;/div&gt;
&lt;font face=&quot;楷体_gb2312&quot;&gt;&amp;nbsp;&lt;/font&gt;&lt;/div&gt;
&lt;/font&gt;&lt;/span&gt;&lt;/strong&gt;&lt;/div&gt;&lt;p&gt;相关话题：&lt;a href=&quot;http://ucdchina.com/topic/356&quot; target=&quot;_blank&quot;&gt;数据挖掘&lt;/a&gt;&amp;nbsp;源地址：&lt;a href=&quot;http://spss-market.r.blog.163.com/&quot; target=&quot;_blank&quot;&gt;http://spss-market.r.blog.163.com/&lt;/a&gt;&lt;/p&gt;</description>
				<author>Data mining</author>
				<pubDate>2010-11-28 20:33:45</pubDate>
			</item>			<item>
				<title>数据挖掘过程体会</title>
				<link>http://ucdchina.com/snap/8735</link>
				<description>&lt;p&gt;快要过年了，年底却不亦乐呼，就写写我对数据挖掘过程的体会吧！&lt;/p&gt;
 
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;&lt;img style=&quot;margin: 0px 10px 0px 0px;&quot; title=&quot;数据挖掘过程体会 - Data Mining - 数据挖掘与数据分析&quot; src=&quot;http://img229.ph.126.net/ZK-TFzd5Mu5EBj-OUMa3Gg==/1463106928943340917.jpg&quot; alt=&quot;数据挖掘过程体会 - Data Mining - 数据挖掘与数据分析&quot; width=&quot;470&quot; height=&quot;315&quot; /&gt;&lt;/div&gt;
 &amp;nbsp;&lt;/div&gt;
 &amp;nbsp;&lt;/div&gt;
&lt;/div&gt;
 
&lt;p&gt;&lt;a href=&quot;http://img154.ph.126.net/EnRA5BBGLOd-oEPABahMvw==/1486750826987056813.jpg&quot; target=&quot;_blank&quot;&gt;&lt;/a&gt;&lt;/p&gt;
 
&lt;p&gt;&lt;strong&gt;&lt;span style=&quot;color: #800000;&quot;&gt;Step1.&lt;/span&gt;&lt;/strong&gt;&lt;/p&gt;
 
&lt;p&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; 就是商业问题的理解了，那么如何更好的理解&amp;ldquo;老大&amp;rdquo;提出的商业问题困惑呢？我觉得思维导图倒是个不错的选择，当然自己要想更好的理解&amp;ldquo;老大&amp;rdquo;的意思还需要进一步的沟通，商业问题的理解关系到这个挖掘项目的价值，甚至成败，所以在这块大家要显得&amp;ldquo;外向&amp;rdquo;一些，多交流、多沟通、多了解这个商业问题背后的东东；&lt;/p&gt;
 
&lt;p&gt;&lt;a href=&quot;http://img246.ph.126.net/VqWR0UvyC4aY_RhS4gHHuw==/2239414914711227130.jpg&quot; target=&quot;_blank&quot;&gt;&lt;/a&gt;&lt;/p&gt;
 
&lt;div&gt;&lt;img style=&quot;margin: 0px 10px 0px 0px;&quot; title=&quot;数据挖掘过程体会 - Data Mining - 数据挖掘与数据分析&quot; src=&quot;http://img246.ph.126.net/VqWR0UvyC4aY_RhS4gHHuw==/2239414914711227130.jpg&quot; alt=&quot;数据挖掘过程体会 - Data Mining - 数据挖掘与数据分析&quot; /&gt;&lt;/div&gt;
 
&lt;p&gt;&lt;span style=&quot;color: #800000;&quot;&gt;&lt;strong&gt;step2.&lt;/strong&gt;&lt;/span&gt;&lt;/p&gt;
 
&lt;p&gt;&amp;nbsp;&amp;nbsp; &amp;nbsp; &amp;nbsp;接下来就是需要提取的字段，也就是数据挖掘的宽表，这点就要和企业的DBA人员多多交流，看数据库中各个维度的表格都有什么字段，主要关联的主键有那些，那么如何选取字段呢？这就需要自己把自己与&amp;ldquo;老大&amp;rdquo;共同讨论的思维导图拿出来看看，这样就有提取那些字段的感觉了，这部分大多数的提取是自己对商业问题的感觉或者一些前辈的经验；&lt;/p&gt;
 
&lt;p&gt;&lt;span style=&quot;color: #800000;&quot;&gt;&lt;strong&gt;Step3&lt;/strong&gt;&lt;/span&gt;&lt;/p&gt;
 
&lt;p&gt;&lt;span style=&quot;color: #800000;&quot;&gt;&lt;strong&gt;&amp;nbsp;&amp;nbsp; &amp;nbsp;&amp;nbsp; &lt;/strong&gt;&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;数据的ETL，这部分一般的时间占数据挖掘项目的70%左右，为什么数据的ETL如此重要呢？万丈高楼平地起，如果连地基都是&amp;ldquo;豆腐渣工程&amp;rdquo;的话，那么再华丽的楼房也没人愿意掏腰包；嘿嘿，开个玩笑；数据的ETL主要是一些异常值、空值（miss值）、错误数值的处理，这部分一般需要根据数据自身的分布、简单的统计知识、该字段体现的业务特点、自己的经验进行的，也就是这一部分的处理主要是统计知识+项目经验+业务特点；&lt;/span&gt;&lt;/p&gt;
 
&lt;div&gt;&lt;img style=&quot;margin: 0px 10px 0px 0px;&quot; title=&quot;数据挖掘过程体会 - Data Mining - 数据挖掘与数据分析&quot; src=&quot;http://img154.ph.126.net/KeGvJt96hKOOHfxYwM23Dw==/2274036336846754449.jpg&quot; alt=&quot;数据挖掘过程体会 - Data Mining - 数据挖掘与数据分析&quot; width=&quot;530&quot; height=&quot;264&quot; /&gt;&lt;/div&gt;
 
&lt;p&gt;&amp;nbsp;&lt;/p&gt;
 
&lt;p&gt;&lt;strong&gt;&lt;span style=&quot;color: #800000;&quot;&gt;Step4&lt;/span&gt;&lt;/strong&gt;&lt;/p&gt;
 
&lt;p&gt;&amp;nbsp;&amp;nbsp; &amp;nbsp;&amp;nbsp; 建立模型所需要的变量如何选？当然目标变量（Y）一般都是事前设定好的，那么X如何找呢？大多数都是应用相关分析、特征选择、描述性的统计图表（分箱图、散点图等），这里我只想说一句算法是死的，有时候我们根据算法得出来的X对Y没有影响，但在实际的业务中影响却很大，所以大家不要过于依赖算法、工具，我曾经因为这点，被人批了，555~~~~~&lt;/p&gt;
 
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;
&lt;div&gt;&lt;img style=&quot;margin: 0px 10px 0px 0px;&quot; title=&quot;数据挖掘过程体会 - Data Mining - 数据挖掘与数据分析&quot; src=&quot;http://img616.ph.126.net/e-jYH69wpJG2omcpBSKGtQ==/1984680060788459557.jpg&quot; alt=&quot;数据挖掘过程体会 - Data Mining - 数据挖掘与数据分析&quot; width=&quot;377&quot; height=&quot;280&quot; /&gt;&lt;/div&gt;
 &amp;nbsp;&lt;strong&gt;&lt;span style=&quot;color: #800000;&quot;&gt;&amp;nbsp;Step5&lt;/span&gt;&lt;/strong&gt;&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
 
&lt;p&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; 建立数据挖掘模型，这块是许多同行相当痴迷的地方，我也不例外，记得大学毕业去北京的时候，就在咨询公司研究算法什么的，后来经过leader的几次谈话，自己才慢慢走出了误区；一句话，我们追求的是模型带来的效益，所以没那么多时间去玩模型、搞算法；但是作为数据挖掘从业者，最基本的应该是了解各种算法的原理，还有一些数据挖掘模型参数的意义，比如在spss clementine中就有自定义和专家两个供大家选择，所以掌握一些参数的意义也是有必要的，大家可以上网下一些人大数据挖掘的视频教程，里面讲的比较详细；&lt;/span&gt;&lt;/p&gt;
 
&lt;div&gt;&lt;img style=&quot;margin: 0px 10px 0px 0px;&quot; title=&quot;数据挖掘过程体会 - Data Mining - 数据挖掘与数据分析&quot; src=&quot;http://img.ph.126.net/zIV-YtgR8FZc5pEqrQ3WDA==/3350678122763802690.jpg&quot; alt=&quot;数据挖掘过程体会 - Data Mining - 数据挖掘与数据分析&quot; width=&quot;588&quot; height=&quot;317&quot; /&gt;&lt;/div&gt;
 
&lt;p&gt;&amp;nbsp;&lt;/p&gt;
 
&lt;p&gt;&lt;strong&gt;&lt;span style=&quot;color: #800000;&quot;&gt;Step6&lt;/span&gt;&lt;/strong&gt;&lt;/p&gt;
 
&lt;p&gt;&lt;span style=&quot;color: #800000;&quot;&gt;&lt;strong&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; &lt;/strong&gt;&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;strong&gt;&amp;nbsp; &lt;/strong&gt;模型评估，大部分都是借助数据挖掘自带的评估模型来做，什么准确度、收益率等，理论上很完美，实际中就一定有疗效吗？非也！有时候模型跑出来的信息很诡异的，建模人员都无法知道这个结果如何去解读，这时我倒是觉得可以从模型中选取一部分人群来做一下简单的调研，或许能获得更多数据背后的东西，也能为自己的片子多几分数据解读的色彩，何乐而不为呢？&lt;/span&gt;&lt;/p&gt;
 
&lt;div&gt;&lt;img style=&quot;margin: 0px 10px 0px 0px;&quot; title=&quot;数据挖掘过程体会 - Data Mining - 数据挖掘与数据分析&quot; src=&quot;http://img838.ph.126.net/4FpvBsxwb4A_pe2e21UrFQ==/821625457020225588.jpg&quot; alt=&quot;数据挖掘过程体会 - Data Mining - 数据挖掘与数据分析&quot; width=&quot;533&quot; height=&quot;327&quot; /&gt;&lt;/div&gt;
 
&lt;p&gt;&amp;nbsp;&lt;strong&gt;&lt;span style=&quot;color: #800000;&quot;&gt;Step7&lt;/span&gt;&lt;/strong&gt;&lt;/p&gt;
 
&lt;p&gt;&lt;span style=&quot;color: #800000;&quot;&gt;&lt;strong&gt;&amp;nbsp;&amp;nbsp;&amp;nbsp; &amp;nbsp;&amp;nbsp;&lt;/strong&gt;&lt;/span&gt;&lt;span style=&quot;color: #000000;&quot;&gt;模型可视化展示，可视化一直是一些数据服务公司所追求的东东，也是我们从业人员一种传达信息的方式，对于一个专题的数据挖掘模型，我相信大家都能通过一些图表、表格或者更炫的PPT搞定，打个岔，我常常遇到这样的问题，在对多维度做交叉分析时，因为涉及许多数据维度的钻取而很难展现给决策者，这时可以用水晶易表来做动态的展示，但是遇到更复杂的逻辑呢？&lt;/span&gt;大家不难发现现在大部分的数据分析系统或者叫运营体系的分析维度都是作为一个content展现给使用者，从数据从业者的角度来看，这只是从不同维度对数据进行了切割而已，谈不上真正的数据可视化，路漫漫兮修远兮！&lt;strong&gt;&lt;span style=&quot;color: #800000;&quot;&gt;业务、维度、用户交互三者融合才是王道；&amp;nbsp;&lt;/span&gt;&lt;/strong&gt;&lt;/p&gt;
 
&lt;div&gt;&lt;img style=&quot;margin: 0px 10px 0px 0px;&quot; title=&quot;数据挖掘过程体会 - Data Mining - 数据挖掘与数据分析&quot; src=&quot;http://img.ph.126.net/jIVU9qbhvlCJW5cRfMH4pg==/3204592609851027153.jpg&quot; alt=&quot;数据挖掘过程体会 - Data Mining - 数据挖掘与数据分析&quot; /&gt;&lt;/div&gt;&lt;p&gt;相关话题：&lt;a href=&quot;http://ucdchina.com/topic/356&quot; target=&quot;_blank&quot;&gt;数据挖掘&lt;/a&gt;&amp;nbsp;源地址：&lt;a href=&quot;http://spss-market.r.blog.163.com/blog/static/731422682010129232759/&quot; target=&quot;_blank&quot;&gt;http://spss-market.r.blog.163.com/blog/static/731422682010129232759/&lt;/a&gt;&lt;/p&gt;</description>
				<author>Data Mining</author>
				<pubDate>2010-12-16 10:12:04</pubDate>
			</item></channel></rss>