以用户为中心的设计 |
这是UCDChina提前预览网页留下的存档,不包括作者可能更新过的内容。 推荐您进入文章源地址阅读和发布评论:http://www.cnblogs.com/zh....../1516655.html |
||
舆情监测和口碑监测都属于一个路子。常有人问到自然语言处理技术在其中如何上手实用。下面简单说一下。 一、词典和算法 前期的主要问题是用于分词和分类的词典建立,根据你的应用不同,这一套词典(可能有很多词典,比如人名、地名、组织名、常用英文缩写)的侧重是不同的。还有停用词表,也就是“的”“啊”“哦”之类的词。 举例: 对于生活搜索,“鱼头王”和“鱼头”应不应该都在词典中出现呢?“大酒店”和“酒店”呢?取舍取决于你的分词算法,甚至取决于你的应用点,如果是正向最大匹配分词算法,如果是搜索应用,那么显然应该移除“大酒店”和“鱼头王”。 后期则是自动去重、提取标签和自动聚类的算法以及效率问题,提取实体词和标签也是词典问题。 分词算法用谁家的都无所谓,开源的、能拿到手的、靠谱的有不少。主要是一套专用词典。需要(自动地)与时俱进,而不是拿一个许多年前的不更新的旧词典就搞定的。 也就是说整个应用的主要问题是词典和算法。 二、明确需求 语义这东西,如果没有明确的需求,很有可能花一番气力做出来的东西,最后不要了。算法一旦去研究,就会耗费很多精力去做对比实验,词典们一旦要自己收集并认真整理,就会耗费很多人工。这些都是成本。 所以必须明确需求。 三、较高级的挖掘 深层次文本挖掘,国内外的做法一般有: 7:自动生成总结(Summary),注意不是“摘要”。 社交玩法 Read/Write Web的文章也提到了社交的几个点,不妨一看:
至于它后面说的语义/语境广告投放,那都是巨头的玩法,一般人不要轻易介入。 垂直、垂直 如果客户追踪的是某一个垂直领域,而不是那种泛泛的内容监控,其实很多事情就有了可做、可控的余地。 四、能做好的 在垂直领域,即像汽车、旅游、饭馆、酒店和股票等的口碑监控,技术可以有把握做到的: 不需要垂直领域也可以做到的: 五、词典 需要整理专有词典的: 不需要词典就可做的: 六、做应用的流程 1:确定监控的垂直领域; 2:收集整理好专有词典; 4:为描述性的特征提取,收集语料,建立各种词典。 5:为情感分析收集语料,建立词典。 6:分别试验各种算法,反复调整以达到商用的准确率。 7:将各种语义处理联起来,合成应用。
举例: 我们做 玩聚中文锐推榜 这个非常简单的语义应用的流程: 1:明确需求:近乎实时地获取 Twitter 和 饭否 的RT(锐推,或称“转发”)消息,将内容相似的合并为一条消息;如果该消息被转发次数足够多,就可以登上中文锐推榜,并通过我们的官方微博客帐号和RSS发布出去。 2:确定重点功能以及对应的自然语言处理能力:
3:针对锐推的语言行为,整理并持续更新自己专有的停止词词典。 4:整理自己的标签专用词典s,这个倒可以用通用的词典s; 5:反复调整各项参数,使之达到人可以觉得丰富、最好是有趣的地步; 6:将各个计算串联起来,如前面语义算的,如从每一个转发消息中提炼参与转发的用户名,等等,成为 中文锐推榜 的应用,每5分钟刷新一次,7×24地侦测中文微博客世界在流行锐推什么新闻、段子和语录。 |