以用户为中心的设计

这是UCDChina提前预览网页留下的存档,不包括作者可能更新过的内容。
推荐您进入文章源地址阅读和发布评论:http://www.far2go.cn/blog......-studies.html

定量研究的风险

作者:a@b.com (JJYY)  |   发布: (编辑)kent.zhu   |   时间:2009-07-08 00:38:30 文字大小:- +

1. 感性vs理性
2. 把A/B测试摆放在正确的位置上(译文)
3. 定量研究的风险(译文)

作者:Jakob Nielsen
译者:UCD翻译小组 , JJYY
原文:http://www.useit.com/alertbox/20040301.html

来自Jakob Nielsen的文章,十分深入的指出了定量研究中存在的各种风险。由于十分专业而且有点长,我把文章的精华在下面摘要出来,大家可以快速阅读,了解便可。如果有兴趣则可继续阅读后面的全文。

用户研究有两种类型:定量研究(注重统计分析)和定性研究(注重了解和洞察力)。

定量研究有着自己的优势,但定性研究能以最少的金钱交付最好的结果。统计分析常常会出错、存在偏见或过度狭隘。数字崇拜者常因专注于统计分析而把可用性研究引入歧途。强调洞察力和定性分析更为重要。

定量研究主要的好处十分明显:它把复杂的情况变成一个单一的便于理解和讨论的数字。如这个例子:残疾用户比普通用户要困难206%,成年人用户比主流用户要困难122%

在接下来列举的这方面,定量研究存在着与生俱来的风险:

1. 随机结果

研 究人员常用统计分析来决定哪些数字“具有统计显著性”。根据惯例,小于5%的界限常被认为更可能是随机结果,但这也暗示着如果研究者完全依赖定量分析的 话,1/20的“显著结果”也许只是随机的现象。同样,也有可能存在真正有价值的事实被忽略的现象(也许因为样本容量或实验原因而没有表现出统计显著 性)。

2. 魔术般变出许多相互关联来

记住:1/20的分析是“显著重要的”,即便根本 就没有真正有价值的现象,所以只要测量了足够多的变量,你不可避免会发现其中一些看起来是相互关联的。例如测量7个标尺的研究会在变量之间产生21种可能 的联系。因而根据平均值,这里面有1个关联会被统计认为“显著重要”,即便这里面根本就没有真正的联系。

3. 忽略了协变因素

即便一个关联看起来表现出真正重要的现象时,也有可能产生误导——如果真正的关联是并不是在你当前测量的两个变量之中,而是和第三个变量有关。如这个存在误导的例子:研究显示智力随着出生的顺序而递减(换句话就是第二胎孩子比第一胎要笨,第三胎比第二胎笨。。。)

另一个例子如更长的链接文字和用户的访问成功有积极正面的联系,但在这个表象之下隐含的关联是:粗心的设计师往往简单用”更多“、”请点击“ 等文字,而没有去思考用户是不是能够理解。资深设计师可能会使用更容易理解和自然的链接文字,即便可能会长一些。

4. 过于简单的分析

为 了获得好的统计结果,研究人员必须严密控制实验的条件。如使用简化的页面和内容去代替真实的、拥有复杂情境的网站。狭隘的研究常忽略掉考虑宏观整体的可用 性,这些条件的严密控制可能会使得结果不足以推广到现实世界中的问题。如这个例子:可以非常容易搞一个研究来说明面包屑设计是无用的。

5. 扭曲了的测量尺度

通过在错误的时间帮助用户,或者使用错误的任务,我们可以很容易误导一个可用性研究。实际上只要有针对性的设计实验,我们可以证明任何我们想要的结果(JJYY:插一句。常常在项目中,研究中,甚至生活中,我们会去证明自己想要证明的,发现自己想要发现的,看到自己希望看到的。这是无数错误的开始)。此外还有很多引起扭曲的因素如新奇效果。

6. 出版偏见

编辑总是遵循“人咬狗”的原则去突出新的、有趣的故事,不论科学期刊还是流行杂志都一样。这可能造成十分新奇、与众不同的研究结果得以曝光,即便它存在着严重偏见或者不实。 例如网站响应时间是否重要的故事。

总结

从 上我们可以看到定量研究有着与生俱来的风险,如果你在没有洞察力的前提下去依赖数字,你将被绊倒在数字所引导的错误道路上。相比起来,定性研究会更加稳 固,也不太会因为一些方法上的弱点缺陷而完全失败,即使研究不见得在每个细节都完美,你仍然可以通过定性分析去了解用户和观察他们的行为来获得许多好结 果。

专家会比初学者能从定性研究中获得更多更好的结果。但在定量研究中,只有最好的专家才能得到有效的结果,并且只有当他们十分小心的时候。

如果你感兴趣,可以接下去看全文。

 

 

全文 -----------------------------------

统计分析常常会出错、存在偏见或过于狭隘。数字崇拜者常因专注于统计分析而把可用性研究引入歧途。强调洞察力和定性研究更为重要。

用户研究有两种类型:定量研究(统计学)和定性研究(洞察力)。定量研究有着奇特有趣的优势,但定性研究能以最少的金钱交付最好的结果。并且定量研究常常太过狭隘并会产生误导。

定量研究的主要好处十分明显:把复杂的情况变成单一、便于理解和讨论的数字。我自己有所体会,例如在对人们使用网站的报告中:残疾用户比普通用户要困难206%,成年人用户比主流用户要困难122%。

当然,上面的数字结果忽略了需要厚厚一叠纸来解释的细节:为什么对于这些人群来说网站难于使用?我们应该要怎么做?

在上面的例子中,数字的确告诉了我们一些事情:

它告诉我们相比成年人用户,残疾用户所处的情况要糟糕得多。知道这个数值能帮助公司更好决定如何分配宝贵的资源。

它还告诉我们这不是一个小问题。如果一部分用户使用网站只比其他人难了5%,绝大部分人会说“无所谓,就这样吧”,但206%对我们许多人来说难以接受。

数字也可以帮助比较不同设计的优劣和进行长期跟踪。如果十年后,成年人使用网站的难度只比年轻用户高50%,那就可以说我们取得了实质改进。

提防数字崇拜

当阅读其他人的研究报告时,我常发现他们的定性研究结果要比定量研究结果更为可靠和有价值。认为统计研究比基于洞察力的观察研究更有价值是一个危险的倾向。实际上,绝大多数统计研究比定性研究的可靠性更低。设计研究和医学不一样,在传统学科中最为接近它的是人种学。

UI和可用性是与情境高度相关的,它的有效性依赖于对人类行为的深刻了解。典型的情况是设计师需要对设计指导规范(Design Guidelines)进行组合和取舍,这就要求去了解这些设计准则后的基本原则及原理。针对一个特定功能的事件常常和实际设计毫不相关。

迷恋数字、抛弃定性的洞察会把可用性研究引入歧途。在接下来列举的这方面,定量研究存在着与生俱来的风险:

风险1:随机结果

研究人员常常用统计分析来决定哪些数字结果具有“统计显著性”。根据惯例,小于5%的界限常被认为更可能是随机结果而不是具有重要意义的发现。

听起来十分合理,但这也暗示着如果研究者完全依赖定量分析的话,1/20的“显著结果”也许只是随机现象。

幸运的是,许多优秀的研究员——特别是那些在用户界面(UI)领域的,并不单纯使用定量研究。他们发布的报告在简单统计数字之上常有着更高的洞察力。

还有一个反面例子:有时因为研究实验的设计原因,一个真正有价值的发现在统计上却并不引人注目。也许是没有包含足够的参与者从而观测到真正重要、但是稀有的发现。仅仅因为没有出现在定量研究结果中而把相关因素给剔除,可能是错误的。

2000 年大选时在弗洛里达州的“蝴蝶投票”是一个很好的例子:一个基于100选民的研究可能没包含拥有统计显著性的人数,去发现这么一个情况:那些打算 投戈尔的票的人却投给了Patrick Buchanan。小于1%的投票者会犯出现这种情况。一个定性的研究可能会揭示投票者的一些行为如“好吧,我想投票给戈尔……等等,看起来 Buchanan更加靠谱,我还是不投给戈尔了”。犹豫不决和差不多抉择是观测研究者的宝藏,但是把它们翻译为设计建议需要定性分析去观察并组合可用性原 则。

风险2:魔术般变出许多相互关联来

如果测量了足够多的变量,你不可避免会发现其中一些看起来是相互关联的。用软件统计所有测试然后一定会有几个具有“统计显著性”的关联蹦出来(记住:1/20的分析是“显著的”,即便根本就没有真正有价值的现象)

测量7个标尺的研究会在变量之间产生21种可能的联系。因而根据平均值,这里面有1个关联会被统计认为“显著重要”,即便这里面根本就没有真正的联系。

在我2004年的一个网页可用性项目中,我们从53个不同方面收集用户行为的衡量标尺,因而有1,378种可能的关联可以让我丢到漏斗中去。即便在研究中我什么都没有发现,还是有69个关联会表现出“统计显著性”。

很明显我不会弯下腰去专注于捕捉相互关联,我只会报告有合理假设的、基于有真正潜在价值的统计数据。(实际上,统计研究程序假设研究员是拥有一个假设为前提的。如果你只是为了捕捉“统计上的显著重要”,你就是在滥用软件)

风险3:忽略了协变因素

即便一个关联看起来表现出真正重要的现象时,也有可能产生误导——如果真正的关联是并不是在你当前测量的两个变量之中,而是和第三个变量有关。

例如研究显示智力随着出生的顺序而递减。换句话说第一胎的孩子会比第二胎的孩子拥有更高的平均智商,以此类推,第三胎、第四胎孩子的智商会更低。这个研究看起来非常明显的警告父母:“不要生太多的孩子,否则他们会变得越来越蠢”。

其实根本不是这样。

在 这个例子中有着隐藏的第三个隐藏变量:聪明的父母往往更倾向于拥有更少的孩子。当你想要衡量第一胎孩子平均智商低的时候,你针对所有的父母进行采样,却不 关注 他们拥有孩子的数量。但是当你衡量平均值的时候,很明显你只对那些拥有五个或更多孩子的父母进行采样。这样会造成低智商的后生孩子比重更高。当衡量随机取 样的孩子智商的时候,你忽略了他们的父母——这个真正起影响的因素。

(2007年的补充:最新研究揭示家庭大小和父母的经济教育因素对首胎智商的影响是非常小的,但是要点仍然是你需要去更正这些协变量,当你做了这点的时候,智商的差异会比那些你可能会相信的偏差平均值要小很多。)

拿 网页上的例子来说,你也许会观察到更长的链接文字会和用户的成功访问有正面相关性,这并不意味着你就应该去写更长的链接。在这里网页设计师是隐藏的协变 式:粗心的设计师会倾向使用“更多”、“点击这里”之类的短链接文字,或自己创造的词语。相反注重可用性的设计师会试着把选项解释为用户容易理解的语言, 去强调文字和内容丰富的设计元素,而不是用一些幻想的元素如“微笑的女人”。

风险4:过度简化的分析

为了获得好的统计结果,你必须严密控制实验的条件——严密到结果不足以推广和解决现实世界中的问题。

这是大学研究中的一个普遍问题,他们测试的目标常常是倾向于大学生而不是主流用户。同时许多学生并不是使用真正的网站进行测试(真正的网站常有着复杂多样的情景和上下文联系),他们往往用数张简化了的、只有简单内容的设计进行测试。

举 个例子,可以非常容易搞一个研究来说明面包屑设计是无用的:给用户一个清晰的任务,要他们沿着一条直线到达目的地然后停在那里,这些用户会毫无疑问的忽 略所有的面包屑线索。实际上呢?面包屑在许多网站设计中都被推荐使用,不仅仅因为它十分轻量化,它更重要的意义在于对那些通过搜索引擎或者导向link直 接进入到网站深处的用户十分有帮助,而不是从头一步步走进来的用户。

狭隘的研究常忽略掉考虑宏观整体的可用性,例如重新访问行为、搜索引擎友好性、多用户决策等。类似这些的因素对设计的成功至关重要,如B2B或企业软件的设计。

风险5:扭曲了的测量尺度

通过在错误的时间帮助用户,或者使用错误的任务,我们可以很容易误导一个可用性研究。实际上只要有针对性的设计实验,我们可以证明任何我们想要的结果。这正是那些旨在表明一个厂家产品比竞争对手产品更好的赞助研究背后的原理。

即使实验者不欺诈,人们也很容易因为实验方法的弱点而受欺骗,如引导用户去注意屏幕上的特定细节。非常重要的事实是:你应该去询问一些设计元素,而不是引发用户的注意,从而改变他们的行为。

一项在线广告研究试图避免这种错误,不过却弄出了另一个错误来代替:这个实验没有公开要求用户对广告发表评论,他们要求用户评价一批页面的整体设计。实验后,研究者开始衡量用户对不同品牌的认知度,结果在页面上有banner的公司得到的更高的分数。

这个研究能够证明banner广告对品牌是有利的吗?即便它没有任何证据表明可以推动销售?不能。记住用户被要求直接对页面设计进行评价,这个动机使用户比平时更加仔细的去观察页面,特别当人们去评价设计的时候,他们会仔细检查页面上所有独立的设计元素,包括广告。

许 多网页广告研究都具有误导性,因为大多数研究都来自广告代理机构。最常见的扭曲是新奇效果:每当介绍新广告格式时,它总伴随一项研究显示新类型的广告创 造了更多用户点击。当然,因为新玩意总会获得一个临时优势:引起用户的注意可能只是因为它的新用户还没有培养起忽略它的习惯。这项研究在他完成的那个时段 来说可能是正确的,但它不会揭示任何长期优势——当新奇的影响消退后。

风险6:出版偏见

编辑总是遵循“人咬狗”的原则去突出新的、有趣的故事,不论科学期刊还是流行杂志都一样。虽然可以理解,但这可能造成带有严重倾向的新奇、不同的研究结果得以曝光。

可用性是一个非常稳定的领域。年复一年,用户的行为几乎是相似的出现。在过去的许多研究中,我一直能发现很多相似结果。不论过去还是现在,发表一篇伪造或偏见的结果会得到更大的关注。

想 想关于网页下载时间的问题。所有人都知道更快更好。自1968年以来相应时间的重要性就被写入交互设计理论中,从1995年到现在无数的网页研究都证实 了这一点的重要性。电子商务网站的响应时间越快,卖的就越多。你服务器慢的那一天,你就在失去流量。(这最近在我身上发生过:1月14日, Tog被 slashdotted,因为我们共用一个服务器,和平时相比我的网站失去了10 %的浏览量)(JJYY 注:slashdot.org是非常著名的科技新闻网站,常常会发生一些小网站因为被slashdot收录 后流量剧增,而变成龟速甚至导致临时关闭,作者在这里把slashdot用做了动词)

如果20人研究下载时间,19个会认为更快更好。但是,每1/20的统计会给出错误结果,然后这一个研究可能会被广泛的讨论,仅仅因为它很新奇。其他 19个正确的研究反而可能不会引起注意。

对奇异结论的判断

奇异的结果有时有着似乎令人信服的数字支持。您可以使用的我在这里已经提出来的问题作为理智检查:这个研究是不是创造出了一些不存在的相互联系?它是不是有着偏见或者过于狭隘?它仅仅是因为与众不同而被强调吗?还是仅仅是个侥幸?

通常你会发现偏差的结果应该被忽略。人类行为的广义概念在交互式系统中应该是稳定的且容易被理解的。

例外通常正如其名:它仅仅是一个例外。当然,有时一个奇异的发现具有革命性,而不是虚幻。这极其罕见,但它确实发生过。关键在于发现是否会被重复,以及当知道在哪里可以发现的时候其他人是不是也能观察到。

一 个例子,1989年我发表了一篇论文,折扣可用性工程,指出小型、快速的用户研究均优于大型研究,并测试约5个用户就足够的。这在当时是和主流思想(大 预算测试)对着干的。在我发布后的15年间,其他一些研究人员也得出了类似的结论,为此我们制定了一个数学模型来证实这个基于我经验观察的理论。如今,几 乎所有做用户测试的人都知道只需要做5个用户他们就可以得到绝大部分的东西。

另一个例子,有四个不同的研究都支持我的结论“ PDF文件对于在线信息访问是糟糕的”。在最新的研究中我们也发现同样的问题,这个结论被封存了数年。我当时非常犹豫要不要站出来反对在线PDF格式,因 为它在其他情况下非常有用(最显著的如下载文件去印刷,这是它设计的目的) 。随着越来越多的证据不断浮出来,最终一切变清晰了,结果就是在线PDF格式和用来印刷的PDF格式是非常不同的。

您可能会反驳其中某一项研究,但是4、5个研究建立了一个趋势,这大大增加了该项发现作为一个稀有事件的可信度。

总结

以上列出了许多定量研究可能会带来误导的理由,它也针对于糟糕的研究。做一个好的定量研究、通过测量获得有价值的洞察是可能的,但这样做会比较困难和昂贵。

定量研究必须在每一个细节和被检测的数字上做得非常正确,有太多的陷阱可能让你陷入进去。

如果你在没有洞察力的前提下去依赖数字,事情出错时你将没有任何备选方案。你将被绊倒在数字所引导的错误道路上。

定性研究会更加稳固,也不太会因为一些方法上的弱点缺陷而完全失败,即使您的研究不见得在每个细节都是完美的,您仍然可以通过定性分析去了解用户和观察他们的行为来获得许多好结果。

当然专家会比初学者能从定性研究中获得更好的效果。但在定量研究中,只有最好的专家才能得到有效的结果,并且只有当他们十分小心的时候。

更多
打印  |  相关话题:UCD翻译小组 定性研究和定量研究   |  类别:用户研究  |  源地址

UCDChina的书

《UCD火花集2》封面
UCDChina编著,定价35元
从卓越网购买 从当当网购买

《UCD火花集》封面
UCDChina编著,定价25元
从卓越网购买 从当当网购买

《应需而变——设计的力量》封面
UCDChina团队成员JunChen译,定价29元
从卓越网购买 从当当网购买

《网页设计解析》封面
UCDChina团队成员周陟著,定价62元
从卓越网购买 从当当网购买

《赢在用户》封面
UCDChina团队成员Angela译,定价29元
从卓越网购买 从当当网购买

《用户体验的要素》封面
UCDChina团队成员Angela译,定价25元
从卓越网购买 从当当网购买