英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
一次关于无线搜索行为的大规模研究:谷歌移动搜索
Maryam Kamvar1,2 , Shumeet Baluja1,3
{maryam, shumeet} @ google.com
1Google Inc 1600 Amphitheatre Parkway Mountain View, CA
2Columbia University Department of Computer Science New York, NY
3Carnegie Mellon University School of Computer Science Pittsburgh, PA
摘要
本文基于谷歌的移动搜索接口对搜索模式进行了大规模的研究。目标是通过分析谷歌移动搜索站点的百万点击来了解当前的无线搜索现状,研究也包括对搜索查询和它们所属的一般类别的审查。通过用户的多个交互来确定搜索行为;估计他们输入一次查询所需要的时间,观察搜索的结果以及他们点击这些结果的频率。同时在12键键盘(手机)、带有全键盘的手机(PDA)和传统计算机之间对搜索模式进行了比较。
作者关键词
移动服务,手机,无线,搜索接口
ACM分类关键词
A1.介绍和调查
H5.4信息接口和介绍(例如信息通报):超文本/超媒体
简介
目前美国有超过57%的人口拥有便携式电话; 2004年底,蜂窝电信和互联网协会(CTIA)估计手机用户数量将达到169467393 [ 3 ]。蜂窝用户的增长是爆炸性的。从2004年6月到12月的增长趋势表明,美国的无线用户数量每月增长超过200万;无线应用程序的潜在影响已经非常巨大,而且正在迅速增长。就像桌面搜索1是增加有线数据消费的途径一样,我们相信无线搜索——通过移动设备进行的查询——将有助于满足用户在任何时间和任何地点对数据访问的需求。本文的目标是展示移动搜索当前状态的快照。了解移动搜索的独特需求和有线与无线搜索模式之间的差异对于改进移动搜索服务至关重要。
在本研究中,我们将分析谷歌的XHTML搜索日志和PDA搜索日志。XHTML点击来自传统的手机,其中绝大多数都有12个按键。PDA搜索日志由具有更复杂输入机制的设备组成,如全键盘输入或手写笔输入2。
1在本文中,我们称桌面搜索为来自台式或笔记本电脑的搜索。
2访问google.com的移动用户将被重新定向到XHTML站点(www.google.com/xhtml)或PDA网站(www.google.com/pda),基于用户代理在其http请求中报告的内容。PDA数据集的大小是XHTML数据集的20%。
数据集包含在2005年1个月期间随机抽取的超过100万页的页面视图请求。本研究只包括英文网页搜索3。为了消除潜在的“机器人”垃圾邮件流量的影响和不同运营商之间网络延迟的影响,我们将研究范围限制在一个大型的美国航空公司内。所有的数据都是严格匿名的;并且不维护任何具有用户身份标识的数据。我们报告的所有结果都是综合统计。
图1:谷歌XHTML搜索接口
研究现状
在过去已经进行了几次大规模的网络搜索研究[8] [12] [13]。这些研究旨在指出传统信息检索(IR)和网络搜索的根本区别。重要的是,他们为我们提供了传统网络搜索发展的时间表,特别是查询统计信息和查询类别。许多其他的研究,包括施耐德曼[11]和赫斯特[6],已经提出了设计网页搜索界面的指导原则。Broder[1]和Rose[10]都手动将日志数据的小样本分类,以确定用户需求驱动的web查询。
前面提到的研究集中在web搜索上,其隐含假设查询是从传统计算机开始的。也有人在移动网络上进行了研究;例如,Jones[9]和Buchanan[2]提出了在移动web搜索中显示信息的改进。然而,这些都是基于一小部分用户的研究。
我们研究的目标是通过大规模的日志分析,深入了解典型用户使用移动网络搜索的方式和目的。通过大量的统计数据来帮助理解移动搜索的使用情况,并通过自动查询分类了解哪些主题被搜索。
在下一节中,我们将描述谷歌XHTML和PDA接口。并概述这些接口和谷歌桌面搜索之间的显著区别。并详细介绍与查询相关的统计信息——查询长度、分类等。然后我们概述了一个普通用户的搜索会话,包括计时结果,并在多个会话中探索用户的搜索模式。本文的结束语对今后的工作提出了一些结论和建议。
3 XHTML用户可以选择搜索四个信息数据库:Web、本地、图像和移动Web,PDA用户可以选择搜索Web和图像数据库。事实上,并没有为PDA用户提供一个独立的本地数据库,稍后这将会对此进行讨论。
谷歌的XHTML和PDA接口
谷歌的XHTML搜索接口如图1所示。在XHTML界面上显示的搜索结果与在桌面(HTML)界面上显示的结果相同。桌面和XHTML接口每个页面都显示了10个搜索结果。桌面和XHTML接口的主要区别是:
bull;XHTML首页有单选按钮,而不是通过选项卡来表示不同的搜索类型。在本研究期间,网络、图像、本地和移动网络搜索都是可用的。
bull;在XHTML站点上没有广告或赞助链接。
bull;桌面搜索中与搜索结果相对应的片段可能比HTML站点上呈现的片段要短。
bull;XHTML搜索结果没有缓存或类似的页面链接,也没有显示页面大小。
bull;用户不能跳转到任意结果页面。只能点击前一个和下一个结果页对应的链接。
XHTML界面和桌面界面之间最显著的区别就是点击体验。在显示本文时,对搜索结果的点击将被转换——原始格式被修改为适合屏幕,不需要水平滚动的格式,而一个html页面通常被分割为多个页面,以减少垂直滚动。转换还包括删除任何非文本信息的结果页面(图2)。
谷歌的PDA接口与XHTML接口类似。有三个主要的区别:PDA接口只提供Web和图像搜索,PDA接口显示与桌面搜索相同的内容,并且在显示可点击的链接之前不执行任何转换。
图2: wml -转换编码的点击页面(左)与它等效的桌面页面
查询分析
在本节中,我们将讨论无线查询和桌面查询在内容、种类和描述性统计方面(如查询长度和单词的数量)的区别。
图三:XHTML查询中每个查询的单词数量和每个查询的字符数的分布
典型查询统计
我们查看并分析包含典型查询的单词的数量。在对于XHTML查询的研究中,发现每个查询词的平均数是2.3(中值= 2,最大值= 30,标准差=1.6) 平均每个查询有15.5个字符(中值= 14,最大值= 502,标准差= 9.18)。有关的直方图见图3。
有趣的是,这与桌面查询的统计数据非常相似,每个查询的平均单词数量为2.35[8][12] (最大值 = 393, 标准差 = 1.74) [12]和2.6[13]4。
正如人们所期望的那样,相对于手机搜索用户,PDA用户似乎不太关心最小化查询词的长度;PDA查询平均2.7个单词(中值= 3,最大值= 65,标准差= 1.5)。PDA的查询长度平均为17.5个字符(中值= 16,最大值= 396,标准差= 9.1)。
尽管使用的输入技术有很大的不同,但在搜索媒体上的中值和平均查询词的相似性可能表明,每个查询的词项数量是web搜索的“地面实况”。事实上,一项在语音界面上进行的小研究[4]也发现,对谷歌语音查询的平均长度为2.1个词项。用户可能已经知道了如何查询,以避免获得太多或太少的搜索结果。
值得注意的是,在一个手机键盘上输入一个单词所需要的努力5是在全键盘上输入的两倍以上。在使用谷歌的网站时,不可能从这些日志中确定用户输入的方式(例如Tegic的T-9预测录入系统或多混合输入);然而,我们注意到许多用户并没有使用预测输入系统,因为他们不知道它的存在,或者更倾向于混合输入。我们发现仅包含字母a-z和空格(查询的74.0%)的查询的平均查询长度为14.5个字符。假设三次输入,我们得出每个查询的按键平均次数为30.7(中值= 28,最大值= 237,标准差= 17.8)。
字母数字字符和符号(如url)的混合查询将需要大量的按键。令人吃惊的是,有17%的XHTML查询是URLs6。这可能表明用户使用搜索引擎作为书签引擎,因为手机上的“地址栏”(只有2%的查询是URL)要比在传统浏览器或PDA上的“地址栏“更不起眼。
在未来,考虑到17%的移动查询是URL,可以在移动搜索框中构建类似于地址栏的功能——如果它是有效的而不是显示搜索结果列表,那么URL查询可以直接访问URL。这将为用户节省一次点击和一次在移动设备上的数据交互。
查询分类
在本节中,我们将研究用户正在执行的搜索类别。
手机查询的日志占总日志的36.4%,被划分为23个类别,见表1。使用相同的方式对PDA查询进行分类;结果如表2所示。
用户在XHTML界面上执行的最普遍的查询类型是成人查询,这是最常见的黄色查询,例如:“porn”、“sex”、“free porn”和“playboy”。互联网和电信,以及娱乐性查询在XHTML和PDA搜索中都很普遍。互联网和电信查询包括铃声、壁纸和特定站点的搜索,如“free ringtones”、“ebay”、“aim”、“free wallpaper”和“gmail”, 娱乐性查询包括歌曲歌词和名人搜索,如“paris hilton”、“movie times”、“imdb”和“ticketmaster”。
与之前发布的有线搜索统计数据相比,[13]桌面搜索的前三大类分别称为“商务、旅游、就业或经济”、“人、地方和物”、“电脑或互联网”。色情查询只占不到10%。同样有趣的是,[13]从1997年到2000年,色情查询的比例下降了50%。
在无线搜索中色情查询出现的比例较高可以归结为几个因素:由于无线搜索是一个比桌面搜索更新的概念,它可能确实遵循与有线搜索相同的趋势。高百分比的色情查询可能呈下降曲线;只有纵向研究才能证明这一点。我们推测,人们可能会更喜欢在私人设备上查询成人内容。我们发现用户经常把他们的手机视为一个非常私人的设备;甚至可能比他们的计算机更私人——其他人发现他们的搜索行为(通过缓存页面,自动补全查询条件或URL)的可能性更小。通过用户调查[5]发现了用户对移动通信隐私类似的看法。
4注意,由之前发布的查询长度研究报告来看,桌面搜索的查询长度增加了。
5在这里,努力是指输入查询所需的按键数量。
6 如果查询以“http”或“www”开头,或包含“.com”、“.net”、“.org”,则被认为是URL。
表1:XHTML查询统计分类
表2:PDA查询统计分类
在PDA接口上的成人内容查询有明显的下降。我们怀疑这是由于网站上的用户群体的潜在差异,以及这些设备的商业用途。
在XHTML Web搜索中,本地服务查询的百分比相对较小,这可能是因为用户将使用本地搜索选项来获取这些信息,而不是Web搜索选项。然而,本地服务查询在PDA Web搜索中频率较高可能是由于缺少独立的“本地”搜索选项。值得注意的是,对于XHTML和PDA查询,包含邮政编码7的查询百分比都很低;在任何一个接口的所有查询中,包含邮政编码的查询比例都低于1%。用户更倾向于通过输入城市和州来指定位置。由于输入城市/州通常需要比输入5位的邮政编码花更多的时间,这可能表明用户在他们的家乡以外的地方进行本地服务搜索,他们不太可能知道邮政编码,或者他们根本不知道有输入邮政编码的选项。
表1列出了每个分类的平均查询长度、每个查询的单词数量和单词长度。在具有高百分比的查询的类别中,最可能因为在搜索框中输入了查询项和位置信息,所以本地服务类别中有最长的查询和最多数量的查询词项。成人类别中有最简短的查询和最低数量的单词,它们往往是一般的色情查询。
虽然精确的分类方法超出了本文讨论的范围,但这里给出了分类方法的简要描述。分类是通过分析在www.google.com搜索会话中出现的相互关联的词项集群来确定的。集群中的词项是根据其对集群的统计重要性而加权的。集群可以有数千个词项。通常是在每个集群中使用权重最高的词项作为集群名称。然后将集群名称输入语义识别引擎并将其归类到某一分类中。这种分类器也在谷歌的其他地方使用,并不是专门为这个研究创建的。应该用百分比来衡量分类结果;有些查询属于多个类别,而有些查询不属于任何类别。
图4:在排名前1000的查询中,总搜索量的累积百分比。
查询分布
除了简单地观察我们在上一节中所做的查询分类之外,我们还可以研究查询
全文共11627字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[11637],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。