Web Intelligence Linked Open Data for Website Design Reuse
Abstract. Code and design reuse are as old as software engineering industry itself, but itrsquo;s also always a new trend, as more and more software products and websites are being created. Domain-specific design reuse on the web has especially high potential, saving work effort for thousands of developers and encouraging better interaction quality for millions of Internet users. In our paper we perform pilot feature engineering for finding similar solutions (website designs) within Domain, Task, and User UI models supplemented by Quality aspects. To obtain the feature values, we propose extraction of website-relevant data from online global services (DMOZ, Alexa, SimilarWeb, etc.) considered as linked open data sources, using specially developed web intelligence data miner. The preliminary investigation with 21 websites and 82 human annotators showed reasonable accuracy of the data sources and suggests potential feasibility of the approach.
Keywords: Linked data quality Software reuse Web design patterns Data mining Model-driven development
- Introduction
Nowadays, web engineering (WE) has become an established, multi-billion dollar industry, and the number of websites worldwide exceeded 1 billion, although only a quarter of them are believed to be truly active. Given the multitude of existing websites and the amount of work effort put into producing and debugging the respective code up to date, their reuse would seem to be an attractive opportunity. Reuse is consistently named by Software Engineering (SE) experts among the advances and techniques that increased programmersrsquo; productivity the most, but its applicability on a large scale is domain-dependent [1]. On the web, the current stage of the industry development implies “mass-production” of functionality (code) and design, while content and usability need to be “hand-crafted” and their reuse seems problematic. Simple reuse of code is enabled via development environments and content management systems/ frameworks, while more advanced methods involve self-organizing component-based WE (e.g. [2]), evolutionary programming, etc. Reuse of design, which is considered tobe even more promising than reuse of code [1] and that is in our focus in the current research work, started to attract special interest in the 1990s and at the time was popularly shaped as design guidelines or patterns.
Recently, after data mining and content mining, the term design mining came to denote automated extraction of design patterns and trends from large collections of design examples. In case of the potent Webzeigeist tool that implements a kind of design search engine, designs are structured form web pages that are conveniently collected from the WWW, and then direct, query-based or stream-based access to design elements can be performed effectively [3]. The Webzeigeist authors rightfully claim that “in a database of ten million pages, the likelihood (that a designer will find a useful example) increases”, but one shouldnrsquo;t fall into the same pit as the early Internet search engines that valued resultsrsquo; quantity over relevance. Populating the database with web designs or design patterns shouldnrsquo;t be a problem, given the currently existing billion of websites, but selecting the ones appropriate to the project context doesnrsquo;t seem to be resolved.
In design example repositories, like Webzeigeist, search can be carried out on rather technical design parameters, like page aspect ratio or element styles. Extensive libraries of website templates, which have been named the “killers” of web design for more than a decade now, encompass many advanced tools (e.g. [4]), but suffer from the same organizational issues, as virtually none of them can adequately perform search based on problem description or design context. Thus, feature engineering is generally not performed in such collections, and moreover, there seems to be no agreed set of features for website reuse. In addition, therersquo;s a problem with identifying values for these features, especially for a website you donrsquo;t own – in this case project specifi-cations and website use logs are not available for data mining.
So, our current paper is a study in progress dedicated to identifying a set of features important for reuse of website design and finding the ways to obtain their concrete values. Particularly, we explore the feasibility of “web intelligence” (WI) approach, where mining of the website code is supplemented with extraction of website-related data (we rather not call them “metadata”, since it denotes a different thing in HTML) from external sources. In Sect. 2, we overview feature engineering process for websites and propose model-based UI development approach as the appropriate framework.Then, we describe the architecture and capabilities of the dedicated web intelligence linked open data miner that we developed. In Sect. 3, we test the formulated hypotheses on some WI data to make inferences regarding the data accuracy and choosing data sources of higher quality. Finally, we make the conclusions and outline directions for further research work in the field.
2 Method
2.1 Feature Engineering for Website Design Reuse
Therersquo;s a general consensus that feature engineering (FE) is crucial in applied machine learning, building recommender systems, case-based reasoning, etc. [5]. The major stages of the conventional FE process can be identified as: forming the excessive list of potential features (e.g. through brainstorming session), implementing all or some of them in a prototype, and selecting relevant features by optimizing the considered subset. Then, the corresponding similarity (distance) calculation approaches may be used to retain, usually via AI methods, the website designs that are most rel
全文共22992字,剩余内容已隐藏,支付完成后下载完整资料
网络智能和开发数据用于网站设计重用
摘要:代码和设计重用与软件工程行业本身一样古老,但随着越来越多的软件产品和网站的建立,它也一直是一种新趋势。 网络领域特定的设计重用具有特别高的潜力,为成千上万的开发者节省了工作量,并为数百万互联网用户提供了更好的交互质量。 在我们的论文中,我们执行导航功能工程,以在域,任务和用户UI模型中找到类似解决方案(网站设计),并辅以质量方面。 为了获取特征值,我们建议使用专门开发的网络智能数据挖掘工具从联机全局服务(DMOZ,Alexa,SimilarWeb等)中提取网站相关数据作为链接的开放数据源。 对21个网站和82个人类注释者的初步调查显示数据来源的合理准确性,并表明该方法的潜在可行性。
关键字: 关联数据质量 软件复用 网站设计模式 数据挖掘 模型驱动开发
介绍
如今,网络工程(WE)已经成为一个价值数十亿美元的行业,全球网站数量超过10亿,但其中只有四分之一被认为是真正活跃的。鉴于现有网站数量众多,以及为最终生成和调试各自代码所投入的工作量,它们的重用似乎是一个有吸引力的机会。软件工程(SE)专家一直以最先提高程序员生产力的技术和技术来命名重用,但其大规模应用性依赖于领域[1]。在网络上,目前的行业发展阶段意味着功能(代码)和设计的“大规模生产”,而内容和可用性需要“手工制造”,并且它们的重复使用似乎存在问题。代码的简单重用通过开发环境和内容管理系统/框架来实现,而更高级的方法则涉及基于组件的自组织WE,进化程序设计等。重用设计,这被认为更加重要承诺重用代码,这是我们当前研究工作的焦点,在20世纪90年代开始吸引特殊兴趣,当时被广泛形成设计指南或模式。
最近,在数据挖掘和内容挖掘之后,“设计挖掘”这个词来表示从大量设计实例中自动提取设计模式和趋势。对于实现一种设计搜索引擎的有效Webzeigeist工具来说,设计的结构形式是从WWW方便地收集的网页,然后可以有效地执行对设计元素的直接,基于查询或基于流的访问。 Webzeigeist作者声称,“在一千万页的数据库中,设计师可能会找到一个有用的例子的可能性会增加”,但不应该像早期的那些重视结果的互联网搜索引擎一样陷入同一个坑中“数量超过相关性。在网页设计或设计模式中填充数据库不应该是一个问题,因为目前有数十亿个网站,但选择适合于项目上下文的网站似乎没有解决。
在Webzeigeist这样的设计示例存储库中,搜索可以在相当技术性的设计参数上进行,例如页面宽高比或元素样式。大量的网站模板库被称为网页设计的“杀手”已有十多年了,它包含许多先进的工具,但遭受相同的组织问题,因为它们几乎都不能充分地根据问题描述或设计上下文执行搜索。因此,特征工程通常不在这样的集合中执行,而且,似乎还没有针对网站重用的商定的一组特征。此外,这些功能的识别值存在问题,特别是对于您不拥有的网站 - 在这种情况下,项目说明和网站使用日志不适用于数据挖掘。
因此,我们目前的论文是一项正在进行的研究,致力于确定一系列重要的网站设计重用功能,并找到获取其具体价值的方法。特别是,我们探索了“网络智能”(WI)方法的可行性,其中网站代码的挖掘以网站相关数据的提取为补充(我们并不称之为“元数据”,因为它表示HTML中的不同事物)来自外部来源。在Sect 2,我们概述了网站的特征工程过程,并提出了基于模型的UI开发方法作为合适的框架。然后,我们描述了我们开发的专用Web智能链接开放数据挖掘器的体系结构和功能。在Sect 3,我们对一些WI数据的制定假设进行测试,以推断数据的准确性和选择更高质量的数据源。最后,我们为该领域的进一步研究工作提供结论和概述方向。
方式
2.1网站设计重用工程
人们普遍认为特征工程(FE)在应用机器学习,建立推荐系统,基于案例推理等方面至关重要[5]。常规FE过程的主要阶段可以被识别为:形成潜在特征的过度列表(例如通过头脑风暴会议),在原型中实现全部或部分特征,并通过优化所考虑的子集来选择相关特征。然后,可以使用相应的相似性(距离)计算方法来通常通过AI方法来保留与当前web项目最相关的网站设计并提供最佳重用机会。
大量的研究工作处理网页的特征选择,特别是用于自动分类的目的[6,7]。事实上,网页在分析上是一个技术上合适的对象,因为它以易于处理的代码(HTML,CSS等)表示,但它不是独立的,无论是目标明确还是设计分辨率。因此,我们认为应该为整个网站(网站项目)执行重复使用的FE,并且基于模型(MB)的Web UI开发方法为组装潜在功能提供了一个很好的起点(因为对于传统的网站用户来说,网页界面基本上等于网站)。 MB范例标识了三组模型:(1)本体接口模型 - 抽象UI,具体UI和最终UI,(2)面向功能的模型 - 任务和域,以及(3)使用模型的上下文 - 用户,平台和环境。其中,我们认为域名,任务和用户对网站设计的重用具有更高的相关性,并将其应用到FE中,而平台和环境模型则与网站后台相关。而且,并非所有现有的网站设计同样好(与例如可重复使用的编程代码相反),因此质量方面必须反映在功能集中。让我们进一步考虑更详细地选择特征和相应的相似性计算方法。
领域:理论上,网站的领域可以从其内容推断出来,但这是相当复杂且计算昂贵的问题。或者,可以使用主要网页目录中的网站分类,其中距离(相似性度量)被定义为通过分层关系从一个类别项目到另一个类别项目的最小步骤数量,然后可以将其分成“深度”项目,以减少对不太专门分类的网站的潜在偏见。
任务:从网站代码中提取任务可能是反向WE中最好开发的任务(例如[8]),并且生成的模型通常以UML指定。在最简单的情况下,考虑到领域是已知的,常规任务可以用从代码中提取的网站章节标签来表示,并且被安排为标签云,随后使用发展良好的语义相似性/距离方法[9]。
用户:刻板印象建模(与FOAF,WebML等)意味着标识用户组和开发相应的用户配置文件或“角色”,其中功能通常包括性别,年龄,经验,教育水平等。用于评估配置文件之间的相似性的方法的网站或社交网络用户的合理开发[10],但具体的人口统计目标用户的某人的网站并不容易获得。它自然可以在Web项目的规范中使用,而真正的用户行为模式可以从访问/交互日志[11]中挖掘出来,但是如果没有访问权限,一种流行的方法就是使用人类注释器。
质量:为了重用,可以确定质量的两个维度:(1)网站的内在实施质量 - 从技术角度来看它有多好,以及(2)质量在使用 - 网站在在线环境中的表现如何,满足目标用户的任务。前者的特点是相当发达和可量化的:网站代码的正确性,可访问性,网页的大小,响应时间等。后者与可用性的概念非常吻合,其具体价值难以自动评估,但反映在网站分析服务收集的访问者行为因素中:跳出率,平均页面浏览量,转换率和完成率等,尽管这些数据一般不公开提供。
2.2关联的数据源和网络智能
十多年前,以语义意识,机器可读形式发布数据并准备用于远程访问软件的概念被形成为关联数据,现在许多Web服务,混搭等都依赖于自由可获得的链接开放数据(LOD)。找到一个合适的LOD来源并估计其质量在这样的网络项目中非常重要,但是对这个主题缺乏研究。一些特定的LOD质量维度是:数据量,简明性,完整性,可导航性和互连性,但无疑适用性和数据准确性是数据用户首要考虑的因素。
正如我们之前提到的,许多可能对网页设计重用具有重要意义的功能的值在缺少网站规范和使用统计数据时很难确定。然而,实际上任何运营网站都是由爬行者,机器人,蜘蛛等定期探索众多全球网络服务,并在网络目录和搜索/索引系统中提供。例如,DMOZ目录声称包含超过100万个分层组织的类别,所包含的网站数量约为400万,这意味着合理的详细分类 - 比大多数网站内容分析方法所能提供的要彻底得多。此外,全球网络“聚合”服务(如Alexa或SimilarWeb)可以间接估计某些与质量相关的参数,即使对于网站统计数据封闭的网站也是如此。由于大多数网站的“指纹”都在网络中,所以Web Intelligence这个术语可能会松散地应用于LOD来源的网站相关数据收集过程以及它们的准确性交叉检查。
为了实现数据收集的自动化,我们开发了一款能够从指定位置提取数据,构建数据并将数据保存在数据库中的原型WI矿工。当前版本(http://webmining.khvorostov.ru)接收网站URL作为输入,收集并组织数据(如表1所示),然后输出并将它们存储在数据库中。原型的主要类,通常与模型 - 视图 - 控制器(MVC)模式相对应,如下所示:
bull;AbstractController - 应用程序控制器的抽象类;
bull;SiteController - 显示结果的控制器;
bull;SiteAjaxController - 负责处理AJAX查询的控制器;
bull;DBData - 与数据库交互的模型组件类;
bull;IMiner - 所有与采矿相关的类(AlexaMiner,SimilarMiner,SectionsMiner,DMOZMiner等)实现的接口;
bull;MinerFabric - 返回挖掘所需类的对象的工厂类;
bull;AbstractHtmlParserMiner - 解析HTML的矿工的抽象类。
2.3连接开发的数据和网络智能的准确性调查
我们调查的目标是通过对WE领域的一些“常识”进行测试来对LOD来源的准确性进行初步分析。为此,我们决定补充由WI矿工收集的数据,并附上由人类注释员提供的网站可用性评估,这些评估被认为是使用质量的代表。具体来说,我们雇用了11家德国和10家俄罗斯大学的官方网站(所有英文版本)和82名代表目标用户群的注释员(更详细的实验设置说明可以在[15]中找到)。我们决定不改变域名的原因是网站类别数据的准确性是显而易见的(基于这些数据的相似性度量的有效性是一个不同的问题)。因此,为WI LOD制定了以下假设(Hi):
交叉检查:Alexa和SimilarWeb提供的类似值(两次跳出率和人气排名与访问次数)应该相互对应(H1)。
领域:无 - 这个因素被固定为职业和教育(SimilarWeb)。
任务:更简单的网站章节名称应该导致跳出率较低(H2)和较高的可用性评估(H3)。
用户:因为网站内容对于网站的用户主观印象很重要,所以Flesch-Kincaid年级应影响可用性评估(H4)。考虑到大学网站的目标受众以及可能的专用可用性工程,大学级用户的更高份额应该导致更高的可用性评估(H5)。
质量:技术质量(错误和警告的数量,页面加载时间)和使用质量因素(跳出率,人气等级,访问次数,可用性评估)应该呈正相关(H6)。
结果
3.1 数据有效性与交叉性分析
我们对数据有效性的初步分析发现了一个异常点 - 一个网站的访问次数为每月28个访问者,跳出率(SimilarWeb)为100%。 因此,这20个网站(95.2%的数据)对于分析是有效的。 此外,从Alexa提取的与用户教育相关的数据不完整,因为只有大学和研究生院可用于所有网站。
H1:来自Alexa和从SimilarWeb提取的跳出率值之间的相关性r = 0.582(p = 0.007),而人气排名和访问次数之间的相关性为r = -0.600(p = 0.005)。
3.2 任务模型
为了查明与职业和教育领域(SimilarWeb)相对应的任务,我们确定了8个最典型的章节标签,可在以下6个或更多网站上找到:大学/关于我们(目前在21个网站上),研究/科学 19),国际*(12),学习(10),学院(8),未来学生/招生(7),联系人(6),新闻/媒体/新闻(6)。 然后,我们将每个网站的典型章节数除以其主导航章节总数,从而得到网站“常规”值(范围从0.4到1,平均值0.622,标准差= 0.159)。
H2:与Alexa跳出率不同,网站“常规”与SimilarWeb跳出率之间呈负相关(p = 0.002,r = -0.587)。 此外,我们发现与可用性评估(H3)没有显着相关性。
3.3 用户模型
H4:Flesch-Kincaid年级与可用性评估之间的相关性显着(p = 0.01; r = 0.561),这可能意味着目标群体对网站评估中复杂文本的正面影响。
H5:学院份额和可用性评估之间的相关性在a = 0.06时显着(p = 0.056; r = 0.433),
3.4 质量
H6:不知何故,我们发现错误和警告的数量(总结)与Alexa提取的跳出率之间存在显着的负相关(p = 0.033; r = -0.479)。 此外,人气排名和页面加载时间之间的相关性在a = 0.08时显着(p = 0.078; r = 0.403)。
进一步探讨由注释者提供的可用性评估是否可以通过开采的WI LOD来预测,我们使用向后包含法来构建具有综合因子列表的回归模型。 我们选择了调整后R2最高的模型,它包括4个因素:Flesch-Kincaid年级(FK),Alexa College份额(C),错误和警告的次数(E)以及访问次数 (V,百万)。 该模型显着(p = 0.01),但具有中等的R2 = 0.559:
讨论与结论
设计重用的总体思路似乎在不同名称和不同子领域的SE产业发展的不同阶段被重复发明。目前,现有的网站设计库着眼于技术,结构或文体方面,而不是面向问题或面向用户的网站;它们都不包含质量指标。由
全文共8854字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[10796],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。