英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
ScienceDirect
程序经济学和金融20(2015)243 - 251
第七届全球化与经济与企业管理高等教育国际会议,GEBA 2013
SQL和数据分析对高等教育的一些影响
Marin Fotachea*,Catalin Strimbeib
A,BAl.I.Cuza大学,B-dul Carol 1 nr.22,Iasi,700505,罗马尼亚
摘要
无论大小,大数据,NoSQL,分析,商业智能,数据科学都需要使用大量统计方法和工具以各种复杂的方式处理大量数据。 越来越多的市场需要拥有数据库和数据仓库技术技能以及统计能力的毕业生来破译隐藏在数据高峰中的业务模式和趋势。 本文介绍了当今数据处理的主要坐标以及对学术课程的一些启示。 它认为,数据分析和商业智能专业人员可以受益于获得适当水平的SQL和数据仓库知识。
copy;2015作者。 由Elsevier BV出版这是CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。
亚历山德鲁Ioan库萨大学经济和工商管理学院负责同行评审。
copy;2014作者。 由Elsevier BV出版
雅西亚历山大伊安库萨大学经济和工商管理学院负责挑选和同行评审。
关键词:大数据,统计,数据分析,SQL,OLAP
介绍:数据泄露和随之而来的炒作 - 大数据
在IT和商业世界中,炒作和流行以非常快的速度浮现和消失。 炒作的顶部每隔几个月就会改变一次。 几乎所有科技公司的营销部门都在重新包装旧品并重新标注其产品的凉爽性和可取性(Buhl et.al,2013)。 看来这个策略起作用了,至少对一些人来说。
*通讯作者。 电话: 40232201430; 传真: 40232217000
电子邮件地址: fotache@uaic.ro
2212-5671copy;2015作者。 由Elsevier BV出版这是CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。
亚历山德鲁Ioan库萨大学经济和工商管理学院负责同行评审。
DOI:10.1016 / S2212-5671(15)00071-4
正如Stonebraker(2012)所说,大数据是Stonebraker的“流行语”。 与其他流行语一样,该术语没有严格的定义。 有多大数据(Jacobs,2009; Borkar等,2012)? 大数据,数据库和数据仓库之间有什么区别,它们都处理大量数据(Borkar等,2012)?
电子商务网站,传感器,相机,移动应用程序都会产生大量不同周期的数据。 为了检测模式,解释商业现象,做出预测,必须处理和分析这座山峰的数据。 大数据的基本假设是我们可以从数据中学习(Cron et al。,2012)。
根据雅各布斯(2009)的观点,大数据应该在任何时间点定义为数据的大小迫使我们超越当时盛行的经验丰富的方法,而Cuzzocrea et al。 (2011)大数据是指由高性能应用程序产生的大量非结构化数据,这些应用程序属于广泛而异构的应用场景系列:从科学计算应用程序到社交网络,从电子政务应用程序到医疗信息系统等等。
Stonebraker(2012)确定了四种风格的大数据:
大量的数据,但小分析
关于大量数据的大分析
大速度
大品种。
大量数据,但小型分析通常意味着在大型数据集上使用常规SQL查询(SELECT,MIN,MAX,SUM,COUNT,AVG,GROUP BY,HAVING函数和子句)。 所有类型的SQL(关系数据库),商业(Oracle,IBM DB2,Microsoft SQL Server)或开源(PostgreSQL,MySQL)都可以作为这种类型处理的平台/工具。
对大量数据的大分析需要将ETL(Extract-Transform-Load)工具与统计软件包结合起来。 大分析表示回归,数据挖掘,机器学习和其他类型的更复杂的处理。 可以使用SQL查询和/或ETL工具从各种数据源提取数据。 复杂的分析需要SPSS,R,SAS等软件包,有时需要大量的编码。
大流量是能够吸收来自证券交易所,电子交易,移动社交网络,网站等的数据流。
大的变化与数据源和数据格式(XLS,关系数据库,CSV,平面文件等)的异质性有关,为了进行处理/分析,必须导入并转换它们。
管理大数据意味着处理三种类型的操作:收集数据,存储数据和处理数据。 因此,大数据的两个关键要素是数据库和统计软件包。
SQL和统计软件包
有大量的统计软件包专门用于数据分析和其他类型的复杂处理。 一些最受欢迎的商业产品是:SPSS,SAS,Stata,S-PLUS,Minitab。 它们通常为常规用户(非程序员)提供大量统计功能和选项,并提供非常友好的界面。 但至少其中一些也因其成本而臭名昭着。 中小企业以及一系列大学,不能花费数千美元购买不那么多的许可证。 当然,价格和许可证制度有所不同,但根据我们的经验,价格仍然是其使用最常见的障碍。 尽管如此,许多大学通过捐赠,研究补助金,行业项目等获得了SPSS,SAS等软件包。
最近几年,高等教育和研究领域的趋势是开放源代码统计软件,主要是R,Tsoukalos等人。 (2013年)。 R正逐渐成为大学,公司和研究人员的主要平台,无法在软件上花费过多,尤其是在目前的财务困境中。 R拥有庞大的热心开发者社区,不断为最终用户提供最新的统计数据,数据挖掘,机器学习等方面的最新进展。
与这些论文目标相关的R有两个主要局限性。 一个是R专用的,涉及用户界面。 即使某些开源扩展(如RStudio)以某种方式软化了对话框,R也基于命令提示符和脚本,并且也易于编程。 换句话说,R与商业产品的优雅还有很大距离。
第二个限制是所有统计软件包固有的并且涉及数据源。 调查和实验室数据可以直接输入到统计软件包中,但在现实世界中,要分析的数据驻留在大量平台上:SQL数据库,Web日志,传感器,移动应用程序,Excel文件等。因此,在大多数情况下,需要一些提取 - 转换 - 加载(ETL)机制来收集R或其他包中的数据。
通常统计软件包通常会使用以下解决方案中的一个或多个来加载其数据以进行处理:
x使用其菜单从外部数据文件(Excel,CSV-Comma分隔值,文本文件等)直接导入
(如果可用)。
x将来自数据源(数据库,Excel等)的中间结果保存到常用格式文件中,然后将这些中间文件导入到程序包中; 最流行的交换格式是XML,CSV和JSON。
x使用ODBC(对象数据库连接)或JDBC(对象数据库连接)驱动程序创建数据源,然后将包直接连接到ODBC / JDBC数据源。 不需要中间文件,数据直接导入到包变量/表中。
近年来,一些新的选择可用于数据导入,另见Tsoukalos等(2013),例如:
x使用可针对数据源和目标包自定义的特殊ETL过程
x连接到特殊的API(应用程序编程接口)或以易于导入的格式提供数据集的Web /数据服务。 Google Analytics(分析)就是这样一种服务,多年来越来越流行。
x使用用户定义或标准ETL过程从Web服务器日志导入数据。 这是NoSQL系统具有强大存在的领域。
x除了通过ODBC / JDBC连接进行普通导入外,有时还可以直接从统计包中直接在数据库服务器中执行数据库查询。 例如,R用户可以直接查询SQLLite数据库,并将表中的结果导入到R工作区中。
用于数据分析的SQL功能
基本上,SQL从基于关系代数的庞大数据库中提取记录集。 SELECT是核心SQL,具有用于过滤记录,列/属性,计算,分组等功能的强大子句.SQL(Michael Stonebraker曾经称为SQL星际数据语言语言)的巨大普及主要是由于其高级语法(无编程对于大多数查询来说是必需的),并且也适用于所有类型的数据库管理系统,从桌面(Access)到开源(MySQL,PostgreSQL)和商业(Oracle,IBM DB2,Microsoft SQL Server)。 ISO与ANSI和各个国家机构对SQL的标准化促进了广泛采用。 第一个SQL标准于1986年(ANSI)和1989(ISO)发布,然后在1992,1999,2003,2008和2011年发布。
正如前一节所指出的那样,SQL查询(SELECT命令)的结果可以保存/存储在数据库中(主要是表格或视图),但也很容易从DBMS导出到各种目标和格式,即另一个数据库,Excel / CSV文件,文本文件,HTML,ODBC / JDBC数据源等。
但是SELECT命令不仅仅从数据库中提取和过滤数据。 其各种子句可以为所有结果行或组或行(GROUP BY和HAVING子句)执行各种处理任务。
从第一个标准(1986/1989)开始,所有SQL方言都实现了具有自描述名称(统计)的基本统计函数:SUM,COUNT,AVG,MIN,MAX。
自1999年以来,SQL标准最重要的目标之一就是数据分析,主要通过OLAP(在线分析处理)功能(有时也称为窗口函数)。 方言之间有一些OLAP差异。 用于数据分析的最丰富的DBMS是Oracle和DB2,而开源系统则不那么慷慨。 但是一些基本的OLAP操作(例如排名)很常见。 例如,当前版本的PostgreSQL(9.3)实现了RANK,DENSE_RANK,PERCENT_RANK,CUME_DIST,LEAD,LAG,NTILE,NTH_VALUE等功能。对于某些高级SQL OLAP功能,请参见下一节。
在SQL中不太为人所知和使用的是常用统计过程的统计功能。 商业数据库服务器(Oracle,DB2,SQL Server)又被赋予了最好的统计特性。 但是,开源服务器也提供了有用的功能,例如STDEV_POP(群体的标准偏差),STDEV_SAMP(样本的标准偏差)CORR(相关性),COVAR_POP(人口协方差),COVAR_SAMP
(样本协方差),REGR_INTERCEPT(由(x,y)对确定的最小二乘拟合线性方程的截距),REGR_SLOPE(最小二乘拟合线性方程的斜率),PostgreSQL(2013)。
作为商业数据库服务器的主要代表,Oracle被赋予大量的统计特性。 它们中的大多数都包含在Oracle SQL核心方言中,但还有一些其他扩展可用,例如Oracle Data Mining和Oracle R Enterprise。 根据Oracle数据库文档,Oracle(2013)提供的主要统计选项包括:
x描述统计
x假设检验
x相关性分析(参数和非参数)
x排名功能
用卡方统计的x交叉表
x线性回归
x方差分析
x测试分布拟合
x Window聚合函数
x统计聚合
x LAG / LEAD功能
x报告汇总功能
以下简单查询说明了在Oracle中执行的单向ANOVA测试。
SELECT emp_gender,
STATS_ONE_WAY_ANOVA(years_in_company,salary,#39;F_RATIO#39;)f_ratio,STATS_ONE_WAY_ANOVA(years_in_company,salary,#39;SIG#39;)p_value
FROM employees emp INNER JOIN工资sal on emp.emp_id = sal.emp_id GROUP BY emp_gender
ORDER BY emp_gender;
计算出的f_ratio和p_value显示了在公司花费的年数和每年平均工资的差异的平均工资差异的显着性。 小于0.05的p值表明,对于男性和女性,公司在多年的薪金数额上的差异是显着的。
预计未来的SQL标准和实现将具有更多的统计特征。 从SQL:1999标准开始,当引入OLAP函数时,SQL进入了公司数据分析,这是一个由数据仓库系统主导的市场(见下一节)。 值得指出的是,对于某些数据库服务器(即PostgreSQL),有一个开放源码库用于可扩展的数据库内分析,称为MADlib,Hellerstein等。 (2012年)。
数据分析在公司世界:数据仓库,数据挖掘和所有爵士乐
-
- 数据挖掘,知识发现和OLAP
数据挖掘和知识发现被广泛认为形成了将原始数据转化为有用的商业智能决策过程的学术和技术领域。
全文共13718字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[14260],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。