利用微博数据的电影票房预测 ——基于情绪强度和宣传外文翻译资料

 2022-12-09 10:20:35

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


利用微博数据的电影票房预测

——基于情绪强度和宣传

摘 要

随着社交媒体快速的进步,许多研究领域由此衍生值得进一步开发探索。从全球范围来看,电影行业是增长最迅速的产业。每年都有成千上万部的电影上映,电影市场年均复合增长率也在逐年增长。然而人们的喜好是非常难预测的,一部电影上映之后,能够满足自负盈亏的平衡点具有相当高的风险,所以,电影票房预测一直是电影行业非常关注的问题。 电影票房的研究在经历“观众研究”和利用元数据、多因子的方法进行模型改进和影响因子的研究阶段之后,研究者们充分利用了网民在线生成的海量内容作为预测的主要信息来源,建立了更加高效、准确的票房预测模型。预测算法都是在电影上映之前进行的,预测进行的越早价值越大,但是由于互联网数据的滞后性,是电影上映之前和发布之后的微博数据量差距特别大,电影上映之前的微博数据量占总量的一小部分,大多数的微博数据都集中在电影上映的第一天或者是第一周,模型预测的性能和准确性一般都不高。

1 引言

直到2014年三月,新浪微博大概有53000万注册用户和15000活跃用户。每天有成百上千万的微博信息由此产生。为了尽量的消除互联网数据的滞后性对预测结果的影响,本文提出了一种新的基于微博数据的预测模型来预测电影票房,我们提出将整个预测过程分为三个时间阶段,使用预测算法构建了 3 个在时间维度连续的模型,即电影上映之前、电影上映一周以后、电影上映两周以后分别预测电影上映后第一周的票房、电影上映后二周累计票房、电影上映后三周累计票房。将模型变量分为两类,一是实际票房数据,二是微博数据。在预测电影上映两周、三周累计票房的时候,已经有了第一、二周的实时票房数据,可以将实际票房也加入到预测模型中。在参考前人研究模型变量基础之上,我们对微博数据做出提及、情感提及、积极情感、消极情感四个维度特征,并在这四个维度之上派生了十二个维度。3 个预测模型都是通过遗传算法优化的支持向量回归机进行构建的,通过仿真实验得到了各个模型的最佳参数,并通过绝对误差值指标验证了该模型的科学性和合理性,并且预测的时间越晚,准确率越高。

2 数据集和任务描述

2.1数据集

电影是我们文化生活中非常重要的组成部分,很多人通过观看电影来丰富业余生活,提高精神文化生活质量,同时,电影也是没有国界的文化,世界各地不同文化的可以通过电影在各个国家和地区进行相互的交流与传递。电影也是一个高投入高风险的服务型产品,每部电影从上映到下线可能只有一个月的时间,其生命周期非常的短,并且很难去预测受众的偏好,属于体验型产品。

电影票房是一部电影的主要收入来源,所以人们追求的电影产业的经济效益主要取决于电影票房。《美人鱼》上映 19 天,票房就突破了 30 亿,电影票房背后是制片方和投资者获取了巨额的经济效益收入,随着全球经济、政治、文化一体化的趋势,电影产业在国民经济产业中的地位愈发重要。电影票房为电影产业创造了非常大的经济价值,同时有线电视、互联网在线点播等产业在电影产业的票房的推动下也日益发展壮大。

2015 年中国的电影以讽刺和大量剪辑的风格赢得了年轻人的好感赢回了国内市场。《捉妖记》成为了成为中国本土有史以来最卖座的电影,其票房收益达到了 3.8 亿美元;《港囧》则名列第二,提升了徐峥的印度式喜剧的地位;而草根英雄电影《煎饼侠》则展现了好莱坞的制作风格。除此之外,《九层妖塔》和《寻龙诀》则展示了不一样的历史片拍摄角度。国外在我国比较有影响的英雄系列电影在中国的票房也是比较高的。

我国电影产业成长非常的迅速,中国电影市场已经跃居全世界第二,成为全世界第三大生产国,具有非常大的发展空间。2013 年国内的电影票房收入是 10 亿元,2014年的电影票房收入是 296 亿元,2015 年电影票房收入突破了 300 亿元,通过分析这 3年的票房数据我们可以看出,2013 年到 2014 年电影票房的年增长率超过了 36%,2015年的电影票房相对于 2014 年没有大幅度增长,但是也是持续稳定发展状态。《中华人民共和国电影产业促进法(草案)》在 2015 年 9 月 1 日正式发布,国务院常务会议决议将该草案提请全国人大常委会审议。这一草案的提出对中国电影产业发展具有非常重要的意义:一是通过升高投资门槛,可以进一步促进电影市场投资;二是通过给予肯定财税减免优惠,以及激励欠缺金融机制,可以在肯定程度上缓解电影公司的资金压力;三是通过加强对电影产业的法律监管,可以标准行业秩序,使行业稳健发展。” 互联网行业中发展比较好的 BAT、乐视、搜狐等公司看准了电影行业高速发展的机遇,投资拍摄了多部影片,想要在电影行业带来的巨大利益中分一杯羹。由此我们看出,这个时期非常适合研究电影产业,促进电影产业的持续稳定发展。

3 研究方法论

电影行业随着人们生活水平的提高得到了空前的发展,人们对于电影的需求量也是越来越大,带来的巨额的经济效益吸引了很多投资人将资金投向了电影行业。但是由于电影是一种服务型体验型产品,目标客户的品味与需求很难去预测,所以投资一部电影的投资回报率是非常的难预测的。在互联网大数据的环境下,如何利用智能算法去挖掘用户行为,预测出相对准确的电影票房来规避投资的风险是非常重要的。

(1)预测票房对中国电影产业的意义

《2015 中国电影产业研究报告》显示,2014 年电影的数量与比 2013 年相比有 30%左右的大幅增长,从中我们可以看出电影行业的发展形势一片大好,但是其中生产的 618部故事片中仅有 259 部在电影院上映,其余的 359 部影片都没有上映到院线。这 359 部电影中可能有部分是将版权卖给了电视台、在线互联网媒体等其他媒体,并不是为了在电影院上映,但是应该有很大一部分电影是因为质量、口碑等各种原因没有上线。电影行业的竞争也是非常激烈的,一家电影公司如果投资拍摄一部影片失败的话,很可能这家公司就会以破产告终。因此电影公司可以在电影上映之前去预测票房,能够合理的配置宣传、上映资源,让制片人、投资人等取得最大的投资回报率,优化电影产业链,使电影产业持续均衡发展。

(2)预测票房对我国经济发展的意义

在市场占有额、经济实力等方面,我国的电影产业还是远远比不上北美的电影产业的。2015 年全球电影总电影票房 380 亿美元,其中北美电影票房为 110 亿美元,占比29%居首位;中国 67.8 亿美元,占比 17.8%居次席,从中我们可以看出我国电影产业有很大的进步空间。同时电影产业可以拉动周边产业的发展,比如在线互联网媒体、网游、电视媒体、广告等产业。预测电影票房,首先可以减少投资风险,近而通过合理配置资源提高电影的票房,获取最大的经济利益,同时对周边产业也具有很大的推动作用。所以电影产业的发展在国民经济发展中的影响力和作用也是在日益增大,同时响应了我国的新兴产业的战略性经济发展模式,对我国的经济发展起到了非常大的推动作用。

(3)预测电影票房对我国文化发展的意义

电影不仅作为一种产品在全球范围内销售,同时作为一种文化在地区之间、国家之间相互影响与传递。我们在观看北美电影的时候,会了解到北美国家地域风情与人文文化,北美的电影不仅收获了巨大的经济利益,同时也向全世界灌输了他们的文化。当今的电影市场是世界范围的,市场的竞争也是非常的激烈,通过预测电影票房研究可以增强我国电影的电影票房的竞争力,同时也能够向全世界宣传我国的文化,提高中华文化在全球范围内的影响力和竞争力,对我国文化的传播与发展具有深远意义。

3.2 国内外研究进展

电影票房预测的研究可大致分为 3 个阶段。电影票房的相关研究最先起源于四十年代的美国,这个阶段的研究更多地被称为“电影观众研究”,将观众研究最终指向的目标正是预测电影票房收入、提高电影票房成绩。第二个阶段大概是在二十世纪八十年代,这一时期的研究分为两个方向,一是致力于用影响因子建立综合的电影票房预测模型;另一个方向则是将各个影响因子逐一研究或组合研究,探讨是否这些因子的确是影响电影票房的要素,又在怎样的程度上影响了电影票房。电影票房研究在第三阶段又出现了思路的转换。研究者们一改第二阶段运用元数据、多因子的方法,充分利用了网民在线生成的海量内容作为预测的主要信息来源,建立电影票房预测模型预测准确率比较高,并且有比较高的性能,包括了博客电影票房预测模型、推特电影票房预测模型、谷歌搜索引擎电影票房预测模型与维基百科电影票房预测模型等。

3.2.1 电影观众研究

电影观众研究方法是利用访问、问卷等各种不同的调研方法采集观众对电影的看法以及反馈,通过这些看法与反馈来预测电影的票房。其中从事电影研究行业的乔治bull;盖洛普和里奥bull;汉德尔是在这个阶段最著名的研究者,他们提出了电影的故事内容、演员、宣传工作、口碑等很多关于影响电影票房的因素,后来的研究者不断的深入对这些因素以及其对票房影响程度进行研究。

3.2.2 模型改进及影响因子研究

上个世纪 80 年代,研究票房收入预测模型最早的学者李特曼对美国 80 年代左右的约 700 部电影进行了分析,并得出了票房收入预测模型,该模型的发表被认为是电影票房预测的标志性起点。李特曼的模型中将多个影响电影票房的因子作为自变量,因为当时没有电影票房数据,所以将电影租金收入当做因变量,电影收入预测模型第一次使用了线性回归,对电影票房的研究产生了深远的影响。后来的研究者们在李特曼利的研究基础之上,利用李特曼建立的影响因子体系,运用多因子的线性回归方法,改进电影票房的模型的。同时,研究者们继续寻找和探讨明星、影评与口碑电影等重要的影响因子。

(1)模型改进

在 1994 年,苏凯基于李特曼的研究改进了电影票房预测模型并发表论文《Predicting the Performance of Motion Pictures》。苏凯将放映周数也加入到了因变量中,增加了对放映周数的预测。在自变量方面,将自变量从 14 个影响因子增加到 22 个,其中增加了银幕数与市场集中度这两个最重要的因子。2006 年,Ramesh Sharda 与 Dursun Delen利用了评分、银幕数等电影的元数据,采用神经网络构算法构建了电影票房预测的模型。之后,很多研究者均采用了神经网络等预测算法对票房进行预测,比如在 2009年 L Zhang,J Luo 和 S Yang发表的《Forecasting Box Office Revenue of Movies with BP Neural Network》以及 2014 年重庆大学郑坚、周尚波发表的《基于神经网络的电影票房预测建模》均是通过神经网络这一思路进行电影票房预测,对电影票房的预测研究开辟了新的研究方向。

(2)影响因子

从上世纪八十年代开始至今,很多学者对在“电影观众研究”阶段提出的影响因子,通过各种各样的的模型、算法和实验分析去判断这些影响因子是不是真正的影响了电影票房,对票房的影响程度是怎么样的。在这个阶段研究的比较多的是明星、影评、口碑这三个因子。

关于明星影响因子的研究,研究者对明星影响电影票房的影响力持有很多观点。2011 年,Karniouchina, E.V.提出了明星的网络热议不仅能够提高首周电影票房成绩,同时也能在电影上映前提高观众对电影的参与度。电影刚开映时的电影票房收入远远比之后的电影票房下降来得显著,所以明星的网络议论也能为电影票房成绩相对差的电影票房做出贡献。右侧作者得出的结论是网络上对于电影明星的议论可以为提高电影票房收入。2012 年,Randy A. Nelon 和 Robert Glotfelty基于 9 个国家的电影票房收入和IMDB 上明星主页的访问量这两类数据作为输出和输入变量,将访问量作为明星吸引力的衡量标准,构建了明星与电影票房的关系模型。实验结果得出影响因子电影明星很大程度上影响了电影票房,一部电影中用电影明星替换 1 个普通演员,电影票房平均会增加一千六百多万 美元的收入。如果替换 3 个普通演员,电影票房会平均增加六千四百多万美元

关于影评对电影票房影响研究,在 2007 年,Boatwright,P.等人认为电影评论是电影票房的重要影响因素,而且不同的影评者对电影的影响程度也是不同的。一些非常著名的影评家对电影起到非常大的影响作用,其他的影评人也分类型起不同的作用。2010 年,Anindita、Chakravarty等人认为口碑的影响力因接收者的类型不同,影响力的大小也不同。不经常看电影的人更加看重电影的口碑。不常看电影人群更加注重负面口碑;一旦他们接收到负面的口碑,会牢牢的铭记在他们的内心,不会轻易的改变对电影的负面看法,即使随后他们接收了正面的影评仍然无法改变已然从负面口碑中受到的影响;口碑与专业影评的影响力对于在不同的人群也是不一样的,对于不常观影人群来说,口碑对他的的影响力大于影评的,如果一个人经常看电影,那么相比口碑,他更容易接受影评的观点。

关于口碑对电影票房影响研究,在 2013 年,Chong Oh等人利用来自推特的关于电影的口碑数据和 boxofficemojo.com 的电影票房数据分析,发现口碑的数量能够直接影响电影票房结果,并且消费者的参与程度以及来自电影营销方发布的关于电影的内容、营销信息也对电影票房发挥了间接影响。那么电影出品人、制片方、演员、导演等利益相关者将时间和精力投入到社交媒体中,与粉丝之前进行交流与探讨,应该可以获取到大量的口碑,同时也就能够提高电影票房的成绩。

3.2.3 基于网民在线生成的海量内容

随着 web2.0 的发展,网民在线生成的互联网数据成爆炸性增长,研究者们利用海量数据构建了更加高效的影票房预测模型。2006 年,Gilad Mishne 和 Natalie Glance抓取了博客中与电影相关的口碑数据,构建了基于博客的电影票房预测模型,探讨了关于电影的口碑声量以及口碑的情感分析对电影票房的影响程度,实验结果揭示了电影的口碑声量对电影票房的影

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[27796],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。