英语原文共 20 页,剩余内容已隐藏,支付完成后下载完整资料
竞争性交易市场中市场选择策略的评估
摘要
交易者在拥有多个交易市场的全球市场中必须经常选择一个交易市场来进行交易。这些选择激励了这些交易市场通过调整各种参数来寻求对彼此的竞争优势,这些参数包括收取费用的不同,或者是匹配卖家和买家的方法。交易者可以利用这个竞争来提高自己的效用。然而,交易者应该使用恰当的方法来决定使用哪一个交易市场来叫价。在这篇论文中,我们通过使用JCAT平台来仿真双边拍卖,从而评估几种解决市场选择问题的不同方案。这些策略的参数空间都进行了探索以便找到表现最好的策略。结果表示softmax策略在最大化交易者的利润和全球配置效率方面都是最成功的的,无论是在自适应市场还是在非自适应市场中。而ε-decreasing策略在自适应市场中表现良好,而且它还显示了在参数空间上与softmax相比具有更好的稳定性。所有的市场选择策略表现都优于随机市场选择策略。
关键字:双边拍卖,设计机制,CAT竞赛,强化学习
- 绪论
由于分析的复杂性,绝大部分现代的经济学理论只考虑孤立市场机构。然而,在实际的市场中,交易市场之间彼此竞争来获得买家或者卖家。相比于垄断时的情况,这种竞争激励交易市场提高效率并降低价格来获得更大的市场份额。
卖家和买家通过搜索得到能给他们带来最高利润的交易市场来利用交易市场彼此之间的竞争。比如,一个买家可能想要搜索出一个给定商品的最低价格。已经发现,一个交易市场中吸引的卖家愿意卖的一种特定商品少于其它市场,那么,买家愿意继续从那个市场买入。
虽然一些与交易者的信息是公开且获得,比如价格,然而一些其他的细节可能只有交易市场自身知道,比如匹配卖家和买家的机制。为了找到最喜欢的交易市场,一个交易者必须探索这些市场一定的次数来确定哪一个交易市场能给这个交易者提供最好的回报。然后可以利用这个采样得到的反馈来提高其未来的平均回报。找到探索和利用之间的平衡也被熟知为探测和利用的权衡。
在自动交易系统中,市场选择也是自动的,因此,算法需要确定何时探测和何时利用。给定一个具有N个交易市场和一个交易者将会与它们交互多次的条件,这个交易者必须数次探索N个市场来提供一个未来从这些市场获得利润的估计。这样的一个问题其实也就是一个熟知的问题,多臂老虎机问题。市场选择和经典多臂老虎机问题的区别在于不同交易市场的回报是动态的且取决于在这个市场中相同时间内解决相同问题的其他交易者,以及交易市场可能改变他们的机制。
几种解决老虎机问题的方法已经提出来了,然而,我们并不知道哪一种解决方案对于市场选择问题来说是最有效的。找到这个问题的有效解决方案越来越重要了,因为越来越多的股票和商品交易是自动运行的,并且随着越来越多的场外交易所的出现,交易者也也有了更多的选择。
在这篇论文中,我们评估了几种最合适的解决动态多臂老虎机的算法,并且探索了这些算法的参数空间来寻找市场选择问题的最佳解决方案。这些评估是在JCAT双边拍卖仿真平台上进行的。
在这篇论文中评估的算法有:1)ε-first算法;2)ε-greedy算法;3)ε-decreasing算法;4)softmax算法(Sutton和Barto,1998)。除此之外,我们还评估了一个随机选择算法,并以此作为基准线。这些将在第四部分讨论。我们计算交易者使用各种算法能获取的利润,以及全球市场的配置效率,来探索智能市场选择算法能否改善这些方面整体市场的表现。
每一种算法都运行了两组试验:一组是交易市场通过改变交易日的收费策略试图适应整个市场的动态性(自适应市场);一组是交易市场的收费策略在整个交易过程中不改变(非自适应市场)。这些选择策略是均匀的:也就是说,在每一轮运行过程中,所有的交易者使用同样的策略和同样的参数。实验的设置在第五部分里。
我们的结果在第六部分展示,表明softmax策略使得交易者获得了最高的平均利润以及市场配置效率。而ε-decreasing策略在自适应市场中表现良好,并且在参数空间上显示了比softmax更高的稳定性。所有的市场选择策略都比随机市场选择策略要好。
- 相关工作
我们的工作和Niu等人(2007)以及Cai等人(2008)的工作一致。Niu等人(2007)第一次使用基于JCAT平台的仿真来检查多个市场之间的竞争。研究成果显示利用多臂老虎机概念而得到的解决问题的方案对于市场选择的情形也是有效的,并且表现良好,即使交易策略改变或者其他配置变化。我们的工作考虑更广泛的市场选择策略,并且目的在于探索这些算法的参数空间以便得到不同设置情况下最有效的算法。Cai等人(2008)使用JCAT平台来进行包含竞争性交易市场的双边拍卖的经济效应的实验。结果显示,拥有多个竞争性的交易市场导致了全球配置效率的损失,如果与拥有相同交易者数量的单一市场比较的话。这主要是因为交易者分布产生了碎片。然而,让交易者在交易市场之间迁移缓解了效率的丧失。这一重要结果促进了我们在特定方面的工作,因为它证明了有效市场选择策略的重要性。
Sohn等人(2009)讨论了定价策略对贸易迁移的影响,同时提出了吸引高价值的内边缘交易者的价格政策,也就是,落在市场均衡价格左侧的交易者。他们的研究成果表明,传统的自适应交易者并不能利用这个定价策略的优势,但是熟知这一策略的交易者可以。作者假设,市场具体的交易策略应该使用学习的每一个交易市场的策略,而不是一个整体的策略。
除此之外,市场选择问题也得到了使用正规方法的研究。比如,Rochet,Tirole以及Shi等人使用博弈论来分析了交易者使用均匀分布的市场选择策略时的市场表现。与此相反,我们的分析主要从交易者的角度,也就是说,市场选择策略必须使用。除此之外,我们使用实证评价来回答这个问题,因为博弈论的分析不适用于如此复杂度的问题。
在其他情境中的市场选择或者在多个市场中交易也已经被研究了。Ladley和Bullock(2005)研究了涉及多个市场的市场动态,但是他们的工作与我们的工作在多个方面都不相同。首先,他们的工作关注于交易者能够获得的信息。在他们的分析中,交易者被固定在空间网络里的一个确定位置上,并且只能和它的邻居交易和接受信息,然而在我们的工作中,虽然交易者以类似的方式在多个交易市场蔓延,但是他们可以根据自己最大化利润的需要在市场之间移动。其次,Ladley和Bullock关注于交易者获取市场信息的不同等级如何影响整个市场的理论均衡收敛,然而我们的工作关注点在于指导交易者移动的方法表现不同于对方。最后,Ladle和Bullock在他们的实验中不断地使用单一经典连续双向拍卖机制,而我们的工作涉及多个直接竞争的交易市场,且它们分别与拍卖机制有关系。
我们的工作与Greenwald和Kephart(1999)的工作有相似点。在他们的工作中,购物者在不同商家间选择,而商家设置的价格依赖于其他商家设置的价格。虽然购物者和商家分别类似于我们工作中的交易者和交易市场,我们考虑的情境更加复杂。在我们的场景中,交易者会学习随着时间变化的的利润来反馈到选择交易市场上,然而在Greenwald和Kephart设计的场景中,购物者要么随机选择一个商家,要么选择一个提供最低价的商家。在我们的工作中,选择一个市场的预期收益具有不确定性,并且取决于多种因素如一个交易者不可能提前知道或者根本不可能知道,比如其他交易者在相同的时间内会进入的市场以及交易市场选择的机制。与此相反的是,在Greenwald和Kephart的工作中的购物者确切的知道他们的效用,如果他们在零售市场中选择一个商家来交易的话。实际上,在这个场景中,成交的价格是由商家确定的,然而在我们的场景中,成交价格是由交易者们确定的。其结果就是,在我们的场景中,交易者选择了一个交易市场,他们甚至不能确定他们能否交易,更不用说确定商品交易的价格了。
另外一个相关工作是Ganchev等人(2010)完成的,他们提出了一个在多个竞争黑池中优化交易量的算法。黑池就是一种交换市场,其中交易量以及卖方和买方的身份都是保密的。这使得交易者买卖大量商品的信息不会透露给其他的市场。在有大量交易者的情况下,一个交易者必须随时确定在每一个黑池中交易的比例。如果一个交易者提交的黑池的交易者数量太少,那么这个交易者就不能充分利用这个黑池,且其不能使用反馈来确定该日可能交易的最大数量。如果黑池里交易者的数量太多,交易者可以精确的确定交易的最大数量,但是一些物品可能不会卖出去。这个由Ganchev等人提出的算法是一种基于R-MAX学习算法(Brafman和Tennenholtz,2003)的标准强化学习算法。这种算法从一个交易公司提供的数据上得到了实验检验,并且与一个初级的老虎机算法,也就是一个softmax算法,以及一个均匀分配算法(也就是,一个在每一个交易按顺序使用偶数的算法)比较。结果表明提出的算法表现优于老虎机算法和均匀算法,并且接近于最优。但是与我们的关注点不同的是,他们关注于每个市场有多少流动资金以及如何以某种方式来传播交易量的需求来最大化成交的数量,而不管这样做的利润如何。
- 背景
为了使用多个交易市场来实验,我们使用了JCAT(Niu等人,2008),一个为了CAT竞赛(Niu等人,2010)而设计的软件平台,其允许平行地运行多个交易市场,且交易者可以在它们中间移动。在这个竞赛中,每个参与者需要提供一个交易市场而竞赛组织者提供交易者。
一个CAT竞赛持续一个确定的天数。每个参与者采用各种政策来规范其交易市场,包括收费政策即对交易者的收费,并且随着时间其可能改变政策来吸引更多的交易者和获取更多的利润。一个交易者需要在每一个交易日选择一个交易市场来与其他进入这个交易市场的交易者进行交易,并且可能在不同的交易日选择不同的交易市场。
每个交易者的交易商品会被分配一个私有价值。这个私有价值以及买卖商品的数量决定了这个市场的供需关系。私有价值在一个交易日内保持不变,但是可能随着交易日的改变而改变。每个交易者都赋予一个交易策略来决定如何报价;比如,一个在文献中众所周知的策略就是zero intelligence with constraint,或者称之为ZI-C;以及一个市场选择策略来决定在哪一个市场中报价。第二个策略就是我们在这一片论文中的关注点。这两个任务允许我们的交易者从两个正交不同的方式展示智能性。
- 市场选择策略
市场选择的问题可以看作成一个动态多臂老虎机问题(Sutton和Barto,1998)。这个问题是动态的,原因如下:
- 交易市场选择的策略可以是自适应的,意味着底层的概率分布可能在竞赛过程中改变;并且
- 市场选择的报酬在一定程度上是由其它选择这个市场的交易者的行为决定的。比如,一个买家选择了一个特定的交易市场,然而该交易市场在这个交易日没有卖家,使得这个买家不可能收到一个匹配价格。
这样的问题与其他的动态多臂老虎机问题是不一样的,就像restless bandit problem(Whittle,1988),由于交易市场及其他的的交易者都可以影响内部的概率分布,因此不能用马尔科夫决策过程直接地表示。
我们评估了四种已经被认真研究的解决多臂老虎机问题的强化学习算法来决定哪一种解决方案是选择市场的最合适方法,并且确定了这些算法的参数。除此之外,我们将这些算法与作为基准线的随机选择算法做比较。每种学习算法通过一个或者多个参数来管理探测和利用问题。参数空间也是我们研究的一部分。
4.1 决策算法
市场选择问题可以使用强化学习算法来解决,因此这个问题被分为两个部分:反馈,决定这个行为完成目标的程度;以及决策,决定交易者下一步的行为。在这一部分,我们概述我们评估的决策算法。
4.1.1 ε-greedy
ε-greedy策略以1-ε的概率选择最好的行为,而这个最好的行为是基于前面的经验(利用),而ε是一个算法提供的参数。对于剩余的ε中情况,这个算法会随机(均匀分布)选择所有的这些行为(探测)。
比如,如果ε等于0.1,那么90%的时间内都会选择最好的行为。
4.1.2 ε-first
ε-first策略每次会随机选择前ε*A个行为(探测),而A是一个行为必须被选择的次数(对于一个CAT仿真中,A就是交易日的天数)。最好的行为在剩余的(1-ε)*A个行为中选择(利用)。
比如,如果ε等于0.1,而A等于1000,一个随机的行为将以均匀分布的方式选取,在最初的100个行为中。而在这之后的900次,前100次实验中表现最好的行为将会被选取。
4.1.3 ε-decreasing
ε-decreasing策略和ε-greedy策略类似,除了ε的值会随着时间变小之外。也就是说,代理学习得更多,探测的数量就下降。这个另外需要一个参数,alpha;,一个决定ε减少比率的参数,以至于每次行为后,ε的值变为ε0*alpha;,ε0就是前一轮中ε的值,直到达到预设的最小。
比如,如果ε等于0.1,而alpha;等于0.9,那么在第一次行为后,ε的值变为0.09,意味着此时会有9%的机会来探测,而91%的机会来利用。在第二次行为后,ε的值变为0.081。
4.
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[152579],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。