1. 网站地图
  2. 设为首页
  3. 关于我们


基于两阶段特征提取的B1LSTM-GRU 股价预测研究

发布时间:2022-09-21 15:36
第一章绪论
本章主要从股票市场的地位和作用等相关背景出发,阐述论文的研究背景,从理 论和实际两方面阐述本文的研究意义。研究内容方面,介绍本文的章节安排,梳理章 节间的逻辑关系。研究方法上,介绍本文采用的模型和方法。最后,根据全文内容, 阐述本文存在的创新之处。
1.1研究背景
近年来,随着中国经济的长足进步,股票市场的规模也越来越大。1997年底,A 股上市公司的数量有745家,总市值1.75万亿。经过二十几年的发展,A股上市公司 数量达到了 4224家,总市值也突破90万亿,占国民生产总值比例超过80%。股票市场 作为国民经济的晴雨表,在国家的金融市场中扮演着非常重要的角色。通过一个国家 股票市场的情况分析,就可以反映出该国某个行业或国家整体宏观经济运行情况。 2022年3月16 H,国务院金融稳定发展委员会召开专题会议,研究当前经济形势和资 本市场问题。受此影响,A股随即全线上涨。截至当日收盘,上证指数涨3.48%,报 3170.71点;深证成指涨4.02%,报12000.96点;创业板指涨5.20%,报2635.08点。 由此看出,虽然当前全球政治经济形势复杂多变,不稳定不确定因素增多,国际金融 市场波动加剧,但此次专题会传递出“稳”的明确信号,有效稳定了市场预期。
已有大量研究表明,股票市场具有可预测性,通过构建金融模型来实现股价的精 准预测成为各个学者青睐的研究课题。在股票价格预测的模型和方法上,国内外学者 们做了许多尝试。早期,学者们开发各种计量经济学方法应用于预测股票价格的未来 变化。随着研究的进一步深入,人们逐渐发现股票价格是非平稳、非线性且含有噪音 的,与计量经济学方法的线性和正态分布的假设相违背,这也使得股价的预测面临新 挑战。随后,机器学习的广泛应用使得许多学者将其应用到股价预测上。相比于传统 的计量经济学方法,机器学习不需要诸多假设条件,对数据特征的提取存在较大优势, 因此能够处理非线性、非平稳的数据。然而,浅层机器学习算法的表现在很大程度上 需要依赖人工特征设计,对原始数据的处理能力不足,容易陷入局部最优【I】,同时在应 用过程中存在着过拟合、收敛慢等问题[2】。随着人工智能的快速发展以及不断提升的金 融数据分析需求,深度学习被广泛应用于时间序列数据预测。与机器学习不同,在考
1 虑信息时,深度学习会像人脑处理数据那样,并且通过增加隐藏层的方式改进神经网 络结构,进而提升预测能力⑶,为金融数据建模提供了新思路。
单一模型很难完全识别复杂多样的原始数据中包含的信息,预测效果还有一定的 改进空间。混合模型可以结合多个模型的优点,识别有效信息,从而提高模型的泛化 能力,预测精度较单一模型有较大改善。聚类-预测-集成方法作为一种混合模型构建方 法,可以深入挖掘数据的内在规律,有效降低数据的复杂性。该方法主要由三部分组 成,首先,利用聚类方法对原始数据进行特征挖掘;其次,聚类后的数据作为输入数 据分别输入神经网络进行预测;最后,采用集成方法将预测结果进行整合,得到最终 的预测结果。
1.2研究意义
习近平总书记强调,金融是国家重要的核心竞争力,金融安全是国家安全的重要 组成部分。成熟的金融市场是一个国家实现可持续发展的必要条件。如今我国已经成 为世界上最大的金融市场之一,但与西方国家相比,我国股市起步较晚,还不成熟。 同时,宏观经济环境、政治原因、行业特征甚至投资者情绪等外部因素在不同程度上 影响着股票价格。因此,在诸多内外部因素的影响和冲击下,股票价格的变化复杂多 样,增加了预测难度。相比于债券、基金等稳健型投资产品,股票具有较高的投资收 益,但同时高收益伴随着高风险。在实际生活中,通过研究股价的运行规律,找到合 理预测股价走势的方法,具有积极的理论意义和现实意义。
1.2.1理论意义
从理论上讲,计量经济学方法和机器学习都已经应用于股票价格的预测,两者的 预测效果具有很大的差异。在构建预测模型中,判断模型是否有效的主要条件是较高 的预测准确率和预测精度,这也是直接帮助投资者进行投资决策的依据。然而,计量 经济学方法和浅层机器学习均存在局限性,无法满足更高预测精度的要求。深度学习 方法在预测性能方面具有无可比拟的优势,为金融数据建模提供了新思路。另外,混 合模型可以结合多个模型的优点,识别有效信息,从而提高模型的泛化能力,预测精 度较单一模型有较大改善。因此本文通过构建一个混合模型,使得其与机器学习模型、 单一深度模型相比,具有较高的预测精度,以求在金融领域的学术研究中创造一定的 价值。
2
1.2.2现实意义
对于监管机构而言,准确预测股市包括股价指数和股价表现,可以在一定程度上 监测和引导股市的平稳运行,降低市场风险。一方面,这不仅可以帮助建立更加成熟 的股票市场,保证股市在一定范围内稳定运行,另一方面,股市的平稳运行能稳住经 济,使得经济衰退风险最小化。
对投资者而言,建立准确预测股价走势的模型,对于制定有效的投资策略具有很 好的参考价值。若构建的模型合理有效,有助于投资者模拟股价的走势,从而根据股 价的涨跌趋势进行合理的买入或卖出,使投资决策更加理性,在一定程度上减少投资 者对股市的盲目投资现象,帮助投资者进行更合理的资产配置,增加投资收益。
综上所述,构建有效的股价预测模型具有重要的理论意义和现实意义,能够为金 融数据建模提供新思路,同时有助于发现股票价格走势,提高投资者的理性程度,从 而构建一个更加成熟的股票市场。
1.3文献综述
针对股票价格预测的研究,国内外学者研究成果颇为丰富。根据研究内容的实际 需要,本章的文献综述分为两部分:股票价格预测方法和股票价格影响因素,选择与 本章相关的文献进行梳理和述评。
1.3.1股票价格预测方法
股票市场能否被预测以及如何被预测,一直是金融学研究的焦点问题。在有效市 场假说下,股票价格已经反映了所有的市场信息,因此投资者不能用公开信息去预测 资产价格(Fama, 1970)⑷。然而,已有大量研究表明,股票价格具有可预测性,采 用合适的方法对股票市场进行预测以及这些方法如何提高预测精度成为国内外学者的 研究热点。目前,常见的股票预测方法包括计量经济学方法、机器学习方法、深度学 习方法等。
(1)计量经济学方法
常用的计量经济学方法如移动平均自回归(ARIMA)模型、向量自回归(VAR) 模型、自回归条件异方差(ARCH)模型和广义自回归条件异方差(GARCH)模型等。 已有文献证明了它们在股市中的预测效果,使得股票市场的预测研究取得了很大进步, 因此得到了广泛的应用。Jung和Boyd (1996)呵利用样本外预测方法比较了 VAR模型
3
和卡尔曼滤波模型(KFM),结果表明VAR的预测效果优于KFMo Franses和Ghijsels (1999)回基于GARCH模型的不足提出了一种改进的GARCH模型,结果表明该方法 样本外的预测能力较原始GARCH原型有很大的改进,并且这种改进适用于不同的样 本、两个预测评价标准和四个股票市场。吴玉霞和温欣(2016)⑺以“华泰证券” 250 期的股票收盘价为预测目标,建立ARIMA模型预测股价变动的趋势和规律,实证结果 表明,ARIMA模型在短期内的动态、静态预测效果较好,这为投资者和企业在做决策 时提供了思路和参考。Rounaghi和Zadeh (2016)同将自回归移动平均模型用于预测标 准普尔500指数和伦敦证券交易所的月度和年度时间序列股票收益率,实证结果表明对 月度股票收益的预测效果优于年度。Jiang等(2021)闵对国际股票市场的实证研究表 明,采用GARCH模型能有效检验美国、日本和英国等发达国家股票市场的风险溢出。
(2)机器学习
虽然计量经济学方法比较客观,有适当的理论做支撑,但其发挥作用的前提是需 要严格的基础假设,且只适用于处理线性数据,而股票市场是一个受诸多因素影响的 动态系统,往往具有一系列复杂、非线性特征。因此,传统计量经济学预测方法存在 一定局限性,不适用于分析复杂的、高维的、有噪声的金融时间序列。随后,机器学 习的广泛应用使得许多学者将其应用到股价预测上。相比于传统的计量经济学方法, 机器学习不需要诸多假设条件,对数据特征的提取存在较大优势,因此能够处理非线 性、非平稳的数据。
国内外学者对机器学习在股票价格预测的应用做了很多探索性的研究。吴微、陈 维强和刘波(2001) a]采用BP神经网络预测上证综合指数的涨跌情况,结果表明BP 神经网络对于中国股票市场的预测是有效的。Tay和Cao (2001)冋研究支持向量回归 (SVR)在股市预测中的应用,证明了 SVR在股票市场预测中的优越性。Kim (2003) [12]用支持向量机(SVM)对韩国股票市场指数(KOSPI)的单日变动方向进行分类, 并将结果与神经网络(NN)和基于案例的推理(CBR)预测的结果进行比较,证明 SVM具有更好的预测性能。Ticknor (2013)卩习以微软公司和高盛集团为研究对象,采 用BP神经网络预测股价走势,结果证实了该模型的有效性。冉杨帆和蒋洪迅(2018) 网采用BP神经网络(BPNN)和SVR构建股价预测模型,结果表明SVR股价预测模 型的误差更小,且股价走势方向准确率更高。Zhang和Lou (2021)问利用BP神经网 络对股票价格进行预测和分类,经实证检验,BP神经网络对股票价格的准确率为 73.29%o
4
(3)深度学习
浅层机器学习算法结构简单,对原始数据的处理能力不足,容易陷入局部最优【I】, 同时在应用过程中存在着过拟合、收敛慢等问题〔习。Hinton和Salakhutdinov (2006) [16] 提出的深度学习在时间序列数据建模中得到了广泛的应用。深度学习通过结合简单但 非线性的模块形成更抽象的高级特征,从大量的输入数据中学习有效的特征表示。与 浅层机器学习相比,深度学习具有以下两点优势:首先,深度学习采用无监督学习的 逐层特征提取,特征表达能力更强,可学习更加复杂的函数表示。其次,深度学习在 提高预测精度的同时能缓解过拟合问题,因而具有更强的泛化能力㈤]。
近年来,学者们运用深度学习探究其在股票市场预测上的适用性。Persio和 Honchar (2016)切使用多层感知机(MLP)、卷积神经网络(CNN)预测标准普尔 500指数(S&P500)第二天的收盘价涨跌,发现与MLP相比,CNN的预测误差更小。 Sim, Kim和Ahn (2019)冋以S&P500为研究对象,提出了一个基于CNN的股票价格 预测模型,并将该模型与人工神经网络(ANN)和SVR的预测精度进行比较,从实验 结果可以看出,CNN是构建股票价格预测模型的理想选择。Chen等(2021)卩刃提出了 一种基于图卷积特征的CNN预测股票趋势,以随机选取的6只中国股票为例,验证了 该模型的优越性。
作为一种预测效果较好的深度学习方法,由Hochreiter和Schmidhuber (1997) [20] 提出的长短期记忆(long short-term memory, LSTM)神经网络已被广泛应用于时间序列 预测。LSTM神经网络是一种特殊的RNN,在处理时间序列数据长期依赖性上优势较 强,它可以增强网络的存储能力,将历史信息保存到后续时刻,具有非线性预测能力 强、收敛速度快、能捕捉时间序列的长期相关性等优点,能够有效解决梯度消失或梯 度爆炸问题。Persio和Honchar (2017)㈤以谷歌股价为研究对象,比较RNN、LSTM 和GRU在股价预测方面的性能,结果表明,在股价预测方面LSTM神经网络更有优势。 杨青和王晨蔚(2019) QI将研究范围扩大至全球30个股票指数,构造一个深层LSTM 神经网络,比较其在短期、中期、长期的预测效果,结果发现,与计量经济学方法 ARIMA、机器学习方法SVR和MLP相比,LSTM神经网络具有更高的预测精度,并 且在不同期限内对所有指数均适用。Saud和Shakya (2020)㈤使用rnn> LSTM和 GRU预测NEPSE银行板块股价,结果表明LSTM的预测效果最好。
BiLSTM神经网络由两个方向相反的LSTM组成,相比于标准的LSTM神经网络, BiLSTM神经网络的权重不仅由已输入的数据决定,还会和将来要输入的数据共同决定。
5
近年来,BiLSTM已用于处理复杂的非线性分类与回归问题,如风速预测(Liu和Chen, 2019) Bl、电价预测(Cheng等,2019)㈤等。曾安和聂文俊(2019)㈤以S&P500为 研究对象,提出了一种基于深度BiLSTM神经网络的预测模型,并将该模型与LSTM 神经网络作对比,实证结果发现,基于深度BiLSTM比LSTM神经网络在误差上降低 了 2%-5%,决定系数提高了 10%o Yang和Wang (2022)旳探讨了目前最前沿的深度 神经网络BiLSTM在金融时间序列预测领域的实用价值,并比较了 BiLSTM、LSTM、 SVR和ARIMA模型在金融时间序列预测中的性能,通过对沪深300指数收盘价的实证 检验,发现BiLSTM对于预测有噪声的金融时间序列具有较强的适用性。
(4)混合模型
单一模型很难完全识别复杂多样的原始数据中包含的信息,预测效果还有一定的 改进空间。混合模型有效结合了各个模型的优势,能充分学习金融时间序列的多尺度、 复杂动态等特性,预测性能较单一模型有较大改善(Chen等,2021)【绚。聚类一预测一 集成作为一种混合模型构建方法,可以深入挖掘数据的内在规律,有效降低数据的复 杂性(Wang和Chen, 2021)㈤]。该方法主要由三部分组成,首先,利用聚类方法对原 始数据进行特征挖掘;其次,聚类后的数据作为输入数据分别输入神经网络进行预测; 最后,将预测结果进行整合,得到最终的预测结果。考虑到数据的多样性,单一模型 不能完全学习原始数据的所有特征,因此对具有相似特征的数据进行聚类显得尤为重 要。聚类后,分别对每一类别构建预测模型,对提高预测精度有很大影响(Zhong和 Enke, 2017) [31]o 常用的聚类方法有 K-means 聚类(Mallqui 和 Fernandes, 2019; Wang 等,2021) [32-33]、自组织映射神经网络(SOM) (Wang 和 Chen, 2021) [34\ DBSCAN 聚类(汪勇、李好和王静,2020) P5]等。Wei等(2019)昭的研究表明,与基准模型 相比,采用SOM聚类在预测效果上有显著提高。
近年来越来越多的研究发现,集成学习方法能展现出更好的性能和准确率(Sun, Liu和Sima, 2020)旳。Boosting算法是集成学习方法的一个分支,包括Adaboost、 XGBoost、GBDT等,已有研究将这些方法成功应用于各个领域研究中(Zhang, Li和 Pan, 2016; Zhou等,2019)哭旳。GRU作为一种神经网络,能够捕获金融实践序列的 长期依赖关系且运算速度快。在集成过程中,GRU集成属于非线性集成方法,与线性 集成相比有很大的优势,可以进一步拟合数据中的非线性特征,提高模型的最终预测 能力(Wang等,2022)购。
6
1.3.2股票价格影响因素
股票价格预测是金融研究的核心问题之一。由于股票价格受到国内外经济环境、 国际形势、宏观经济环境、股票市场运行等各种内外因素的影响,因此大量文献围绕 股票价格的影响因素展开了研究。
(1)流动性
现有文献研究表明,股票流动性是影响股票市场的重要因素。Amihud (2002) 认为,对于缺乏流动性的股票,投资者要求额外的补偿,以弥补股票无法在短时间内 以合理价格变现造成的潜在损失,因此流动性较低的股票应具有更高的预期未来回报。 李一红和吴世农(2003)舵]分别用换手率和ILLIQ衡量股票的流动性,结果发现,作 为流动性正向指标的换手率与股票预期收益存在显著的负相关关系,而ILLIQ作为流 动性负向指标,与股票预期收益显著正相关。陈蓉和吴宇翔(2019)的研究以2003 年至2016年中国A股主板上市公司为样本,研究结果表明股票的高流动性显著增加了 股价崩盘风险。Leippold, Wang和Zhou (2021)〔44】利用各种机器学习方法建立和分析 了一套综合的收益预测因子,他们发现流动性成为最重要的预测因素。
(2)消费者信心指数
消费者信心指数(Consumer Confidence Index , CCI)已成为许多国家反映经济状 况的一个重要指标。关于消费者信心指数对于股票市场的研究方面,Jansen和Nahuis (2002) H5]以1986-2001年11个欧洲国家的股票市场为研究对象,探究股票市场和消 费者信心二者之间的关系,研究发现,除了德国股票市场,其他国家的消费者信心指 数与股票收益正相关。Fisher和Statman (2000)郎]的研究表明,消费者信心指数可预 测部分股票市场,尤其是在创新性市场和小规模公司股票市场,预测效果更明显。王 汝芳和田业钧(2009) H7]在研究消费者信心指数和股票市场的互动关系时,发现二者 显著相关,消费者信心指数能预测一部分股市收益。Hsu, Lin和Wu (2011)购利用国 家层面的面板数据,探讨消费者信心指数与股票市场指数之间的因果关系,研究发现 CCI的变化会对股票收益产生重要影响。
(3)投资者情绪
在投资者情绪和股票市场资产定价方面,大量学者做出了探讨性研究。Brown和 Cliff (2004) H9]发现,投资者情绪在未来1一3年对股票收益仍有显著的负向影响。 Baker和Wurgler (2006)【期在前人研究基础上构建了一个综合的投资者情绪指标,研
7
究发现,投资者情绪与新兴股、小型股和高波动性股票的股票收益显著负相关。
Waggle和Agrrawal (2015)【刃以美国股票市场为研究对象,考察个人投资者情绪对股 票市场的影响,结果表明,在短期内投资者情绪与股票收益负相关,即当投资者表现 出积极的情绪时,在短期内产生低回报;反之,当投资者情绪消极时,产生的回报较 高。杨晓兰、沈翰彬和祝宇(2016) QI使用互联网相关信息构建投资者情绪指标,发 现投资者情绪与股票收益正相关,这种相关性在一定程度上能够提高股价预测能力。 Bathia和Bredin (2018)阿在条件资产定价模型中引入投资者情绪指标,发现加入投资 者情绪指标后能够更好的解释规模、内在价值、流动性和动量效应对股票收益的影响, 增强预测效果。谢世清和唐思勋(2021)凶]通过SVAR模型探讨投资者情绪,结果表 明:投资者情绪的积极变化在短期内对股市收益产生积极影响,对市场收益率的冲击 持续了大约一年左右。裘江南和葛一迪(2021) di以2015年下半年中国股市经历的股 市危机为研究背景,研究结果表明,股市危机中的投资者情绪通过影响市场认知的方 式间接影响股票市场,其中积极情绪对调节市场认知起到积极作用,而以“怒”为代 表的消极情绪会恶化市场认知,并进一步加剧危机的影响。李媛和冉齐鸣(2021) a] 构建了个股情绪的beta指数来研究A股的周期性波动,研究表明,个股情绪比传统市 场情绪更能预测未来收益。
(4)国际市场
我国股票市场历经二十余年的发展,国际影响力不断上升,现已成为全球第二大 股票市场和最大的新兴股票市场。在全球经济金融市场的一体化发展大趋势下,各国 股票市场之间的联系越来越强,相互间的影响正日益扩大,不同股票市场之间的联动 和传染效应也对股票价格有着非常显著的影响(张贵生和张信东,2016)[涸。在次贷 危机中,我国股市呈现近70%的跌幅,国内因素并不能充分解释这种现象,国际市场 的相互影响不可小觑。张兵、范致镇和李心丹(2010) P9]发现,在QDII实施之后,美 国股市对中国股市的开盘价和收盘价均有显著的引导作用。Zhou和Zhang (2012) 研究发现,在次贷危机期间,美国市场的波动对其他市场的影响占主导地位。朱小能 和吴杰楠(2021) mi]的研究表明,美国股票市场的波动对全球股票市场的影响是显著 的,美国市场特有波动的升高(降低)将导致亚洲(欧洲)各市场间联动性提高(降 低)。
8
1.3.3文献述评
本章以股票价格的可预测性为出发点,从股票价格的预测方法和影响因素两方面 梳理国内外文献,总结出预测方法的发展历程和影响股价的内外因素,从中确定了本 文的努力方向。
本章述评发现:
(1) 股票市场是一个非线性、非平稳的动态系统,传统的计量经济学方法只能捕 捉数据的线性关系,浅层机器学习结构简单,泛化能力差,容易陷入局部最优,不适 用于分析复杂的、有噪声的金融时间序列。深度学习方法为金融数据建模提供了新思 路,BiLSTM神经网络能够解决梯度消失和梯度爆炸问题,并且能捕获从过去到未来的 数据关系,在股票价格预测方面具有更强的预测能力。
(2) 单一模型不足以完全识别原始数据中的所有信息,混合模型模型则可以结合 多个模型的优点,识别有效信息,从而提高预测精度。预测-集成方法作为一种混合模 型构建方法,目前在金融领域应用不多。
(3) 股票市场受诸多因素影响,因此传统实证研究中所用的预测变量不能够完全 解释股市变化,有必要探究挖掘进一步的数据。
1.4研究内容、方法和技术路线
1.4.1研究内容
本文共分为六个章节,各章节的主要内容如下:
第一章,绪论。这一章主要包括研究背景、研究意义、研究内容、研究方法以及 存在的创新之处。研究背景和意义方面,从股票市场的地位和作用等相关背景出发, 阐述本文的研究背景,从理论和实际两方面阐述本文的研究意义。研究内容方面,简 要概述各章节的分工安排,梳理本文的研究逻辑。研究方法上,介绍本文所需要用到 的模型和方法。主要创新点方面,根据全文内容,阐述本文存在的创新之处。
第二章,文献综述。针对研究内容的实际需要,本文的文献综述分为两部分:股 票价格预测方法和股票价格影响因素。股票价格预测方法方面,对计量经济学方法、 机器学习、深度学习以及构建混合模型进行系统阐述。股票价格影响因素方面,对国 内外文献中影响股票价格的因素进行梳理。
第三章,研究设计。这一章分别介绍本文模型构建中采用的方法:主成分分析
9
(PCA)、层次聚类、BiLSTM和GRU,对这四种方法和模型的相关原理和公式进行介 绍。在方法介绍的基础上阐述本文的研究设计。
第四章,两阶段特征提取。这一章首先介绍本文的样本数据,即以沪深300指数和 中证500指数收盘价作为研究对象,输入数据方面选择开盘价、最高价、最低价、流动 性、消费者信心指数、投资者情绪和标准普尔500指数。在对数据进行预处理后,第一 阶段特征提取采用主成分分析(PCA)降低数据输入的维度,将原始的7个输入向量转 换成3个输入向量。第二阶段特征提取采用层次聚类对降维后的数据进行分类,将强相 关数据划分为一类,沪深300指数和中证500指数最佳聚类数为2o
第五章,基于BiLSTM-GRU的股价预测。首先,对于每个训练子集,分别建立 BiLSTM神经网络,得到对于每一类别的预测结果。其次,将BiLSTM的预测结果输入 到门控循环单元(GRU),利用GRU神经网络对BiLSTM预测结果进行整合。为了验 证本文所提混合模型的有效性,将其与机器学习、单一深度学习等基准模型做对比实 验。
第六章,总结与展望。本章梳理全文的主要内容,包括所做的主要研究工作,从 研究过程和研究结果中得出本文的研究结论。在总结全文的基础上,做出简要的规划, 展望未来可能的进一步研究工作。
1.4.2研究方法
本文在研究过程中,采用的主要方法梳理如下:
(1) 文献综述研究法
通过对已有文献进行梳理,对国内外文献的股价预测方法和股票价格影响因素进 行分析和整合,较为全面的掌握了股价预测方法的发展历程和可能影响股票价格预测 的因素。经过分析,发现传统、单一的预测模型,面对数据的多尺度特性,很难完全 识别复杂多样的原始数据中包含的信息,预测精确度不高,存在较大的改进空间。混 合模型能够结合单个模型的优点,提高信息利用程度,增加预测精度。同时,由于股 票价格受到国内外经济环境、国际形势、宏观经济、股票市场运行等各种内外因素的 影响,因此传统实证研究中所用的预测变量,远不足以反映股票市场数据中所包含的 所有有关未来资产价格的信息,在输入数据选择方面,应考虑更多的外生变量。
(2) 主成分分析
主成分分析(Principal Components Analysis, PCA)是将输入数据中多个变量转化
10
为数量较少的几个主要变量的方法。每个主要变量都由原始变量的线性组合而成,各 个主要变量相互独立,主要变量能反映绝大部分信息,但又互不重叠。主成分分析之 后重复变量被删去,留下的新变量尽可能少,但原有大部分的信息得以保留,因此是 一种较好的数据降维手段。
(3)层次聚类
层次聚类(Hierarchical Clustering)是对数据集进行层次分解,划分数据集时,根 据簇与簇之间的距离度量准则,构造和维护一棵由簇和子簇形成的聚类树,在满足某 个条件后终止聚类。在使用主成分分析后,采用层次聚类对降维后的数据进行分类。 层次聚类挖掘并重新排列训练数据中外生变量的主要特征,将强相关数据划分为一类, 形成不同的训练子集,避免训练数据特征分散导致模型缺乏泛化能力的问题。
(4)BiLSTM神经网络
BiLSTM对聚类后的训练子集分别预测。BiLSTM神经网络由两个LSTM神经网络 组成,它们的输入相同,但是信息传递方向不同,其中一个正向训练,另一个反向训 练,最终输出结果由正反两个方向的LSTM神经网络共同决定。
(5)GRU
通过BiLSTM得到预测结果后,将所有预测序列放在一起作为GRU神经网络的输 入。与LSTM相比,GRU单元结构简单。GRU减少并且合并了 LSTM的门结构,只有 重置门和更新门,这样在保证精度的基础上,增加了网络训练的速度。在集成过程中, GRU集成方法属于非线性集成,与线性集成相比具有很大的优势,可以进一步拟合数 据中的非线性特征,提高模型的最终预测能力。
(6)对比研究法
为了更全面、清楚的理解本文构建的混合模型的预测效果,比较其对股市收盘价 的预测能力,选取反向传播神经网络(BPNN)、支持向量回归(SVR)、PCA-层次聚 类-BiLSTM、PCA-BiLSTM、BiLSTM、LSTM这6种基准模型进行对比实验。
11
 
 
图1-1技术路线图
1.5创新点
本文的主要创新点如下:
(1)对训练数据进行两阶段特征提取。首先采用主成分分析降低数据输入的维度, 降维后采用层次聚类挖掘并重新排列训练数据中外生变量的主要特征,将强相关数据 划分为一类,形成不同的训练子集。聚类个数是影响聚类结果的关键因素。大多数学 者人为选定固定的阈值,当距离超过阈值后,则不再进行聚类。这种方法存在缺陷, 具有一定的局限性,本文计算了由于聚类类别减少产生的欧几里德距离的增加值即欧 几里德距离差分值,改进了这一不足。
(2)将BiLSTM与GRU相结合,采用GRU对BiLSTM的预测结果进行集成,
12
GRU集成方法属于非线性集成,与线性集成相比具有很大的优势,可以进一步拟合数 据中的非线性特征,提高模型的最终预测能力。
(3)本文以聚类-预测-集成为思路,设计了一种两阶段特征提取与深度学习相结 合的股价预测集成框架用于中国A股预测,将特征提取与深度学习模型相结合,弥补 了传统计量经济学方法、浅层机器学习方法和单一模型在预测方面的不足,经过对比 实验,验证了该混合模型在股价预测上的优越性,为中国A股价格预测提供了一种可 行的思路和方法。
13
第二章相关原理和研究设计
本章分别介绍本文模型构建中采用的方法:主成分分析(PCA)、层次聚类、 BiLSTM和GRU,对这四种方法和模型的相关原理和公式进行介绍。在方法介绍的基 础上阐述本文的研究设计。
2.1相关原理
2.1.1主成分分析
股票市场价格受多个因素影响,其预测因素是一个多层次综合体系。在输入变量 较多的情况下,变量与变量间可能存在显著的相关性,造成信息重叠和信息冗余。对 于多变量研究,主成分分析(Principal Components Analysis, PCA)在对多元数据处理 时能够消除原始变量指标间的相关影响,根据线性变换的思想,通过累计贡献率选出 重要成分、化简变量,将数据中的多个变量转化为数量较少的几个主要变量何]。采用 主成分分析,降低输入数据的维度,可以避免数据之间的冗余,提高算法的运行效率, 以便于后期的分析与建模。PCA的基本步骤为:
(1)定义原始矩阵。设X 是由p个指标组成的变量,即输入变量;
"为样本数,即股票收盘价。原始矩阵为:
,...,x p)— X\P (2-1)
Xnp_
(2)计算相关系数矩阵: ~ru rn …
R = ^21 y ・♦・
(22 (2-2)
rP2 •… r„P_
 
式(2-2)中,讣,丿=1,2,…,p)为原始变量兀与◎的相关系数,其计算公式为:
I二£(兀,-£)(厲-和/、£(兀厂呂)吃g —兀y (2-3)
5=1 V 5=1 5=1
(3)根据特征方程\XIp-P\ = Q,求解特征值和特征向量。由特征方程计算得到p
14
个特征值人(心1,2,...丿),将其按照从大到小的顺序排列为分别 求出对应的特征向量q (z = 1,2,...,72)o
(4) 计算主成分贡献率和累计贡献率。主成分贡献率为上「(‘ = 1,2,...,卫),累计
*
5=1
i
贡献率为£1(s = 12 刃。在主成分分析中,一般要求累计贡献率达到85%以上。此
5=1
时特征值p)分别对应第1、第2、…、第加个主成分。
(5) 由主成分载荷计算得分。计算主成分载荷,方差贡献率作为权重,通过对加 个主成分进行加权求和计算得分,从而对样本进行评价。
2.1.2层次聚类
考虑到数据变化的复杂性,单靠PCA降维远远不够。聚类算法作为一种无监督学 习方法,能够根据数据的内在相似性划分为多个类别,使类别内的数据相似度较大而 类别间的数据相似度较小。
层次聚类是对数据集进行层次分解,划分数据集时,根据簇与簇之间的距离度量 准则,构造和维护一棵由簇和子簇形成的聚类树,在满足某个条件后终止聚类阴]。在 使用主成分分析后,采用层次聚类对降维后的数据进行分类。层次聚类挖掘并重新排 列训练数据中外生变量的主要特征,将强相关数据划分为一类,形成不同的训练子集, 避免训练数据特征分散导致模型缺乏泛化能力的问题。层次聚类根据采取的原则不同, 有以下两种类型:
a) 分裂型层次聚类。采取自顶向下的原则,在这种类型的层次聚类中,所有对象 被看成一个簇,在迭代过程中进行类的分裂,逐步细分为越来越小的簇,直到最终每 个对象都称为一个单独的簇或者达到一个终止条件为止。
b) 凝聚型层次聚类。与分裂型层次聚类正好相反,采取自底向上的原则,在这种 类型的层次聚类中,每一个对象都被看成一个单独的簇,在迭代过程中进行簇的合并, 逐步合并为越来越大的簇,直到最终所有对象都被合并到一个簇中或者达到一个终止 条件为止。
层次聚类不管是采用自顶向下的原则,或者采用与之相反的原则,二者的共同点
15
是根据簇之间的相似性进行分类。判定相似性需要一个度量方法,这个度量方法的选 择直接影响到最终的聚类结果。聚类算法常用距离函数来度量对象间的相似度。在层 次聚类中,欧几里德距离经常被用于计算两个点之间的距离。假设两个数据点X和Y 分别表示为 X = (X1,X2,X3,...,Xn) , Y = (Y1,Y2,Y3,...,Yn),他们之间的距离用 D(X,Y) 表示,两个点之间距离的计算公式如下所示:
D(X, y) = ^(X.-Y,)2 +(X2-Y2)2 +--- + (Xn-Yny ( 2-4 )
在层次聚类中,如何度量两个簇之间的距离是至关重要的一步。目前,有以下三 种常用的簇间距离度量方法:
1、 最小(单链)距离,是指用两个聚类所有数据点的最近距离代表两个聚类的距 离。
"mm© 勺) = min||p厂 P』 (2-5)
其中:Pi、卩)是两个数据点;c,、勺是两个类,pt ect, pj ecj o
2、 最大(全链)距离,是指用两个聚类所有数据点的最远距离代表两个聚类的距 离。
(c,,c J = max ||p, — ( 2-6)
其中:Pl、Pj是两个数据点;C,、勺是两个类,pt ect, PjWCj。
3、 平均(组平均)距离,是指用两个聚类所有数据点间的距离的平均距离代表两 个聚类的距离。
叽(卬勺)=去工工炳-^|| (2-7)
ninj
其中:Pi、P/是两个数据点;C,、Cj是两个类,pt e ct, Pj ECj且%,"丿分别是类c,、 Cj的样本数。
2.1.3 BiLSTM双向长短期记忆神经网络
循环神经网络(RNN)能够反映时间序列数据的序列相关特征砂],但存在梯度消 失或梯度爆炸问题,因此对股票市场数据历史信息的挖掘是有限的阿。LSTM神经网 络是一种特殊的RNN,在处理时间序列数据长期依赖性上优势较强。LSTM作为RNN 的拓展,巧妙之处在于通过增加输入门、遗忘门、输出门以获得变化的自循环权重,
16
在模型参数固定的情况下,不同时刻的积分尺度得以动态改变,有效解决了 RNN存在 的梯度消失或梯度爆炸问题[训。图2-1展示了 LSTM神经网络的结构。
 
 
首先,/是遗忘门(forget gate),它的作用是决定哪些信息需从细胞中剔除,
ft=ty(bf+Wfxt+Ufht_^ (2-8)
其中,b为sigmoid激活函数,激活函数的作用是设置信息流动权重区间,范围在0〜1 之间,1表示保留全部信息,0表示剔除全部信息。呂是当前输入向量,沟是当前隐藏 层向量,bf , Wf , (Ty分别是偏置、输入权重和遗忘门的循环权重。
其次,更新细胞中信息状态。设g,由sigmoid激活函数控制的0〜1之间的外部输入
门(input gate):
gt = b(bg + Wgxt + Ugh_ J (2-9)
则在C一基础上更新的细胞状态Ct为:
ct = ftcz-1 +gt tanh(^c + Wcxt + Ucht_x) (2-10)
最后,输入门(output gate)控制的信息输出为:勺*tanh(CJ ,其中,输出门
(sigmoid 激活函数控制):ot = <y(bo + Woxt + U。人_)。
LSTM为单向神经网络,只能考虑时间序列的单向关系。BiLSTM神经网络由两个 LSTM神经网络组成,它们的输入相同,只是信息传递方向不同,其中一个正向训练, 另一个反向训练,最终输出结果由正反两个方向的LSTM神经网络共同决定©J
17
 
BiLSTM中的主要公式如下:
ht=f(^Xt+w2ht_^
K=fhV3Xt+W5^
ot=g(w4ht+w6h't)
为前一时刻的输出,巾为/时刻在前向层的输出,勺+i为下一时刻的输出,力为/时刻在 反向层的输出,o,为/时刻的输出。
2.1.4 GRU门限循环单元
与LSTM相比,GRU单元结构简单。LSTM有三个门,分别是输入门、遗忘门、 输出门,GRU减少并且合并了 LSTM的门结构,只有重置门和更新门⑹],这样在保证 精度的基础上,增加了网络训练的速度。GRU架构如图2-3所示。
 
在图2-3中,兀表不在/时刻输入,巾表不在/时刻输出或隐藏层单兀输出,C表 示将两个向量相连,X表示对两部分输入数据进行相乘操作,1-表示用1减去输入该模 块的数据。",表示更新门,其主要作用当前一时刻的状态信息进入当前状态时,控制 信息进入的程度,数值越大表示当前时刻纳入前一时刻的状态信息越多。匚表示重置 门,其主要作用是控制前一状态作用于当前状态隐藏单元候选集丘的信息比例。tanh 为双曲正切激活函数,其输出范围为(-1, 1), b为sigmoid激活函数,其输出范围为
(0, l)o
信息进入GRU单元后,流程传递包括以下几个步骤:
(1) 将/时刻输入数据和/-I时刻隐藏层输出进行拼接,重置门输出信号-由公 式(2-14)获得;
(2) ",是更新门输出信号,由公式(2-15)获得;
(3) 丘是当前状态隐藏单元候选集,由公式(2-16)获得,丘主要综合了输入数 据和经过重置门筛选后/-I时刻的隐藏层状态
(4) /时刻的隐藏层输出由公式(2-17)获得,表示遗忘掉/-I时刻所传递的隐 藏层信息%_i,并筛选/时刻候选隐藏层中的重要信息输出。
其中,(1-"J*%-表示选择性''遗忘”1-1时刻隐藏状态,均*斤表示选择性''遗 忘”隐藏单元候选集丘中的信息,仅保留丘中重要的信息。如此循环往复实现对历史 信息积累和记忆,可有效捕捉经济预测或时间序列模型中存在的长程相关性。
7; =cr(X •九,x」) (2-14)
Ut "(化•九,X」) (2-15)
=tanh(^--[7;*/7w,xJ) (2-16)
力+ut*ht (2-17)
 
2.2研究设计
基于上文对相关方法和模型原理的介绍,本文提出一种混合模型即PCA-层次聚类 -BiLSTM-GRU来预测股票市场价格。该混合模型既考虑了单一模型在建模过程中数据 19
处理能力不足和预测效果不佳等缺陷,又考虑了外生变量对股票市场的影响,降低了 模型构建的复杂性,提高了模型的样本外预测能力。混合模型框架设计如下:
1、 对数据进行预处理,包括缺失值填充和归一化。将样本数据划分为训练集、验 证集和测试集。
2、 两阶段特征提取。第一阶段特征提取采用主成分分析,降低维度避免数据间的 冗余。考虑到股票价格变化的复杂性,第二阶段特征提取采用聚类算法对降维后的数 据进行分类。层次聚类挖掘并重新排列训练数据中外生变量的主要特征,将强相关数 据划分为一类,形成不同的训练子集,避免训练数据特征分散导致模型缺乏泛化能力 的问题。
3、 BiLSTM预测。对于每个训练子集,分别建立BiLSTM神经网络。为提高数据 利用率,采用滚动窗口原理,尽量确保当前预测值和最近几天的数据信息相关。在参 数设置方面多次反复实验,找到最优结构,得到对于每一类别的最优预测结果。
4、 GRU集成。将BiLSTM预测结果作为输入变量传递给GRU模型。GRU可以对 多个BiLSTM的预测结果进行集成,得到股票价格的最终预测结果。
5、 对比试验。为验证该混合模型的预测效果,选取6种基准模型进行对比实验。 本文实验设计框架如下:
输入数据
 
20
2.3本章小结
本章首先介绍混合模型模型构建中采用的方法:主成分分析、层次聚类、BiLSTM 和GRU,对这四种方法和模型的相关原理和公式进行介绍。在各方法原理介绍的基础 上阐述文本的研究设计:主成分分析用于降维,降维后采用层次聚类划分数据, BiLSTM分别对每一类别数据进行预测,将预测结果作为输入变量传递给GRU, GRU 可以对多个BiLSTM的预测结果进行集成,得到最终预测结果。
21
第三章 样本选取和数据处理
本章首先介绍选取的研究样本,即以沪深 300指数和中证 500指数收盘价作为研究 对象,输入数据方面选择开盘价、最高价、最低价、流动性、消费者信心指数、投资 者情绪和标准普尔500指数。在对数据进行预处理后,第一阶段特征提取采用主成分分 析(PCA)降低数据输入的维度,第二阶段特征提取采用层次聚类对降维后的数据进 行分类,将强相关数据划分为一类,使类别内的数据相似度较大而类别间的数据相似 度较小。
3.0 样本选取
股票市场是一个高度复杂的市场,影响因素众多且复杂。选择样本数据时,既要 考虑到样本数据不仅能反映股票市场的基本规律,又能反映数据在模型中训练的性能, 此外,模型的适用性和准确性需要从多方面验证。因此,样本数据的选择要慎重和周 全。
针对上述情况,本文选取了沪深 300指数和中证 500指数这两支国内大盘股指数, 来验证模型在股市预测方面的适用性。沪深 300 指数的编制方法是根据流动性、规模 等多项指标,从沪市和深市 A 股中筛选出最具代表性的 300 支股票,能够充分反映 A 股市场的整体走势;中证500指数是从沪市和深市A股中,剔除沪深300指数成分股 和市值排名前300的股票,取接下来市值排名前500的股票进行编制,它是最能反映中 小规模公司股价变化的小盘股指数。沪深300指数和中证500指数能整体反映中国A股 市场价格的综合走势,因此本文选取沪深 300 指数(399300)和中证 500 指数(399905) 的收盘价作为预测目标。样本周期方面,较长的时间范围可以克服周期的不可预测性 或由于样本量不足而引起的效果不佳等情况。本文中,沪深300指数和中证500指数的 时间周期是 2005年 1 月 4 日至 2021 年 11月 30日。
在深度学习中,数据通常划分为训练集、验证集和测试集。训练集用于估计模型 参数,验证集用于调整神经网络结构(如隐藏层数、隐藏单元数),测试集用于评估训 练好模型的泛化能力(即评估对样本外时间序列数据的预测能力)。样本数据的划分如 表 3-1 所示。
22
表3-1样本数据划分说明
数据 交易天数 时间
训练集 2386 2005/01/04-2015/03/06
验证集 796 2015/03/07-2018/07/16
测试集 796 2018/07/17-2021/11/30
 
本文按照6: 2: 2的比例划分训练集、验证集和测试集,训练集的时间从2005年 1月4日至2015年3月6日,共2386个交易日;验证集的时间从2015年3月7日至 2018年7月16 H,共796个交易日;测试集的时间从2018年7月17日至2021年11 月30日,共796个交易日。
沪深300指数和中证500指数收盘价的描述性统计特征如表3-2所示,从中可以清 楚地看到这两个指数的描述性统计特征差异。收盘价走势分别如图3-1、图3-2所示, Training set表示训练集,Verification set表示验证集,Test set表示验证集,从中可以清 楚地看到沪深300指数和中证500指数的收盘价趋势。
表3-2描述性统计特征
数据集 样本量 最大值 最小值 平均值 标准差
沪深300指数 3978 5877.202 81&033 3129.508 1121.162
中证500指数 3978 11545.89 696.85 4467.278 1852.711
 
 
 
图3-1沪深300指数收盘价走势
23
 
图 3-2 中证 500 指数收盘价走势
 
相比于沪深 300指数收盘价,中证 500指数收盘价变动范围更广。沪深 300指数收 盘价最小值是 818.033 元,最大值是 5877.202 元,而中证 500 指数收盘价最小值是 696.85 元,小于沪深 300 指数收盘价最小值,最大值达到了 11545.89 元,远大于沪深 300指数收盘价最大值。平均值方面,中证500指数为 4467.278元,大于沪深 300指数 的 3129.508 元。从标准差来看,沪深 300 指数为 1121.162 ,而中证 500 指数为 1852.711 , 表明中证500指数收盘价波动程度大于沪深 300指数。
3.1 输入数据
外生变量对于股市预测起到十分重要的作用,选取合适的外生变量可以大大提高 预测准确率的上限。在输入数据的选择方面,开盘价、最低价、最高价等常用指标在 股市预测中被广泛使用。由于股票价格受到国内外经济环境、国际形势、宏观经济、 股票市场运行等各种内外因素的影响,一些市场指标、宏观经济指标、行业相关指标 等也被用于股市预测。
并非所有影响股票价格的因素都适合作为预测模型的输入变量。在将数据应用于 预测模型前,必须满足以下特征:
(1)数据能够获取,神经网络的训练和学习需要足够的数据样本;
(2)所选变量与股票价格有关;
(3)数据必须准确有效。
基于上述要求,在输入数据的选择方面,本文除了开盘价、最低价和最高价这三 个基本指标,结合前文的文献综述,添加了流动性、消费者信心指数、投资者情绪和
24
标准普尔500指数作为输入变量。各指标定义如下:
(1)流动性
股票流动性是指投资者以较低的交易成本、较小的价格影响和较快的速度完成交 易的难易程度。为测度股市流动性状况,本文借鉴Amihud (2002)⑷啲非流动性指标 来衡量流动性(选取股票样本时,将一年累计交易天数不足200天的股票剔除,同时计 算上一年的年度ILLIQ占市场上所有股票同期ILLIQ值的比例,将排名1%和后1%的 股票剔除):
1 Daysn I
Illiquidity11 = V — (3-1)
八 Days* d=i Volumei t d
在公式(4-1)中,表示股票i在/年第d个交易日收益率,并对该收益率取 绝对值,Volumei t d表示股票i在/年第d个交易日的交易金额,Days“表示股票i在/年 的交易天数。因此,R加|/%/"加弘屛表示股票i在/年第d个交易日,当每单位交易金 额发生变化时引起的收益率变化,对其加总后除以交易天数,即为非流动性指标。 IMqu诚ty越大,表明单位交易金额对股票价格的冲击越大,从而导致投资者的交易成 本越高,股票流动性就越低,反之亦然。考虑加孙述砂原始数值具有较高的偏度与峰 度,股票流动性指标厶旳”方砂计算方式如下:
Liquidity = - ln(Illiquidity) (3-2)
(2)消费者信心指数
消费者信心指数(Consumer Confidence Index , CCI)由消费者预期指数和消费者 满意指数构成,是反映消费者信心特征的指标,能够相对全面刻画消费者对当前经济 形势和未来经济前景、收入水平和预期以及消费心理状态的主观感受,对经济走势和 消费趋向具有良好的预测性。
(3)投资者情绪
对于投资者情绪的度量,已有研究使用封闭式基金折价等单一指标来衡量投资者 情绪的变化。然而,单一指标的衡量存在局限性,不能充分反映投资者情绪的变化, 使得度量结果不够纯粹。本文采用易志高和茅宁(2009) Ml构建的综合投资者情绪指 数,基于他们改进的BW指数构建方法(Baker和Wurgler, 2006)冈,融入能反映中 国股票市场投资者情绪变化的指标,选取封闭式基金折价(DCEF)、市场交易量
25
(TURN)、IPO数量(IPON)、上市首日收益(IPOR)、新增投资者开户数(NIA)等。 为了能较好测度投资者情绪的综合指数(CICSI),运用主成分分析方法进行构建,并 剔除了相关宏观经济因素(包括工业增加值、居民消费价格指数和宏观经济景气指数 等)的影响。
(4)标准普尔500指数
在国际市场方面,本文选择美国股票市场的的标准普尔500指数(S&P 500 Index)。 首先,美国是全球最大经济体,各国经济与美国经济发展情况息息相关,因此,美国 股票市场的走势情况也会影响其他国家的股票市场。从交易时间来看,美国股市是每 天最后一个收盘的股市,其涵盖的信息是最全面的,因此对于第二天开盘的沪深股市 有着较大的影响。其次,标准普尔500指数记录了美国500家上市公司,其涵盖的所有 公司都在美国主要交易所上市。与道琼斯指数相比,标准普尔500指数包含更多公司, 因此风险更加分散,可以反映更广泛的股市变化。
综合上述分析,本文的输入数据选择及其含义汇总如下,数据来源于国泰安金融
数据库(CSMAR)。 表3-3输入变量及其含义
输入变量 含义
开盘价 最高价 最低价 流动性 股票市场中在交易时间段产生的第一个价格
股票市场中在交易时间段产生的最高的一个价格
股票市场中在交易时间段产生的最低的一个价格 采用Amihud (2002)凹的非流动性指标来衡量流动性
消费者信心指数 反映消费者信心强弱的指标,消费者满意指数和消费者 预期指数构成
投资者情绪 采用易志高和茅宁(2009) Ml能反映中国股票市场投资 者情绪变化的指标
标准普尔500指数 标准普尔500指数是1957年以来美国最大的500家上市 公司的市值加权指数
 
3.2数据预处理
3.2.1缺失值填充
每个金融市场的交易日期并不完全相同,且少部分输入变量数据空缺,因此整个 数据集中存在缺失值的情况。数据中较多的缺失值会对深度学习预测产生较大的噪音。
26
常见的缺失值填充方法有均值、众数填充等方式。本文中的变量为连续数据,因此, 在适当的情况下,将统计平均值作为观测值来计算,以代替空白数据。否则,缺失值 对应的日期将从数据集中删除。经过缺失值处理后,本文共3978条收盘价数据。
3.2.2归一化
为了消除不同特征、不同维度对后续数据分析的影响,一般在实验开始前对数据 进行标准化处理。在训练深度神经网络时,样本数据的特征标准化处理,对于发挥深 度学习算法的最佳效果具有重要作用。若不进行标准化处理,输入数据之间的差异可 能会导致模型训练时难以收敛,预测值与真实值之间存在较大差异。为了消除这种影 响,本文采用采用Min-Max归一化方法,将预处理数据限制在[0, 1],归一化公式如 下:
宀 x-min ⑴ (3_3)
max(x) - min(x)
3.2.3 PCA 降维
在建立模型过程中,为了确保能全面考虑到市场上的一切有效信息,通常会考虑 较多的变量,以便更好的挖掘股价走势的规律。但是,选择过多的外生变量时,相关 信息互相重叠,相互影响的因子会出现误导作用,容易导致数据灾难。主成分分析是 将数据中的多个变量转化为较少数量的几个主要变量的方法。主要变量由原始变量线 性组合而成,能反映绝大部分信息,各个主要变量相互独立且互不重叠。经过主成分 分析后,删除重复变量并尽可能少地留下新变量,是一种较好的数据降维方法。
由前文可知,本文选取了开盘价、最高价、最低价、消费者信心指数、投资者情 绪、标准普尔500指数收盘价和流动性共7个输入变量。7个输入变量之间的相关性如 图3-3和图3-4o
27
 
图3-3沪深300指数变量相关性热力图
 
图3-4中证500指数变量相关性热力图
图3-3和图3-4中,low表示最低价,conf!表示消费者信心指数,senti表示投资者 情绪,SPX表示标准普尔500指数的收盘价,high表示最高价,open表示开盘价, AILLIQ表示股票流动性。根据图中不同方块颜色对应的相关系数大小可知,颜色越深 代表两个变量间的正相关关系越显著,颜色越浅则代表负相关关系越显著。从相关性
28
 
热力图可以看出,部分原始输入数据之间的相关系数大于0.5,存在着非常显著的正相 关或负相关关系,说明输入数据之间存在冗余,因而需要PCA进行适当的降维处理, 选取主要成分。对沪深300指数和中证500指数7个输入变量的主成分分析所得到的总 方差解释分别如表3-4和表3-5所示。
表3-4沪深300指数输入变量解释的总方差
成分 总计 初始特征值
方差百分比 累计% 总计 提取载荷平方和
方差百分比 累计%
1 5.188 74.115 74.115 5.188 74.115 74.115
2 0.839 11.989 86.104 0.839 11.989 86.104
3 0.607 &670 94.774 0.607 &670 94.774
4 0.217 3.095 97.868
5 0.148 2.118 99.986
6 0.001 0.009 99.995
7 0.000 0.005 100.000
表3-5中证500指数输入变量解释的总方差
成分 总计 初始特征值
方差百分比 累计% 总计 提取载荷平方和
方差百分比 累计%
1 5.215 74.493 74.493 5.215 74.493 74.493
2 0.858 12.263 86.756 0.858 12.263 86.756
3 0.543 7.751 94.507 0.543 7.751 94.507
4 0.222 3.170 97.677
5 0.162 2.308 99.985
6 0.001 0.011 99.996
7 0.000 0.004 100.000
 
确定主成分时,本章通过计算累计方差贡献率进行主成分选择。由表3-4和表3-5 可知,前3个主成分的累计贡献率超过90%,其他主成分分量所占的比重不到6%o因 此,提取前三个主成分作为输入变量,其他主成分可作为噪声成分忽略不计。这样, 在沪深300指数和中证500指数中,用3个主成分向量代替了原始的7个输入变量,有 效地降低了输入数据的维度,并且这3个主成分变量几乎包含了原始的7个变量的所有
29
信息。
综合上述分析,沪深300指数和中证500指数的输入变量维度均降成3维。
3.2.4层次聚类
在此步骤中,采用层次聚类挖掘并重新排列训练集外生变量数据中的主要特征。 在数据降维的基础上,对特征相似的数据进行聚类,使类别内的数据相似度较大而类 别间的数据相似度较小。
本文采取凝聚型层次聚类,即采取自下而上的原则进行聚类。两个簇之间距离的 度量方法有三种,分别是最小距离法、最大距离法和平均距离法。平均距离法作为聚 类簇之间的距离度量方式,综合衡量了聚类簇中所有数据对象对聚类簇之间距离的影 响,增加聚类算法的稳健性g],因此本文以平均距离法进行聚类分析。
对聚类个数的确定是影响聚类结果的关键因素。根据层次聚类的原理,欧几里德 距离作为判断离散点是否属于同一类别的标准。当采用凝聚型层次聚类时,随着类别 的减少,类别之间的距离逐渐增加。当所有数据点聚为一类时,欧几里德距离最大。 大多数学者会根据聚类的图谱人为选定固定的阈值,当距离超过阈值后,则不再进行 聚类。这种方法存在缺陷,具有一定的局限性。因此本文根据算法这一不足进行了改 进。本文计算了由于聚类类别减少产生的欧几里德距离的增加值,即欧几里德距离差 分值。差分值越大,说明算法执行当前类别继续减少一个类别时,新增加的点并不符 合原有类别的数据点包含的特征,这是因为欧几里德距离增加最大,说明该次聚类将 最多的不同类别点强制聚为一类,这不符合聚类的基本准则。因此本文将寻找聚类过 程中距离增加最大的差分值,找到后中断聚类进程,完成聚类工作。沪深300指数的训 练集聚类结果和中证500指数的训练集聚类结果如图3-5和图3-6所示。
 
图3-5沪深300指数聚类数
 
30
 
 
图3-6中证500指数聚类数
以沪深300指数为例,图3-5中,横坐标代表类别数,纵坐标代表距离增加值,即 欧几里德距离差分值。在类别数由2类减少为1类的过程中,此时欧几里德距离差分值 最大,说明算法执行当前类别继续减少一个类别时,新增加的数据并不符合原有类别 的数据包含的特征,此时应中断聚类进程,因此,沪深300指数训练集的最终类别数为 2o同理,对于中证500指数,图3-6中,当在类别数由2类减少为1类的过程中,距 离差分值最大,此时中断聚类进程,最终类别数确定为2。
类别数量确定为2类后,调用sklearn库中的Agglomerative Clustering命令,对训 练集数据开始分类。每一类别包含的数据量如表3-6所示:
表3-6每一类别的数量
数据集 类别1 类别2
沪深300指数 1899 487
中证500指数 1835 551
 
沪深300指数和中证500指数的训练集共2386条数据。由表3-6可知,采用层次 聚类将训练集划分为两类后,沪深300指数的类别1包含1899条数据,类别2包含487 条数据;中证500指数的类别1包含1835条数据,类别2包含551条数据。
3.3本章小结
本章选取沪深300指数和中证500指数收盘价为研究对象,原始输入数据的维度是 7维,包括开盘价、最高价、最低价、流动性、消费者信心指数、投资者情绪和标准普 尔500指数。在对数据预处理后,第一阶段特征提取采用主成分分析(PCA)降低数据 输入的维度,沪深300指数和中证500指数的输入变量维度均降成3维。第二阶段特征
31
提取采用层次聚类对降维后的数据进行分类,沪深300指数和中证500指数聚类后的 类别数量均为2类。
32
第四章基于BiLSTM-GRU的股价预测
特征提取后,本章建立BiLSTM-GRU模型预测股市收盘价。对于每个训练子集, 采用滚动窗口原理,分别建立BiLSTM神经网络,得到对于每一类别的预测结果;将 BiLSTM预测结果作为输入变量传递给GRU神经网络,GRU可以对多个BiLSTM的预 测结果进行集成,得到最终预测结果,采用MAE、RMSE和MAPE对预测效果进行评 价。
4.] BiLSTM 预测
传统的研究采用固定不变的训练样本对未来一段时间的信息进行预测,这种研究 方法不能充分利用最新的数据信息,可能导致预测效果失真。鉴于股票市场上股票价 格指数走势与最近的数据信息联系较为紧密,本文采用滚动样本预测评价方法。滚动 样本预测评价法基于滚动窗口(Rolling Window)原理。滚动窗口是依据指定的单位长 度来构建时间序列。以一步向前滚动样本预测为例:时间序列xx,x2,---,xn用于获取x”+i 的预测值;时间序列x2,x3,---,x„+1用于获取£+2的预测值;以此类推。采用滚动窗口原 理,能够尽量确保当前预测值和最近〃天的数据信息相关。本文将时间步长设置为3, 即利用过去3天的时间序列数据作为输入变量,预测下一交易日的收盘价。
4.1.1建立模型
BiLSTM神经网络涉及的超参数主要有4项,分别是隐藏层数量、神经元个数、批 处理样本大小(batch_size)、训练迭代次数(epochs)。这些超参数很大程度上会影响 模型预测的精度,因此,在训练时要对超参数调优,以保证后续预测效果能达到预期 水平。
关于隐藏层,理论上,增加BiLSTM隐藏层数量时,深度学习所能学习的特征更 抽象、更高级,能提取到的有用信息就越多,对预测更为有利。但是,隐藏层数量过 多时,模型训练时间变长,训练难度加大,预测效果很难得到提升。
关于神经元个数,一般来说,神经元个数较少时,模型易于理解,但是学习能力 较差,预测误差也会变大。在一定范围内,增加神经网络神经元个数,会提高模型的 特征提取能力和学习能力,使得神经网络具有更优秀的预测效果。但随着神经元个数
33
的增多,模型训练难度增加,训练时间延长,且当准确率到达一定的水平之后很难获 得有效的提升,可能出现过拟合现象。
关于批处理样本大小batch size,合适的batch size有助于模型训练。batch size太 小会导致训练速度缓慢,训练震动幅度大,在一定的迭代次数里来不及收敛导致欠拟 合;batch_size太大则会导致内存占用过多,训练误差难以下降,泛化能力减弱。
训练迭代次数epochs指在训练过程中,所有样本数据通过BiLSTM神经网络,完 成一次前向计算和一次反向传播。一般来说,epochs的大小和数据的多样化程度和复 杂性有关,数据越复杂多样,需要的epochs越多。随着epochs的增加,BiLSTM神经 网络的权重随之更新,网络慢慢进入拟合状态,模型的预测精度也随之提高。但是, 当epochs达到一定数值时,预测效果并不随着迭代次数增加而改善。
另外,还需人工选择的参数有激活函数、优化算法以及dropout函数。激活函数的 选择是神经网络训练过程中的关键部分,它使神经网络能够学习数据中的非线性因素。 常用的激活函数有sigmoid函数、tanh函数等,本文选用的激活函数为sigmoid函数。 模型结构确定之后,训练时优化方法的选择对模型训练有重要影响。目前研究中使用 了各种神经网络优化方法,其中Adam优化算法可以计算模型中各个参数的自适应学习 率,其收敛速度更快,具有更好的学习效果,因此采用Adam优化算法来拟合模型。为 防止模型训练过程中的过拟合现象,在BiLSTM不同层的循环体之间使用dropout函数, 即随机剔除隐藏层中的一些隐藏单元。
损失函数在模型训练过程中也起到了至关重要的作用。常见的损失函数有交叉爛 损失函数和均方差损失函数。交叉爛损失函数适用于分类问题,均方差损失函数适用 于回归问题。考虑到本文的股价预测是多元回归问题,因此选取均方差(Mean Squared Error, MSE)损失函数,计算方法为:
 
 
其中,加为预测结果个数;北为真实值;儿为预测值。
在模型参数设置方面,通过多次实验,保证了 BiLSTM模型能够达到最优的预测 效果。最终结构和参数设置如表4-1所示。
表4-1双向LSTM结构和参数设置
数据集 模型 层数 神经元个数 Dropout Batchsize Epoch
沪深300指数 BiLSTMl 2 [128,64] [0.2,0.2] 48 110
BiLSTM2 3 [128,128,64] [0.2,0.2,0.1] 32 75
中证500指数 BiLSTMl 3 [200,140,64] [0.2,0.2,0.2] 48 100
BiLSTM2 2 [128,64] [0.15,0.2] 48 85
 
对于沪深300指数数据集,将BiLSTMl设置为2层,每一层神经元节点数分别为 128> 64, dropout 分别设置为 0.2、0.2, batch size 大小设置为 48, epochs 设置为 110; 将B1LSTM2设置为3层,每一层神经元节点数分别为128、128、64, dropout分别设置 为0.2、0.2, 0.1, batch size大小设置为32, epochs设置为75。对于中证500指数数据 集,将BiLSTMl设置为3层,每一层神经元节点数分别为200、140、64, dropout分别 设置为0.2、0.2、0.2, batch size大小设置为48, epochs设置为100;将BiLSTM2设置 为2层,每一层神经元节点数分别为128、64, dropout分别设置为0.15、0.2, batch size大小设置为48, epochs设置为85。
4.1.2评价指标
为评估模型预测结果,本文选取了三种评价指标,分别是均方根误差RMSE、平 均绝对值误差MAE和平均绝对百分比误差MAPEo各评价指标计算方法如下所示:
(1)均方根误差RMSE
RMSE可以用来评价预测结果和真实数据间的变化程度,RMSE的数值越小,说明 通过计算所得的预测模型对于实验数据描述的准确度越高。RMSE定义为:
I 1 m a
RMSE=\-^y,~y,? (4-2)
V m,=i
(2)平均绝对误差MAE
MAE是指算术平均值与所有单个观测值的偏差取绝对值后的均值。MAE值越小, 代表预测精度越高。MAE的定义为:
1 A
畝铉=_工(比-久) (4-3)
(3)平均绝对百分比误差MAPE
MAPE用来刻画预测值和真实值之间的平均偏离程度。MAPE值越小,代表预测精 度越高。MAPE的定义为:
35
U-vJ.100%
MAPE= — Y (4-4)
上面三个公式中,加为样本总数,X和必分别为第7个样本数据的真实值和预测 值。
4.1.3结果分析
测试集用于评估训练后模型的泛化能力,即评估对样本外时间序列数据的预测能 力。采用层次聚类划分数据集后,BiLSTM神经网络对每一类别的沪深300指数和中证 500指数的预测趋势分别如图4-1和图4-2所示,具体预测效果评价指标数值如表4-2所 Zj\ O
 
 
图4-1沪深300指数BiLSTM预测趋势图
 
 
图4・2中证500指数BiLSTM预测趋势图
36
表4-2根据类别建立的不同BiLSTM在测试集上的表现
数据集 模型 MAE RMSE MAPE (%)
BiLSTMl 97.4 123.87 19.66
沪深300指数
BiLSTM2 150.06 183.64 21.97
BiLSTMl 209.41 253.48 18.34
中证500指数
BiLSTM2 269.19 321.38 21.58
 
在图4-1和图4-2中,predict 1表示类别1收盘价测试集的预测值,predict2表示类 别2收盘价测试集的预测值,true表示收盘价真实值。预测值曲线与真实值曲线越接近, 说明预测效果越好。从三条曲线的拟合程度来看,采用层次聚类将训练集划分为两类 后,BiLSTM神经网络建立了根据每个类别特征适合的结构。总体上类别1、类别2的 预测趋势与收盘价真实值的走势基本一致,但在真实值预测的准确性上有待提高。从 评价指标MAE、RMSE、MAPE的结果来看,沪深300指数中,根据类别1建立的 BiLSTM 神经网络(BiLSTMl) MAE 值为 97.4, RMSE 值为 123.87, MAPE 值为 19.66%,均优于根据类别2建立的BiLSTM神经网络(BiLSTM2)评价指标大小;同 样的,中证500指数中,根据类别1建立的BiLSTM神经网络(BiLSTMl) MAE值为 209.41, RMSE值为253.48, MAPE值为18.34%,均优于根据类别2建立的BiLSTM神 经网络(BiLSTM2)评价指标大小,可能的原因是测试集数据更符合类别一数据的特 征,因此拟合效果更好。
4.2GRU集成
建立多个BiLSTM模型分别对测试集进行预测后,将预测结果作为输入变量传递 给GRU模型。GRU可以对多个BiLSTM的预测结果进行集成,得到股票价格确定性的 预测结果。在集成过程中,GRU集成属于非线性集成方法,与线性集成相比具有很大 的优势,利用神经网络对数据集的拟合优势,可以进一步拟合数据中的非线性特征, 提高模型的最终预测能力。
4.2.1建立模型
与BiLSTM神经网络一样,GRU神经网络涉及的超参数分别是隐藏层数量、隐藏 层神经元个数、批处理样本大小(batch_size)和训练迭代次数(epoch)o另外,还需 人工选择的参数有激活函数、优化算法以及dropout函数。在GRU神经网络中,激活
37
函数选择sigmoid函数,优化算法采用Adam优化算法。为防止模型训练过程中的过拟 合现象,在GRU不同层的循环体之间使用dropout函数。经过反复试验,模型结构和 参数设置如表4-3所示。
表4-3 GRU结构和参数设置
数据集 模型 层数 神经元个数 Dropout Batchsize Epochs
沪深300指数 GRU 4 [128,100,64,32] [0.2,0.2,0.2,0.1] 32 85
中证500指数 GRU 4 [256,128,64,32] [0.2,0.2,0.2,0.1] 48 125
 
对于沪深300指数数据集,将GRU神经网络设置为4层,每一层神经元个数分别 为 128、100、64、32, dropout 分别设置为 0.2、0.2、0.2、0.1, batch size 大小设置为 32, epochs设置为85;对于中证500指数数据集,将GRU神经网络设置为4层,每一 层神经元个数分别为256、128、64、32, dropout分别设置为0.2、0.2、0.2、0.1, batch size大小设置为48, epochs设置为125。
4.2.2评价指标
GRU神经网络的评价指标与BiLSTM神经网络相同,分别是均方根误差RMSE、 平均绝对值误差MAE和平均绝对百分比误差MAPEo RMSE、MAE、MAPE的数值越 小,说明预测精度越高。
4.2.3结果分析
GRU集成预测的评价指标数值如表4-4所示,与沪深300指数和中证500指数收盘 价真实值的对比如图4-3和图4-4所示。
表4-4 GRU预测效果评价指标
数据集 MAE RMSE MAPE (%)
沪深300指数 94.82 121.76 2.27
中证500指数 182.64 213.29 3.61
从评价指标结果来看, 沪深300指数的MAE值为 94.82, RMSE 值为 121.76,
MAPE值为2.27%,均小于此前根据类别特征建立的BiLSTM模型,尤其是MAPE值, 采用GRU集成后远远小于BiLSTMl和BiLSTM2的MAPE值。同样的,对于中证500 指数,GRU集成后的的评价指标结果均小于BiLSTM评价指标结果。因此,从整体上 看,与BiLSTM预测步骤相比,GRU集成后的所有评价指标结果均显著降低,显示出
38
 
稳定的预测能力。这一结果表明GRU神经网络集成的优势,能进一步减少训练过程中 的误差,提高预测精度的上限。此外,沪深300指数的预测效果总体上优于中证500指 数,这一现象可以解释为中证500指数波动程度大于沪深300指数,不确定因素较多, 因此增加了模型的拟合难度。
 
图4-3沪深300指数收盘价预测图
 
 
图4-4中证500指数收盘价预测图
 
图4-3和图4-4中,predict表示采用GRU集成后收盘价的预测值,true表示收盘价 的真实值。从最终预测趋势图中,明显看出预测值对真实值的拟合程度优于此前建立 的BiLSTM模型预测值对真实值的拟合程度,预测结果能够模拟出沪深300指数的中证 500指数收盘价的趋势和波动,并且具有较高的准确率,这进一步验证了 GRU神经网 络集成的优势。
39
4.3对比实验
为了更全面、清楚的理解本文所提模型的预测效果,比较其对股票价格的预测能 力,本节选取6种基准模型进行对比实验,分别是反向传播神经网络(BPNN)、支持 向量回归(SVR)、PCA-层次聚类-BiLSTM、PCA-BiLSTM、BiLSTM、LSTMo 选取 对比模型的理由如下:
1、目前金融领域常用的两种机器学习模型分别是BP神经网络、支持向量回归 (SVR)o由于其非线性拟合能力,SVR在股市预测方面占有一席之地。BP神经网络 在金融预测领域中也得到了广泛的应用。因此,将这2种机器学习模型作为对比模型, 比较机器学习模型和深度学习模型的预测性能。
(1)反向传播神经网络(BPNN)
BPNN是 由Rumelhart和McCelland于1986年提出的一种多层前馈型误差补偿神 经网络。BP神经网络的学习过程分为两部分:数据流的前向计算(正向传播)和误差 信号的反向传播。正向传播时,传递过程为从输入层到隐藏层再到到输出层。每一层 的神经元状态只影响下一层的神经元。如果输出层不能获得期望的输出,则系统转入 误差信号的反向传播流程。通过这两个过程的交替进行,在权向量空间执行误差函数 梯度下降策略,动态迭代搜索一组权向量,使网络误差函数达到最小值,从而完成信 息提取和记忆过程阳。
(2)支持向量回归(SVR)
SVR是在支持向量机(SVM)的基础上发展而来的,SVM适用于分类问题,而 SVR适用于回归问题。在非线性回归问题中,自变量和因变量之间存在非线性回归关 系,SVR的目的正是发现这种非线性回归关系。SVR的原理是,通过引入非线性映射 函数将低维空间中具有非线性回归关系的数据集合映射到高维空间上,进而转化为线 性回归关系【"I,其数学描述为
min| 工(a; -«,)(«/ -aJ)K(xi,xj) + g》(a; _a,)—》(a; _a,) (4-5)
厶 ZJ=1 2 = 1 2=1
40
工(町-生)=0
Z=1
(4-6)
其中,兀为样本数据;/为样本规模;C为惩罚系数,代表对超出误差样本&的惩罚大 小;Kg")为核函数。若将最优解表示为a = (ax,a;,---,al,a^T ,则可以将SVR的决 策函数表示为
I _
/(.X)=工(a: -tzi.)^(.xi.,.x) + F (4-7)
2、 PCA-BiLSTM混合模型是对数据采用PCA降维后建立BiLSTM进行预测,没有 运用聚类方法和集成方法。PCA-层次聚类-BiLSTM混合模型是在数据降维的基础上, 采用层次聚类对数据分类后,对每一类别分别建立BiLSTM进行预测,最终的预测结 果基于每一类预测结果的平均值,没有采用非线性集成方法。将这两种混合模型作为 对比模型,以验证聚类和非线性集成的作用。
3、 LSTM神经网络和BiLSTM神将网络作为典型的深度学习模型,能够很好地处 理时间序列数据长期依赖性,具有非线性预测能力强、收敛速度快等优点。将这两种 深度学习模型作为对比模型,比较单一模型与混合模型的预测效果。
各模型的预测效果评价指标分别是RMSE、MAE和MAPEo这三个评价指标的数 值越小,说明预测精度越高。为了保证实验的公平性和有效性,通过多次反复实验, 不断调整模型的参数和结构,以求训练出最优解。评价指标如表4-5所示。
根据各个模型的预测效果评价指标数值,得出以下实证结果:
(1)沪深300指数中,BP神经网络MAE值为21&89, RMSE值为269.24, MAPE 值为 21.12%; SVR 模型 MAE 值为 276.55, RMSE 值为 361.01, MAPE 值为 21.45。中 证500指数中,BP神经网络MAE值为407.82, RMSE值为515.13, MAPE值为21.88%; SVR 模型 MAE 值为 376.90, RMSE 值为 437.38, MAPE 值为 21.95。与 LSTM 和 BiLSTM深度学习模型相比,作为机器学习模型的代表,BP神经网络和SVR评价指标 数值显著大于深度学习模型,说明LSTM和BiLSTM的预测效果优于BP神经网络和 SVRo这一结果表明,深度学习模型比机器学习模型具有更多的非线性运算层次,使 深度学习能够更有效地利用数据,从而获得优于机器学习的预测精度,机器学习模型
41
的预测效果和精度较深度学习模型还有一定差距。
表4-5对比模型预测效果评价指标
数据集 对比模型 MAE RMSE MAPE (%)
BPNN 218.89 269.24 21.12
SVR 276.55 361.01 21.45
沪深300 LSTM 163.47 207.84 21.04
指数 BiLSTM 154.75 192.17 20.98
PCA-BiLSTM 142.63 169.69 20.94
PCA-层次聚类-BiLSTM 123.73 153.76 20.82
BPNN 407.82 515.13 21.88
SVR 376.90 437.38 21.95
中证500 LSTM 268.97 326.57 20.46
指数 BiLSTM 261.87 323.96 20.32
PCA-BiLSTM 257.18 311.53 20.09
PCA-层次聚类-BiLSTM 239.30 287.43 19.96
 
(2)在沪深300指数和中证500指数数据集中,BiLSTM的MAE、RASE和MAPE 值均小于LSTM,说明BiLSTM的预测效果比LSTM更好,原因是BiLSTM比LSTM 多挖掘一层反向结构,神经网络的权重不仅由已输入的数据决定,还和将来要输入的 数据共同决定,能够挖掘出更多的数据信息,从而提高了模型的预测精度。
(3)关于LSTM和BiLSTM的预测效果评价指标数值,其结果优于BP神经网络 和SVR,但是和PCA-BiLSTM、PCA-层次聚类-BiLSTM两个混合模型相比,MAE、 RMSE和MAPE值大于该混合模型预测效果评价指标值,说明单一深度模型的预测效 果不如混合模型。这一结果表明,特征提取能够提取数据中的有效信息,而单一模型 很难完全识别复杂多样的原始数据中包含的信息,预测效果较混合模型还有一定的改 进空间。
(4)与PCA-BiLSTM和PCA-层次聚类-BiLSTM相比,本文构建的混合模型即 PCA-层次聚类-BiLSTM-GRU具有最小的MAE、RMSE和MAPE值,表明该混合模型 预测效果最优。PCA-BiLSTM混合模型没有采用聚类方法和集成方法,PCA-层次聚类- BiLSTM混合模型没有采用集成方法。这两种混合模型作对比模型的结果表明,聚类方 法和集成方法在提升预测效果上发挥了作用。
42
4.4本章小结
本章建立BiLSTM-GRU模型预测股市收盘价。对于每个训练子集,利用过去3天 的时间序列数据作为输入变量,预测下一交易日的收盘价。BiLSTM神经网络建立了根 据每个类别特征适合的结构,总体上类别1、类别2的预测趋势与收盘价真实值的走势 基本一致,但在真实值预测的准确性上有待提高。GRU可以对多个BiLSTM的预测结 果进行集成,得到最终预测结果。与BiLSTM预测步骤相比,GRU集成后的所有评价 指标结果均显著降低,显示出稳定的预测能力。为验证本文构建的混合模型的预测效 果,选取6种基准模型进行对比实验,结果证实了该混合模型在股价预测上的优越性。
43
第五章总结与展望
本章梳理全文的主要内容,包括所做的主要研究工作,从研究过程和研究结果中 得出本文的研究结论。在总结全文的基础上,做出简要的规划,展望未来可能的进一 步研究工作。
5.1结论
本文以沪深300指数和中证500指数作为研究标的,提出了一种基于两阶段特征提 取的BiLSTM-GRU股价预测集成框架,将特征提取与深度学习相结合,用于股市日收 盘价预测。股票市场影响因素众多,因此传统实证研究中所用的预测变量不能够完全 解释股市变化,有必要探究挖掘进一步的数据。在对数据预处理后,第一阶段特征提 取采用主成分分析(PCA)降低数据输入的维度,避免数据之间的冗余,提高算法的 运行效率。考虑到数据变化的复杂性,第二阶段特征提取采用层次聚类对降维后的数 据进行分类。层次聚类将强相关数据划分为一类,形成不同的训练子集,避免训练数 据特征分散导致模型缺乏泛化能力的问题。特征提取为后续建立双向LSTM神经网络 (BiLSTM)进行预测奠定了基础。对于每个训练子集,分别建立BiLSTM神经网络, 采用滚动窗口原理,在参数设置方面多次反复实验,找到最优结构,得到对于每一类 别的最优预测结果。
最后,将BiLSTM的预测结果输入到门控循环单元(GRU),使预测结果最优化, 得到最终的预测结果。该混合模型既考虑了单一模型在建模过程中数据处理能力不足 和预测效果不佳等缺陷,又考虑了外生变量对股票市场的影响,降低了模型构建的复 杂性,提高了模型的样本外预测能力。为了验证本文所提混合模型的有效性,将其与 机器学习、单一深度学习等基准模型做对比实验,结果表明该混合模型可以结合多个 模型的优点,识别有效信息,具有更高的预测精度和更强的泛化能力。本文为中国A 股市场预测提供了一种可行的思路和方法。本文研究结论包括以下几点:
(1)深度学习模型克服了浅层机器学习对原始数据处理能力不足、容易陷入局部 最优、易出现过拟合等缺点,对于非线性、非平稳性噪声数据的特征学习能力更强, 进而表现出了较好的预测效果。同时,BiLSTM可以比LSTM挖掘出更多的数据信息, 从而提高了预测精度。
44
(2) 单一预测模型,即使是深度学习,面对数据的多尺度特性,很难完全识别复 杂多样的原始数据中包含的信息,对于无效的、有噪声的特征数据也有可能学习到, 造成对噪声的拟合,导致模型的泛化能力较差,预测效果还有一定的改进空间。而混 合模型有效结合了各个模型的优势,能充分学习金融时间序列的多尺度、复杂动态等 特性,预测性能较单一模型更具优势。
(3) 层次聚类作为一种无监督学习算法,对特征相似的数据进行聚类,避免训练 数据特征分散导致模型缺乏泛化能力的问题。GRU集成可以进一步拟合数据中的非线 性特征,提高模型的最终预测能力。聚类-预测-集成思路和框架为股票市场预测提供了 切实可行的方法。
5.2展望
关于股票价格的预测因素,市场上的参考因素还有很多,之后的工作中可以将更 多影响股票价格走势的因素考虑到模型之中,如突发事件、人文环境、国内外政策环 境等,拓宽输入数据的维度。之后采用特征提取方法提取有效信息,将高维度的数据 进行压缩,讨论使用不同的方法和模型。这种数据采样和裁剪过程,有利于未来对股 市变化逻辑的研究,为将来的研究提供新方向。
对于深度学习模型参数的设置,已有研究尚未有确定性的结论和规律,在参数选 择方面需要具体问题具体分析。本文在设置模型参数时,主要基于已有文献研究以及 多次实证尝试。为使预测效果更有说服力,需要进一步研究科学的模型参数确定方法, 争取获得最优结构。
此外,深度学习是一门新兴学科,发展十分迅速。本文仅选取一些具有代表性和 经典的模型进行研究,还有其他深度学习模型可能具有更好的预测结果,这也是未来 的一个研究方向。最后,深度学习理论上不仅可以应用于股票市场,还可以应用于期 货和期权等衍生品市场或债券等货币市场,应用方法和效果需要在未来进一步研究。
45
参考文献
[I]LeCun Y, Bengio Y, Hinton G. Deep learning [J]. Nature, 2015, 521(7553): 436-444.
⑵苏治,卢曼,李德轩.深度学习的金融实证应用:动态、贡献与展望[J].金融研究,2017 (5): 111-126
[3]孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012, 29 (8): 2806- 2810.
[4]Fama E F. Efficient Capital Markets: A Review of Theory and Empirical Work卩].The Journal of Finance, 1970? 25(2): 383-417.
[5]Jung C, Boyd R. Forecasting UK Stock Prices卩].Applied Financial Economics, 1996, 6(3): 279-286.
[6]Franses P H? Ghijsels H. Additive Outliers, GARCH and Forecasting Volatility [J]. International Journal of Forecasting, 1999, 15(1): 1-9.
[7]吴玉霞,温欣.基于ARIMA模型的短期股票价格预测[J].统计与决策,2016 (23): 83-86.
[8]Rounaghi M M, Zadeh F N. Investigation of Market Efficiency and Financial Stability Between S&P 500 and London Stock Exchange: Monthly and Yearly Forecasting of Time Series Stock Returns Using ARMA Model[J]. PhysicaA, 2016(456): 10-21.
[9]Jiang C X? Li Y Q, Xu Q F, Liu Y Z. Measuring Risk Spillovers from Multiple Developed Stock Markets to China: A Vine-Copula-GARCH-MIDAS model [J]. International Review of Economics & Finance, 2021(75): 386-398.
[10]吴微,陈维强,刘波.用:BP神经网络预测股票市场的涨跌[J].大连理工大学学报,2001 (1): 9-15.
[II]Tay F E H, Cao L J. Application of Support Vector Machines in Financial Time Series Forecasting卩]. Omega (Oxford), 2001, 29(4): 309-317.
[12]Kim K. Financial Time Series Forecasting Using Support Vector Machines [J]. Neurocomputing, 2003, 55(1):307-319.
[13]Ticknor J L. A Bayesian Regularized Artificial Neural Network for Stock Market Forecasting卩].Expert Systems with Applications, 2013, 40(14): 5501-5506.
[14]冉杨帆,蒋洪迅.基于BPNN和SVR的股票价格预测研究[J].山西大学学报(自然科学版),
2018, 41 (1): 1-14
46
[15]Zhang D H? Lou S. The Application Research of Neural Network and BP Algorithm in Stock Price Pattern Classification and Prediction卩].Future Generation Computer Systems, 2021(115): 872-879.
[16]Hinton G E? Salakhutdinov R R. Reducing the Dimensionality of Data with Neural Networks [J]. Science, 2006,313(5786): 504-507.
[17]Persio D L, Honchar O. Artificial Neural Networks Architectures for Stock Price Prediction: Comparisons and Applications [J]. International Journal of Circuits, Systems and Signal Processing, 2016(10): 403-413.
[18]Sim H S, Kim H I, Ahn J J. Is Deep Learning for Image Recognition Applicable to Stock Market Prediction? [J]. Complexity (New York, N. Y.)? 2019(2019): 1-10.
[19]Chen W, Jiang M R, Zhang W G, Chen Z S. A Novel Graph Convolutional Feature Based Convolutional Neural Network for Stock Trend Prediction [J]. Information Science, 2021(556): 67-94.
[20]HochreiterS, Schmidhuber J. Long Short-Term Memory [J]. Neural Computation, 1997(8): 1735-1780.
[21]Persio D L, Honchar O. Recurrent Neural Networks Approach to the Financial Forecast of Google Assets [J]. International Journal of Mathematics and Computers in Simulation, 2017(11): 7-13.
[22]杨青,王晨蔚.基于深度学习LSTM神经网络的全球股票指数预测研究[J].统计研究,2019, 36
(3): 65-77.
[23]Saud A S, Shakya S. Analysis of Look Back Period for Stock Price Prediction with RNN Variants: A Case Study on Banking Sector of NEPSE卩].Procedia Computer Science, 2020(167): 788-798.
[24]Liu H? Chen C. Multi-objective Data-Ensemble Wind Speed Forecasting Model with Stacked Sparse Autoencoder and Adaptive Decomposition-Based Error Correction [J]. Applied Energy, 2019(254): 1- 1&
[25]Cheng H Y, Ding X W, Zhou W N, Ding R Q. A Hybrid Electricity Price Forecasting Model with Bayesian Optimization for German Energy Exchange [J]. International Journal of Electrical Power & Energy Systems, 2019(110): 653-666.
[26]曾安,聂文俊.基于深度双向LSTM的股票推荐系统[J].计算机科学,2019, 46 (10): 84-89.
[27]Yang M, Wang J. Adaptability of Financial Time Series Prediction Based on BiLSTM卩].Procedia Computer Science, 2022, 199: 18-25.
[28]Chen W, Zhang H X Mehlawat M K, Jia L F. Mean-Variance Portfolio Optimization Using Machine Learning-Based Stock Price Prediction [J]. Applied Soft Computing Journal, 2021(100): 1-18.
[29]宋刚,张云峰,包芳勋,秦超.基于粒子群优化LSTM的股票预测模型[J].北京航空航天大学学
47
报,2019, 45 (12): 2533-2562.
[30]欧阳红兵,黄亢,闫洪举.基于LSTM神经网络的金融时间序列预测[J].中国管理科学,2020, 28 (4): 27-35.
[31]Zhong X? Enke D. A Comprehensive Cluster and Classification Mining Procedure for Daily Stock Market Return Forecasting [J]. N eurocomputing ? 2017(267): 152-168.
[32]Mallqui D C A, Fernandes R A S. Predicting the Direction, Maximum, Minimum and Closing Prices of Daily Bitcoin Exchange Rate Using Machine Learning Techniques [J]. Applied Soft Computing, 2019(75): 596-606.
[33]Wang J J, Chen X Qiu S X Cui Q. Cuckoo Seaech Optimized Integrated Framework Based on Feature Clustering and Deep Learning for Daily Stock Price Forecasting [J]. Economic Computation and Economic Cybernetics Studies and Research, 2021, 3(55):55-70.
[34]Wang J J, Chen Y. Adaboost-Based Integration Framework Coupled Two-Stage Feature Extraction with Deep Learning for Multivariate Exchange Rate Prediction [J]. Neural Processing Letters, 2021, 53(6): 4613-4637.
[35]汪勇,李好,王静.考虑数据分布特征的多属性数据完备化方法研究[J].统计与决策,2020, 36
(24): 15-19.
[36]Wei Y J, Sun S L, Ma J, Wang S X Lai KK. A Decomposition Clustering Ensemble Learning Approach for Forecasting Foreign Exchange Rates [J]. Journal of Management Science and Engineering, 2019, 4(1): 45-54.
[37]Sun X L, Liu M X? Sima Z. A Novel Cryptocurrency Price Trend Forecasting Model Based on LightGBM[J]. Finance Research Letters, 2020(32): 1-6.
[38]Zhang X D, Li A, Pan R. Stock Trend Prediction Based on a New Status Box Method and Adaboost Probabilistic Support Vector Machine [J]. Applied Soft Computing, 2016(49): 385-39 &
[39]Zhou F, Zhang Q, Somette D, Jiang L. Cascading Logistic Regression onto Gradient Boosted Decision Trees for Forecasting and Trading Stock Indices [J]. Applied Soft Computing, 2019(84): 1-13.
[40]Wang J J, Gao D M? Zhuang Z Z? Wu J. An Optimized Complementary Prediction Method Based on Data Feature Extraction for Wind Speed Forecasting [J]. Sustainable Energy Technologies and Assessments, 2022(8): 1-12.
[41]Amihud Y. Illiquidity and Stock Returns: Cross-Section and Time-series Effects卩].Journal of Financial Markets, 2002,5(1):31-56.
48
[42]李一红,吴世农.中国股市流动性溢价的实证研究[J].管理评论,2003, (11): 34-42.
[43]陈蓉,吴宇翔.流动性与崩盘风险:基于中国A股市场的研究[J].管理科学,2019, 32 (5): 129-138.
[44]Leippold M, Wang Q, Zhou W Y. Machine Learning in the Chinese Stock Market[J]. Journal ofFinancial Economice, 2021? 141(2): 1-19.
[45]Jansen W J, Nahuis N J. The Stock Market and Consumer Confidence: European Evidence [J]. Economics Letters, 2003, 79 (1): 89-98.
[46]Fisher K L, Statman M. Consumer Confidence and Stock Returns [J]. Journal of Portfolio Management, 2003,30(1): 115-127.
[47]王汝芳,田业钧.消费者信心指数与股票市场收益的实证研究[J].经济与管理,2009, 23 (12): 22-26.
[48]Hsu C C, Lin H X Wu J Y. Consumer Confidence and Stock Markets: The Panel Causality Evidence卩].International Journal of Economics Finance, 2011, 3(6): 91-98.
[49]Brown G W, Cliff M T. Investor Sentiment and the Near-Term Stock Market[J]. Journal of Empirical Finance, 2004? 11(1): 1-27.
[50]Baker M? Wurgler J. Investor Sentiment and the Cross-Section of Stock Returns 卩].Journal of Finance, 2006,61(4): 1645-1680.
[51]Waggle D, Agrrawal P. Investor Sentiment and Short-Term Returns for Size-Adjusted Value and Growth Portfolios [J]. Journal of Behavioral Finance, 2015, 16(1): 81-93.
[52]杨晓兰,沈翰彬,祝宇.本地偏好、投资者情绪与股票收益率:来自网络论坛的经验证据[J].金 融研究,2016 (12): 143-158.
[53]Bathia D, Bredin D. Investor Sentiment: Does it Augment the Performance of Asset Pricing Models 卩]. International Review of Financial Analysis, 2018, 59: 290-303.
[54]谢世清,唐思勋.投资者情绪与宏观经济波动对股票市场收益率的影响[J].宏观经济研究,2021
(2): 99-107.
[55]裘江南,葛一迪.股市危机情境下社会媒体投资者情绪对股票市场的影响研究[J].管理评论, 2021, 33 (5): 281-294.
[56]李媛,冉齐鸣.个股情绪与股市周期性波动一一对我国A股市场的实证分析[J].投资研究,2021
(11): 131-144.
[57]易志高,茅宁.中国股市投资者情绪测量研究:CICSI的构建[J].金融研究,2009 (11): 174-
49
184.
[58]张贵生,张信东.基于近邻互信息的SVM-GARCH股票价格预测模型研究[J].中国管理科学, 2016, 24 (9): 11-20.
[59]张兵,范致镇和李心丹.中美股票市场的联动性研究[J].经济研究,2010 (11): 141-151.
[60]Zhou X Y, Zhang W J, Zhang J. Volatility Spillovers Between the Chinese and World Equity Markets [J]. Pacific-Basin Finance Journal, 2012, 20 (2): 247-270.
[61]朱小能,吴杰楠.股市联动中的“涟漪效应” [J].中国管理科学,2021, 29 (8): 1-12.
[62]董新玉,解滨,赵旭升,高新宝.多视角层次聚类下的无线网络入侵检测算法[J].计算机科学与 探索,2021: 1-14.
[63]王海燕,卓奕君.基于主成分分析的统计过程控制图模式识别方法[J].统计与决策,2020, 36
(24): 20-24.
[64]吕琳,尉永清,任敏,潘晓.基于蚁群优化算法的凝聚型层次聚类[J].计算机应用研究,2017, 34 (1): 114-117.
[65]Ralunan A, Srikumar V, Smith AD. Predicting Electricity Consumption for Commercial and Residential Buildings Using Deep Recurrent Neural Networks [J]. Applied Energy, 2018(212): 372-385.
[66]熊志斌.基于CEEMDAN与LSTM的人民币汇率分析与预测[J/OL].数理统计与管理,2021.
[67]易靖韬,严欢基于小波分解和ARIMA-GRU混合模型的外贸风险预测预警研究[J/OL],中国管 理科学,2021.
[68]Long J W, Chen Z P, He W B, Wu T W, Ren J T. An Integrated Framework of Deep Learning and Knowledge Graph for Prediction of Stock Price Trend: An Application in Chinese Stock Exchange Market[J]. Applied Soft Computing, 2020(91): 1-13.
[69]夏诗颖,孔昭君,丁宣宣,石晓阳.基于主成分分析和BP神经网络算法的股权众筹风险评价研 究[J].技术经济,2021, 40 (11): 146-154.
[70]刘玉敏,刘莉,任广乾.基于GA-SVR模型的中国上市公司融资风险预测[J].北京理工大学学报
(社会科学版),2019, 21 (4): 73-81.
【本文地址:https://www.xueshulunwenwang.com//jingjilei/jiliangjingjixue/4025.html

上一篇:经济增长与金融风险关联与影响机制的理论和计量研究

下一篇:基于多元回归法的住宅类存量房地产税基批量评估研究

相关标签: