量化投资模型论文 量化投资论文

  基于量化投资角度的多因素模型投资综合策略报告
  1 研究方法
  本篇报告的量化投资策略主要采用的方法与理论有以下几种:1、线性回归。
  2、多因素模型。
  3、capm(资本资产定价模型)。
  4、假设检验与置信区间估计。
  5、蒙特卡洛模拟。
  6、var(风险价值)方法。
  7、matlab(矩阵实验室,用于数据的处理与图形的分析)技术。
  主体内容主要分为四大部分。
  第一部分为模型建立阶段,主要是挑选影响股票收益率的相关因素。
  第二部分主要是挑选出收益率排名前20%的股票,并运用capm模型进行组合搭配,以求降低非系统性风险,最大化股票的收益。
  第三部分采用统计学的知识,对上述建立的模型的相关参数进行范围上与概率上的估计。
  并采用var方法与蒙特卡洛模拟,进行风险的评估与控制,并运用多种评估绩效的方式(夏普比率、特雷诺比率、简森阿尔法等指标),对股票的风险与收益做出客观的评判。
  第四部分为模型的评价阶段,即由宏观到微观对该模型做出全面的解释。
  与此同时,运用matlab技术对参数进行适当的动态更新,使其尽量符合市场的波动情况,并进行回溯测试,用市场的实际结果来解释模型的合理之处。
  2 策略步骤
  第一部分:模型建立阶段。
  2.1 影响收益率的因子初选
  我们采用以下收益率因子。
  以上表格反映了影响收益率的主要四大类因子,较好地包括了影响收益率的主要因素。
  虽然从宏观层面上我们挑选出了一些影响收益率的主要因子,然而,在现实过程中,影响某个具体公司收益率的因素很可能只是其中某几个。
  因此,我们应当试图找出影响每个股票的收益率的个别关键因素,这里我们采用matlab技术以及线性回归的方法,以融捷股份(002192)与暴风科技(300431)为例进行说明。
  笔者根据深圳证券交易所统计的数据通过excel表格进行合并整理后得到融捷股份的收益率数据,将该数据导入matlab中,以市盈率为横轴、收益率为纵轴,建立图形关系。
  根据统计学的知识可知,我们用决定系数r2来反应自变量解释因变量力度的强弱,而决定系数与相关系数之间存在平方关系,即ρ2=r2。
  因此,在matlab中我们通过计算一组数据之间的相关系数,反求出其决定系数,从而说明该特定自变量能从多大程度上解释因变量。
  代码运行的结果如下:
  从上述运行结果可知,市盈率与股票收益率之间的r2只有0.0934,遠小于1,因此市盈率这一项指标在融捷股份里并不能对收益率的变动起到决定性作用。
  类似地,我们对表1-1中所有的因子进行相同的操作方法,在此由于篇幅原因不再赘述,仅展示操作步骤与过程。
  2.2 剔除冗余因子
  在进行上述步骤的过程中,值得一提的是,各个因子之间可能本身就具有一定的相关性。
  比如,roe指标与roa指标本身就满足一个等式:roe=roa*em, 其中em为权益乘数,计算公式为em=1/(1-负债率)。
  如果因素之间的相关性甚小,我们可以忽略不计,但是当相关性大到一定程度时,便会对之后的多因素模型分析过程产生误导,因此在这里我们需要补充的一步是利用matlab软件,建立不同指标之间的关系方程,判断是否存在多重共线性。
  2.3 多因素模型体系的建立
  在进行完影响收益率的因子选择以及剔除完冗余因子之后,便是最为重要的建立综合评分体系,将所有的因子共同反映到一个方程中,用来解释股票收益率与因子之间的具体变化。
  多因素模型的建立过程分为如下几个步骤:
  (1). 标准化原始数据
  (2). 建立相关性矩阵
  (3). 计算相关性矩阵的特征值和特征向量
  (4). 得出总方程表达式
  通过对上述运行结果的分析我们可以看出,月最大超额收益的影响最大,而累计收益的影响最小。
  这样,我们便量化出了影响该股票收益率的方程式。
  第二部分:交易标的股票的选取
  2.4 选取收益率前20%的股票
  通过第一部分的论述,我们最终可以得到影响不同公司股票收益率的方程式,可以用matlab或者数据库技术进行保存,当需要更新参数或者进行预测决策时,调用相关函数即可。
  在第二部分中,我们将选取的标的股票资产池的相关数据输入到方程式中,即可得到未来一段时间的预期收益率。
  假设我们从每个板块中选取出了20支股票,我们保留预期收益率排在前20%的股票,优中选优,尽量最大化我们的收益。
  2.5 利用capm模型进行资产组合
  20世纪诞生的资本资产定价模型(capm)为广大投资者选择资产组合提供了良好的理论基础与依据。
  威廉夏普(william f. sharpe,1934-)与马克维茨(harry m. markowitz)等人所建立的组合管理理论核心即为以下等式:
  e(rn)=rf+β(e(rm)-rf)
  其中,e(rn)为股票的预期收益率,rf为无风险利率,β为单个股票与市场之间的相关性,e(rm)为某一基准的收益率。
  通过该理论,我们可以建立多个资产的不同搭配情况。
  在第三部分,我们会进一步讨论运用各项绩效评估指标,来权衡风险与收益。
  第三部分:风险控制
  2.6 对各项参数进行区间估计和假设检验。
  前两部分重点关注了组合的收益情况,力求在市场处于无效或弱有效的情况下,取得超越市场的收益率。
  然而,对风险的把握仍为非常重要的方面,自从2007-2009年间发生的金融灾难以后,人们对于风险控制的意识又提高到一个新的水平。
  下面具体介绍如何利用统计学知识,对风险以及收益的取值范围做出评估与估计。
  假设由第一部分模拟出的收益率方程满足如下等式:
  yi = -4.451 +2.057 * x1i + 2.008 * x2i
  我们可以看到,在这个等式中出现了三个参数,分别是截距项-4.451、x1i的系数2.057以及x2i的系数2.008。
  然而,这毕竟是模拟出来的结果,或多或少会存在着一定的误差,那么对这种误差水平的度量就显得尤为重要。
  特别是对于x1i与x2i的参数的估计,其改变直接决定了yi的变化的方向以及程度。
  在这里,我们运用统计学上的假设检验与置信区间估计的方式,判断我们有多大的信心,或者说有多大的概率,该参数可以满足我们的要求,从而对我们的决策活动形成指导意义。
  见下图:
  如上图所示,该图为用统计软件所得出的上式的相关统计学分析,可以看出上式的r2(r-squared)为0.934,并且调整后的r2(adj r-squared)为0.890,说明该式的所有系数,作为一个整体,对yi具有较好的解释力度。
  其中ess(explained sum of squared)为模型模拟出的曲线与平均值的差的平方和,而ssr(squared sum of residual)为真实点与估计点的差的平方和。
  matlab图示如下:
  上图是通过最小二乘法拟合出来的一条回归曲线,其中蓝色的点与实线之间的距离的平方和即为ssr,而实线与所有实际点的均值之间的距离的平方和即为ess。
  r2=ess/(ess+ssr)。
  由图6-1还可以看到,2.057所处的95%置信区间范围为0.984-3.130。
  其中,p值与t统计量用来判断在95%的把握下,是否可以拒绝一项参数,即判断该参数在一定概率条件下的真假情况。
  我们通常可以通过查对应的t分布表来找到对应的关键值,或者采用比较p值大小的方式进行判断。
  比如说,要判断图6-1中experience的参数2.008在95%的概率条件下的合理性,我们计算出其t统计量如图上的2.664,而对应的置信区间范围中包括了2.664这个值,因此我们可以得出如下结论:experience的系数2.008在95%的置信水平下是无法拒绝的。
  这一结论同样可以通过判断p值的大小得出,p值为0.076,大于显著性水平0.05(通过1-95%得到),因此有足够的自信可以保证该系数的合理性。
  通过上述方法,我们可以对之前模拟出的收益率方程的系数的合理性做出判断与评估,使我们对其有一个更为深入的了解。
  2.7 基于蒙特卡洛模拟的风险控制。
  在风险管理领域,var方法一直在各大金融機构被视为进行风险度量的首选,因为其可以提供在一定的置信区间下所发生的最大损失的大小。