报告要点
作为”猎金系列之十四”,我们以雪球网为基础,深耕雪球的信息和价值,并以此为起点搭建基于互联网文本挖掘的量化投资研究框架。
从抓取结果来看,时间窗为2010年12月16日至2017年3月21日(抓取截至日),雪球网共计有4,194,659个活跃用户,41,402,009条基本行为。根据雪球行为对A股覆盖度,确定研究时窗位2014年1月-2017年3月。
构建月度以及周度关注度因子。行业市值中性化处理之后,因子选股效果明显,且与传统选股因子(价值、成长、分析师情绪等)相关性较小,有显著信息增量。将过去3个月、4周的关注度原始值分别进行平均加权以合成当期关注度因子。改进的关注度因子保证了选股能力,同时将换手率降低50%左右。
基于改进关注度因子构建选股策略。月度方面:全样本选股策略年化超额收益率为20.95%、夏普比率为3.80、最大回撤为5.09%。而基于改进周度因子测试:换手率大幅降低,可行性得到提升,其中全样本选股策略超额收益为17.94%,夏普率为3.14,最大回撤为8.12%。
1
雪球网数据抓取简介
1.1 雪球网维度简介
基于互联网文本数据产生的量化策略不断增多。在众多互联网平台中,雪球网无疑是最佳的素材提供平台之一。雪球的核心竞争力在于信息的原生性和展示的创新性以及UGC(UserGenerated Content,用户原创内容)的聚合。而UGC产生的内容包括股票、用户、雪球行为(关注类行为、创建组合行为)、时间等基本颗粒度。雪球100、雪球精选、雪球智选等都是雪球平台和基金公司利用这些信息产生的大数据基金。
1.2 抓取方法介绍
我们采用Scrapy对雪球网的数据进行抓取。而根据雪球网特点,确定抓取的2个维度:从股票界面切入和从用户界面切入。但两种方法均有优缺点。对其进行结合,我们完成了雪球网的数据抓取工作。
图-1雪球网数据抓取方法简介
1.3 雪球网数据抓取结果
数据的时间窗口为2010年12月16日至2017年3月21日,在此期间共获得4,194,659个用户、47,134,487条基本行为。雪球的用户基本行为包括:关注类行为、发帖、创建投资组合3种基本动作,其中发帖和创建投资组合行为占比61.2%、关注类动作占比38.80%。
从用户行为的历史分布来看,14年开始进入高速增长,而15年的股灾带来了雪球网用户的井喷现象。目前日行为大致在40,000左右。我们接下来的研究仅仅聚焦于2014年1月1日-2017年3月21日。
我们用关注类行为作为接下来研究的重点,这是因为:一方面关注类行为是具体到某只股票,而帖子可能涉及到多只股票;另一方面,关注类行为占比稳定。
而从月度、周度雪球网用户关注类行为对A股的覆盖度来看,月度覆盖度均值达到99.3%、而周度达到93.9%。
2
关注度因子构建及有效性分析
2.1 因子定义
关注度因子定义:在T期内,有N个用户对该股票具有M次买入、卖出以及关注行为,那么该股票在T期上的关注度大小即为M;
个股数据:全市场A股,扣除涨跌停、停盘、ST股票;
行业分类:中信一级行业;
数据区间:2014年1月至2017年3月;
特殊处理:如果时间周期内(周度、月度)标的关注度为空,即没有人关注的话,那么我们认为其为0。
2.2 有效性检测
首先我们基于全市场选股,构建月度、周度关注度因子,对两种因子进行IC检验。根据前面关注度因子构建的假设分析,我们认为低关注度的股票的超额收益会更高。从IC以及分位数组合测试来看,无论是周度亦或是月度测试,因子都表现较好的选股能力。
2.3 行业市值中性化研究
月度关注度因子与流通市值秩相关性均值达到0.386;而周度关注度因子与流通市值秩相关性均值达到0.394。这意味着,市值越小的公司,其关注度也越低;关注度因子具有一定的小市值偏离。为了进一步考察剥离小市值效应后的关注度因子表现,并去除行业的影响,我们对其进行行业市值中性化处理。
相比于未作任何处理的关注度因子,行业市值中性化之后的关注度因子的IC均值有所降低,但因子稳定性有大幅度改善;从分位数组合测试的结果来看,相比于未作中性化处理关注度因子,基本相似,但组别差距变小。具体结果就不在此赘述(可参见报告)。因此,我们利用中性化因子作为进一步研究标的。
2.4 与传统因子对比,不一样的烟火
和传统的价值、成长、反转、分析师情绪因子相比,关注度选股能力几何?在经过这些因子的“剥削”之后,关注度因子是否依然是那个“不一样的烟火呢”?我们从相关性分析以及Fama-Beth回归角度进行了验证。
测试结果显示,无论是月度关注度因子还是周度关注度因子,其与传统因子相关性比较低,仅仅与反转因子相关性相对较高。而Fama-Beth测试也证实因子具有显著信息增量。
3
关注度因子优化
3.1 “回测之伤”
我们对周度以及月度关注度因子进行回测检验,简单构建纯多头策略(每次调仓选取因子排序后top组合,单边成本设置0.3%)。
测试结果显示,虽然纯多头的策略能获得相对不错的年化收益率,但是与分位数组合测试的top组别的表现相比还是有明显的下滑。而我们发现月度以及周度测试的年化换手率均较高。策略回测和因子测试很大的不同是回测的交易成本的限制。以周度为例,我们对单边交易成本进行敏感性分析,验证了这一想法(具体参见报告)。高换手率放大了成本的效应,导致最终回测效果一般,该如何降低换手率呢?
3.2 改进关注度因子
一般而言,换手率的降低有两种方式,一种是在因子层面,增加连续周期的因子的相关性,另外可以通过换手率缓冲的方式进行控制。而IC衰减测试显示,月度关注度因子半衰期为3个月,周度关注度因子半衰期为4周。因此,为了保证选股能力,分别用过去3个月、4周的关注度值进行平均加权合成改进之后的月度、周度关注度因子。
改进因子选股效果依然强悍,回测显示周度以及月度测试的换手率均降低50%。
4
守得云开见月明,策略构建
根据改进的关注度因子构建选股策略,基本细节如下。
个股数据:全市场A股,剔除交易日当天为ST、停盘、涨跌停股票;
行业分类:中信一级行业;
时间区间:2014年1月至2017年3月;
交易成本:单边0.3%;
注意,以下所有的选股策略都是基于这个标准进行操作的,后面就不赘述。
4.1 基于改进月度关注度因子构建
我们将基于行业市值之后的月度关注度因子构建2种选股组合。
股票成长性是传统量化收益重要来源之一,作为和经典选股因子的碰撞,我们尝试将成长性和关注度进行结合,测试在多重维度下的选股效果。
从关注度因子目前的表现来讲,形成期关注度越低的股票会在未来有更强爆发力;而从成长性来讲,高成长性的股票在未来将会有更大的升值空间。选择低关注度并且高成长性的股票,研究未来的表现是值得尝试的方向。而我们兴业定量团队对众多成长因子浸淫已久,并构造了合成成长因子(具体参见我们的《宽海拾贝》以及《猎金》系列),我们将基于该成长因子与关注度因子构建选股策略。
选股:全市场选股(满足个股条件),每个月最后一个交易日结束后进行组合的筛选和调整,首先按照关注度因子排序、选取关注度因子最低的100只股票,然后在这100只股票池里面按照成长性因子进行排序,选择成长性最高的30只股票作为最终的建仓标的。
从结果来看,该策略年化收益率达到47.14%,夏普率达到1.62,而胜率为62%。整体来看,通过将成长因子与关注进行结合的策略表现出强势选股能力。
进一步,利用关注度因子,在全市场选股并用中证500对冲,选股流程如下:每个月最后一个交易日结束后进行组合的筛选和调整,按照中信行业对关注度因子排序、选择每个行业因子值最低的10%比例的股票建仓,按中证500权重配权。
从对冲策略的结果来看,全样本选股策略年化超额收益为20.95%,夏普比率为3.80,最大回撤为5.09%。.
4.2 基于改进周度关注度因子构建
同改进月度关注度因子选股策略构建的方式相同,我们利用周度关注度和成长因子进行结合构建多头策略,同时构建全A选股策略。
在和成长因子合成方面,细节与月度对应部分选股细节相同,只是调仓周期改为周度。从结果来看,该策略年化收益率为52.52%,夏普为1.87。和月度相应测试相比,虽然周度测试提高了交易频率,但是整体表现优于月度测试。
进一步,利用改进周度关注度因子,在全市场选股并用中证500对冲,选股流程与月度一致。从结果来看,策略表现依然优异,略微次于月度测试。
5 结束语
本文是兴业定量研究团队“猎金”系列之十四。在本篇中,我们详述了雪球网的整体构架、数据抓取方法、抓取的结果、以及基于用户活跃行为构建的关注度因子。并对该因子进行了改进,用改进之后的关注度因子进行选股策略的构建。
过去,王国维大师谈及治学有三种境界,望断天涯路固然令人沮丧,为伊消得人憔悴确实费心劳神,但灯火阑珊却也让你我多了份期待。对于我们兴业定量团队而言,“灯火阑珊处”是我们的目标、也是使命。这份期待,让我们始终坚守并砥砺前行。
接下来,我们将继续耕耘雪球网这片沃土,推出更多系列报告,争取让这个“聪明的投资者都在这里”的平台的力量为大家所用。
未来,在雪球网的基础上,我们将向更高的目标迈进,构建网络数据舆情体系,让兴业定量力量服务大家、增值财富。
详情请参阅相关研究报告《雪球知股乎系列之一:和关注度因子有个约定》,或联系兴业金融工程研究团队。
--------------------------------------
联系人:任瞳
电话:0755-2382 6010
E-mail:rentong@xyzq.com.cn
--------------------------------------
联系人:徐寅
电话:18602155387,021-38565949
E-mail: xuyinsh@xyzq.com.cn
--------------------------------------
联系人:郑兆磊
电话:13918491550
微信:13918491550
E-mail: zhengzhaolei@xyzq.com.cn
--------------------------------------
更多量化最新资讯和研究成果,欢迎关注我们的微信公众平台(微信号:XYZQ-QUANT)!