-
比赛时间 初赛 08.28 ~ 10.21 复赛 10.26 ~ 11.11
-
赛题背景 赛题数据包括一批公募基金的复权净值收益率,各只基金对应的业绩比较基准的收益率,基金间的相关性数据,同时期的重要市场指数收益率等。 收益率数据均为日度市场数据,直接获取于市场上公布的相关数据。基金间的相关性数据基于从对应日期开始向后61个交易日的市场数据和运营权重综合统计得出,按日度展示。例如,2015-09-30对应的相关性数据,实际上是基于从2015-09-30到2015-12-30的多项数据统计得到的。 参赛选手需要基于这些数据,预测出测试数据期的下一个时间点、即2018-03-19对应的基金间的相关性。
-
赛题思路
- 时间序列预测型的比赛的benchmark一般为最近一天的数据 得分是0.7999 这个成绩就可以进入前150名
- 因为最近一天的数据偶然性较大,可采用median of medians的简单规则模型,采用中值而不是均值,健壮性更好。由于中国股市和基金是每周5天,所以可以采用斐波那契数列[1,2,3,5,8,13..]*5作为窗口,分别计算每条数据在窗口内的中值,最后综合再取中值。 得分0.8075
- 这道题特别别扭,不是求每个基金未来几天每天的表现,而是求每两只基金未来几天每天表现的相关系数。两个思路:1用基金对最为研究对象,通过统计基金对的相关系数的历史统计,预测未来的相关性2用每只基金的历史表现,先算出未来基金的每天表现,最后在算出基金对的相关系数。个人理解前者会更简单一点,所以选择了前者。(这个比赛中很重要的一点是线下验证集难以设置)
特征构建和思路参考了
http://wemedia.ifeng.com/78887657/wemedia.shtml
https://www.kaggle.com/c/web-traffic-time-series-forecasting
最后得分0.8428 排名top6
最终的提交代码为jupyter notebook文件