当前位置:

深度学习用于股票分析,这些数据处理细节得注意

股票配资网站 2026-02-26 16

<【股票配资网站】>深度学习用于股票分析,这些数据处理细节得注意

首先这个模型的输入是全市场股票的数据价格,这个模型只用到了价格(当日的开高低收+均价)。

中间的图片是一个最简单的时间序列的预测模型——LSTM。如果你真的用心拿这个模型去做,最后你也是能赚钱的。但是,赚钱也还是前提的:细节是魔鬼!就是说上面这些你都做了,但是你还是要处理很关键的细节,而这些细节其实才是最终你能赚多少钱的一个核心问题。

拿数据清洗来说,为什么要对数据进行清洗?上面的数据看上去也不是很复杂,也就是高开低收以及当日成交均价,但是这里面会隐藏很多问题,比如有些股票是刚上市的新股等。再者是涨停、跌停的股票怎么处理。有些股票波动异常,甚至被证监会点名有操纵的嫌疑,这些该怎么处理?对于金融时序数据来说,噪音非常大,信噪比非常低。我们如果预先对一些数据进行处理,这对你的模型训练会有很大的帮助。如果你什么都不管,把数据直接丢给LSTM模型,基本上得不到好的结果,因为LSTM也不是神!

类似于这样的细节后面还有很多,只要你对市场、数据充分了解之后,才能得出较好的、赚更多钱的结果。

我们实际工作的模型

这是一个可以赚钱的实际的模型,我们也在用深度学习用于股票分析,这些数据处理细节得注意,但是这个模型并不能解决所有的问题,接下来介绍一下我们实际工作的模型。

股票价格LSTM模型细节处理_金融时序数据清洗技巧_深度学习 股票分析

*图片来自幻方

第一行是行情数据,但是我们做了很多的处理。接下来有来自财报的数据、公告、新闻文本的信息,再有就是上下游产业链,股票相关性的分析。把这些都输入到多层感知器模型(MLP)我们才会得到一个支持大规模资金管理、交易的复杂模型。因为时间序列模型非常耗资源,数据量非常大,所有耗时会非常久!

我们用去年7月份发布的DGX-A100服务器跑完这个模型大约需要120天的时间,基本毫无意义~

深度学习 股票分析_股票价格LSTM模型细节处理_金融时序数据清洗技巧

*图片来自幻方

那怎么解决这个问题呢?

堆机器、堆算力

深度学习 股票分析_金融时序数据清洗技巧_股票价格LSTM模型细节处理

当然,不是简单的堆,简单的买!那么,幻方是如何怎么做的呢?

幻方萤火超算

*视频来自幻方 萤火搭建过程

一个超算和普通的数据机房是不太一样的,因为它的单位面积算力能耗特别大,要处理的复杂问题比较多,并不是去租几个IDC机房把机器放进去就能解决的。

目前萤火超算的硬件设施为:

采用了现在全世界能买到的最贵的、速度最快的800口的交换机(水冷交换机),每节点IB互联,200 Gbps传输带宽。

算力对比

金融时序数据清洗技巧_股票价格LSTM模型细节处理_深度学习 股票分析

*图片来自幻方,所有性能统计均基于-32格式理论算力值,、Tesla超算性能数据均来自公开材料

图片的右边是特斯拉的Dojo原型机,左边是萤火,中间是的超算,在今年最新一次的排名为全球第6。

因为目前萤火已经投入了使用,所以萤火在整个事件上比特斯拉超至少超前了半年的时间。因为A100的计算卡是去年7月份才发布,幻方是亚太地区第一批拿到此卡的人,因为当时A100还是挺难买的。

读取速率和 IO500的对比

今年上半年继续建造萤火的时候也遇到很多的问题,挖矿的人太多了, 买不到足够的CPU和硬盘等等。

分布式存储十分难做,关键是其读取的速率。下图(右边)是现在全球IO500的存储读取速度榜单,第一名是中国鹏城实验室,读取速率最快。左图是幻方的结果深度学习 股票分析,可以看到图上有个尖峰,是因为幻方每天早上6点钟会做压力测试,其读取速率达到了/s,实际训练时已达到/s。幻方现在的速率仅次于鹏城实验室,下半年幻方宣布会去参与这个榜单的评比。

深度学习 股票分析_金融时序数据清洗技巧_股票价格LSTM模型细节处理

行情指数
  • 上证走势
  • 深证走势
  • 创业走势

上证指数

3350.13

1.69(0.05%)

深证成指

10513.12

9.46(0.09%)

创业板指

2104.63

2.75(0.13%)

浏览器扫码访问