StratCraft中文

Back to strategies

强化学习 DQN 策略

通过状态、奖励与组合反馈来学习交易动作

强化学习 DQN 策略是一套机器学习交易模板：它将市场状态、持仓状态、奖励与动作历史特征转化为经过验证的deep Q-network 策略信号，随后施加明确的执行、离场与模型风险控制。 - Mnih et al. 2015

本策略作为教育示例提供，灵感来源于常见的公开技术分析概念和参考资料。仅用于研究和产品演示目的，不构成投资建议。

⚠️ 策略适用性

风险: EXTREME

✅ 适用于

❌ 避免使用于

🕒 时间周期

IntradayDailyResearch dependent

🌍 市场

FuturesCryptoStocksSimulated portfolios

📢 机器学习策略可能看起来很精确，却隐藏着数据泄露或状态过拟合；奖励塑形审查、环境泄露控制与策略回撤止损需要明确的监控。

问: 强化学习 DQN 策略背后的核心思想是什么？

该策略在市场状态、持仓状态、奖励与动作历史特征上训练deep Q-network 策略，预测用于持有、买入、卖出或再平衡决策的最优动作价值，并且仅在在计入成本与风险惩罚后，策略动作具有正的预期奖励时才进行交易。

问: 强化学习 DQN 策略中最大的风险是什么？

最大的风险通常是数据泄露或过拟合：回测可能使用了在交易发生之前本不存在的信息。

问: 应如何对强化学习 DQN 策略进行回测？

应使用时点数据、按时间顺序的前向滚动验证、切合实际的交易成本，以及在部署前保留一段未经触碰的样本外区间。

该策略的工作方式

从市场解读到交易管理的 5 阶段决策流程

1

特征集

构建时点输入

构建市场状态、持仓状态、奖励与动作历史特征，且不引入未来信息泄露

将每个特征对齐到其在实盘中本应已知的时间戳

在训练之前，剔除不稳定、稀疏或无法执行的输入

2

目标设计

定义可交易标签

训练模型以预测用于持有、买入、卖出或再平衡决策的最优动作价值

按时间顺序划分训练、验证和实盘风格的测试区间

拒绝忽略成本、延迟、融券或成交假设的目标定义

3

验证

测试模型稳定性

使用带前向滚动市场情景的离线训练-测试环境进行验证

将预测能力与一个简单的规则型基准进行比较

在部署之前，检查特征重要性、校准度和状态敏感性

4

交易规则

将评分转化为订单

仅当在计入成本与风险惩罚后，策略动作具有正的预期奖励时触发

使用带持仓与换手约束的动作门控订单执行

当策略选择减仓或空仓、风险预算被触及，或奖励状态恶化时离场

5

模型风险

控制漂移与过拟合

在实盘使用前应用奖励塑形审查、环境泄露控制与策略回撤止损

监控预测衰减、数据结构变化以及特征分布漂移

当实盘决策偏离经过验证的行为时，停用该模型

策略组件参考

强化学习 DQN 策略

通过状态、奖励与组合反馈来学习交易动作

DQN
策略
交易者

SC StratCraft

F特征集

市场状态、持仓状态、奖励与动作历史特征—模型输入

用于持有、买入、卖出或再平衡决策的最优动作价值—训练目标

时点对齐—泄露控制

M模型训练

deep Q-network 策略—预测引擎

带前向滚动市场情景的离线训练-测试环境—样本外测试

基准模型—能力门槛

E入场规则

在计入成本与风险惩罚后，策略动作具有正的预期奖励—交易触发

带持仓与换手约束的动作门控订单—下单方式

评分校准—置信门控

X离场规则

策略选择减仓或空仓、风险预算被触及，或奖励状态恶化—主要平仓

预测刷新—模型更新

信号超时—过期信号离场

R风险控制

奖励塑形审查、环境泄露控制与策略回撤止损—硬性约束

特征漂移—数据健康度

过拟合审查—研究纪律

← 所有策略

强化学习 DQN 策略: 强化学习 DQN 策略是一套机器学习交易模板：它将市场状态、持仓状态、奖励与动作历史特征转化为经过验证的deep Q-network 策略信号，随后施加明确的执行、离场与模型风险控制。
强化学习 DQN 策略 Market Suitability: The 强化学习 DQN 策略 strategy works best in 市场状态、持仓状态、奖励与动作历史特征可按时点获取、并能映射为可执行订单的市场。. 能够用按时间顺序的划分（而非随机打乱）来验证deep Q-network 策略的研究流程。. 在计入成本与风险惩罚后，策略动作具有正的预期奖励足够强、能够在成本、换手和模型衰减之后依然成立的组合。. Traders should avoid using this strategy in 存在幸存者偏差、前视特征、经修订的基本面，或在决策时点本不可交易的标签的数据集。. 预测优势小于价差、滑点、融券或延迟成本的市场。. 模型复杂度上升快于样本外证据的过拟合研究。. The risk level is categorized as EXTREME. 机器学习策略可能看起来很精确，却隐藏着数据泄露或状态过拟合；奖励塑形审查、环境泄露控制与策略回撤止损需要明确的监控。
强化学习 DQN 策略背后的核心思想是什么？: 该策略在市场状态、持仓状态、奖励与动作历史特征上训练deep Q-network 策略，预测用于持有、买入、卖出或再平衡决策的最优动作价值，并且仅在在计入成本与风险惩罚后，策略动作具有正的预期奖励时才进行交易。
强化学习 DQN 策略中最大的风险是什么？: 最大的风险通常是数据泄露或过拟合：回测可能使用了在交易发生之前本不存在的信息。
应如何对强化学习 DQN 策略进行回测？: 应使用时点数据、按时间顺序的前向滚动验证、切合实际的交易成本，以及在部署前保留一段未经触碰的样本外区间。
市场状态、持仓状态、奖励与动作历史特征: 市场状态、持仓状态、奖励与动作历史特征构成了模型使用的可观测输入；每个数值都必须在模拟决策时间戳之前就已可用。. Formula: Point-in-time feature matrix
用于持有、买入、卖出或再平衡决策的最优动作价值: 用于持有、买入、卖出或再平衡决策的最优动作价值定义了模型试图预测的目标，因此它必须包含切合实际的持仓周期和交易成本假设。. Formula: Future return or action label
时点对齐: 时点对齐可防止模型学习到那些在实盘交易期间本不会存在的、经过修订或来自未来的信息。. Formula: Feature time <= decision time
deep Q-network 策略: deep Q-network 策略将经过工程化处理的市场特征转化为可在未见过的区间上进行测试的评分、类别、预测或动作。. Formula: Q(s,a) <- r + gamma max_a Q(s_next,a)
带前向滚动市场情景的离线训练-测试环境: 带前向滚动市场情景的离线训练-测试环境会检验训练后的模型在使用未参与训练的后续数据评估时是否仍然有效。. Formula: Walk-forward split
基准模型: 基准模型可确认机器学习的复杂性相较于简单的动量、均值回归或因子规则确实带来了额外价值。. Formula: Compare with simple baseline
在计入成本与风险惩罚后，策略动作具有正的预期奖励: 在计入成本与风险惩罚后，策略动作具有正的预期奖励将模型输出转化为严格的入场规则，而非把每个预测都当作一笔交易。. Formula: Prediction score clears threshold
带持仓与换手约束的动作门控订单: 带持仓与换手约束的动作门控订单定义了当模型信号变得可执行时所使用的下单时机、仓位规模和换手约束。. Formula: Signal to order conversion
评分校准: 评分校准将原始模型输出映射到可比较的置信区间，使仓位规模基于经过测试的可靠性。. Formula: Probability or rank bucket
策略选择减仓或空仓、风险预算被触及，或奖励状态恶化: 策略选择减仓或空仓、风险预算被触及，或奖励状态恶化可防止模型交易在预测衰减后演变为一个无人管理的主观持仓。. Formula: Prediction no longer supports exposure
预测刷新: 预测刷新规则定义了策略重新计算特征并替换过时模型决策的频率。. Formula: Re-score on schedule
信号超时: 当原始预测周期已过但预期走势并未出现时，信号超时会平掉相关头寸。. Formula: Close after forecast horizon
奖励塑形审查、环境泄露控制与策略回撤止损: 奖励塑形审查、环境泄露控制与策略回撤止损会限制头寸敞口、模型漂移，以及不再与经过验证的研究样本相匹配的实盘行为。. Formula: Model and portfolio limits
特征漂移: 特征漂移监控可检测实盘输入分布何时已偏离训练数据足够远，以至于使模型假设失效。. Formula: Live distribution versus train
过拟合审查: 过拟合审查会将模型复杂度、换手和参数数量与持久的样本外证据数量进行比较。. Formula: Complexity versus evidence