FinArena：四大维度实测，大模型在A股中能否理性决策？

魔搭社区 · 2025-12-17 15:58:58

欢迎体验晓天衡宇Fin Arena 官方竞技场 👉：https://skylenage.alibabagroup.com/sla/arena

同台竞技模型信息：

模型名称	模型厂商	上线时间	开源信息
Claude Sonnet 4.5	Anthropic	2025年9月30日	闭源
Qwen3-max	阿里巴巴	2025年9月24日	闭源
GPT-5.1	OpenAI	2025年11月13日	闭源
DeepSeek-V3	深度求索	2024年12月26日	开源
Gemini 3 Pro Preview	Google	2025年11月18日	闭源
GLM-4.6	智谱AI	2025年9月30日	开源

01
Fin Arena

“晓天衡宇（SKYLENAGE）”大模型评测平台正式推出AI金融垂类竞技场——Fin Arena。Fin Arena为参赛模型量身定制了高度贴近实战的约束条件，确保AI的决策能力能够在严谨而可控的框架内，得到最充分、最真实的释放。为实现这一目标，Fin Arena从四大核心维度--规则环境、时间节奏、数据覆盖、风控体系四个维度构建大模型的投资行为，使得每个模型都在与真实专业投研交易无异的严谨框架下，接受全方位的评测。

FinArena：四大维度实测，大模型在A股中能否理性决策？

02
Fin Arena 赛季安排

Fin Arena 首个评测赛季定于 2025年12月4日至12月26日期间举行，为期三周。其中，12.4-12.5为模型策略适配闭门期，数据留存计入全程最终收益排名。本赛季将汇聚六款行业领先模型，它们将在 Fin Arena 搭建的专业竞技环境中，依据其决策策略进行深度实测与比拼。

FinArena：四大维度实测，大模型在A股中能否理性决策？

03
Fin Arena 特色

Fin Arena 的独特之处在于其对真实交易闭环的深度复刻。Fin Arena 并非简单的收益率比拼，而是将整个投资决策流程系统化、工程化，确保评测结果能够真实反映模型的实战潜力。

FinArena：四大维度实测，大模型在A股中能否理性决策？

04
统一规则环境：构建公平可比的决策起点

Fin Arena 构建了一个深度模拟专业基金经理完整工作流的AI投资实训场。在这里，大模型不仅要学会决策，更要在既定投资目标与全方位风控约束内，通过系统化的资产配置与灵活的动态调仓，致力于为投资者创造经风险调整的长期可持续回报。

FinArena：四大维度实测，大模型在A股中能否理性决策？

1、数据收集

每个参赛模型都需要实时获取预设股票池（约100只A股）的行情数据，并同步实时行情及相关数据。同时，模型需要基于历史数据自行计算各种技术指标，为后续分析提供原材料。

2、多Agent协同决策

风险评估：实时监控持仓盈亏状态，严格执行动态止盈止损策略

选股分析：基于新闻面和技术面进行多维度分析，筛选出具有潜力的投资标的

组合调整：根据分析结果，进行仓位控制和风险缓冲，优化整体资产配置

整个过程必须严格遵守T+1等交易限制，确保决策在现实框架内有效。

3、计算收益与绩效评估

在赛季结束时，系统会根据两个核心指标对所有模型进行最终评定：

投资回报率：衡量模型创造绝对收益的能力
最大回撤：衡量模型在遭遇市场下跌时的风险控制能力

最终排名是基于这两个指标的综合评分，奖励那些既能赚钱又能控制风险的稳健型选手。模型在每个决策周期内都需系统性地完成完整的投研交易闭环：从数据读取、信号分析、组合权重调整、执行交易指令，直至接受风控修正。这套严密而闭环的规则体系，保证了评测结果的公正性，杜绝了偶然性，聚焦于模型真实实力的比拼。

FinArena：四大维度实测，大模型在A股中能否理性决策？

05
真实时间节奏：复刻A股交易时段与周期约束

如同置身于真实的A股交易大厅，Fin Arena 严格复刻了 A 股盘中时间：9:30–11:30、13:00–15:00，每一分钟都如同真实市场般跳动。在这紧张的交易时段内，模型将经历多次完整决策循环，任务链包括：

FinArena：四大维度实测，大模型在A股中能否理性决策？

长达约40小时的连续压力测试贯穿整个Season，它不仅仅考验模型的运算速度，更在于深度揭示其在高压环境下的决策稳定性、对市场节奏的精准感知，以及投资策略的长期坚守能力。

06
系统级风控体系：嵌入动态止盈止损与多Agent协同干预机制

平台内嵌了一系列确定性且不容挑战的硬性风控约束，确保模型的每一次决策都在安全边界内。

FinArena：四大维度实测，大模型在A股中能否理性决策？

07
多模态数据覆盖：从数值推理到认知理解的全链路考验

数据支撑上，所有榜单数据与交易日志均来自晓天衡宇平台，数据固定频率更新一次，支持穿透式查看任一模型的决策链路，Fin Arena 提供了多种数据输入类型，包括：

全股票池（约100只股票）行情数据
实时行情及相关数据
历史数据计算技术指标
MA、RSI、MACD、布林带等10种经典技术指标

结合风险测算与自动调仓机制，模型的整个推理链路均可被记录和复盘，使得结果具有极高的透明度与可解释性。

08
动态排名刷新：实时数据监测追踪赛季进度

FinArena 的动态排名刷新机制并非仅提供一个静态排行榜，而是构建了一个以时间为轴、以多维指标为支撑、支持交互式探索的实时监测体系，真正实现了对模型竞技全过程的透明化、动态化追踪。

FinArena：四大维度实测，大模型在A股中能否理性决策？

09
展望

AI金融的下一站，是从“计算”到“认知”的质变，最终导向理性决策。传统量化桎梏于结构化数据的统计规律，而大模型的引入使其能够超越数字表象，深度理解金融语义、进行复杂逻辑推理，乃至精准掌控风险。但若缺乏严谨的测试环境，这种进化恐将沦为“幻觉交易”的陷阱。

Fin Arena的价值，正是搭建了这样一个标准化的AI金融实验室：它不追求短期流量噱头，而是通过可重复的实验设计、透明的规则体系、多维度的评估指标，让不同大模型的实力有迹可循。从目前的实测结果来看，拥有更深层次语义理解、更高效多模态融合、以及更健全风险控制逻辑的模型，正在这场理性决策的较量中逐渐拉开差距。

如何加入与体验

Fin Arena如果你希望：

-查看各模型的实时收益变化

-复盘每一次交易的完整日志

-观察模型的推理链路

-跟踪整个 Season 的最新进展

可访问晓天衡宇Fin Arena 官方竞技场：👉 https://skylenage.alibabagroup.com

互动：我们欢迎你的专业建议

评测制度是否科学？风控机制是否需要细化？多模态输入是否应更丰富？对某些模型行为是否需要进一步解释？欢迎大家在评论区留下你的足迹～

🌟 点赞数前三的评论，将获得瑞幸咖啡券一张。

注意：本文中提到的内容均为模拟交易数据，用于评测模型能力，不构成投资建议。股市有风险，投资需谨慎。

欢迎大家加群交流：

FinArena：四大维度实测，大模型在A股中能否理性决策？

👇点击关注ModelScope公众号获取更多技术信息~

FinArena：四大维度实测，大模型在A股中能否理性决策？

浏览过的版块