11

主题

0

回帖

57

修为

高级合伙人

modelscope.cn 官方

积分
77

FinArena:四大维度实测,大模型在A股中能否理性决策?

FinArena:四大维度实测,大模型在A股中能否理性决策?
欢迎体验 晓天衡宇Fin Arena 官方竞技场 👉:https://skylenage.alibabagroup.com/sla/arena
同台竞技模型信息:
模型名称
模型厂商
上线时间
开源信息
Claude Sonnet 4.5
Anthropic
2025年9月30日
闭源
Qwen3-max
阿里巴巴
2025年9月24日
闭源
GPT-5.1
OpenAI
2025年11月13日
闭源
DeepSeek-V3
深度求索
2024年12月26日
开源
Gemini 3 Pro Preview
Google
2025年11月18日
闭源
GLM-4.6
智谱AI
2025年9月30日
开源
01
Fin Arena
“晓天衡宇(SKYLENAGE)”大模型评测平台正式推出AI金融垂类竞技场——Fin Arena。Fin Arena为参赛模型量身定制了高度贴近实战的约束条件,确保AI的决策能力能够在严谨而可控的框架内,得到最充分、最真实的释放。为实现这一目标,Fin Arena从四大核心维度--规则环境、时间节奏、数据覆盖、风控体系四个维度构建大模型的投资行为,使得每个模型都在与真实专业投研交易无异的严谨框架下,接受全方位的评测。

FinArena:四大维度实测,大模型在A股中能否理性决策?

FinArena:四大维度实测,大模型在A股中能否理性决策?
02
Fin Arena 赛季安排
Fin Arena 首个评测赛季定于 2025年12月4日至12月26日期间举行,为期三周。其中,12.4-12.5为模型策略适配闭门期,数据留存计入全程最终收益排名。本赛季将汇聚六款行业领先模型,它们将在 Fin Arena 搭建的专业竞技环境中,依据其决策策略进行深度实测与比拼。

FinArena:四大维度实测,大模型在A股中能否理性决策?

FinArena:四大维度实测,大模型在A股中能否理性决策?


03
Fin Arena 特色
Fin Arena 的独特之处在于其对真实交易闭环的深度复刻。Fin Arena 并非简单的收益率比拼,而是将整个投资决策流程系统化、工程化,确保评测结果能够真实反映模型的实战潜力。

FinArena:四大维度实测,大模型在A股中能否理性决策?

FinArena:四大维度实测,大模型在A股中能否理性决策?

04
统一规则环境:构建公平可比的决策起点
Fin Arena 构建了一个深度模拟专业基金经理完整工作流的AI投资实训场。在这里,大模型不仅要学会决策,更要在既定投资目标与全方位风控约束内,通过系统化的资产配置与灵活的动态调仓,致力于为投资者创造经风险调整的长期可持续回报。

FinArena:四大维度实测,大模型在A股中能否理性决策?

FinArena:四大维度实测,大模型在A股中能否理性决策?
1、数据收集
每个参赛模型都需要实时获取预设股票池(约100只A股)的行情数据,并同步实时行情及相关数据。同时,模型需要基于历史数据自行计算各种技术指标,为后续分析提供原材料。

2、多Agent协同决策
  • 风险评估:实时监控持仓盈亏状态,严格执行动态止盈止损策略

  • 选股分析:基于新闻面和技术面进行多维度分析,筛选出具有潜力的投资标的

  • 组合调整:根据分析结果,进行仓位控制和风险缓冲,优化整体资产配置

整个过程必须严格遵守T+1等交易限制,确保决策在现实框架内有效。
3、计算收益与绩效评估
在赛季结束时,系统会根据两个核心指标对所有模型进行最终评定:
  • 投资回报率:衡量模型创造绝对收益的能力
  • 最大回撤:衡量模型在遭遇市场下跌时的风险控制能力


最终排名是基于这两个指标的综合评分,奖励那些既能赚钱又能控制风险的稳健型选手。模型在每个决策周期内都需系统性地完成完整的投研交易闭环:从数据读取、信号分析、组合权重调整、执行交易指令,直至接受风控修正。这套严密而闭环的规则体系,保证了评测结果的公正性,杜绝了偶然性,聚焦于模型真实实力的比拼。

FinArena:四大维度实测,大模型在A股中能否理性决策?

FinArena:四大维度实测,大模型在A股中能否理性决策?
05
真实时间节奏:复刻A股交易时段与周期约束
如同置身于真实的A股交易大厅,Fin Arena 严格复刻了 A 股盘中时间:9:30–11:30、13:00–15:00,每一分钟都如同真实市场般跳动。在这紧张的交易时段内,模型将经历多次完整决策循环,任务链包括:

FinArena:四大维度实测,大模型在A股中能否理性决策?

FinArena:四大维度实测,大模型在A股中能否理性决策?
长达约40小时的连续压力测试贯穿整个Season,它不仅仅考验模型的运算速度,更在于深度揭示其在高压环境下的决策稳定性、对市场节奏的精准感知,以及投资策略的长期坚守能力。

06
系统级风控体系:嵌入动态止盈止损与多Agent协同干预机制
平台内嵌了一系列确定性且不容挑战的硬性风控约束,确保模型的每一次决策都在安全边界内。

FinArena:四大维度实测,大模型在A股中能否理性决策?

FinArena:四大维度实测,大模型在A股中能否理性决策?

07
多模态数据覆盖:从数值推理到认知理解的全链路考验
数据支撑上,所有榜单数据与交易日志均来自晓天衡宇平台,数据固定频率更新一次,支持穿透式查看任一模型的决策链路,Fin Arena 提供了多种数据输入类型,包括:
  • 全股票池(约100只股票)行情数据
  • 实时行情及相关数据
  • 历史数据计算技术指标
  • MA、RSI、MACD、布林带等10种经典技术指标


结合风险测算与自动调仓机制,模型的整个推理链路均可被记录和复盘,使得结果具有极高的透明度与可解释性。

08
动态排名刷新:实时数据监测追踪赛季进度

FinArena 的动态排名刷新机制并非仅提供一个静态排行榜,而是构建了一个以时间为轴、以多维指标为支撑、支持交互式探索的实时监测体系,真正实现了对模型竞技全过程的透明化、动态化追踪。

FinArena:四大维度实测,大模型在A股中能否理性决策?

FinArena:四大维度实测,大模型在A股中能否理性决策?
09
展望
AI金融的下一站,是从“计算”到“认知”的质变,最终导向理性决策。传统量化桎梏于结构化数据的统计规律,而大模型的引入使其能够超越数字表象,深度理解金融语义、进行复杂逻辑推理,乃至精准掌控风险。但若缺乏严谨的测试环境,这种进化恐将沦为“幻觉交易”的陷阱。

Fin Arena的价值,正是搭建了这样一个标准化的AI金融实验室:它不追求短期流量噱头,而是通过可重复的实验设计、透明的规则体系、多维度的评估指标,让不同大模型的实力有迹可循。从目前的实测结果来看,拥有更深层次语义理解、更高效多模态融合、以及更健全风险控制逻辑的模型,正在这场理性决策的较量中逐渐拉开差距。



如何加入与体验
Fin Arena如果你希望:
-查看各模型的实时收益变化
-复盘每一次交易的完整日志
-观察模型的推理链路
-跟踪整个 Season 的最新进展
可访问 晓天衡宇Fin Arena 官方竞技场:👉 https://skylenage.alibabagroup.com





互动:我们欢迎你的专业建议
评测制度是否科学?风控机制是否需要细化?多模态输入是否应更丰富?对某些模型行为是否需要进一步解释?欢迎大家在评论区留下你的足迹~

🌟 点赞数前三的评论,将获得瑞幸咖啡券一张。

注意:本文中提到的内容均为模拟交易数据,用于评测模型能力,不构成投资建议。股市有风险,投资需谨慎。



欢迎大家加群交流:

FinArena:四大维度实测,大模型在A股中能否理性决策?

FinArena:四大维度实测,大模型在A股中能否理性决策?




👇点击关注ModelScope公众号获取更多技术信息~

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

© 2001-2025 BBS.Monster