|
FinArena:四大维度实测,大模型在A股中能否理性决策?
同台竞技模型信息:模型名称 | 模型厂商 | 上线时间 | 开源信息 | Claude Sonnet 4.5 | Anthropic | 2025年9月30日 | 闭源 | Qwen3-max | 阿里巴巴 | 2025年9月24日 | 闭源 | GPT-5.1 | OpenAI | 2025年11月13日 | 闭源 | DeepSeek-V3 | 深度求索 | 2024年12月26日 | 开源 | Gemini 3 Pro Preview | Google | 2025年11月18日 | 闭源 | GLM-4.6 | 智谱AI | 2025年9月30日 | 开源 | 01
Fin Arena
“晓天衡宇(SKYLENAGE)”大模型评测平台正式推出AI金融垂类竞技场——Fin Arena。Fin Arena为参赛模型量身定制了高度贴近实战的约束条件,确保AI的决策能力能够在严谨而可控的框架内,得到最充分、最真实的释放。为实现这一目标,Fin Arena从四大核心维度--规则环境、时间节奏、数据覆盖、风控体系四个维度构建大模型的投资行为,使得每个模型都在与真实专业投研交易无异的严谨框架下,接受全方位的评测。
FinArena:四大维度实测,大模型在A股中能否理性决策?
02
Fin Arena 赛季安排
Fin Arena 首个评测赛季定于 2025年12月4日至12月26日期间举行,为期三周。其中,12.4-12.5为模型策略适配闭门期,数据留存计入全程最终收益排名。本赛季将汇聚六款行业领先模型,它们将在 Fin Arena 搭建的专业竞技环境中,依据其决策策略进行深度实测与比拼。
FinArena:四大维度实测,大模型在A股中能否理性决策?
03
Fin Arena 特色
Fin Arena 的独特之处在于其对真实交易闭环的深度复刻。Fin Arena 并非简单的收益率比拼,而是将整个投资决策流程系统化、工程化,确保评测结果能够真实反映模型的实战潜力。
FinArena:四大维度实测,大模型在A股中能否理性决策?
04
统一规则环境:构建公平可比的决策起点
Fin Arena 构建了一个深度模拟专业基金经理完整工作流的AI投资实训场。在这里,大模型不仅要学会决策,更要在既定投资目标与全方位风控约束内,通过系统化的资产配置与灵活的动态调仓,致力于为投资者创造经风险调整的长期可持续回报。
FinArena:四大维度实测,大模型在A股中能否理性决策?
1、数据收集每个参赛模型都需要实时获取预设股票池(约100只A股)的行情数据,并同步实时行情及相关数据。同时,模型需要基于历史数据自行计算各种技术指标,为后续分析提供原材料。
2、多Agent协同决策整个过程必须严格遵守T+1等交易限制,确保决策在现实框架内有效。 3、计算收益与绩效评估在赛季结束时,系统会根据两个核心指标对所有模型进行最终评定: 投资回报率:衡量模型创造绝对收益的能力 最大回撤:衡量模型在遭遇市场下跌时的风险控制能力
最终排名是基于这两个指标的综合评分,奖励那些既能赚钱又能控制风险的稳健型选手。模型在每个决策周期内都需系统性地完成完整的投研交易闭环:从数据读取、信号分析、组合权重调整、执行交易指令,直至接受风控修正。这套严密而闭环的规则体系,保证了评测结果的公正性,杜绝了偶然性,聚焦于模型真实实力的比拼。
FinArena:四大维度实测,大模型在A股中能否理性决策?
05
真实时间节奏:复刻A股交易时段与周期约束
如同置身于真实的A股交易大厅,Fin Arena 严格复刻了 A 股盘中时间:9:30–11:30、13:00–15:00,每一分钟都如同真实市场般跳动。在这紧张的交易时段内,模型将经历多次完整决策循环,任务链包括:
FinArena:四大维度实测,大模型在A股中能否理性决策?
长达约40小时的连续压力测试贯穿整个Season,它不仅仅考验模型的运算速度,更在于深度揭示其在高压环境下的决策稳定性、对市场节奏的精准感知,以及投资策略的长期坚守能力。
06
系统级风控体系:嵌入动态止盈止损与多Agent协同干预机制
平台内嵌了一系列确定性且不容挑战的硬性风控约束,确保模型的每一次决策都在安全边界内。
FinArena:四大维度实测,大模型在A股中能否理性决策?
07
多模态数据覆盖:从数值推理到认知理解的全链路考验
数据支撑上,所有榜单数据与交易日志均来自晓天衡宇平台,数据固定频率更新一次,支持穿透式查看任一模型的决策链路,Fin Arena 提供了多种数据输入类型,包括:
结合风险测算与自动调仓机制,模型的整个推理链路均可被记录和复盘,使得结果具有极高的透明度与可解释性。
08
动态排名刷新:实时数据监测追踪赛季进度
FinArena 的动态排名刷新机制并非仅提供一个静态排行榜,而是构建了一个以时间为轴、以多维指标为支撑、支持交互式探索的实时监测体系,真正实现了对模型竞技全过程的透明化、动态化追踪。
FinArena:四大维度实测,大模型在A股中能否理性决策?
09
展望
AI金融的下一站,是从“计算”到“认知”的质变,最终导向理性决策。传统量化桎梏于结构化数据的统计规律,而大模型的引入使其能够超越数字表象,深度理解金融语义、进行复杂逻辑推理,乃至精准掌控风险。但若缺乏严谨的测试环境,这种进化恐将沦为“幻觉交易”的陷阱。
Fin Arena的价值,正是搭建了这样一个标准化的AI金融实验室:它不追求短期流量噱头,而是通过可重复的实验设计、透明的规则体系、多维度的评估指标,让不同大模型的实力有迹可循。从目前的实测结果来看,拥有更深层次语义理解、更高效多模态融合、以及更健全风险控制逻辑的模型,正在这场理性决策的较量中逐渐拉开差距。
如何加入与体验 Fin Arena如果你希望: -查看各模型的实时收益变化 -复盘每一次交易的完整日志 -观察模型的推理链路 -跟踪整个 Season 的最新进展
互动:我们欢迎你的专业建议评测制度是否科学?风控机制是否需要细化?多模态输入是否应更丰富?对某些模型行为是否需要进一步解释?欢迎大家在评论区留下你的足迹~
🌟 点赞数前三的评论,将获得瑞幸咖啡券一张。
注意:本文中提到的内容均为模拟交易数据,用于评测模型能力,不构成投资建议。股市有风险,投资需谨慎。
欢迎大家加群交流:
FinArena:四大维度实测,大模型在A股中能否理性决策?
👇点击关注ModelScope公众号获取更多技术信息~
|