j9.com有限公司

中国电信星辰语义大模型TeleChat2位列SuperCLUE榜单第一梯队！

2024-11-15 中国电信

近日，权威大模型评测基准SuperCLUE发布最新《中文大模型基准测评2024年10月报告》。其中，由中国电信打造的星辰语义大模型TeleChat2，作为央企大模型代表，凭借出色效果，综合能力位列大模型第一梯队。TeleChat2在理科“工具调用”维度排名前二，在Agent智能体总榜排名并列第二。

数据来源：SuperCLUE

TeleChat2-35B以更小参数量和更佳效果获得开源模型排行榜铜牌，综合效果超过Llama-3.1-70B-Instruc和 Llama-3.2-90B-Instruct等较大参数模型。

数据来源：SuperCLUE

星辰语义大模型由中国电信创新研发并不断迭代突破。TeleChat2系列是在星辰语义大模型TeleChat发布以来推出的第二代版本。

今年9月，TeleAI正式发布并开源了首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型 TeleChat2-115B，近日又进一步开源了TeleChat2-3B、7B和35B，以适配不同场景的应用需求，构建了全尺寸大模型开源布局。

超强工具使用及Agent能力

本次最新的SuperCLUE10月报告覆盖43个国内外有代表性的大模型，采用多维度、多层次的综合性测评方案，由理科、文科和Hard任务三大维度构成，评测题目总量超过2900道。理科任务方面，TeleChat2展现了极强的函数调用能力，在工具调用维度排名前二。文科任务方面，TeleChat2在语言理解、长文本等维度表现突出。Hard任务方面，TeleChat2在指令遵循维度表现优异，展现了优秀的复杂推理能力。

为了提高模型性能，TeleAI团队在数据维度和后训练阶段进行了优化。在数学能力方面，通过抽取知识点合成问答数据，并结合数学RM（奖励模型）筛选高质量数据。在代码能力方面，抽取高质量代码函数合成功能实现代码，并通过单元测试确保代码质量。对于指令遵循能力，通过指令进化构建大量数据并进行脚本校验，从而大幅提升模型效果。在后训练阶段，通过模型微调、权重融合和DPO（直接偏好优化）进一步提升效果。微调阶段，使用IFD（指令跟随难度）和 RFT（拒绝采样微调）筛选数据，并迭代优化模型。权重融合阶段，结合多个模型的优势获得新权重。DPO优化阶段，专注于中等难度问题，迭代补齐模型能力。

不仅如此，TeleChat2系列模型还完成了Agent能力建设，重点加强了模型在指令跟随、任务拆解、工具调用等方面的能力和表现。在10月的SuperCLUEAgent总榜中，TeleChat2排名并列第二。

数据来源：SuperCLUE

TeleAI团队构建了一个基于图结构和MutltiAgent（多智能体）的框架，通过细分工具场景，创建详细的依赖关系图，从而提升训练数据的真实性和复杂度。

同时，利用MultiAgent的增强交互多样性，并通过规则检查，确保交互合理。此外，团队还将工具调用能力分为多个阶段，为每个阶段设计多样化数据，以避免模型仅学习表面格式，这使得模型效果提升了约15%。

全尺寸开源布局适配多场景落地

TeleAI始终积极通过开源推动大模型技术创新和国产化进程，并为产业持续输送领先的技术能力，加速应用落地。早在今年前半年，就陆续开源了1B、7B、12B和52B参数的第一代TeleChat系列模型。最近，TeleChat2系列也已完成 3B、7B、35B和115B模型开源，逐步构建了全尺寸开源布局，并吸引了国内外广大开发者的讨论和使用。