【软件产业】MaxKB v2.1.0版本发布,多项功能升级赋能企业智能体平台(2025-09-15)
【摘要】 9月15日,OSCHINA讯,近日,MaxKB开源企业级智能体平台正式发布v2.1.0版本。在工具方面,新增MCP工具管理功能,用户能添加并管理已有MCP服务,还可在应用中引用,简化了工具配置流程,提升了开发与运维效率。应用上,AI对话节点新增工具设置,用户选定自定义工具后,系统会自动将工具能力封装为MCP服务提供给模型,模型可自主决策是否调用,提升了交互效率与智能化体验;表单收集节点的参数支持引用变量,且新增多行文本框、文件上传和单行多选框组件,增强了表单配置灵活性与准确性。资源授权方面,新增按资源维度授权功能,可将应用、知识库、工具、模型等核心资源授权给指定用户,实现更细粒度权限管理,降低运维复杂度与安全管理成本。X-Pack增强包方面,应用接入支持对接企业微信智能机器人,方便实现AI能力与企业微信办公生态的高效联动,企业成员可通过单聊或群聊@提问,机器人以流式输出实时返回结果,提升信息获取与业务协同效率。
【关键词】企业级,智能体平台,新版本
【软件产业】百度上线首个“一站式”数智化生命科学研究平台AI4S LAB上线(2025-09-15)
【摘要】 9月15日,OSCHINA讯,近日,北京大学深圳研究生院与百度智能云联合打造的全球首个“一站式”数智化生命科学研究平台——AI4SLAB正式上线。该平台深度整合算力、数据、模型、实验四大要素,开发多智能体协同系统,为科研工作者带来“AI驱动、干湿闭环、全链数智”的云端科研体验,极大提升科研效能与创新能力。在数智化支撑生态建设方面,算力上配备可伸缩的高性能计算集群和超智融合算力调度系统;模型基于百度智能云千帆大模型平台,提供私有化模型与数据管理能力、一站式模型效果调优工具链,有超10个可直接使用的通用与生命科学垂直领域代表性模型,支持主流推理框架和模型自定义导入与部署;数据配备超15个专业数据集,提供开放共享且持续更新的知识平台,有高效数据管理功能和智能可视化数据分析工具;实验集成超22台套先进高通量、自动化、自迭代智能实验设备,为生命合成领域多场景提供高效科研服务。北京大学深圳研究生院自主研发的AI4S原生多智能体系统——BIOMA是平台全链路智能化核心,涵盖科研各环节,助力突破时空限制。BIOMA具有逆向智能设计、智能创制与表征、科研数据智能分析与迭代等强大能力,由理论科学家智能体、实验规划师智能体、实验室指挥官智能体、数据分析师智能体等功能协同的智能体构成,分别在理论预测、实验方案制定、实验执行、数据分析与优化等环节发挥关键作用。
【关键词】生命科学,模型,多智能体系统
【软件产业】阶跃星辰发布并开源Step-Audio2mini语音大模型(2025-09-08)
【摘要】 9月8日,OSCHINA讯,近日,阶跃星辰正式发布最强开源端到端语音大模型Step-Audio2mini,该模型在多个国际基准测试集上取得SOTA成绩。它将语音理解、音频推理与生成统一建模,在音频理解、语音识别、跨语种翻译、情感与副语言解析、语音对话等任务中表现突出,还率先支持语音原生的ToolCalling能力,可实现联网搜索等操作,具备“听得清楚、想得明白、说得自然”的特点。在多个关键基准测试中,Step-Audio2mini表现卓越,综合性能超越Qwen-Omni、Kimi-Audio等所有开源端到端语音模型,在大部分任务上超越GPT-4oAudio。如在通用多模态音频理解测试集MMAU上以73.2分位列开源端到端语音模型榜首;在UROBench上,基础与专业赛道均获开源端到端语音模型最高分;中英互译任务上,在CoVoST2和CVSS评测集上大幅领先;语音识别任务上,在多语言和多方言方面取得第一,领先其他开源模型15%以上。该模型通过创新架构设计解决此前语音模型问题,采用真端到端多模态架构,实现原始音频输入到语音响应输出的直接转换,架构简洁、时延低且能理解副语言信息;引入CoT推理结合强化学习,对副语言和非语音信号精细理解并自然回应;支持音频知识增强,可解决幻觉问题并扩展多场景能力。目前,模型已上线GitHub、HuggingFace等平台。
【关键词】阶跃星辰,语音大模型,SOTA
【软件产业】腾讯ARC实验室发布AudioStory音频生成技术,革新音频创作(2025-09-08)
【摘要】 9月8日,OSCHINA讯,近日,腾讯ARC实验室发布AudioStory音频生成技术,该技术可一键生成复杂叙事场景的好莱坞级音效,能处理视频配音、音频续写和长篇叙事音频等。AudioStory将大语言模型与文本-音频系统相结合,可把复杂叙事请求拆分为有顺序的子任务,保证场景转换和情感基调一致。其采用“解耦桥接机制”分别处理事件内部语义对齐与跨事件一致性,通过端到端训练提升理解和生成的协同。用户用自然语言描述,系统就能自动分解事件序列,结合相关技术生成具有时序逻辑与情绪层次的高质量音频。该技术核心技术突破在于采用语义令牌与残差令牌双通道机制,精准协调宏观叙事与微观音效细节,还通过三阶段渐进训练解决长音频连贯性问题。目前,AudioStory技术已应用于视频自动配音、音频智能续写等场景,在万级测试集AudioStory-10K中展现出领先的指令遵循力与一致性,为有声书、游戏音效等领域提供了全新创作工具。
【关键词】音频生成,创作,大语言
【软件产业】美团发布并开源LongCat-Flash-Chat,优化计算与性能(2025-09-08)
【摘要】 9月8日,OSCHINA讯,美团正式发布LongCat-Flash-Chat并同步开源。该模型采用创新性混合专家模型(MoE)架构,总参数560B,激活参数18.6B-31.3B(平均27B),实现了计算效率与性能的双重优化。基准测试显示,作为非思考型基础模型,它在仅激活少量参数时性能比肩主流模型,在智能体任务中优势突出,且推理速度更快,适合复杂智能体应用。技术上,引入“零计算专家”机制,依据上下文需求激活部分参数,通过PID控制器稳定单token平均激活量;层间铺设跨层通道,提高训练和推理效率,配合底层优化,30天完成高效训练,在H800上实现单用户100+tokens/s的推理速度,还对常用组件和训练方式改进,保证训练稳定性。针对智能体能力,自建评测集指导数据策略,优化训练全流程。通过算法和工程联合设计,成本和速度领先,系统优化后在H800上达成100tokens/s生成速度,输出成本低至5元/百万token。性能评估方面,在通用领域知识、智能体工具使用、编程、指令遵循等场景均表现出色。还同步提供基于SGLang和vLLM的两种高效部署方案。
【关键词】美团,混合专家模型,性能
【软件产业】文心快码推新功能,提升开发与协作效率(2025-09-01)
【摘要】 9月1日,OSCHINA讯,近日,文心快码发布一系列新功能,提升个人开发体验和企业级协作效率。新功能包括Zulu-CLI引入、企业版自定义模型支持、一键设置自动执行、复用相同终端、本地代码库知识增强索引支持等。Zulu-CLI让开发者能在终端用自然语言命令实现编码需求,无需离开命令行界面,使用前需确保环境符合要求并按操作系统安装。企业版支持自定义模型,企业可根据自身需求选大模型,管理者简单设置公有大模型信息即可在IDE选模型。智能执行指令支持一键设置自动执行,提升AI生成与实际执行流转效率,减少开新终端次数,增强操作连贯性和资源利用效率。知识增强方面,支持对SVN仓库本地代码库知识索引,自动识别版本控制工具,提供精准代码建议和生成,助开发者管理维护代码。此外,新增对话中导出生成图片功能,可将架构图、流程图等导出为SVG或PNG格式,便于插入文档或共享。这些新功能从不同方面优化了开发流程,提高了开发效率和协作能力。
【关键词】文心快码,新功能,开发效率
【软件产业】面壁小钢炮MiniCPM-V4.5开源,多模态性能超越72B大模型(2025-09-01)
【摘要】 9月1日,OSCHINA讯,面壁智能宣布正式开源8B参数的面壁小钢炮MiniCPM-V4.5多模态旗舰模型。该模型是行业首个具备高刷视频理解能力的多模态模型,号称看得准、看得快、看得长,高刷视频理解、长视频理解、OCR、文档解析能力同级SOTA,且性能超过Qwen2.5-VL72B,堪称最强端侧多模态模型。MiniCPM-V4.5亮点颇多,它是首个“高刷视频理解”多模态模型,在同等视觉token开销下,可接收6倍视频帧数量,达到96倍视觉压缩率,是同类模型的12-24倍;是最强多模态SOTA模型,图片理解、长视频理解、OCR、文档解析同级SOTA且超越Qwen2.5-VL72B;端侧友好,推理效率佳,显存占用、平均推理时间等领先;支持长思考、短思考可控混合推理,性能好、速度快。其通过将模型结构从2D-Resampler拓展为3D-Resampler,进行三维视频片段高密度压缩,增加抽帧频次,能更精准理解动态画面。在多项视频理解、图片理解、文档识别榜单中达到同级最佳或越级领先水平,还支持常规和深度思考模式,平衡性能与响应速度。技术上,3D-Resampler实现高密度视频压缩,通过控制文字信息可见度融合OCR和知识学习范式,采用通用域混合推理强化学习平衡推理能力与延迟并降低幻觉。
【关键词】多模态,开源,性能
【软件产业】百度AI搜索APP“梯子AI”发布,主打无广告智能搜索(2025-09-01)
【摘要】 9月1日,OSCHINA讯,百度旗下AI搜索应用在前期测试后,以全新名称“梯子AI”上架应用市场。该应用最初于8月10日以“Tizzy.ai”之名发布,版本号从1.0.0跃升至1.2.0,功能和服 务全面升级。“梯子AI”定位为智能搜索助手,依托百度多个大模型能力开发,主打无广告智能搜索服务,整合深度思考、资源检索及影视娱乐等多功能,为用户提供“简单搜索,一触即达”的极致体验。在功能设计上,其AI双模智能搜索功能支持自动思考与深度思考双模式智能引擎,能精准分析全网信息,结合用户偏好提供个性化答案,使搜索结果高效、精准。应用注重交互体验的极简设计,简洁搜索框让用户输入问题后直达答案,全程无推广信息干扰,实现“纯净搜索”。此外,“梯子AI”构建了丰富短剧生态,网罗全球热门影视资源,用户畅看无阻,观看短剧时享受无广告、无会员、加速缓冲的沉浸式观剧体验,且应用重新设计细节,确保用户边看边搜时感受极致舒适与便捷。
【关键词】无广告,智能搜索,服务升级
【软件产业】Gitee企业版测试管理全面升级,提升研发测试效能(2025-08-25)
【摘要】 8月25日,OSCHINA讯,近日,Gitee企业版对测试管理功能进行集中优化,围绕测试用例管理、测试计划执行与测试报告生成三大核心模块,显著提升规范性、可追溯性与协作效率。在用例管理方面,支持查看用例被引用情况,用例详情页新增「测试计划」Tab,用例列表显示「被引用测试计划数」字段;每个用例版本仅对应一个评审记录,评审通过后不可修改,优化版本维护机制,用户修改已通过评审用例自动生成新版本,且系统会自动提示重新评审。测试计划上,新增用例评审限制,仅支持添加评审通过的用例,确保用例质量,支持多次执行记录,用例列表新增查看结果分布等功能,用例详情记录多次执行过程,还支持快速创建缺陷,缺陷描述自动回填步骤信息,执行记录支持富文本编辑,自动检测用例新版本并支持一键更新。测试报告方面,新增组件化报告配置功能,支持富文本总结与模板复用,可导出PDF、Excel等多种格式,线上报告列表类组件数据超100条时,PDF无法导出超100条部分,可导出Excel查看。此次更新夯实了Gitee企业版在研发测试管理场景下的流程完整性与协作效率,适合对质量管理要求高的项目团队。
【关键词】企业版,测试管理,升级
【软件产业】昆仑万维上线AI音乐模型Mureka V7.5,推动音乐创作智能化(2025-08-25)
【摘要】 8月25日,OSCHINA讯,近日,昆仑万维集团在SkyWork AI技术发布周推出Mureka V7.5模型,这是该发布周的压轴之作。Mureka V7.5在中文歌曲创作上能力卓越,音色、演奏技法、咬字和情感表现均有显著提升,能精准传达中文音乐艺术神韵与情感色彩,涵盖多种中文音乐风格,展现中文音乐多样性与文化特性。为提升人声真实性和情感深度,该模型优化自动语音识别(ASR)技术,精准识别唱词,分析演唱细节,增强人声自然度、呼吸感和情感表达真实性,使AI歌曲更贴近真人演唱。此外,昆仑万维语音团队推出MoE-TTS框架,这是首个基于Mixture of Experts(MOE)的角色描述语音合成框架,能让用户通过自然语言精准控制声音特征与风格,即使使用开源数据,在角色贴合度上也能对标甚至超越闭源商业产品。该框架结合预训练大语言模型和语音专家模块,实现“知识零损失”泛化理解能力,在复杂描述匹配度上表现出色,有望推动行业从“封闭标签式控制”走向“自然语言自由控制”新范式,后续计划集成至Mureka-Speech平台,为开发者和创作者提供语音合成能力。
【关键词】音乐创作,模型,开源数据
【软件产业】金山办公半年报:AI业务亮眼,WPS365营收大增(2025-08-25)
【摘要】 8月25日,OSCHINA讯,近日,金山办公发布2025年半年报,呈现稳健增长态势。上半年营收26.57亿元,同比增长10.12%;归母净利润7.47亿元,同比增长3.57%;扣非净利润7.27亿元,同比增长5.77%。AI技术深度应用成效显著,截至6月30日,WPS AI月活跃用户数达2951万,较2024年底大幅增长,WPS Office全球月度活跃设备数创历史新高,达6.51亿。个人业务方面,WPS个人业务收入17.48亿元,同比增长8.38%,国内累计年度付费个人用户数和海外付费用户及收入均有增长,海外市场通过优化运营和AI权益部署提升用户增长效率。企业级市场表现亮眼,WPS365业务收入3.09亿元,同比增长62.27%,成为业务增长新引擎,在教育领域覆盖率高,服务众多高校和师生,在政企领域推出“企业大脑”解决方案,新增标杆客户,智能文档库表格识别召回准确率高。报告期内,金山办公发布WPS AI3.0和WPS灵犀,创新功能丰富,获相关奖项。公司上半年研发投入9.59亿元,同比增长18.70%,研发人员占比约66%。东吴证券和华创证券研报看好其在AI + 企业服务领域的投资价值。
【关键词】办公,营收,财报
【软件产业】Debian 14将显著改进对龙芯LoongArch64架构支持(2025-08-18)
【摘要】 8月18日,OSCHINA讯,Debian13“trixie”稳定版已发布,团队宣布将在2027年发布的Debian14(代号“Forky”)中显著改进对中国龙芯CPU架构LoongArch64(简称Loong64)的支持。按规划,Loong64架构资格认证将在Forky开发周期后期进行,相关软件包将很快可提交到该版本。目前LoongArch64作为非官方移植架构已存在两年,Debian14将推动其成为官方支持架构,类似Debian13对RISC-V的支持。Debian14的“unstable”分支即将开放,开发者和维护者可提交LoongArch64相关软件包,架构资格认证在开发周期后期完成。目前约200个软件包完成初步移植,重点是实现LoongArch64架构的“自我托管”能力。LoongArch是龙芯中科自主研发的CPU指令集架构,应用于多款处理器,Debian加强对其支持,标志着国产CPU在国际主流开源操作系统适配进程中迈出重要一步,对推动自主可控计算生态有积极意义。
【关键词】CPU指令,龙芯,LoongArch64
【软件产业】苹果测试全新AI语音控制功能,提升iPhone操作便利性(2025-08-18)
【摘要】 8月18日,OSCHINA讯,科技记者古尔曼透露,苹果正在积极测试一项创新的Siri语音控制功能,旨在为iPhone用户提供更精准操作体验,提升使用便利性。新功能基于苹果最新的App Intents技术,赋予用户强大的跨应用语音控制能力。用户可通过语音指令完成各类任务,如查找、编辑和发送特定照片,无需手动操作手机屏幕;还能在社交媒体发布评论、浏览购物应用并添加商品到购物车等,实现“无手”操作。该功能推出意味着Siri凭借强大的语音识别和自然语言处理能力,能理解更复杂指令,提升用户交互体验,用户可直接通过语音与设备互动,带来更高便利性和流畅度。
【关键词】苹果,Siri,语音控制
【软件产业】谷歌发布世界模型Genie 3,推动AI交互与训练革新(2025-08-18)
【摘要】 8月18日,OSCHINA讯,谷歌DeepMind正式发布最新一代世界模型Genie 3。它在生成时长、分辨率和物理一致性上显著提升,支持通过文本动态改变虚拟世界事件。作为通用世界模型,Genie 3能以24帧每秒生成720P分辨率的交互式3D环境,较前代Genie 2有飞跃,最长可维持数分钟环境一致性,视觉记忆时长达一分钟。其引入“可提示世界事件”功能,用户通过文本指令可动态修改虚拟世界,增强交互性,为游戏开发者、教育工作者和AI训练提供灵活工具。Genie 3无需依赖传统物理引擎,通过大规模视频数据集训练自主学习物理规律,能高度逼真呈现多种自然效果,为AI智能体提供丰富训练场景。虽存在连续交互时间短、AI智能体交互能力有限等局限,但Genie 3被视为迈向人工通用智能(AGI)的重要一步,目前以研究预览形式向部分学者和创作者开放,未来计划扩大测试范围并探索更广泛应用。
【关键词】谷歌,Genie,3,世界模型
【软件产业】谷歌Android Studio免费Agent模式上线,革新安卓开发(2025-08-11)
【摘要】 8月11日,OSCHINA讯,近日,谷歌在官方开发者博客及Google I/O2025大会上宣布,Android Studio正式推出免费Agent模式,为安卓应用开发带来革命性AI辅助功能,被视为对苹果开发生态的有力挑战。该模式基于Gemini2.5Pro,通过自然语言交互帮助开发者完成复杂多步骤开发任务,能深入理解项目上下文,自动制定执行计划并完成工作流。其核心功能亮点颇多,支持自然语言任务描述、UI代码快速修改、自定义规则设置,免费版有有限上下文窗口,订阅特定服务可解锁百万Token上下文窗口。此外,还能与外部工具集成扩展功能。
【关键词】Agent模式,安卓开发,AI辅助
【软件产业】腾讯混元开源图像生成新框架MixGRPO(2025-08-11)
【摘要】 8月11日,OSCHINA讯,近日,腾讯混元基础模型团队发布图像生成新框架MixGRPO。该方案将训练时间缩短近50%,还推出变体MixGRPO-Flash使训练时间降低71%,这得益于将随机微分方程(SDE)和常微分方程(ODE)相结合的创新采样策略。当前图像生成技术中效率与质量常矛盾,MixGRPO通过混合采样方法优化马尔可夫决策过程(MDP)提升训练效率,限制智能体随机探索范围减少计算开销、简化训练流程。与DanceGRPO模型相比,它在多维度显著改善,对特定去噪步骤优化可保持或提升性能,虽降低计算开销但需高阶求解器加速旧策略模型采样,采用滑动窗口策略让模型去噪时聚焦关键时间步,在图像生成多样性和质量上有进步。
【关键词】图像生成,混元模型,MixGRPO
【软件产业】小米开源声音理解大模型MiDashengLM-7B,革新声音交互体验(2025-08-11)
【摘要】 8月11日,OSCHINA讯,近日,小米自研声音理解大模型MiDashengLM-7B正式发布并全量开源。该模型在速度精度上实现双突破,单样本首Token延迟仅为同类模型1/4、同显存下并发超20倍,在22个公开评测集上刷新多模态大模型最好成绩。它基于XiaomiDasheng音频编码器和Qwen2.5-Omni-7BThinker解码器,通过创新训练策略,实现对语音、环境声音和音乐的统一理解。训练数据为100%公开数据,以宽松的ApacheLicense2.0发布,支持学术和商业应用。
【关键词】小米,开源,声音理解
【软件产业】中国移动“九天”3.0发布,多项核心技术同步开源(2025-08-04)
【摘要】 8月4日,OSCHINA讯,近日,中国移动发布自主研发的“九天”基础大模型3.0。“九天众擎语言大模型”架构有突破性创新,采用可扩展至万亿级的MoE架构,经多阶段配比预训练数据与全流程治理体系,推理能力显著强化。其构建二维分级后训练框架,结合动态强化学习策略,复杂推理能力提升35%。在多项评测中表现优异,如GPQA - Diamond评测全球第二等,还强化了可控生成能力,破解沉浸式角色演绎难题。基于此语言大模型,中国移动推出九天代码大模型、九天数学大模型、“九天善智多模态大模型”等专项模型,各有突出表现。目前,中国移动已将多项模型及核心技术开源,包括九天数童结构化数据大模型、九天数学大模型、九天代码大模型等,还开源评测数据及评测体系、行业场景复杂指令遵循评测数据集。
【关键词】中国移动,九天大模型,技术开源
【软件产业】统信Windows应用兼容引擎官网上线,开启生态共建新阶段(2025-08-04)
【摘要】 8月4日,OSCHINA讯,近日,统信Windows应用兼容引擎官网正式上线,标志着兼容技术从工具迭代迈向生态共建新阶段。该引擎发展历经多年,2014年deepin-wine团队以让Linux系统流畅运行Windows应用为目标,向wine上游社区提交200余个补丁,产品不断升级。2021年推出wine助手,降低wine技术使用门槛;2024年推出UOS应用迁移助手,聚焦专业场景。同年11月,UOS应用迁移助手更名为统信Windows应用兼容引擎并迭代至V3.0.4版本,功能与定位升级。2025年持续迭代至V3.3.1版本,提升技术实力与生态覆盖,如适配Proton技术、新增稳定版Proton、实现应用清单与版本标准化、降低wine应用内存占用等。官网提供使用教程、开发文档与论坛交流入口。
【关键词】统信系统,兼容引擎,Windows应用
【软件产业】智谱发布GLM - 4.5开源模型,推理与代码能力达开源SOTA水平(2025-08-04)
【摘要】 8月4日,OSCHINA讯,智谱发布新一代旗舰模型GLM-4.5,这是专为智能体应用打造的基础模型。官方宣称其在包含推理、代码、智能体的综合能力达到开源SOTA水平,在真实代码智能体人工对比评测中实测为国内最佳。该模型已在Hugging Face与Model Scope平台同步开源,模型权重遵循MIT License,还提供了开源仓库、模型仓库、体验地址及技术报告链接。GLM-4.5采用混合专家(MoE)架构,有GLM-4.5和GLM-4.5-Air两个模型及两种模式,API调用价格低,高速版有较高响应速度。编程能力上,虽比Claude-4稍差,但比Qwen3-Coder强,还深度优化全栈编程与工具调用能力,兼容主流代码智能体,并提供了国内外使用指南。
【关键词】智谱,GLM-4.5,开源模型