DeepSeek App更新,支持对话内容生成分享图(2025-08-18)
【摘要】 8月18日,OSCHINA讯,近日,手机应用商店显示,DeepSeek App发布1.3.0版本更新,首次支持对话内容生成分享图功能,用户问答对话可通过原生功能生成图片,比截图分享更便捷。今年6月DeepSeek团队曾加紧推进R2模型开发,CEO梁文锋对模型能力不满意,团队内部仍在提升性能,未准备好正式投用,原计划5月推出也因各种原因延迟,新模型预计能生成更高质量代码,具备用非英语语言进行推理的能力。
【关键词】DeepSeek,App,对话分享图,R2模型
Warm - Flow 1.8.0版本重大更新,自研仿钉钉设计器发布(2025-08-18)
【摘要】 8月18日,OSCHINA讯,近日,Warm-Flow工作流引擎迎来1.8.0版本重大更新,带来全新功能与卓越用户体验。核心亮点是自主研发仿钉钉设计器,基于logic-flow研发,同时支持经典和仿钉钉双设计器,避免维护两套代码,提升统一性与可维护性。智能交互体验升级,绘制回退线条时系统自动识别设置为退回跳转类型,经典模式下节点和连线文字可自由拖动调整,设计器根据流程发布状态自动判断是否可编辑。功能增强与优化方面,新增getFirst...
【关键词】工作流引擎,仿钉钉,智能交互
阿里通义发布Wan2.2-I2V-Flash图生视频模型(2025-08-15)
【摘要】 8月15日,OSCHINA讯,近日,阿里通义大模型推出最新图生视频模型Wan2.2-I2V-Flash。该模型将电影级视觉呈现融入其中,在生成速度与性价比方面实现全面跃升,致力于为用户带来更快速、专业、稳定的图生视频体验。与Wan2.1相比,其推理速度提升12倍,创作效率显著提高。指令遵循能力大幅提升,能精准实现各种特效提示词、精准控制运镜,使指令落地更精准。还能稳定输出风格化图像,对各类风格化图像都可保持风格,并实现合理自然...
【关键词】图生视频,稳定,数字内容
国内首个隧道与地下空间领域垂直大模型发布(2025-08-15)
【摘要】 8月15日,OSCHINA讯,近日,我国首个隧道与地下空间领域垂直大模型由中国中铁隧道局隧道掘进机及智能运维全国重点实验室研发发布。该模型依托盾构/TBM工程大数据中心的773条工程线路、1200亿条工程建造数据,构建了通用大模型调度中小模型驱动的垂直领域大模型技术体系,形成全生命周期场景+AI的数智互馈赋能技术体系新形态。研发了隧道侠AI助手,搭建行业科普、专业问答等功能新引擎;突破大模型对齐与微调技术,研发系列中小...
【关键词】地下空间,垂直大模型,数智决策
deepin 25适配魔方派3开发板,推动国产操作系统硬件融合(2025-08-14)
【摘要】 8月14日,极客网讯,近日,deepin(深度)社区宣布deepin 25已正式适配RUBIK Pi 3(魔方派3)开发板并完成产品兼容性认证。测试显示,双方在兼容性、性能及稳定性方面达预期,运行流畅。此次适配实现系统稳定运行,还预装UOS AI、跨端协同等自研应用,为开发者和极客玩家提供强大平台。魔方派3基于高通QCS6490芯片,具备12 TOPS的AI性能,有丰富接口和功能设计,能满足多样开发需求。适配在魔方派3开发板(8核 + 8GB)上成果显...
【关键词】操作系统,兼容性,生态建设
百川智能开源医疗增强大模型Baichuan-M2(2025-08-14)
【摘要】 8月14日,OSCHINA讯,近日,百川智能正式开源医疗增强大模型Baichuan-M2。针对医疗领域模型私有化部署需求,团队对其进行极致轻量化,量化后精度接近无损,可在RTX4090单卡部署,相比DeepSeek-R1H20双节点部署成本降低57倍。基于Eagle-3架构优化的Baichuan-M2-Spec版本,在单用户场景下token速度跃升74.9%,适用于急诊、门诊等对交互速度要求高的场景。M2模型通用核心性能不降反升,可用于医疗以外领域。测评显示,Baichuan-M2...
【关键词】智能医疗,大模型,轻量化
百度搜索PC端全面上线AI搜索功能(2025-08-13)
【摘要】 8月13日,OSCHINA讯,近日,百度搜索PC端首页全面上线一系列AI功能,将传统信息入口转变为任务中枢。新上线的“超级智能双行框”可一键深度搜索,解答复杂问题,提升搜索体验。“工作台”模块集成AI阅读、AI写作和AIPPT三大工具。AI阅读能一键总结链接、图片及超大文档,节省阅读时间;AI写作提供超20种文风选择,支持划线修改,助力创作编辑;AIPPT可根据全网内容自动生成演示文稿,方便演示。据Quest Mobile报告,百度AI搜索...
【关键词】PC端,AI搜索,智能功能
科大讯飞推出星火代码画布,一键生成交互网页(2025-08-13)
【摘要】 8月13日,OSCHINA讯,近日,讯飞开放平台上线“星火代码画布”创新功能,通过语音指令、草图、链接或文字描述,就能快速生成交互网页,提升开发效率,对非技术背景用户尤为友好。产品经理小马用一句话生成招聘官网职位详情页,设计师阿夏上传草图生成AI论文评审助手界面demo,品牌视觉设计师阿珊参考链接复刻珠宝品牌形象页,展示了其在不同场景的强大功能。它不仅能快速生成页面,还能精准还原UI细节,前端实习生阿豪借此为公...
【关键词】科大讯飞,星火代码画布,交互网页
昆仑万维发布Matrix-Game2.0国产开源Genie3(2025-08-12)
【摘要】 8月12日,OSCHINA讯,昆仑万维推出自研世界模型Matrix系列升级版「Matrix-Game2.0」,这是业内首个通用场景实时长序列交互式生成世界模型开源方案。相较于上一版本,2.0版本侧重低延迟、高帧率长序列交互性能,能以25FPS在复杂场景稳定生成连续视频,时长可扩展至分钟级,提升连贯性与实用性,且保持对物理规律和场景语义精准理解,支持用户自由探索构建虚拟环境。它提出全新视觉驱动交互世界建模方案,摆脱传统语言提示生成模...
【关键词】昆仑万维,开源,图像
智谱AI开源视觉推理模型GLM-4.5V(2025-08-12)
【摘要】 8月12日,OSCHINA讯,智谱AI发布并开源新一代旗舰视觉推理模型GLM-4.5V。该模型基于MOE架构,总参数量达106B,激活参数量12B,支持视频、图像、文本、文件输入,输出文本,上下文窗口为64K。它基于智谱新一代旗舰文本基座模型GLM-4.5-Air,延续GLM-4.1V-Thinking技术路线,在41个公开视觉多模态榜单中综合效果达同级别开源模型SOTA性能,涵盖多种常见任务。模型由视觉编码器、MLP适配器和语言解码器三部分组成,支持64K多模态...
【关键词】智谱,视觉推理,处理效率
百度智能云推出全球首批AI数字员工(2025-08-11)
【摘要】 8月11日,OSCHINA讯,近日,百度智能云宣布推出全球首批AI数字员工,涵盖营销经理、还款助理等核心业务职能。百度副总裁阮瑜表示,大模型飞速进化推动AI从Copilot形态向Agent及Agentic方向深化,数字员工作为新型“劳动者”将推动组织生产力变革。这些数字员工有四大升级,即“智能化大脑”,以端到端语音语义大模型驱动业务闭环,实现真人级交互体验,语音识别准确率达98%,对话延迟降至1秒内;“真人级形象”,用4D扫描技术...
【关键词】数字员工,百度智能云,智能化升级
华为宣布CANN全面开源开放(2025-08-11)
【摘要】 8月11日,OSCHINA讯,近日,在昇腾计算产业发展峰会上,华为轮值董事长徐直军宣布华为昇腾硬件使能CANN全面开源开放,Mind系列应用使能套件及工具链也全面开源,支持用户自主深度挖潜和自定义开发,以加速开发者创新,提升昇腾易用性。徐直军提到华为AI战略核心是算力且坚持昇腾硬件变现,峰会还探讨构建开源开放的昇腾生态,发起《CANN开源开放生态共建倡议》。CANN是华为面向AI的端云一致异构计算架构,承上启下,是提升昇腾...
【关键词】华为,CANN,开源开放
智谱推出Zread.ai开发效率工具,搭载GLM-4.5(2025-08-08)
【摘要】 8月8日,OSCHINA讯,近日,智谱推出基于大模型的开发效率工具Zread.ai,旨在解决开发者接手旧项目、文档撰写和理解开源项目的痛点,提升开发效率。其核心功能有源项目深度学习、快速接手历史代码库、构建团队知识协作系统,可通过输入GitHub仓库链接生成项目Guide,梳理项目结构等。该工具选用GLM-4.5作为核心底座,此模型在代码理解等多方面表现出色,能准确识别代码关系,输出稳定性高,适合复杂代码场景。使用Zread.ai操作...
【关键词】开发工具,效率提升,降低门槛
阿里中标工商银行AI编程项目(2025-08-08)
【摘要】 8月8日,OSCHINA讯,近日,中国工商银行公布《软件开发中心智能研发平台》中标结果,阿里云凭借通义灵码独家中标,将为该平台提供代码补全、代码问答及单测智能体等服务。此前工商银行已将阿里Qwen模型用于智能风控。此项目是工商银行多部门对阿里云通义灵码1年期订阅,用户数量5000个。虽百度、华为等为推荐供应商,但工商银行最终选阿里云。通义灵码是阿里云AI编程助手,2024年以来中标多个类似项目,其基于阿里云自研Qwen模...
【关键词】阿里云,通义灵码,工商银行
腾讯开源文档理解与语义检索框架WeKnora(2025-08-07)
【摘要】 8月7日,OSCHINA讯,近日,腾讯开源文档理解与语义检索框架WeKnora(维娜拉),这是为复杂异构文档场景打造的智能问答解决方案。它采用现代化模块化设计,有文档处理、知识建模、检索引擎、推理生成、交互展示五个核心模块,构建了完整流水线。基于大语言模型,融合多种技术打造端到端文档问答流程。具有多模态认知、模块化RAG流水线、精准推理与可信决策、灵活适配生产环境、开箱即用交互体验等特性,适用于企业级文档问答场...
【关键词】WeKnora,文档理解,语义检索
小红书开源基于VLM的文档解析模型dots.ocr(2025-08-07)
【摘要】 8月7日,OSCHINA讯,近日,小红书发布并开源了基于视觉语言模型(VLM)的文档解析模型dots.ocr,支持多语言识别、布局检测与内容识别一体化处理。该模型在单一视觉语言模型中统一布局检测和内容识别,还能保持良好阅读顺序。虽是17亿参数的“小模型”,但在多个benchmark上获得匹配超大参数量闭源模型的业界领先(SOTA)性能。其亮点包括在OmniDocBench上三项任务均获SOTA表现、支持多语言填补开源社区空白、可灵活切换任务、...
【关键词】文档解析,视觉语言,开源
字节Seed发布实验性扩散语言模型Seed Diffusion Preview(2025-08-06)
【摘要】 8月6日,OSCHINA讯,近日,字节跳动Seed团队推出实验性扩散语言模型Seed Diffusion Preview,以结构化代码生成为实验领域,验证离散扩散技术路线作为下一代语言模型基础框架的可行性。实验结果显示,该模型代码推理速度达2146 tokens/s,相比同等规模自回归模型提升5.4倍,在多个业界基准上性能与优秀自回归模型相当,且在代码编辑等任务上实现超越。项目页面和体验链接已公布。官方表示,该模型验证了离散扩散模型的推理加速...
【关键词】扩散模型,代码生成,推理加速
企查查开源弹窗组件库QuickDialog(2025-08-06)
【摘要】 8月6日,OSCHINA讯,近日,企查查将其自研的鸿蒙弹窗组件库“QuickDialog”开源,并上线至OpenHarmony三方库中心仓。这是鸿蒙生态首个支持“弹窗堆栈暂存能力”的非侵入式弹窗解决方案,有望成为管理复杂弹窗场景的最佳实践之一。QuickDialog以“可维护、可拓展”为理念,具备弹窗堆栈暂存、无侵入式控件创建等核心技术能力。在企查查鸿蒙App开发中已全面替代传统方案,改善用户体验。开发者接入无需改动现有结构,能降低成本...
【关键词】开源,弹窗组件库,鸿蒙生态
生命周期不足三个月,Windows10市占率急剧下降(2025-08-05)
【摘要】 8月5日,OSCHINA讯,按微软计划,Windows 10主流支持将于2025年10月14日结束,虽会提供一年免费更新,但许多用户已开始找替代方案。Statcounter数据显示,2025年7月Windows 10市场份额急剧下降,从与Windows 11平分秋色到低于Windows 11。当月其份额从47.98%降至42.99%,降了4.99个百分点,同比降22个百分点;而Windows 11份额从47.98%增至53.39%,增5.41个百分点,同比增22.56个百分点。目前受支持的Windows 10和11占超96%市...
【关键词】Windows,市占率,技术迭代
阶跃星辰新一代基础大模型Step3正式开源,专注多模态推理(2025-08-05)
【摘要】 8月5日,OSCHINA讯,既然你,阶跃星辰正式开源最新一代基础大模型Step3。该模型采用专家混合(MoE)架构,总参数量321B,激活参数量38B,为企业和开发者提供性能与成本均衡的推理方案,专注于多模态推理,端到端设计最小化解码成本,在视觉语言推理任务表现出色。技术上采用自研MFA注意力机制和AFD系统架构,还开源专用通信库StepMesh。在多个基准测试中优于同类开源模型,社区测试展现不错能力,vLLM项目支持并报告高吞吐量。...
【关键词】Step3大模型,多模态推理,开源
MOSS-TTSD开源:百万小时训练打造AI播客新王者(2025-08-04)
【摘要】 8月4日,OSCHINA讯,近日,由清华大学语音与语言实验室联合上海创智学院、复旦大学和模思智能打造的MOSS-TTSD(TexttoSpokenDialogue)正式开源。该模型基于Qwen3-1.7B-base续训练,以约100万小时单说话人语音数据和40万小时对话语音数据为基础,采用离散化语音序列建模方法,实现中英双语高表现力对话语音生成,适用于AI播客等长篇内容创作。其核心创新XY-Tokenizer采用双阶段多任务学习,能压缩语音信号并保留信息。模型支持...
【关键词】语音模型,播客,开源
360集团宣布纳米AI“多智能体蜂群”上线(2025-08-04)
【摘要】 8月4日,OSCHINA讯,近日,360集团正式宣布纳米AI完成品牌焕新,升级为“多智能体蜂群”,成为全球首个达到L4级的智能体系统。它不再是单个AI“单兵作战”,而是让数万只专业AI自动组队、分工、协作,能一口气完成上千步复杂任务,20分钟就能做出10分钟电影级大片,进入“成果直接交付”时代。L4级智能体如同人类雇佣团队工作,可实现能力无限扩展。纳米AI创造了全新「蜂群协作框架」,多个推理型智能体可灵活拉群、多层嵌套、...
【关键词】纳米AI,多智能体蜂群,L4级智能体
腾讯开源“短视频理解模型”ARC-Hunyuan-Video-7B(2025-08-01)
【摘要】 8月1日,OSCHINA讯,近日,腾讯发布开源多模态模型ARC-Hunyuan-Video-7B,专为真实世界短视频“结构化理解”设计,具备跨模态推理和时间感知能力,旨在解决常见短视频挑战,实现深度结构化理解。
【关键词】短视频,理解模型,开源
豆包图像编辑模型3.0发布(2025-08-01)
【摘要】 8月1日,OSCHINA讯,近日,火山引擎宣布正式发布豆包图像编辑模型3.0、豆包同声传译模型2.0以及豆包大模型1.6系列全新升级版本。同时,火山引擎持续优化AI云原生全栈服务,开源扣子核心能力,发布多个模型服务和工具产品,为企业和开发者构建Agent、落地AI夯实基础设施。
【关键词】豆包模型,图像编辑,同声传译
阿里巴巴1688发布“AI版”App与“88查”(2025-07-31)
【摘要】 7月31日,OSCHINA讯,近日,阿里巴巴旗下B2B批发平台1688正式发布多项AI新品和升级举措,旨在通过人工智能技术全面赋能中小企业,提升采购效率。此次发布的核心亮点包括推出全新的“1688AI版”App、上线免费企业查询工具“88查”,并对现有“阿里巴巴1688”App进行全面AI化升级。
【关键词】中小企业,采购,数字化
商汤发布“日日新SenseNova V6.5”大模型体系(2025-07-31)
【摘要】 7月31日,OSCHINA讯,近日,商汤科技在WAIC2025上发布“日日新SenseNova V6.5”大模型体系,其推理和多模态能力超越多个主流模型,性价比提升3倍。
【关键词】商汤科技,大模型,性价比
国内首个农业智能大模型上线,每亩地增收可达200元(2025-07-30)
【摘要】 7月30日,OSCHINA,近日,中国中化集团推出国内首个“农业种植综合大模型”。该模型依托全国数百座农业技术服务中心,整合超千万条农业知识资源,为农业生产提供强大支撑。其贯穿“耕、种、管、收”整个过程,能高效处理复杂任务。农艺师通过手机或平板就能线上智能决策,线下为农民提供贴身服务。农民可实时监测作物生长、土壤湿度、气象和病虫害等情况,获取如“每亩需要多少肥料、何时浇水”等精准建议。
【关键词】农业智能大模型,农业种植,农民增收
蚂蚁inclusionAI团队发布Ming-lite-omni v1.5(2025-07-30)
【摘要】 7月30日,OSCHINA讯,近日,蚂蚁集团inclusionAI团队发布全面升级版全模态模型Ming-Lite-Omniv 1.5。该模型基于Ling-lite-1.5构建,总参数量达203亿(其中MoE部分活跃参数为30亿),在图像-文本理解、文档理解、视频理解、语音理解与合成、图像生成与编辑等全模态能力上显著提升。其模型架构参考Ming-lite-omni v1版本,升级Visionhead支持参考图特征输入以增强图像编辑人物和场景一致性。
【关键词】蚂蚁集团,Ming-lite-omni,v1.5,全模态模型
昆仑万维开源多模态统一预训练模型Skywork UniPic(2025-07-29)
【摘要】 7月29日,OSCHINA消息,近日,昆仑万维正式推出并开源采用自回归路线的多模态统一预训练模型Skywork UniPic。该模型在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力,基于大规模高质量数据端到端预训练,通用性与可迁移性良好。
【关键词】昆仑万维,模型,图像
豆包App视觉推理能力升级,图片分析支持深度思考(2025-07-29)
【摘要】 7月29日,OSCHINA讯,近日,豆包App在视觉推理领域迎来重大升级,其图片分析功能现支持深度思考模式。用户在该模式下拍摄或上传图片,豆包可进行放大、裁剪等精细处理,还支持边想边搜的图片搜索功能,提升搜索结果准确性。
【关键词】豆包App,视觉推理,图片分析
字节跳动AI Agent平台扣子拥抱开源(2025-07-28)
【摘要】 7月28日,OSCHINA讯,近日,字节跳动旗下AI Agent开发平台扣子(Coze)宣布正式拥抱开源。扣子旗下有「扣子空间」、「扣子开发平台」、「扣子罗盘」及Eino四款子产品,目前扣子开发平台(Coze Studio)与扣子罗盘(Coze Loop)已在Apache 2.0许可证下开源。Coze Studio是一站式AI Agent可视化开发工具,开源核心功能有完整工作流引擎,可轻松编排复杂业务逻辑;插件核心框架,能将第三方API或私有能力封装成插件;开箱即用的开...
【关键词】AI,开源平台,扣子
阶跃星辰发布最强开源多模态推理模型Step3(2025-07-28)
【摘要】 7月28日,OSCHINA讯,近日,阶跃星辰宣布发布新一代基础大模型Step3,这是其首个全尺寸、原生多模态推理模型,主打多模态推理。该模型在国产芯片32K上下文推理效率最高可达DeepSeek R1的300%,在英伟达H800芯片上推理效率提升70%以上,将于7月31日向全球开源。
【关键词】阶跃星辰,Step3,多模态推理模型
Qwen3系列模型迎来新第三方部署和价格特惠(2025-07-25)
【摘要】 7月25日,OSCHINA讯,阿里巴巴的Qwen3系列模型近期在多个平台获得部署并开启价格特惠。Cerebras宣布推出Qwen3-235B模型,推理速度达每秒1500个token,可进行有限制免费体验。阿里云通义灵码IDE集成Qwen3-Coder并去掉原有的DeepSeek模型。GMI inference cloud上线Qwen3 Coder 480B A35B Instruct FP8版本,输入定价1.00美元/M Tokens,输出定价2.00美元/M Tokens。阿里云百炼平台对Qwen3-Coder-Plus进行为期一个月限时降价,并...
【关键词】系列模型,第三方部署,价格特惠
周鸿祎:大模型降低攻击门槛,人人皆可“注入攻击”(2025-07-25)
【摘要】 7月25日,OSCHINA讯,在2025中国互联网大会上,360集团创始人周鸿祎剖析了人工智能时代网络安全面临的全新挑战,着重指出大模型带来三大安全风险。一是大模型的“幻觉”问题,在工业生产等关键领域,其错误判断危害成倍放大;二是大模型降低网络攻击门槛,非编程人员可通过自然语言交互编写程序,诱导大模型泄露企业机密文件的“注入攻击”门槛也随之降低;三是国家级高级威胁攻击智能化升级,黑客将能力经验嵌入大模型,未来...
【关键词】大模型,网络安全,注入攻击
蜻蜓FM开源SmartXPlayer音频播放组件(2025-07-24)
【摘要】 7月24日,OSCHINA讯,近日,蜻蜓FM研发的音频播放组件“SmartXPlayer”开源并上线OpenHarmony三方库中心仓。这是一款专为鸿蒙多端场景打造的音频播放引擎,基于鸿蒙系统分布式能力和多线程架构,能提供高性能、易集成的音频播放能力,助力开发者构建优质音频播放体验。
【关键词】蜻蜓FM,SmartXPlayer,音频播放
昆仑万维正式上线音乐模型Mureka V7(2025-07-24)
【摘要】 7月24日,OSCHINA讯,昆仑万维宣布推出最新音乐模型Mureka V7以及全新音频模型Mureka TTS V1(支持Voice Design音色设计能力)。Mureka V7被形容为“24小时不打烊的私人录音棚”,只需输入主题、歌词和风格,两分钟就能生成完整音乐作品。
【关键词】昆仑万维,音乐模型,提升
首个基于AI的恶意软件LameHug现身窃取Windows设备数据(2025-07-23)
【摘要】 7月23日,OSCHINA讯,科技媒体BleepingComputer报道新型恶意软件LameHug出现,它利用阿里开源的Qwen2.5-Coder-32B-Instruct大型语言模型,针对Windows10和Windows11设备窃取数据。LameHug用Python编写,依赖HuggingFaceAPI与QwenLLM交互,通过特定提示词动态生成窃取数据的指令。
【关键词】恶意软件,AI,LameHug
我国网民规模达11.23亿人互联网普及率79.7%(2025-07-23)
【摘要】 7月23日,OSCHINA讯,近日,中国互联网络信息中心(CNNIC)发布第56次《中国互联网络发展状况统计报告》。截至6月,我国网民规模达11.23亿人,互联网普及率达79.7%,意味着越来越多不同群体共享数字发展成果。报告显示“十四五”期间我国互联网建设成就显著,新型信息基础设施加速布局,互联网基础资源持续丰富,为互联网普及和数字经济发展提供了坚实支撑。互联网普惠深入推进,60岁及以上银发网民规模达1.61亿人、农村网民规...
【关键词】网民规模,互联网普及,数字发展
北京上半年工业和信息软件业增加值突破9000亿元(2025-07-22)
【摘要】 7月22日,人民网讯,近日,从北京市经济和信息化局2025上半年北京市工业和信息软件业经济运行新闻发布会获悉,今年上半年北京市工业和信息软件业合计实现增加值突破9000亿元,占全市地区生产总值比重达36.2%,创历史新高,对全市经济增长贡献率达61.6%。规上工业增加值连续16个月高于全国平均水平,信息软件业规模、增速居全市各行业首位。投资动能持续迸发,市场活力加速释放,产业高端化、智能化、绿色化转型步伐加快。数字...
【关键词】北京,工业,信息软件业
美团开源OIBench与CoreCodeBench揭示大模型编程真实水平(2025-07-22)
【摘要】 7月22日,OSCHINA讯,近日,Meituan-M17团队联合上海交大等机构,推出OIBench(聚焦高区分度算法题评测)与CoreCodeBench(聚焦多场景工程级代码基准)两大数据集,已在GitHub和Huggingface开源。当前大语言模型在编程领域宣称能力强,但现有评估体系有局限,传统算法评测集区分度不足、数据易泄漏,工程基准任务类型单一、数据构建方法有缺陷,无法全面评估模型能力。
【关键词】大模型,编程评测,数据集