【软件产业】Meta AI 推出“全语种”语音识别系统,支持1600+ 语言(2025-11-10)
【摘要】 11月10日,OSCHINA讯,Meta的基础人工智能研究(FAIR)团队近日开源了Omnilingual ASR自动语音识别系统,支持转录超过1600种口语语言,其中包括500种此前未被任何AI系统覆盖的语言。该系统基于PyTorch的fairseq2框架,提供从3亿参数到70亿参数的不同版本。测试结果显示,78%的语言错误率低于10个字符,资源丰富语言(训练音频≥10小时)的准确率覆盖达95%,低资源语言(音频<10小时)也有36%达到该标准。系统创新性地引入“自带语言”选项,用户通过少量音频文本配对即可扩展新语言支持,理论上可覆盖5400多种语言。
【关键词】语音识别,Meta,AI
【软件产业】生产力再升级:微软官宣Visual Studio最新AI路线图,含4大亮点(2025-11-10)
【摘要】 11月10日,IT之家讯,近日,微软发布博文,公布了Visual Studio的最新AI路线图,旨在通过AI驱动的智能体体验提升开发者效率。路线图涵盖四大重点:一是推出自定义、测试、调试等多种新智能体并支持并发运行;二是改进聊天功能,如引入斜杠命令;三是实施MCP规范以增强企业安全性;四是集成GPT-5 Codex等最新模型并提供自动模型选择功能。微软计划简化AI模式切换流程,探索并发运行智能体的技术,优化聊天交互体验,并完善MCP协议以确保数据安全。此外,微软将评估并接入前沿AI模型,包括GPT-5 Codex,以提供更优质的代码生成建议。
【关键词】AI工具,开发效率,智能体
【软件产业】苹果iOS26.2酝酿升级隔空投送:一次PIN配对,30天内随时分享(2025-11-05)
【摘要】 11月5日,IT之家讯,近日,苹果在iOS26.2首个开发者Beta测试版中计划升级隔空投送功能,新增基于PIN码的长期配对机制。用户可通过输入简短PIN码,在两台设备间建立持续30天的配对关系,期间设备靠近即可相互可见,无需反复设置“对所有人开放10分钟”的临时选项。当前该功能在Beta1版本中尚不可用,最终形态和发布时间可能变化。
【关键词】iOS,隔空投送,更新
【软件产业】微软宣布其首个自研图像生成模型MAI-Image-1已整合入Bing与Copil...(2025-11-05)
【摘要】 11月5日,IT之家讯,11月5日,微软宣布其首个自研AI图像生成模型MAI-Image-1已整合至BingImageCreator和CopilotAudioExpressions(欧盟暂除外)。该模型在生成食物、自然风景、艺术化光效及写实细节等图像方面表现突出,尤其在逼真光影效果和风景类图像生成上优于部分更大、更慢的模型。MAI-Image-1还将用于CopilotAudioExpressions的“故事模式“,为AI生成的音频故事配图。微软今年8月推出首批自研AI模型,包括MAI-Voice-1和MAI-1-preview,逐步减少对OpenAI的依赖。
【关键词】微软,图像生成,AI模型
【软件产业】微软承认Win11驱动安装流程存0x80070103错误,可能无法彻底修复(2025-11-04)
【摘要】 11月3日,IT之家讯,据Windows Latest报道,Windows 11系统长期存在的0x80070103驱动安装错误仍是反馈中心上报率最高的问题之一。微软在支持文档中承认该问题,并表示正采取措施减少其发生率,但可能无法彻底修复。反馈中心相关帖文获得约1000个赞,用户反映该错误导致系统重启变慢、启动延迟及应用程序运行迟缓。微软员工解释错误原因为系统重复安装已有内容,虽不影响正常使用但降低性能。微软已于10月发布补丁改进底层机制,部分解决问题,但尚未找到根治方案。
【关键词】Win11,驱动错误,微软
【软件产业】Canonical推出新版UbuntuLinux认证体系,助力技能验证与多元增收(2025-11-03)
【摘要】 11月3日,OSCHINA讯,Canonical在UbuntuSummit25.10线上活动上宣布推出“CanonicalAcademy”,推出全新徽章和认证体系,助力个人和企业验证开源技能。该平台的首批上线路线为系统管理员(SysAdmin)路线,包含四项考察Linux及Ubuntu实际操作能力的考试,合格者获数字徽章。考试模块化、自主节奏,今日先上线三门,“Linux终端使用”公开,“Ubuntu桌面使用”和“Ubuntu服务器使用”处于社区测试beta阶段。新认证体系是Canonical多元化收入来源之一,目前未公布具体费用,但提及“优惠价格”。可查阅Ubuntu官方博客或访问相关页面了解,UbuntuSummit25.10线上活动于今明两日在Canonical伦敦办公室直播。
【关键词】Ubuntu认证,新版体系,技能验证
【软件产业】中国科大与字节发布MoGA长视频生成模型,突破国产视频生成技术(2025-11-03)
【摘要】 11月3日,OSCHINA讯,近日,中国科学技术大学与字节跳动即将联合发布端到端长视频生成模型,能直接生成分钟级、480p分辨率、24帧/秒的高质量视频,支持多镜头场景切换,实现国产视频生成技术在全球生成式AI竞赛中的关键突破。其核心创新底层算法MoGA专为解决长视频生成问题设计,可处理长达580Ktoken的上下文信息,降低计算成本。传统模型受限只能生成短片,而该模型能生成多镜头切换的“迷你短片”,拓展应用边界。MoGA模块化与兼容性强,可集成现有加速库,提升训练与推理效率,可应用于多领域。此模型是国内首个分钟级长视频生成系统,或推动中国视频生成领域进入全球前列。
【关键词】长视频生成,MoGA,模型突破
【软件产业】Hugging Face发布huggingface_hubv1.0版本,开启开源机器学习新...(2025-11-03)
【摘要】 11月3日,OSCHINA 讯,近日,Hugging Face正式发布基础库huggingface_hub的v1.0里程碑版本,旨在为未来十年的开源机器学习构建基础。此版本有多项重大更新与破坏性变更,将HTTP后端迁移至httpx,全面革新命令行界面(CLI),把hf_xet作为默认文件传输协议。旧命令被全新hf命令取代,采用“资源-动作”模式,还引入新功能,重构缓存管理命令,提供智能shell自动补全等。官方提供跨平台沙盒化安装程序,CLI功能内置于核心包。同时包含多项破坏性变更,如提升最低Python版本要求,移除长期弃用类,替代参数,官方提供迁移指南助用户过渡。
【关键词】机器学习,开源库,版本更新
【软件产业】美团开源语音编解码方案LongCat-Audio-Codec(2025-10-27)
【摘要】 10月27日,OSCHINA讯,近日,美团LongCat团队正式开源专用语音编解码方案LongCat-Audio-Codec。该方案提供一站式Token生成器与还原器工具链,能将原始音频信号映射为语义与声学并行的token序列,实现高效离散化,再通过解码模块重构高质量音频,为SpeechLLM提供全链路音频处理支持。其开源平台有Github和HuggingFace。LongCat-Audio-Codec有三大创新设计:一是语义-声学双Token并行提取机制,采用“级联训练-并行推理”,兼顾语义理解和生成,支持声学码本动态配置;二是低延迟流式解码器,采用帧级增量处理模式,将解码延迟控制在百毫秒级,满足实时交互需求;三是超低比特率高保真与集成超分辨率设计,通过协同优化,在保证压缩效率的同时提升音质。该方案在语义建模、声学重建、流式合成三大维度实现突破。
【关键词】美团,语音编解码,开源
【软件产业】deepin 25成功适配瑞莎Dragon Q6A,开启高性能ARM桌面体验(2025-10-27)
【摘要】 10月27日,OSCHINA讯,近日,deepin社区宣布最新deepin25操作系统已成功适配瑞莎科技(Radxa)推出的DragonQ6A开发板,覆盖核心硬件驱动与系统功能,为开发者提供稳定软硬协同基础。瑞莎DragonQ6A是基于高通QCS6490处理器的高性能、低功耗嵌入式开发平台,主频最高2.7GHz,集成高通Adreno643GPU和高通Hexagon770NPU,支持多种扩展接口,采用1+3+4三丛集CPU设计,具备先进AI加速和多媒体处理能力。deepin25以易用性和美观界面著称,适配后DragonQ6A用户可获得与X86平台相近的桌面体验。镜像预装完整软件生态,包括为Q6A定制优化的6.15Linux内核、基础工具、完整的deepin桌面环境及实用工具。deepin-portsSIG已将DragonQ6A列入支持设备列表,将提供持续软件更新和性能优化。此次适配填补了高通QCS6490平台与国产桌面系统兼容空白,为开发者提供“硬件+系统”一体化开源解决方案,助力产品快速落地,也是双方合作的重要里程碑,期待更多硬件厂商加入生态建设。
【关键词】适配,高性能桌面,生态
【软件产业】商汤科技与寒武纪达成战略合作,重点推进软硬件的联合优化(2025-10-27)
【摘要】 10月27日,OSCHINA讯,近日,商汤科技与中科寒武纪科技股份有限公司签署面向新发展阶段的战略合作协议,重点推进软硬件的联合优化,共同构建开放共赢的产业生态。双方发挥技术和产业资源优势,围绕国产化人工智能基础设施构建、垂直业务开拓与科技出海等方向开展深度合作,响应国家“人工智能 +”战略部署。结合商汤科技在大模型研发等方面的领先能力,以及寒武纪在智能计算芯片等方面的深厚积累,推动形成软硬协同的新一代人工智能国产化发展范式,提升自主创新能力和生态影响力。以智能算力与AI大模型技术为基础,探索软硬协同的阶梯式产品创新体系,推动产业智能化转型,培育创新企业,力争形成规模化商业合作成果。在芯片适配方面,推进最新型号软硬件产品适配,打造算力市场服务方案;在一体机解决方案上,聚焦垂直行业场景,打造一体机解决方案;还将探索优势区域市场深度协同,构建区域人工智能繁荣生态。
【关键词】商汤科技,寒武纪,软硬件优化
【软件产业】微软截图工具更新,支持即时标注功能 (2025-10-20)
【摘要】 10月20日,OSCHINA讯,近日,微软截图工具迎来重大更新,最新版本Snipping Tool v11.2508.28.0开始支持即时标注功能,并向所有用户推送。此次更新让用户无需保存截图或打开额外应用程序,即可直接对选定屏幕区域进行标注。用户通过Win+Shift+S快捷键进入截图模式后,截图工具不再自动保存截图,而是在选定区域下方显示浮动工具栏,提供绘图、高亮文本、插入选项、Bing反向图像搜索及发送至Copilot应用等功能,操作方式类似QQ和微信的截图工具。此前,用户需保存截图或打开画图等应用才能使用标注功能,如今流程大幅简化,提升了标注效率与便捷性。即使保存截图后使用截图工具编辑,也能看到这些选项,但新版本让标注过程更加直观流畅。
【关键词】截图工具,即时标注,浮动工具栏,,
【软件产业】OPPO应用生态多维度助力全球开发者高效增长(2025-10-20)
【摘要】 10月20日,OSCHINA讯,近日,2025OPPO开发者大会(ODC25)应用生态分论坛上,OPPO推出“OPPO隐私安全智护体系”。该体系升级权限管理机制,助用户实现隐私透明可控与精细管理,平台还全面升级合作策略,为开发者提供全链路解决方案。在安全筑基方面,OPPO对“上架-下载-安装-运行”全链路优化,上架提前审核检测,下载简化流程,安装减少验证步骤。同时上线“OPPO隐私安全智护体系”,通过系统级安全控件保障高敏隐私数据安全访问,落实“最小必要”原则,该体系由OPPO与国内主流安卓厂商协同共建,降低开发成本。在赋能开发者上,平台首次向个人开发者开放应用上传权限,12月底以“邀请制”定向邀约,后续扩大规模。“一键出海”功能让开发者在108个国家或地区快速分发APP。应用增长阶段,OPPO通过多途径为开发者高效获客,升级OPPOPUSH推送能力,OPPO广告联盟优化流量分发与变现效率,数据显示日均新增流量达50亿+。未来,OPPO将以“用户安全”与“开发者增长”双轮驱动,完善基础设施,推动应用生态健康发展。
【关键词】OPPO,安全底座,开发者增长
【软件产业】蚂蚁开源高性能扩散语言模型推理框架dInfer (2025-10-20)
【摘要】 10月20日,OSCHINA讯,蚂蚁集团正式开源业内首个高性能扩散语言模型推理框架dInfer。基准测试显示,dInfer将扩散语言模型推理速度相比英伟达Fast - dLLM提升10.7倍,在代码生成任务HumanEval上,单批次推理速度达1011Tokens/秒,首次在开源社区使扩散语言模型单批次推理速度显著超越自回归模型。扩散语言模型有高度并行等优势,但推理效率长期受计算成本高、KV缓存失效、并行解码等挑战束缚。dInfer是专为扩散语言模型设计的算法与系统深度协同的推理框架,支持多种扩散语言模型,包含模型接入等四大核心模块,针对三大挑战集成针对性解决方案。在配备8块NVIDIA H800GPU的节点上,与Fast - dLLM对比平均推理速度提升10.7倍,HumanEval单批次推理速度出色,与vLLM上运行的Qwen2.5 - 3B相比平均推理速度是其2.5倍。蚂蚁集团称dInfer连接前沿研究与产业落地,标志扩散语言模型迈向实践高效关键一步,邀请开发者共同探索。
【关键词】扩散模型,推理框架,dInfer,,
【软件产业】蚂蚁百灵大模型团队发布Ling-1T(2025-10-13)
【摘要】 10月13日,OSCHINA讯,近日,蚂蚁百灵大模型团队发布Ling2.0系列首款旗舰非思考模型Ling-1T。该模型拥有万亿参数,沿用Ling2.0架构,每个token激活约50B参数。Ling-1T-base在20T+token高质量、高推理浓度的语料上预训练,支持最高128K上下文窗口,通过“中训练+后训练”的演进式思维链(Evo-CoT)极大提升高效推理能力。Ling-1T全程采用FP8混合精度训练(部分技术已开源),是目前已知规模最大的使用FP8训练的基座模型,带来显著显存节省、更灵活并行切分策略和15%+的端到端加速。在有限输出token条件下,Ling-1T在多项复杂推理基准中取得SOTA表现,展现出高效思考与精确推理的卓越平衡。
【关键词】大模型,高效推理,非思考
【软件产业】豆包大模型1.6-vision正式发布(2025-10-13)
【摘要】 10月13日,OSCHINA讯,火山引擎正式发布豆包大模型1.6-vision,它是豆包大模型家族首个具备工具调用能力的视觉深度思考模型,拥有更强通用多模态理解和推理能力,还支持ResponsesAPI。该模型能将图像融入思维链,对图片进行定位、剪裁等精细处理,通过模拟人类视觉推理过程,增强推理可解释性,高效精准完成图像操作。同时,支持ResponsesAPI可让开发者自主选择调用工具,大幅减少Agent开发代码量,提升开发效率。与上一版视觉理解模型Doubao-1.5-thinking-vision-pro相比,豆包大模型1.6-vision综合成本降低约50%。
【关键词】大模型,视觉推理,工具调用
【软件产业】AI21开源迷你语言模型Jamba Reasoning3B(2025-10-13)
【摘要】 10月13日,OSCHINA讯,近日,AI21Labs宣布推出开源小语言模型Jamba Reasoning3B,这是Jamba系列模型最新成员,采用Apache2.0许可证发布。它专为设备上的人工智能计算设计,与多数大型语言模型不同,建立在自有混合状态空间模型(SSM) - 变换器架构上,状态空间模型是用于序列建模的深度学习算法,某些任务上更高效。该模型上下文窗口长度达256000个token,最多可处理1000000个token,具备与Anthropic Claude等大型语言模型相似能力,可在小型设备上运行。Futurum Group分析师认为状态空间模型使用更可行,其扩展性强且速度快,SSM类型模型使用绳索缩放技术扩展注意机制,计算能力需求比大型语言模型少。虽AI21规模较小,但获Google和Nvidia支持,融资超6亿美元,可通过建立生态系统从开源模型获利。发布会上,该模型在多个基准测试中表现超越多个大型开源LLM,分析师认为其在企业市场前景广阔,支持检索增强生成技术,可用于客户服务中心等场景。
【关键词】开源模型,迷你语言,混合架构
【软件产业】谷歌云储备订单达1060亿美元,成重要增长引擎(2025-09-22)
【摘要】 9月22日,OSCHINA讯,近日,谷歌云CEO Thomas Kurian在高盛会议上透露,目前谷歌云已签订但尚未履行的现有客户合同中,承诺金额累计高达1060亿美元。预计超一半会在未来两年内转化为收入,且其增长速度超过谷歌云收入。据谷歌母公司Alphabet 2025年第二季度财报,谷歌两大核心业务为广告和云业务,云业务营收从去年同期的103.47亿美元增长至136.24亿美元,同比增长32%。云业务强劲增长得益于人工智能处理需求激增,AI推动所有业务发展。鉴于云产品及服务市场需求强劲且持续增长,公司计划2025年将资本支出增加至约850亿美元。未来两年,谷歌云将获约580亿美元新收入,成为更核心组成部分。新客户环比增长28%,排名前十的人工智能实验室中有9个是谷歌云客户。Kurian介绍谷歌云战略,强调专有芯片开发和软件专业知识是在人工智能相关领域的优势。虽有媒体评价谷歌云在云服务排名第三,但作为Alphabet最强劲增长来源之一,受益于谷歌在人工智能的巨额支出,其专业知识赢得客户,尤其在人工智能初创公司中。
【关键词】储备订单,人工智能,云业务
【软件产业】微软淘汰Windows部分旧版网页组件,推动技术更新(2025-09-22)
【摘要】 9月22日,OSCHINA讯,近日,微软更新Windows客户端版本中不推荐使用功能的清单,涉及与EdgeHTML和Windows 8/8.1上的网页应用相关的一系列旧版网页组件,不过用户日常功能不受影响。被淘汰的组件有Legacy Web View、Windows 8/8.1/UWP HTML/JavaScript应用(托管网页应用和Windows网页应用)、旧版渐进式网页应用(Legacy PWA)以及旧版Microsoft Edge(EdgeHTML)开发工具。微软已不再对基于已停产EdgeHTML引擎的部分进行开发,EdgeHTML曾是Windows 10时期原版Edge浏览器的核心引擎,后被基于Chromium的新Edge浏览器取代。微软建议开发者转向WebView2、基于Chromium的渐进式网页应用(PWA)以及其他受支持的网页技术,虽未完全终止对这些组件的支持和安全更新,也未公布停止支持或移除的确切时间,但这些组件已被正式列为不推荐使用,未来不会再获得新特性和安全更新,且将在Windows后续版本中被移除。此外,WMIC和PowerShell 2.0等功能也被淘汰,完整弃用功能及组件清单可在微软官方Learn网站查询。
【关键词】微软,旧版网页组件,技术更新
【软件产业】Arm发布Lumex CSS移动端计算子系统,开启智能AI体验新时代(2025-09-22)
【摘要】 9月22日,OSCHINA讯,近日,Arm正式发布Lumex CSS(ComputeSubsystem,CSS)移动端计算子系统,这是专为旗舰级智能手机及下一代个人电脑设计的先进计算平台,旨在加速端侧AI体验并提升整体性能。Lumex CSS平台集成了搭载第二代可伸缩矩阵扩展(SME2)技术的最高性能Arm CPU、GPU及系统IP,支持桌面级移动游戏、实时翻译、智能助手及个性化应用等多样体验。该平台核心组件丰富,包括新一代搭载SME2技术的Armv9.3CPU集群(如ArmC1-Ultra和ArmC1-Pro为旗舰设备提供支持,ArmC1-Premium为次旗舰市场打造)、ArmMaliG1-UltraGPU(配备新一代光线追踪技术,提升图形、游戏及AI性能)、ArmC1-DSU(Arm迄今为止最灵活、高能效且具多种电源模式的Dynam IQShared Unit)、针对3纳米工艺节点优化的物理实现以及跨软件栈的深度集成(为使用Arm Kleidi AI软件库的开发者提供无缝AI加速体验)。Arm表示,Lumex不仅是面向消费计算市场的最先进CSS平台,更是开启新时代智能AI体验的基石,能为OEM厂商和开发者提供实现个性化、隐私保障与高性能AI体验的工具,是未来移动创新的全新起点。
【关键词】移动端,计算子系统,端侧AI