数字创意 - 中国行业发展报告

【数字创意】Quest 2现在能够同时追踪双手和控制器（2024-08-30）

【摘要】　　8月30日，VR陀螺讯，Quest 2迎来了一项重大更新，现在支持多模态输入功能，使其与Quest 3和Quest Pro保持同步。自2019年2月发布以来，Quest应用已经可以同时使用手势追踪和Quest 3或Quest Pro控制器，Meta将这一技术称为“Multimodal”。尽管Quest 2也支持这项技术，但它之前只支持Pro控制器，而不是其标配的Touch控制器。然而，随着Meta XR Core SDK v68的推出，Quest 2现在也能使用其标配的Touch控制器进行多模态输入了。这一变化意味着所有当前的Meta头显设备都支持多模态输入，这可能会激发开发者们更广泛地采用这项技术。不过，到目前为止，几乎没有Quest应用实际支持多模态输入。

【关键词】Meta，Quest，多模态输入

【数字创意】雷鸟创新推出AI智能照片转换功能，AI+AR技术为2D照片注入新生命（2024-08-30）

【摘要】　　8月30日，VR陀螺讯，近日，消费级AR领先品牌雷鸟创新宣布推出AI智能照片转换功能（2D->3D）。该功能采用了雷鸟创新全自研的图像三维渲染AI算法，支持一键将普通二维照片转化为层次分明、动感立体的3D空间图像，并在雷鸟Air系列AR眼镜上展示出来，让用户仿佛置身于照片拍摄现场，还原最真实的视觉体验。AI智能照片转换功能是业内首个端云结合的AI空间照片转换应用。依托于端侧的AI能力，AI智能照片转换功能可在手机本地快速完成3D效果转换。同时，用户还可选择将照片上传至云端，生成精度更高、效果更佳的3D空间图片。云端图像智能AI算法可精准估算遮挡区域范围，并对背后区域做内容填充，让生成的空间照片在分辨率、可调节深度范围、旋转角度以及遮挡区域填补等视觉呈现上实现质的飞跃。

【关键词】AI，AR眼镜，雷鸟创新

【数字创意】开发人员发现绕过Quest 3透视相机数据访问限制方法（2024-08-19）

【摘要】　　8月19日，VR陀螺讯，目前Meta并未面向第三方开发者开放Quest的透视相机数据访问权限，不过开发者Michael Gschwandtner（同时也是手部跟踪健身应用XRWorkout的CEO）近期发现了一个方法，可以绕过相关限制。其大概原理是通过测试应用创建一个webview，然后将画面视图投射到网络浏览器中，不过这一浏览器并非外部设备，而是Quest设备内的应用。接着，测试应用对接收投射视图的WebView的像素内容（RenderTexture）进行采样，这样便可以访问Quest 3的透视相机数据。作为测试的一部分，测试应用还绑定了开源MobileNet V2对象检测模型，该模型可以实时检测现实物体并给出相应的答案。目前Meta暂未对此做出回应，不过早些时候，Meta CTO Andrew Bosworth曾表示团队会持续关注让开发人员访问透视相机权限这一问题。对于Vision Pro而言，此前在visionOS 2版本更新中，设备已经支持向企业公司提供相机访问权限，不过条件仍相对苛刻。

【关键词】MR，Quest3，全彩透视

【数字创意】Meta推出AI新模型VFusion3D，可在几秒钟内从单个图像生成3D资产（2024-08-13）

【摘要】　　8月13日，VR陀螺讯，Meta与牛津大学研究人员合作开发的VFusion3D AI模型，标志着3D内容创作领域的一大进步。该模型能够从单张图像或文本描述中快速生成高质量的3D对象，极大地简化了虚拟现实、游戏和数字设计等行业的3D建模流程。VFusion3D的界面设计直观易用，用户可以轻松上传图像或选择预加载的示例进行3D模型生成。通过预训练的视频AI模型生成合成3D数据，研究团队有效解决了3D训练数据稀缺的问题，并提高了模型的训练效率。VFusion3D的核心优势在于其能够从多个角度想象物体，利用微调的视频AI模型生成多视图视频序列，从而训练出更强大的3D生成系统。在测试中，VFusion3D展现出了卓越的性能，其生成的3D模型在90%以上的时间里获得了人类评估者的青睐。随着技术的进一步发展，预计VFusion3D将进一步提升其能力，为3D内容创作带来革命性的变化。该技术的应用前景广阔，游戏开发者、建筑师、产品设计师以及VR/AR应用开发者都将受益于这一突破，能够更快速、更经济地制作出高质量的3D资产。VFusion3D的研究论文已被2024年欧洲计算机视觉会议（ECCV）接受，其代码已在GitHub上公开，为全球研究者提供了进一步研究和开发的基础。

【关键词】AI，3D生成，VFusion3D

【数字创意】Meta在Audio SDK引入声波射线追踪，以增强VR音频沉浸感（2024-07-31）

【摘要】　　7月31日，VR陀螺讯，沉浸感是VR体验的一个决定性因素，除了令人惊叹的视觉效果，高品质音频也非常重要。Meta宣布将为开发者提供更精确的音频模拟，在Audio SDK中推出了新的声波射线追踪功能（Unity | Unreal）。通常情况下，开发者会使用定制的临时系统来实现声学效果，这些系统使用游戏逻辑来驱动音频系统参数。但这种手动调试的方法往往需要花费不少时间和人力，而且复杂难用。市面上的一些高精度的声学模拟解决方案也不是专门为VR硬件而设计的。现在，开发者可以利用Audio SDK中新的声波射线追踪功能，在Unity和Unreal中为虚拟环境轻松创建逼真的声学效果。开发者只需在游戏编辑器中加载虚拟环境，标记相关几何体，然后按照一系列简单的步骤就能自动生成精确的声学模型。新功能可对反射和混响进行精确建模，实现声音的实时动态调整。声学技术（以及空间音频）应用于语音，还可以真正增强多人游戏和竞技游戏的沉浸感。

【关键词】Meta，VR音频，声学技术

【数字创意】Apple Vision Pro实现脑机接口控制（2024-07-31）

【摘要】　　7月31日，VR陀螺讯，Apple Vision Pro现在可以通过与神经技术公司Synchron的脑机接口技术结合，实现仅凭思考即可控制设备的功能。64岁的肌萎缩侧索硬化症（ALS）患者马克通过这项技术，成功地控制了Vision Pro，无需动手即可进行如玩纸牌、观看Apple TV和发送短信等操作。这项技术自2023年8月植入以来，已经让马克能够每周两次练习不同的技能和功能。Synchron 的脑机接口技术通过微创血管内手术植入患者的运动皮层表面，能够检测大脑的运动意图，并将信号无线传输到外部设备，实现免提控制。首席执行官Tom Oxley强调，BCI技术是一个平台，可以帮助受伤或患病的人重新与消费技术领域建立联系。Synchron 正在准备进行更大规模的临床研究，并寻求美国食品和药物管理局的批准，以将其技术商业化。

【关键词】脑机接口，苹果，Synchron

【数字创意】Meta Quest新API大幅改善了遮挡效果（2024-07-23）

【摘要】　　7月23日，VR陀螺讯，遮挡是指虚拟物体能以正确的空间位置出现在真实物体后面的能力，这是MR设备的关键功能之一。仅对预扫描场景执行此操作称为静态遮挡，而如果系统支持更改场景和移动物体，则称为动态遮挡。早些时候，Meta面向开发人员提供的Depth API已经支持静态/动态遮挡效果，不过如果想要与应用集成则相对复杂，它需要开发人员修改着色器以适应他们想要遮挡的所有虚拟对象。此外，它的动态遮挡效果并不好，如物体边缘容易出现缝隙、手指缝细节容易丢失等。近期，伴随着Meta XR Core SDK v67版本的推出，其Depth API的效果得到了显著改进，Meta表示，相较以往，集成该API后， GPU消耗可减少80%，CPU消耗可减少50%，这可为开发人员释放更多资源。此外，新的API更容易集成，并且视觉效果也有了一定改善。

【关键词】MR，Meta，API

【数字创意】卡内基梅隆大学与Meta合作开发神经接口腕带，以提高人机交互能力（2024-07-10）

【摘要】　　7月10日，VR陀螺讯，卡内基梅隆大学（CMU）与Meta于2024年7月9日宣布了一项合作项目，目标是开发一种神经接口腕带，利用可穿戴传感技术提高人机交互能力。该技术通过肌电图（EMG）传感器测量手腕肌肉产生的电信号，将其转化为数字和混合现实（MR）环境中的输入信号。Douglas Weber教授的研究表明，即使手部完全瘫痪的人也能通过前臂肌肉控制设备，为肢体残疾人士提供了使用计算机和其他数字设备的可能。Meta与CMU的研究团队合作，使用Meta的表面肌电图（sEMG）原型和相关软件，评估脊髓损伤患者与数字设备的交互能力。项目以交互式计算任务为中心，参与者首先进行适应性小游戏，熟练后在MR环境中体验新游戏和内容。这项研究是Meta支持开发公平、无障碍界面的一部分，旨在帮助更多人共同完成工作。

【关键词】神经接口，人机交互，Meta

【数字创意】英伟达研究利用AI和新型显示器开发更轻、体积更小的全息AR眼镜（2024-06-28）

【摘要】　　6月28日，VR陀螺讯，近日英伟达的技术博客更新了一篇文章，提到英伟达正在与斯坦福大学Gordon Wetzstein带领的计算成像小组合作改进AR眼镜的设计，使其更轻、体积更小。新的显示元件——空间光调制器（SLM）不是操纵光的强度，而是操纵光的相位，从而能够在SLM的前面或后面重建3D全息图像。利用这一原理，团队推出了厚度仅为2.5毫米的全息眼镜。利用波导、全息近眼显示器和几何相位透镜，可以制造出厚度极小的全息眼镜。该团队还制作了台式和可穿戴式原型进行测试。双目可穿戴原型支持为虚拟内容提供完整的3D深度提示。它提供了22.8度的对角视场角，具有2.3毫米的静态eye box和具有光束控制功能的动态eye box，重量仅为60克（不包括驱动板）。该设计的另一个重要特点是使用了人工智能驱动的全息算法。SLM由激光等相干光源驱动，其中波导系统中相干波前的精确操控对于全息显示器至关重要，但相干光具有干扰特性，为了应对这一挑战，英伟达团队开发了一个数学模型，利用物理精确建模技术和人工智能相结合来描述相干波在波导中的传播。

【关键词】英伟达，AI，全息AR

【数字创意】Ceres Holographics推出多显示屏全息HUD挡风玻璃（2024-06-28）

【摘要】　　6月28日，VR陀螺讯，6月26日，全息技术和解决方案提供商Ceres Holographics宣布与伊士曼化学公司合作，最近推出了一款全集成挡风玻璃，其特点是在单个层压结构中包含多个全息光学元件（HOE）。该公司声称，该解决方案利用其“HoloFlekt”技术生产出具有多个HOE的薄膜，然后利用伊士曼专有的层压工艺将这些薄膜无缝地层压在挡风玻璃内，这种方法为在任何玻璃表面生产多显示屏HUD区域提供了一种更具成本效益和可扩展性的方法。挡风玻璃与汽车结合后，就可以通过汽车仪表板上的小型LED投影仪为每个显示区域投射内容。Ceres指出，其HoloFlekt薄膜实现方法允许在单个挡风玻璃上设置多个显示区域，每个显示区域的尺寸、位置和视角都可根据OEM规格进行定制。然后，每个独立的显示区域都包含一个专门编程的HOE，从而实现更大视场的HUD。Ceres表示，这种独特的功能“只有通过全息技术才能实现”，因为该技术提供的光线操控精确度超越任何传统光学能力。

【关键词】全息技术，显示屏，HUD挡风玻璃

【数字创意】广电中国5G-A网络启动：3倍于4G，支持VR/AR体验（2024-06-28）

【摘要】　　6月28日，新浪财经讯，近日，中国广电在重点城市启动了基于5G商用网络的5G-Advanced（以下简称5G-A）网络能力部署开通，为全面商用5G-A网络奠定了基础。据了解，中国广电5G-A网络应用了三载波聚合技术，并融合了高低频资源，结合了确定性体验保障等技术，能够显著提升网络速率和用户体验。在核心商区、旅游景区、体育场馆、会展中心等人员密集场所，使用中国广电5G-A网络可以有效避免通话掉线、数据传输延迟、低速等问题，保证通信的连续性和实时性。此次部署的中国广电5G-A网络基于TDD+FDD 3CC载波聚合技术，在现网复杂无线传输条件下，实现了3Gbps以上的单用户下行峰值速率，能够满足全场景开展高并发量即时通讯、高清视频、智慧导览、VR/AR多媒体等应用需求。此外，中国广电5G-A网络还支持700MHz低频网络，并引入了5G RedCap（轻量化5）技术。这种技术可以支持包括个人穿戴设备、工业传感器等在内的轻量化5G终端，适用于toC/toB场景。

【关键词】5G-A，高清视频，VR/AR

【数字创意】万有引力宣布JX007芯片流片成功并点亮（2024-06-14）

【摘要】　　6月14日，VR陀螺讯，近日，XR芯片解决方案商万有引力宣布团队迎来重要里程碑，其最新芯片JX007，从TSMC回片并顺利点亮。据介绍，该芯片采用了TSMC的先进工艺，于5月完成回片，并在6月初顺利完成芯片的全业务验证，标志着芯片流片成功。JX007芯片具备广泛的应用场景，首先是反向透视功能。这一技术能够带来全新的虚实交互体验，广泛应用于高端XR设备。此外，该芯片还可用于机器人脸部的显示和交互系统，使人形机器人拥有更强的情绪感染力和交流能力，打破人类与机器人交流的壁垒。万有引力商业合作上也取得了重大突破，JX007芯片已与某XR头部企业达成合作项目，旨在利用JX007的先进性能，推动XR设备的技术进步，为用户提供更加自然的虚实社交。

【关键词】XR，芯片，万有引力

【数字创意】索尼或将开发VR脚部传感器（2024-05-31）

【摘要】　　5月31日，VR陀螺讯，近期，根据索尼一项专利显示，索尼或将正在开发VR脚部传感器，可以让用户在VR游戏中实现用脚部摆动、倾斜或扭动动作来体验游戏以避免晕动。根据专利图显示，在游戏中跳跃，VR脚部传感器可以通过将双脚移动到某个阈值上触发，传感器将计算双脚与基线位置的位移，并确定已做出跳跃动作，从而导致VR角色跳跃。这将允许玩家保持躯干静止并主要用双脚进行游戏，从而开辟了许多辅助功能选项。然而，值得注意的是，索尼经常提交新的视频游戏技术专利，如果没有官方公告，就不能保证这种VR脚部传感器会被生产和销售。

【关键词】索尼，VR游戏，脚部传感器

【数字创意】三星显示预计AR LEDoS最终将进化为单片RGB面板（2024-05-31）

【摘要】　　5月31日，VR陀螺讯，近日，三星显示副总裁Huh Jong-moo出席了一场由TheElec主办的微型显示器会议，会议期间，他指出，LEDoS（亦称硅基LED或Micro-LED）将从蓝光和量子点（QD）发展到RGB三片屏，而最终则是单片面板技术。首先蓝光和QD LEDoS是通过在COMS面板或背板上形成蓝色LED制成，顶部带有微透镜阵列的QD层用于实现其他颜色（红色、绿色）并增加亮度。RGB三片屏采用三片CMOS屏，每片上面分别集成了R、G、B LED，这需要采用波导技术来控制光波。单片面板仅使用一个COMS面板，其上面的R、G、B LED多采用垂直堆叠或水平对齐。Huh指出，LEDoS与Mico-OLED不同，后者R、G、B OLED可以一起沉积在玻璃或COMS面板上，而LEDoS的R、G、B LED必须单独制造才能安装到COMS面板上，因此存在难度和成本问题。LEDoS不仅是OLED的简单延伸，背后还需要光学、面板、工艺和材料方面的新技术。Huh表示，由于内容缺乏、设备不便以及成本高昂，XR设备仍未普及，而微型显示器市场仍处于早期阶段。

【关键词】Micro-LED，三星显示，AR

【数字创意】Leia推出2D转3D的视频工具Immersity AI，可用于XR头显（2024-05-31）

【摘要】　　5月31日，VR陀螺讯，3D显示技术提供商Leia最近宣布推出Immersity AI，该公司称这一新平台可将2D图像和视频转换为身临其境的3D体验，并支持XR头显。Immersity AI现在可以免费使用。不过部分XR导出功能需要额外付费。Leia指出，Immersity AI（以前称为“LeiaPix”）已经孵化了一年多，在2D到3D的转换中获得了更高的清晰度和速度。据该公司称，在此期间，其最初的工具（可快速将2D图像转化为具有深度和运动效果的3D图像）已获得300万用户，每月新增用户达20万。Immersity AI由Leia的神经深度引擎提供支持，可以在几秒钟内生成精确的深度图像。Leia表示，使用Immersity AI也非常简单。用户只需上传文件、输入深度强度并在几分钟内导出一个20秒的样本。然后，该样本将以所有主流格式提供，可用于传统显示设备和XR设备，如Meta Quest 3和苹果Vision Pro。

【关键词】XR头显，3D视频，AI

【数字创意】亮度10000尼特，LG首次展示VR用OLEDoS新技术（2024-05-16）

【摘要】　　5月16日，VR陀螺讯，近日，SID Display Week 2024在加利福尼亚州圣何塞热力开启。LG Display在大会上展示了多款下一代OLED显示器，涵盖VR用OLEDoS新技术、超越画质极限的大尺寸OLED面板技术，以及最适合SDV（软件定义汽车）的车载显示解决方案。据称VR用OLEDoS技术是首次亮相，是一块1.3英寸的屏幕，能够实现10,000尼特的超高亮度。对比当前技术大幅提升了屏幕亮度和分辨率，具备业界领先的画质水平。此外，4K级4000ppi超高分辨率以及色彩表现准确性达到了数字电影倡导组织（DCI）制定的DCI-P3色域标准97%以上，可为用户带来更逼真的虚拟现实体验。本次展会上，LG还推出了业内首款智能手表用OLEDoS。凭借1.3英寸的显示尺寸以及4K分辨率，该产品用于手腕也可呈现清晰的显示画面。该产品还搭载裸眼3D功能的Light Field Display技术，为用户带来全息显示般的效果体验。

【关键词】LG，VR显示屏，OLEDoS

【数字创意】腾讯推出静态图像3D渲染AI模型InstantMesh（2024-04-30）

【摘要】　　4月30日，VR陀螺讯，日前，腾讯发布了一种新的可以使用静态照片渲染3D对象的AI模型“InstantMesh”。据悉，InstantMesh是对腾讯旧版Instant3D框架的升级，可以结合多视图扩散模型和基于大型重建模型（LRM）架构的稀疏视图重建3D对象。目前，腾讯已经在Hugging Face上开源该AI模型InstantMesh模型，以便开发者测试其生成效率。此外，腾讯还推出了效果预览应用程序，建模爱好者们可以在程序中添加照片并预览其3D渲染效果。通过测试，这一建模过程可以在10秒内完成，但渲染质量仍有待提高。此外，该模型研究论文还分享了与不同于现有模型（包括最近推出的Stability AI的Stable Video 3D）的基准分数。根据研究数据，InstantMesh在Google扫描对象 (GSO)和OmniObject3D (Omni3D)轨道视图上的表现优于SV3D。SV3D在Omni3D基准测试中的几个参数中表现更好，这些参数与输出的分辨率相对应。

【关键词】腾讯，3D建模，AI模型

【数字创意】支持个人音色定制，国内首个免费数字分身定制工具发布（2024-04-30）

【摘要】　　4月30日，北京日报讯，4月26日，B站发布国内首个免费数字分身定制工具“必剪Studio”。据悉，该工具一站式集成了“数字分身”及“音色定制”功能，能帮助出镜创作者、录音创作者有效提升创作效率。据介绍，“数字分身”技术可利用真人视频、语音，借助AI技术一比一生成人物数字模型。获得模型后，用户只需导入录音文件或输入文本，即可生成类似实拍效果的出镜口播视频，节省常规创作流程中的实拍出镜环节。“音色定制”技术则让用户的“出镜口播”更加真实自然。据悉，用户在提交30分钟音频后，可以通过AI技术生成具有个人音色的模型。获得模型后，用户只需输入文字，即可生成语音，提升创作效率。值得注意的是，为保护个人隐私及信息安全，该定制模型仅供个人使用。

【关键词】数字人，AI，音色定制

【数字创意】李未可科技正式推出WAKE-AI多模态AI大模型（2024-04-23）

【摘要】　　4月23日，VR陀螺讯，在4月18日举办的2024中国生成式AI大会上，李未可科技正式发布为眼镜等未来终端定向优化的自研“WAKE-AI ”多模态大模型。该模型围绕GPS轨迹+视觉+语音打造新一代LLM-Based的自然交互，同时在多模态问答技术的加持下，具备文本生成、语言理解、图像识别及视频生成等多模态交互能力，能实现所见即所问、所问即所得的精准服务。此外，WAKE-AI还融合了人类意图理解、长期记忆机制、情感大模型及TTS 克隆，可以为用户提供超拟人的情感陪伴服务。为保证实时交互场景的智能性及响应速度，WAKE-AI使用了MOE架构，FlashAttention混合精度训练、知识蒸馏等技术大幅降低算力需求跟计算时间。该模型针对眼镜端用户的使用方式、场景等进行了优化，语音返回速度能做到<500ms以内，语音唤醒准确度>90%，ASR字错率低于2%，可以为用户提供户外运动、文化旅行、日程管理及实时翻译等多个室外场景的多模态AI服务。

【关键词】AI大模型，李未可，多模态

【数字创意】一项新的研究可以让智能手机实现3D全息投影（2024-04-23）

【摘要】　　4月23日，VR陀螺讯，日前，东京大学的一个团队推出了一种实用且经济高效的方法，可直接使用智能手机生成3D全息图像，旨在消除传统激光系统缺点的同时简化和增强VR/AR的3D显示。由于对激光光源的依赖，传统的全息生成技术虽然可以创建真实的物体3D表示却并不实用，激光器使系统变得复杂、昂贵，并且可能对眼睛有害。而在出版期刊《Optics Letters》中，研究人员描述了他们一项基于计算机生成全息术 (CGH) 的新方法，得益于团队开发的新算法，研究人员能在仅使用iPhone和称为“空间光调制器”的光学组件的情况下再现由两个全息层组成的3D彩色图像。在这项新研究中，研究人员开发了一种更便宜、更实用的非相干CGH方法。新方法使来自屏幕的光穿过空间光调制器，从而呈现多层全彩3D图像。为了演示这种新方法，研究人员通过在iPhone 14 Pro的屏幕上显示一个全息层，在空间光调制器上显示第二层，创建了全彩3D图像的双层光学再现。所得图像的每边尺寸为几毫米。研究人员目前正在努力改进该技术，使其能够显示更大、层数更多的3D图像。同时提高附加层空间分辨率并允许对象出现在距观看者几个不同的深度或距离处，使图像看起来更加真实。

【关键词】VR头显，智能手机，3D全息投影

中国行业发展报告

月度监控

行业周评（热点专题）

政策解读

近期政策

国内新闻

前沿技术

国外同业

公司动态

公司研报

关键指标

趋势预测

碳中和

绿色金融

新基建