苹果dToF系统设计亮点解析-北京科技新闻网

作者简介李安，安思疆科技CEO，硕士毕业于浙江大学光电系，曾就职于华为2012实验室，独立设计了3D结构光系统，主导潜望式镜头光学设计，大规模应用在华为旗舰机，...

作者简介

李安，安思疆科技CEO，硕士毕业于浙江大学光电系，曾就职于华为2012实验室，独立设计了3D结构光系统，主导潜望式镜头光学设计，大规模应用在华为旗舰机，多项核心技术专利（包括美国专利）第一发明人，发表多篇论文，精通几何光学、衍射光学，激光，复杂光电系统设计，熟悉微纳光学、图像处理、3D视觉算法、光电芯片等领域，拥有完整的产品及产业经验和深厚的理论及技术背景。安思疆也是继苹果之后，第2家发布消费级面阵dToF激光雷达的公司。

2022年9月，苹果发布了全新的iPhone 14系列手机，其中Pro和Pro Max均延续了前代配置中的后置dToF Lidar模组，用于手机AR、3D扫描建模、辅助对焦等功能，大幅提升智能手机3D视觉体验。实际上，早在2020年3月苹果发布新款iPad Pro，其后置相机模块中就进行了大幅革新，首次搭载了自研的基于dToF技术的Lidar模块；随后仅隔半年，在10月份发布iPhone 12系列中，也搭载了这一技术；是苹果继2017年发布3D结构光后，迎来的又一重大技术里程碑，同时也是大面阵3D Lidar首次在消费电子产品中的大规模应用。

图1 iPhone后置激光雷达

3D感测技术作为苹果公司近年来重点布局的方向，已应用在生物识别、拍照、游戏、建模、虚拟现实、增强现实等领域，进一步强化了其在3D视觉技术领域的护城河。3D传感技术主流包括结构光技术（Structure Light）和光飞行时间测量技术（ToF, Time of Flight），后者又分为间接飞行时间测量iToF和直接飞行时间测量dToF。苹果在技术路径上最终选择了结构光技术和dToF技术分别应用在前置相机和后置相机上，形成互补，兼顾前置和后置的各种3D视觉应用。

苹果3D Lidar的核心部件为VCSEL+ Collimator +DOE（组成发射端）、Imaging Lens +Narrow-band Filter +SPAD (组成接收端)、高速高功率激光驱动电路。这些器件之间几乎没有相通之处，每一个器件都是一个独立的领域，集结了几何光学、衍射光学、光电子学、激光、半导体物理、模拟电路、数字电路等领域最前沿的技术，如此多前沿学科的交叉必然使得系统设计异常复杂，然而学科交叉又是最容易产生创新的地方，下面就让我们一起来解读苹果这套Lidar系统的部分亮点。

Spot dToF

为了满足严苛的系统规格要求，苹果采用了一种基于可寻址VCSEL点阵扫描的全固态方案“Spot dToF”，采用了与3D结构光类似的点阵激光，不同于结构光超过3万个激光点阵，Spot dToF仅有576个激光点阵，相差50倍，但其单点功率要远高于结构光。在相同电功率下，其出射的光能量密度要远远高于面阵方案，估算差别甚至可以达到15-30倍，可以解决两大难题：一、在户外使用时阳光干扰的问题；二、手机硬件电路的设计问题。采用这种点阵方案能够维持户外使用的效果，而且由于能量集中，其抗干扰能力也会得到极大的加强；可以完全与当前的设计兼容，在手机这种限制极多的情况下，Spot dToF是手机后置3D视觉的最优解。

超细像素

在这里引入苹果称之为“超像素”（Super pixel）的概念，如下图，把m*n个单元像素通过类似在CIS中常用的Binning方式来合并，变成1个像素，这个像素就称为超像素，而TDC连接的就是这个超像素。

每个超像素就是一个小区域，其中包含了数十个单元像素，在这个超像素工作的时候，对应的激光斑点就落在这个超像素内，从而进行感光测量。关于超像素还有两个问题，一方面由于发射和接收采用的是非同轴设计，会产生视差，必须要综合考虑使用距离、模组尺寸、单元像素大小、组装误差等众多因素，才能最终确定超像素的子单元像素的数量，在苹果方案中此数量大概是50个；另一方面，散斑在SPAD阵列上成像的大小一般只占据超像素其中的几个单元像素，例如9个，但如果把整个超像素的探测深度都定义为同一个深度的话，就会大大降低其空间的横向分辨率，即XY方向的分辨率（假设深度是Z方向）。举个简单例子，这可能会导致最终完全分辨不清手指和整个手，如此低的分辨率是不能接受的，为了解决这一问题，苹果在每个超像素中还划分了更细的像素组合，我们可以把它叫做超细像素，这些超细像素会在测量周期的前段进行扫描，从而准确定位散斑在超像素中的位置，接着再进行全面的测量。这一过程也是十分复杂的，又大大增加了SPAD阵列的设计难度。

3D视觉算法

按照上述的方案，如果所有器件都完美地协同工作，就能得到576=24*24分辨率的精确深度图，这样的分辨率太稀疏，完全没有发挥SPAD阵列30000=150*200分辨率的能力。这就需要通过软件来补齐最后的这一短板，苹果应用了当前AI与机器视觉领域最前沿的研究成果，利用主摄单目RGB生成稠密但不准确的深度，利用Spot dToF生成稀疏但准确的深度，最后利用神经网络引擎将两者进行算法融合，得到一幅既稠密又准确的深度图，也就是我们在手机上最终看到的效果。当然这一过程并不像此处所讲的这么简单，也需要庞大的工程量，安思疆也是经过了2年的研究才有成果。