上海奥麦达微电子有限公司

专业高效
微纳加工公司

6寸氮化硅超透镜+光子神经计算 --可转移的多色光学编码器用于神经网络"

摘要

微信图片_20250227095233


人工神经网络(ANNs)在计算机视觉领域中带来了根本性的变革,提供了前所未有的性能。然而,这些用于图像处理的ANNs需要大量的计算资源,常常阻碍实时操作。在本文中,我们展示了一种光学编码器,该编码器在图像捕捉过程中可以同时在三个颜色通道中执行卷积,有效地实现了ANN的几个初始卷积层。这样的光学编码使计算操作减少了24,000倍,并且在自由空间光学系统中实现了最先进的分类准确率(约73.2%)。此外,我们的模拟光学编码器经过CIFAR-10数据的训练,可以在不做任何修改的情况下转移到ImageNet子集High-10上,并且仍然表现出适度的准确性。我们的结果证明了混合光学/数字计算机视觉系统的潜力,在该系统中,光学前端可以预处理周围场景,从而减少整个计算机视觉系统的能耗和延迟。

关键词: 神经网络,元光学,物体检测,图像分类

划重点:

#新开发磁控溅射镀膜在石英上,超高膜厚均匀性 (有样品)

#氮化硅超表面6寸150nmDUV加工 (超高性价比 ,从版图提交到切成单颗芯片全流程加工,快速高效,经验丰富

#石英上氮化硅薄膜晶圆

微信图片_20250227095236

微信图片_20250227095238

1 引言
视觉信息在人类反应中扮演着至关重要的角色,尤其是在反应时间限制在几毫秒到几百毫秒的情况下[1, 2]。尽管人脑的效率远超任何其他人类制造的计算系统,但由于信息量庞大,它仍然无法处理所有收集到的视觉数据。更有可能的是,我们的大脑进行早期视觉处理,以提取必要的特征,便于高效和快速的解读,而不处理全部的视觉数据[3-5]。

随着人工智能(AI)的飞速发展,得益于人工神经网络(ANN),计算机能够像人类大脑一样处理视觉信息,从而实现计算机/机器视觉[6-10]。尽管取得了令人印象深刻的进展,但即使是更高效的算法,实时推理在计算资源有限的情况下仍然是一个巨大的挑战。例如,在飞行物体(如栖息地无人机[11])的现场数据处理中,受限于严重的加热、电池容量和重量处理等问题,挑战重重。利用基于云的系统则面临与数据安全以及额外的数据传输延迟相关的挑战[12, 13]。

光学神经网络作为一种潜在平台应运而生,可以绕过这些权衡问题,因为光学系统可以利用大量的时空带宽处理多维信息[14]。近年来,集成光子学以及自由空间或光纤光学已被用于实现ANN的一部分,用于图像压缩/加密[15, 16]和分类[17-21]。然而,大多数光学神经网络仅限于解决相对简单的灰度数据集(如MNIST和fashionMNIST),并且只有少数系统展示了它们在更复杂的多通道数据集(如CIFAR-10和ImageNet)中的实现[17, 19]。对于这些复杂的数据集,光学系统通常变得非常庞大(包含多个光子电路堆叠)[19],否则分类准确率仍然较低(CIFAR-10分类任务的准确率约为60%)[17, 22, 23]。此外,最成功的ANN架构使用了非线性激活函数,而这些函数在光学上实现具有挑战性。提出的解决方案,包括原子蒸气池[24, 25]和图像放大器[26],引入了显著的实验复杂性,并增加了额外的功耗。

为了利用光学和数字计算系统的优点,受编码器-解码器启发的混合光学/数字架构是一种有前景的方法[8, 10, 27, 28]。具体来说,模拟线性光学前端(称为光学编码器)执行大部分线性计算任务,而数字后端则实现非线性操作。一种有趣的可能性是使用静态光学前端,它对数据不敏感,而后端则经过训练并重新配置。这解决了全光学系统中常见的调制速度、错误和系统尺寸问题。光学编码器特别适用于卷积神经网络(CNN)架构,其中卷积层作为特征提取器,将高维图像编码为低维特征[29]。事实上,每个自由空间光学系统在成像过程中本质上都会执行二维卷积操作,且使用的是不相干光。捕获的图像是场景和光学系统的不相干点扩展函数(PSF)卷积的结果[30]。因此,通过工程化PSF,光学编码器可以执行所需的卷积,并替代CNN的初始层。

最近,PSF工程化光学编码器已被用于分类MNIST手写数据集,并显示出比AlexNet大大减少计算成本的合理分类准确率[31]。然而,值得注意的是,MNIST图像是单色的,且几乎可以线性分离(没有非线性时损失为0.84%[32])。图像的单色特性使得PSF工程方法对波长不敏感。另一方面,像CIFAR-10[33]或ImageNet子集(High-10)[29, 34]这样的数据集,不能通过线性层分离。此外,这些数据集包含彩色图像,其中实际的颜色信息在分类中被利用。

在这里,我们展示了一种多色光学编码器,该编码器利用PSF工程化的元光学来分类CIFAR-10数据集。我们首先通过知识蒸馏将架构压缩为一个卷积层和两个全连接层。然后,我们通过使用一组超表面物理实现了卷积层,其中每个超表面由于固有的色度特性,对每个颜色通道执行单独的卷积。因此,采用光学编码器的混合CNN将数字后端的乘加(MAC)操作总数减少了约24,000倍。MAC操作数量的减少直接对应于计算成本,即功率和延迟[35]。值得注意的是,我们始终需要一个成像系统(如镜头和相机)在环境光照下捕获图像,然后再将图像数据传递到计算后端。因此,使用单个元光学编码器,我们并没有增加任何额外的光学元件,而是简单地用PSF工程化的元光学替代了传统的镜头。这使得我们的光学系统紧凑,并且完全兼容传统的光学成像系统,而其他系统,如集成光子系统,通常需要对数据进行预处理[19],而传感器内计算则需要定制的传感器设计[36]。

此外,我们将同样的元光学(光学卷积层)应用于CIFAR-10数据集优化的High-10数据集,以探索光学编码器的通用性。在实际应用中,静态光学编码器应该适用于任何场景。虽然,一种方法是采用可重配置的前端,例如基于非易失性相变材料[37]或液晶[38],但是这些可重配置前端在像素控制、功耗和工作速度方面的性能仍然不适合实际部署。值得注意的是,使用相同的被动光学编码器(为CIFAR-10数据集优化),我们通过微调数字后端并增加额外的全连接层(通过迁移学习方法),成功地为High-10数据集实现了高分类准确率。前端通用化的能力对于任何ANNs都是至关重要的,因为它增强了它们的多样性、效率和鲁棒性。一个能够很好地泛化的网络可以应用于不同的任务,而无需大量的再训练,从而节省时间,减少元表面制造的成本,并为现实世界应用节省计算资源。

2 结果
微信图片_20250227095240
图1:使用原始CNN、压缩的全数字CNN和混合光学/数字CNN的不同图像分类方法的示意过程流。
我们的光学编码器概念如图1所示。原始的CNN,即AlexNet,具有五个卷积层和三个最大池化层,位于前端,后面是三个全连接层,每一层都使用了非线性激活函数“ReLU”。将所有五个卷积层替换为五个顺序光学元件是非常困难的,因为存在对准误差、大型系统尺寸、缺乏非线性和低信噪比等问题,随着光学元件数量的增加,这些问题会变得更加复杂。因此,我们使用知识蒸馏方法[39]将AlexNet压缩为一个卷积层和两个全连接层,从而在准确度仅有最小妥协的情况下,减少了架构的复杂性。

虽然压缩原始CNN对于实现光学编码器方案至关重要,但也需要考虑实际的权衡。一方面,传感器和元光学的物理尺寸限制了卷积核的数量和大小。另一方面,较小的卷积核尺寸或卷积核数量无法有效地分类数据。在压缩原始CNN时,我们通过经验搜索了最优的卷积核数量和大小。对于CIFAR-10分类任务,我们设计了16个7×7大小的卷积核(详细信息见补充材料)。压缩后的全数字CNN的训练准确率为76.24 ± 0.31%,测试准确率为75.90 ± 0.30%。

由于CIFAR-10图像包含三种通道信息——分别对应红色(R)、绿色(G)和蓝色(B)——因此我们为每种颜色设计了16个7×7的卷积核,共计48个卷积核。在元光学中,可以设计一个单一的元光学组件,产生三个不同的PSF(即卷积核)来对应RGB波长(更多细节见方法部分)。由于在相同时间内很难在相机上创建正负权重,因此我们将每个卷积核分为正负两部分,并为每部分设计一个光学元件[40],总共有32个元光学组件,分别对应16个正负多色卷积核。

另一个重要的设计参数是确定相机上的几个像素表示PSF的一个像素。我们称之为放大因子。例如,当放大因子为2时,真实的PSF(即7×7矩阵)将对应相机上的14×14像素。虽然较大的放大因子可以确保较少的对准误差,但相机每个像素上的信号强度会较低,导致较低的信噪比。为了确定最佳的放大因子,我们实验性地测试了几种不同放大因子的元光学组件(更多细节见补充材料),并得出对于由3200×3200散射体构成的元光学组件,最佳放大因子为2。

微信图片_20250227095242


图2 多色超光学设计。
(a) 超光学散射体的示意图,硅氮化物柱状结构位于石英基板上。
(b) 对于不同RGB波长,当柱高固定为800 nm时,柱宽w对柱阵列的相对相位移(虚线)和透射率(实线)的影响。阴影线为相位移关于w的拟合代理函数。
(c) 多色超光学优化的设计流程。

这些超表面由氮化硅材料制成,并且位于石英基板上,以确保在可见波长范围内具有高透明度(图2a)。图2b展示了在RGB波长下,氮化硅柱子的传输系数和相位偏移,作为柱子宽度w的函数,在固定高度为800 nm时,通过严格的耦合波分析(RCWA)得到的结果。我们选择450、532和635 nm的波长来对应RGB颜色,这些波长基于激光二极管的可用性。

为了有效地在基于梯度下降的优化方法中模拟元光学的波长依赖效应,需要一个快速且可微分的函数来映射柱子宽度与施加的相位之间的关系。我们定义了一个代理函数,灵感来自于具有修正因子的介质波导的近似相位偏移,这些修正因子是通过与RCWA模拟结果的拟合得到的。为了计算RGB波长下相对于柱子宽度w的相位偏移(fR、fG和fB),我们定义了代理函数。

微信图片_20250227095245

第一个项对应于介质波导的通用相位偏移,其中 neffn_{\text{eff}} 和 LL 分别是氮化硅柱子的有效折射率和高度。第二项仅包含宽度 ww 的变化,作为高斯形状的修正项,AABB 和 CC 为拟合参数。最后,f0f_0 对应于相位偏移偏移量,使得 fλ(0)=0f_\lambda(0) = 0。这个代理函数并没有模拟由共振引起的相位变化;然而,我们不希望使用这些相位变化,因为它们会降低幅度,且这些共振在由于侧壁粗糙度造成的制备设备中预计会不那么明显。

图2c展示了针对个别RGB颜色优化PSF的多色RGB元光学设计流程。对于一个通过任意二维柱宽度映射 w(x,y)w(x, y) 参数化的元光学,我们使用代理函数 fλf_\lambda 提取三个独立的相位图。然后,我们使用角谱方法[41]传播电磁场,以模拟位于焦平面上的PSF,焦平面距离元光学2.4毫米。在焦平面,我们比较通过知识蒸馏得到的卷积核计算得到的计算机真实PSF(PSFGT,λP_{\text{SFGT},\lambda})与光学模拟的PSF(PSFsim,λP_{\text{SFsim},\lambda})在每个RGB通道的差异,其中通道相关的损失定义为每个像素差异平方和的总和:

微信图片_20250227095247
我们优化二维柱宽度的映射,即元光学,以最小化总损失,该损失定义为在三种不同颜色下损失的均方根,使用TensorFlow中的Adam优化器[42]:
微信图片_20250227095250

计算出的三种不同颜色下所有卷积核的损失显示在补充材料中。
图3a展示了制作芯片的光学图像。单个芯片包含总共32个卷积元光学元件(对应16个正向和16个反向卷积核),以及额外的5个金属透镜,这些金属透镜在焦平面上聚焦光线,以帮助对准(例如,倾斜、旋转和距离)元光学元件与相机之间的关系。图3b展示了PSF测量设置的示意图。通过更换激光二极管,我们将单独的RGB相干光照射到相机上,通过元光学元件并实验性地表征多色PSF。一个25µm直径的小孔产生一个近似点光源,在更换激光二极管时,光学元件的位置(即小孔、元光学元件和相机)保持不变。

图3c展示了特定卷积核在RGB波长下的真实PSF和实验测量的PSF。为了定量分析真实PSF和实验测量PSF之间的差异,我们定义了一个余弦似度(η)定义为:

微信图片_20250227095252

其中,AiA_i 和 BiB_i 分别是RGB波长下真实和测量的PSF强度分布。计算得出的RGB波长下的相似度(η)分别约为0.88、0.56和0.81。定量差异部分可以归因于制造和测量的缺陷。此外,并非所有的多色PSF在物理上都是可实现的,因为不同波长下的相位并不是完全独立的。通过共同设计光学前端和计算后端(也称为端到端设计)[43, 44],而不是用光学替代卷积层,可能会提高η。然而,将元光学模拟包含在端到端设计中可能导致局部最优,并且制造/测量缺陷仍然存在。正如我们稍后在图中展示的,计算后端对于PSF中的这种差异具有鲁棒性,我们可以通过在数字后端引入额外的全连接校准层轻松纠正这些误差。

接下来,我们对CIFAR-10数据集测试多色光学编码器。通过用有机发光二极管(OLED)显示器替换小孔,我们将CIFAR-10图像与元光学的特征化PSF进行卷积(图3d)。显示的图像大小根据卷积核的大小和相机上的放大因子进行精确调整(更多细节见补充材料)。图3e展示了一个CIFAR-10数据集的RGB图像,经过计算和元光学卷积后的效果。通过元光学卷积后的图像丧失了一些高分辨率成分,这可能是由于制造缺陷和对准误差造成的,这些问题从PSF测量中已经可以识别出来,并且与相机RGB颜色像素之间的光谱重叠有关。然而,正如我们稍后在图中展示的那样,计算后端对于这种差异具有鲁棒性,因为我们通过对卷积后的图像进行平均池化将其缩放为6×6大小。我们添加了一个额外的全连接层,称为校准层,用于处理每个卷积核和颜色的权重,解决光学/数字系统之间的差异(例如,归一化、缩放、平移、旋转、倾斜、噪声等)。这个校准层允许我们使用预训练的数字后端,并且几乎不增加计算成本。关于校准层的详细解释见方法部分和补充材料。

微信图片_20250227095255
微信图片_20250227095257
图3 超光学编码器的光学表征。
(a) 制作的光学编码器的照片,由16个正向卷积核、16个负向卷积核和5个对准金属透镜组成。
(b) 多色PSF测量设置的示意图。
(c) 特定多色内核(正向内核编号7)的数字和光学测量PSF的真实值。
(d) 带有微显示器的超光学卷积图像测量设置的示意图。彩色相机捕捉单次拍摄的卷积图像。
(e) 特定CIFAR-10图像在各个RGB颜色下的数字(上方)和光学(下方)卷积结果。
(f) 使用不同网络架构的CIFAR-10数据集分类任务的混淆矩阵。

图3f展示了CIFAR-10数据集的分类准确性的混淆矩阵,比较了原始CNN(AlexNet)、使用知识蒸馏压缩的CNN和在压缩后使用卷积元光学的混合光学/数字CNN。尽管光学卷积和数字卷积结果之间存在轻微差异(图3e),但在引入校准层后,我们可以为训练和测试数据集实现相似的准确性(损失不到5%)(表1)。如果我们重新训练后端和校准层,准确度有可能进一步提高;然而,重新训练后端在实际应用中没有太大意义。此外,这种混合方法显著减少了计算成本,计算成本可以通过乘加(MAC)操作的数量来表示。从原始CNN到压缩CNN,我们可以将计算负载(用MAC操作数量表示)减少约1,400倍,而通过用元光学替代卷积层,我们可以进一步减少约17倍。每个CNN架构的MAC操作数量的详细计算见扩展数据表A1。网络设计和维度选择的详细信息见补充材料。

微信图片_20250227095300

图4 CIFAR-10图像数据集的主成分分析。
(a) 原始CNN,AlexNet。
(b) 压缩的全数字CNN。
(c) 无校准层的混合光学/数字CNN。
(d) 带有额外校准层的混合光学/数字CNN。

为了分析元光学卷积层的有效性,我们使用主成分分析(图4)。对于原始CNN和压缩的全数字CNN,每个类别都被很好地区分开(图4a和图4b),这意味着我们可以在卷积后提取CIFAR-10图像数据集的关键特征。另一方面,经过元光学的光学卷积后,在没有校准的情况下,图像的不同类别非常难以区分(图4c)。此外,一些聚类显示出比图4(a-b)更大的尺寸和重叠区域,例如海军蓝色、棕色和红色的聚类(置信椭圆)。然而,在引入校准层后,聚类区域变小,类别之间的分离度增加。如图4d所示,每个类别变得更好地分离和可区分,类似于压缩CNN。这一校准层的关键作用与没有和有校准层时的分类准确度一致(表1)。我们注意到,校准层可以通过额外的训练被压缩到预训练的数字后端中,并且不会影响推理的MAC操作数量(扩展数据表A1)。

微信图片_20250227095303

我们的卷积元光学实现了来自压缩CNN的卷积核,用于CIFAR-10数据。与计算神经网络不同,光学实现一旦制作完成就非常难以修改。这要求为不同的数据集设计不同的卷积元光学。然而,我们发现,我们为CIFAR-10优化的卷积层可以通过迁移学习过程轻松地适应用于分类另一个数据集——High-10。我们添加了一个额外的全连接层,称为“迁移学习层”,该层位于之前的全连接层和卷积层之间。通过训练迁移学习层,我们可以将另一个数据集,即High-10,适配到一个已经为特定数据集(即CIFAR-10)预优化的CNN中,只需要微调原始网络的一小部分,而无需改变之前的网络结构(详见方法部分)。

High-10图像数据集是多色的(RGB),且大小为224×224。为了使为CIFAR-10数据优化的CNN适应High-10数据,我们将High-10图像的大小调整为32×32,与CIFAR-10数据相同。未经迁移学习方法,训练和测试准确率较低,大约为40%。然而,经过迁移学习后,我们在High-10数据上的训练和测试准确率大幅提高(分别为约67.43%和66.01%),卷积层和两个全连接层的表现良好。我们进一步实验验证了该方法在我们的混合光学/数字CNN中的有效性,使用与CIFAR-10数据相同的卷积元光学和一个额外的全连接层。High-10数据的平均训练和测试实验准确率与压缩的全数字CNN相似(损失小于5%),这与CIFAR-10的情况大致相同。压缩CNN和混合CNN对High-10数据的主成分分析结果显示在补充材料中,在其中我们可以看到不同类别在其特征图中的可分离性。有关校准层设计、校准选择的数量和PCA可视化的详细信息,请参见补充材料。

3 讨论
3.1 多通道数据集
知识蒸馏和元光学编码器的优势在于显著降低了计算复杂度,这通过MAC操作来表示。对于CIFAR-10数据集,我们的混合光学/数字CNN将MAC操作的数量减少了约24,000倍。这一减少的幅度大约是MNIST手写数据集的一个数量级,在MNIST数据集中,元光学编码器将MAC操作的数量仅减少了约5,400倍[31]。

另一方面,与MNIST数据集相比,CIFAR-10数据集的分类准确率下降更为显著。对于CIFAR-10数据集,我们的混合CNN的训练(测试)准确率相较于原始CNN下降了约9.86%(约8.97%)。对于MNIST数据集,我们的混合CNN的训练(测试)准确率相较于原始CNN下降了约5.0%(约5.0%)[31]。虽然CIFAR-10数据集的分类准确率下降不可忽视,但与其他自由空间光学神经网络架构(兼容传统相机系统)相比,我们的PSF工程化光学编码器具有显著更高的分类准确率。我们的编码器在未重新训练后端并仅通过校准层投影的情况下,对于CIFAR-10数据集的分类测试(训练)准确率分别为约73.2%(72.1%)。如果我们重新训练后端,这些测试(训练)准确率可以进一步提高到约75.1%(73.2%),这比之前的最先进结果(约72.8%)更好,后者使用了复杂的端到端优化,并且后端使用了50个卷积核进行再训练[44]。我们的混合光学/数字CNN可以通过使用更复杂的元原子来光学再现更好的PSF[45],以及使用先进的压缩方法减少知识蒸馏过程中的损失[46],进一步提高性能。其他报告的准确率(约63%)[17, 22, 23]远低于我们的结果。

对于ImageNet子集High-10,由于我们使用了相同的CNN架构,因此MAC操作的数量减少与CIFAR-10数据集相同。我们的混合CNN的训练(测试)准确率相比原始CNN下降了约21.85%(约25.22%)。大部分损失发生在网络压缩过程中,因为我们共享了为CIFAR-10数据集优化的卷积层和全连接层。然而,尽管存在损失,我们的迁移学习结果的分类准确率仍为约61%,仍然优于其他自由空间光学神经网络系统[17]。在这里,我们选择了ImageNet数据集,该数据集具有比CIFAR-10数据集更复杂且更具区别性的类别。我们没有更改光学前端,只是微调了数字后端的两个全连接层和一个额外的迁移学习层,以展示我们混合CNN系统的多样性。

3.2 能源消耗
实际上,我们可以通过在成像过程中将镜头替换为超材料光学元件来实现我们的混合光学/数字卷积神经网络(CNN)。因此,能源消耗将完全由MAC(乘加)操作的数量决定。然而,重要的是还要考虑传感器的功率。具体来说,传感器的功率取决于传递到数字后端的像素数量。对于原始CNN,我们只需要32×32像素来捕捉图像。另一方面,混合CNN需要6×6像素来成像一个卷积图像,考虑到平均池化(详细信息见补充材料),这最终会生成32×6×6像素来表示所有正负核。因此,与原始CNN相比,我们的混合CNN在成像时需要更多的像素。

我们使用的彩色相机(Allied Vision Prosilica;GT 1930 C)的总功耗为3.4W,具有50.70帧每秒的速度和1,936×1,216像素,这导致每帧每像素的功耗为28nJ。因此,我们估计原始CNN和混合CNN在每张图像的图像捕捉过程中分别需要约29.1µJ和32.8µJ的能量。然而,计算后端的能量消耗对于原始CNN来说比混合CNN要大得多。对于最先进的计算系统,每个MAC操作的能量消耗约为1pJ[26, 43]。因此,混合CNN在单次物体分类任务中的能量消耗约为150nJ,比原始CNN(3.65mJ)小四个数量级。我们注意到,我们可以通过减少内核数量来权衡传感器功率,或者通过增加MAC操作来调整计算后端的功率。然而,在光学编码器中进行更多操作,同时使用简单的计算后端始终是首选,以减少延迟。

3.3 应用
与原始CNN相比,混合CNN在延迟和能源消耗方面具有显著的优势。此外,它可以在不修改物理架构的情况下,充分集成到商业成像系统(例如相机)中,唯一需要更换的是带有PSF工程化超材料光学元件的镜头。此外,能够对彩色图像进行编码为其在现实场景中的应用提供了潜力。然而,准确性的牺牲对于涉及安全的情况(例如自动驾驶车辆)来说是至关重要且不可妥协的。换句话说,如果物体分类用于统计分析(其中集成平均值可以最小化个体不准确性),我们可以忍受分类准确性的损失。栖息地监测无人机可以作为一个例子[47, 48]。特别是在无人机的情况下,减轻重量的限制至关重要,这迫使它只存储必要的特征。然后,现场数据处理将带来好处。由于我们的光学编码器能够减少现场数据处理的延迟和能源消耗,栖息地无人机可以在一次飞行中调查更大面积的区域。

4 结论
本研究结果有力地证明了光学前端可以显著减少计算机视觉任务中人工神经网络(ANN)的功耗和延迟。尽管在光学实现中存在实际的制造和测量误差,但该方法通过增加校准层和可训练的全连接层,在多通道CIFAR-10数据集上达到了最先进的分类精度。使用单一的超光学层执行复杂的多通道卷积,突显了超光学元件的独特适用性,这是传统光学无法实现的。此外,我们通过迁移学习方法解决了现有光学实现中缺乏可重构性的问题,并将针对CIFAR-10优化的光学前端与High-10数据集进行了对接。在这方面,我们建议采用一种由光学前端和可重构数字后端组成的混合方法,利用光学的关键优势(即无延迟、无损耗、大带宽空间)以及后端提供的鲁棒性和可重构性。

5 方法
5.1 知识蒸馏
通常,知识蒸馏算法旨在压缩神经网络。在这里,我们提出使用知识蒸馏将来自更大、预训练的教师网络(AlexNet)的通用知识转移到一个更紧凑的CNN中,称为“学生网络”。具体来说,学生网络仅包含一个卷积层和一个由单个全连接层和线性校准层组成的后端。此外,我们选择AlexNet作为教师网络有两个主要原因:首先,AlexNet是成功解决ImageNet数据集的基础模型。其次,与更复杂的网络(如ResNet-18或VGG-16)相比,五层的AlexNet更易于访问,且更容易在光学上实现。

知识蒸馏算法包括两种类型的损失:学生损失和温度损失。学生损失最小化学生网络与教师网络之间的差异。网络的预测与真实标签之间的差异。softmax函数用于计算:

微信图片_20250227095305
其中 ziz_i 代表学生网络在最后一个全连接层后的输出(logits)。温度损失则优化学生网络的预测与教师网络的预测之间的差异。知识蒸馏引入了一个软化参数 TT,称为蒸馏温度,用于教师网络的概率。因此,我们可以计算这样的损失函数为:

最终,总损失计算为两个损失的加权和:

L(x,Φ)=αLC(y,pstudent)+(1α)LKL(x, \Phi) = \alpha L_C(y, p_{\text{student}}) + (1 - \alpha) L_K

其中,α是平衡两个损失组件的权重,LCL_C 是交叉熵损失函数,LKL_K 是Kullback-Leibler(KL)散度损失函数[49]。

我们还发现,其他关键超参数可能会影响我们的混合CNN系统。首先,在大多数CNN中,如ResNet-18和AlexNet,存在多个卷积层,每个层有超过200个内核来提取有用的特征并保持在各种数据集中的泛化能力。尽管一些剪枝策略表明,使用1%的参数也能实现类似的精度[50],但将这些算法应用于光学神经网络并非易事。大多数剪枝方法仍保留ANN结构,这些结构存在对齐问题,几乎无法消除[31]。因此,压缩为更浅的层并增加更多的内核是首选。然而,每个超表面具有物理尺寸的限制,限制了它可以容纳的内核数量。为了解决这个限制,我们可以使用多个相机和多个超表面来增加内核的数量,从而提高混合CNN的分类精度和泛化能力。

5.2 超光学设计
对于每个R、G和B通道的16个数字内核,我们使用32个超光学内核,因为我们为所有RGB通道使用一个单一的超光学元件,但我们无法用光学表示正负权重。因此,我们创建了16个正向内核和16个负向内核,然后在数字后端执行数字减法。我们的每个卷积超光学元件有3200×3200个散射体,其中2×2个散射体组成一个组,以增强制造的鲁棒性。基于真实的数字卷积内核,我们为每个RGB通道定义了光学PSF,并使用TensorFlow Adam优化器逆向设计具有这些PSF的超光学元件,针对每个RGB波长。

5.3 超光学制造
我们的超光学元件在可见波长范围内(λ ∼ 400 nm−700 nm)工作。我们使用氮化硅在石英基板上制造超光学元件,以保证其在整个可见光范围内具有高透明度。我们通过等离子体增强化学气相沉积(Oxford;Plasma Lab 100)在双抛光石英基板上沉积一层厚的氮化硅层(800 nm)。然后,我们在氮化硅层上旋涂并烘烤电子束光刻胶(ZEP-520A),接着旋涂抗充电剂(DisCharge H20)。我们使用电子束光刻(JEOL;JBX6300FS)进行图案化,并使用戊酯开发光刻胶。之后,我们通过电子束蒸发(CHA;SEC-600)沉积铝土层(∼ 65 nm)作为硬掩膜。最后,我们使用氟基气体的等离子体刻蚀机(Oxford;PlasmaLab 100,ICP-180)用铝土硬掩膜刻蚀氮化硅层。超波长结构的超光学元件的周期为293 nm,是用于图像捕捉的相机像素大小的一半。

5.4 光学测量
我们通过放置激光和孔径(ϕ = 25 µm)来测量点扩散函数(PSF),这代表一个点光源。然后,我们将卷积超光学元件放置在带有旋转旋钮的三轴工作台上,使其与光束路径对齐并居中。高分辨率彩色相机(GT-1930C),像素大小为5.86 µm,放置在离超光学元件2.4mm的地方。我们通过将激光替换为三种不同波长的光源(Thorlabs;CPS450,CPS532和CPS635),来测量每种RGB光的PSF。对于CIFAR-10数据集的图像卷积测量,我们将微显示器放置在孔径位置,然后连接到计算机以显示彩色图像。由于单一的超光学元件可以同时表示三个不同的RGB内核(详细信息见补充材料),具有RGB颜色像素的彩色相机可以在三个不同通道上提取卷积图像。这最终可以节省超光学元件和相机的空间,这在实际应用中至关重要。

点光源被任意的二维图像替换,表示为 f(x, y)。我们可以将图像表示为三个颜色通道的和:fR(x,y)+fG(x,y)+fB(x,y)f_R(x, y) + f_G(x, y) + f_B(x, y)。卷积超光学元件对每个颜色进行卷积,结果是一个卷积图像:

Pi=R,G,Bfi(x,y)PSFi(x,y)P_{i=R,G,B} f_i(x, y) * PSF_i(x, y)

将被成像在相机上。由于我们已确定PSF的放大因子为2,我们也对CIFAR-10图像使用相同的放大因子。根据相机的像素大小5.86 µm和CIFAR-10图像的大小32×32,投影到相机上的图像大小应约为374 µm × 374 µm。根据显示器与超光学元件之间以及超光学元件与相机之间的距离,最终我们可以得到CIFAR-10图像在显示器上的尺寸为16.0 mm × 16.0 mm。我们使用10,000张图像进行训练(原始50,000张图像的子集)和10,000张图像进行测试,曝光时间为500 ms。在10,000张训练和测试数据集中,由于过度曝光问题,分别有186张和201张图像未参与训练和测试。所有测量参数和图像数量在迁移学习过程中对于High-10数据集是相同的。

另一个关键因素是曝光时间。由于光学特征是通过CCD相机捕捉的,曝光时间会显著影响最终性能。如果光学特征过度曝光,纹理信息(如猫的毛发)可能会丢失。相反,如果光学特征曝光不足,大部分信息也可能会丢失,导致图像中高光和阴影之间缺乏区分。为了找到最合适的曝光时间,我们可以使用类似现代相机的方法,其中“18%灰色”被视为黑白之间的中点,位于对数或指数曲线的中间。这个标准可以帮助我们实现平衡曝光,确保捕捉到的光学特征既不被过度曝光也不被曝光不足。

5.5 计算后端
如前所述,光学制造和对准噪声在超表面内核中是不可避免的。这些噪声包括缩放、平移、旋转、图像畸变和光学噪声。为了解决这个问题,我们建议添加一个校准函数,将光学卷积的输出重新映射,使其与之前训练过的后端对齐。具体来说,我们使用全连接层作为校准函数,相关的损失函数定义为:
微信图片_20250227095308

该方法旨在优化实验输出,使其与预设计的网络更加一致。为了防止过拟合,我们策略性地将训练数据限制在仅占可用数据的20%,确保我们的模型保持高效[52?]。

5.6 迁移学习
泛化能力是测试我们混合光学/数字CNN的关键特性。确保网络能够很好地泛化到新的、未见过的数据对于几个原因至关重要。首先,我们的混合网络是从AlexNet压缩而来的,AlexNet最初是为大型数据集设计的。预训练的AlexNet在各种数据集上都能达到较高的准确性,并且可以轻松适配或微调到分布外的数据集。这种适应性对于实际应用至关重要,因为数据分布可能与训练集不同。其次,探索混合模型的泛化能力非常重要,因为为不同任务设计和制造不同的超表面内核是低效的。通过增强泛化能力,我们可以使用单一的混合模型来处理多个任务,从而减少广泛的重新设计和制造的需求。

我们的迁移学习计划的详细信息和示意图在补充材料中展示。
为了实施迁移学习,我们添加了两种类型的损失:特征损失和标签损失。特征损失最小化光学特征和数字特征之间的差异,确保光学和数字组件学习到的表示对齐。标签损失最小化模型预测与实际标签之间的差异,从而提高整体预测准确性。在迁移学习过程中,光学前端和数字后端保持不变。我们在光学前端和后端之间添加了两个全连接层,并使用这两种损失对这些层进行微调。具体来说,函数为:

微信图片_20250227095310
其中,LfeatureL_{\text{feature}} 是特征损失,LlabelL_{\text{label}} 是标签损失,α\alpha 和 β\beta 分别是平衡这些损失的权重。
文章名:
作者:Minho Choi1*† , Jinlin Xiang1† , Anna Wirth-Singh2 , Seung-Hwan Baek3 , Eli Shlizerman1,4*, Arka Majumdar1,2* 
单位:
1Department of Electrical and Computer Engineering, University of Washington, Seattle, 98103, WA, USA. 2Department of Physics, University of Washington, Seattle, 98103, WA, USA. 3Department of Computer Science and Engineering, Pohang University of Science and Technology, Pohang, 37673, Gyeongbuk, Republic of Korea. 4Department of Applied Mathematics, University of Washington, Seattle, 98103, WA, USA.

关于我们:

OMeda成立于2021年,由3名在微纳加工行业拥有超过7年经验的工艺,项目人员创立。目前拥有员工15人,在微纳加工(涂层、光刻、蚀刻、双光子印刷、键合)等领域拥有丰富的经验。 同时,我们支持4/6/8英寸晶圆的纳米加工。 部分设备和工艺支持12英寸晶圆工艺。针对MEMS传感器、柔性传感器、微流控、微纳光学等行业。 我们将凭借先进的设备、仪器和经验,为您带来可靠性、性能优良的产品和高效的服务

中国(上海)自由贸易试验区临港新片区业盛路188号450室 电话:+86 188 233 40140 邮箱:jing.chen@omeda-optics.com

来源:OMeda

关于我们

OMeda(上海奥麦达微)成立于2021年,由3名在微纳加工行业拥有超过7年经验的工艺,项目人员创立。目前拥有员工15人,在微纳加工(镀膜、光刻、蚀刻、双光子打印、键合,键合)等工艺拥有丰富的经验。 同时,我们支持4/6/8英寸晶圆的纳米加工。部分设备和工艺支持12英寸晶圆工艺。针对MEMS传感器、柔性传感器、微流控、微纳光学,激光器,光子集成电路,Micro LED,功率器件等行业。 我们将凭借先进的设备、仪器和经验,为您带来可靠性、性能优良的产品和高效的服务。

姓名:*
邮件:*
公司名称:
电话:*
您的需求: