上海奥麦达微电子有限公司

专业高效
微纳加工公司

薄膜铌酸锂--面向加速人工智能与科学仿真的量化感知光子同相计算(加州伯克利斯坦福mit等)

#薄膜铌酸锂 #AI #人工智能

摘要
现代高性能计算问题,从计算机视觉和语言模型中的深度学习模型的训练和推理到使用非线性耦合方程模拟复杂物理系统,都需要指数级增长的计算资源。光子类比系统因其固有的并行性[1-4]、高带宽[5-9]和低传播损耗[10-12]而成为解决方案。然而,由于电光失真、材料非线性和信噪比的问题,它们的应用受到了限制。本文通过跨芯片的量化感知数字光子混合精度框架,克服了这一障碍,从而加速人工智能处理和物理仿真。通过使用铌酸锂光子技术和通道均衡技术,我们在同相光学逻辑中展示了9位幅度-相位解耦的线性乘法运算,并在128 GS/s的时钟速率下实现了6位精度,使得AI处理具有6纳秒的延迟。硬件-算法联合设计,包括迭代求解器、稀疏-密集量化和位切片矩阵乘法,探索了光子幅度和相位相干性,用于复杂值和物理启发式计算。在电磁问题中,我们的方法为散射问题中的偏微分方程(PDEs)提供了12位的解,这些问题通常需要高达32位,甚至64位的精度。这些结果在利用高速低能光子硬件的同时,保持了数字级的保真度,为生成性人工智能[16]、实时机器人技术[17]、气候挑战的精确仿真[18]以及生物学发现[19]提供了通用光学加速的途径

划重点--销售晶圆和加工
SOI晶圆:--220nm薄膜/ 3um厚膜-3umSIO2-675um

ALOOI晶圆;--氧化铝薄膜晶圆,键合工艺和镀膜工艺

TAOOI晶圆--氧化钽薄膜晶圆,镀膜工艺

SINOI晶圆--超低损耗氮化硅薄膜晶圆,210nm-300nm-400nm-800nm

SICOI晶圆;新型量子光学平台500nm-700nm-1um

8寸LTOI晶圆批量供应;铌酸锂的有力的竞争对手,薄膜钽酸锂晶300600

6寸X切Z切掺镁薄膜铌酸锂晶圆 ,厚膜 3um 5um 和 薄膜 100-600nm

8寸LNOI晶圆;8寸LNOI助力更大规模薄膜铌酸锂产品量产

LN/LT-SOI/Si/SIN  W2W&D2W异质集成

流片: 6寸 氮化硅 铌酸锂 硅光 超高性价比流片, 1个BLOCK的价格买一整片晶圆

划重点--全国产-超高性价比-6 寸硅光-氮化硅-铌酸锂流片白皮书

我们为客户提供晶圆(硅晶圆,玻璃晶圆,SOI晶圆,GaAs,蓝宝石,碳化硅(导电,非绝缘),Ga2O3,金刚石,GaN(外延片/衬底)),镀膜(PVD,cvd,Ald,PLD)和材料(Au Cu Ag Pt Al Cr Ti Ni Sio2 Tio2 Ti3O5,Ta2O5,ZrO2,TiN,ALN,ZnO,HfO2。。更多材料),键合(石英石英键合,蓝宝石蓝宝石键合)光刻,高精度掩模版,外延,掺杂,电子束光刻等产品及加工服务(请找小编领取我们晶圆标品库存列表,为您的科学实验加速。

请联系小编免费获取原文

640 (1)
文章名:Quantization-aware Photonic Homodyne computing for Accelerated Artificial Intelligence and Scientific Simulation
作者:Lian Zhou1,2,3, Kaiwen Xue1, Amirhossein Fallah3, Lijin Liu1, Chun-Ho Lee1,2, Kiwon Kwon1, Clayton Cheung1, Yuan Li2, Yue Yu1, Yun-Jhu Lee2, Songlin Zhao1, Ryan Hamerly2,4, Edo Waks5, Dirk Englund4, Constantine Sideris3,6, Mengjie Yu1,2,3, and Zaijun Chen1,2,3
单位:加州伯克利,Opticore Inc.南加州大学 麻省理工 斯坦福大学 马里兰大学

引言

通过在计算机上模拟物理现实,计算科学使研究人员能够设计、预测和优化跨学科的复杂系统,这大大加速了从纳米尺度材料建模[20]、分子动力学[19]、半导体器件设计[21]到全球气候预测和地球系统建模[18]的发现。这些系统,如用于雷达散射截面(RCS)模拟的电磁仿真,通常无法通过解析方法处理,且随着模型尺寸和复杂度的增加,直接的数值计算面临着资源需求的指数级增长。与此同时,人工智能(AI)的快速发展正在彻底改变科学和技术。然而,训练和部署大型深度学习模型给高性能计算(HPC)基础设施带来了巨大的压力,需求不仅包括庞大的能源成本,还包括极端的吞吐量。传统的基于CMOS的架构在这一挑战面前越来越显得力不从心,尤其是在数据密集型算法方面。随着摩尔定律放缓和丹纳德缩放的崩溃,晶体管密度的提高不再能够转化为性能或能效的成比例提升。由此产生的时钟速度、功耗和数据传输的瓶颈为数据密集型计算任务带来了不可持续的成本。此外,复数是波的固有语言,因此在电磁学和量子力学中至关重要,在这些领域中,求解器是基于复数场进行操作,并通过迭代线性代数核心(如基于FFT的亥姆霍兹/泊松求解器[22]、散射与反演[23]、非厄米系统[24])进行模拟,所有这些都需要在大规模下执行复数乘加运算。在机器学习中,复数激活函数提供了一个解决非线性问题的基本构建块,例如使用单层感知器解决异或(XOR)任务[25],这是使用全实值运算符时不可能实现的。最近的研究还表明,神经网络中的复值数据提供了更丰富的表示、更快的收敛和更强的泛化能力[26,27]。然而,数字电子平台本质上是实值的,无法直接处理复数。复数的乘法需要通过四个实数乘法和两个加法来实现,从而导致了显著的开销。


利用光的波动性质,光子计算通过使用介电波导进行数据传输,没有电容性电阻,这对于高时钟速率和低传播损耗至关重要[2,11,28,29],其幅度-相位相干性使得直接进行复值运算成为可能[2][30]。然而,作为一种类比系统,光学系统的精度仍然受到限制,特别是在高时钟速率操作时,由于器件和材料的非线性(如硅调制器中的载流子色散、光电(EO)转换中的寄生噪声和失真、以及类比信噪比)。到目前为止,高速系统(时钟速率超过10 GS/s)仅实现了约3-5位的精度(表2)[3,5,6,31,32]。因此,光子计算主要被视为容错任务的加速器[6,33,34],限制了它在复杂的AI任务和科学问题中的灵活性。此外,现有的基于空间或波长映射的光子计算方法需要O(N²)的加权调制器[1,4,5,34–36]来编码矩阵,由于芯片面积有限、光子器件占地大和制造变化,这种方法扩展性差。最近,利用时间步长中的加权映射的时分复用计算系统出现,以减少调制器数量从O(N²)到O(N)[6–8,10,32,37,38],然而,通过级联强度调制实现[3,6–8,10,32]时,必须使用波长复用来分摊能量成本,但这导致了O(N²)的解复用器,阻碍了其可扩展性[3,7,10,39,40]。另一种方法是同相逻辑[37],它通过两个激光场之间的瞬时光电乘法和紧凑的相干探测器,使用自由空间分发和片上光束路由实现空间并行,朝着高通道数发展,但由于与半导体激光器[38]或热光硅光子MZI[42]的幅度-相位耦合,以及基于载流子的硅调制器,尚未展示线性同相计算单元。


在这里,我们提出了一种量化感知的方法,以基于以下进展在光子计算中实现高精度任务:(1)架构级混合精度框架(图1a和1b),通过低精度光处理器(7-8位)来最大化数据密集型操作的吞吐量,同时保持模型保真度(12位),注意这些方法在最先进的AI算法中已被采用(例如,SqueezeNet[43],DeepSeek[44],硬件感知自动量化[45]);(2)器件和材料层,基于薄膜铌酸锂(TFLN)光电学的幅度或相位调制,首次实现线性同相光电乘法逻辑,以扩大光子计算的规模,支持同时高速度(128 GS/s)、低电压和低传播损耗的操作;(3)通道均衡技术,消除高速光电响应失真,提升精度;(4)物理启发式光子复值计算,用于求解物理仿真中的偏微分方程(PDEs)。

2.1 系统架构

640
640 (1)
640 (2)
640 (3)
640 (4)

图1 | 混合精度架构和TFLN计算设备的概念
a. 光子-数字混合计算系统。
b. 带有迭代求解器的混合精度算法,其中CPU执行关键的精细化操作,而OPU通过执行高吞吐量矩阵乘法加速主要工作负载。
c. 用于幅度和相位调制的光子器件,通过同相检测实现复数乘法。飞机周围的电流分布(图像来源:GPT-5)是用于雷达散射截面(RCS)偏微分方程(PDEs)求解的示例。
d. 复杂值“花朵”和“蝴蝶”函数的幅度和相位编码实验验证(红点),与真实值(蓝线)进行比较。
e. 基于相干检测的同相计算逻辑原理。
f. 线接TFLN芯片的实验设置。
g. 制作的TFLN芯片,带有并行的幅度和相位调制器。
h. 放大视图:i. 调制器偏置的加热器;ii. 相位调制器电极;iii. 幅度调制器电极;iv. 输入Y分路器。

我们的架构包括一个同相光子设备,该设备执行高速复数乘法 𝑌 = 𝑊 * 𝑋,其中 𝑋 = 𝐴 * 𝑒^(𝑗𝜙) 和 𝑊 = 𝐴 * 𝑒^(𝑗𝜙) 以极坐标形式表示,这在电磁仿真中广泛应用(图1c-1d)。在制造的设备中(图1f-1h),一个激光(频率为f)被分成两束光(标记为X光束和W光束):每束光分别通过幅度调制器和相位调制器,分别影响X光束上的同步幅度 𝐴 和相位值 𝜙,以及W光束上的幅度 𝐴 和相位 −𝜙,使用m个时间步长,生成电场 𝐸(𝑚) = 𝐴 * 𝑒^(𝑗𝜙) 和 𝐸(𝑚) = 𝐴 * 𝑒^(𝑗𝜙)。总共n个向量依次进行编码,用于矩阵-向量乘法。两束光通过50:50耦合器结合,并记录在平衡光电探测器(BPDs)上,计算实部 𝐴 * 𝐴 * cos(𝜙 + 𝜙) 和虚部 𝑗 * 𝐴 * 𝐴 * sin(𝜙 + 𝜙),通过π/2相位差(通过热调谐)来实现,这可以通过90度光学混合器同时测量[46]。在笛卡尔形式中,生成的光电流对应于元素级光电乘法,在m步中通过两个独立的低速BPD或电荷积分接收器进行累加(方法),得到实部和虚部:

640 (5)

时间积分是通过低速光电探测器(BPD)进行的,具有可切换带宽(0.1~150 MHz),具体取决于数据速率和向量长度。与具有10μs放电时间的开关积分器[8,10,38]相比,低速光电探测器提供了一种可扩展的解决方案,具有较低的放电时间(约6纳秒),显著降低了延迟。这种架构在光电混合精度计算中具有几个关键优势。它允许:(1)使用时间脉冲进行可扩展的数据映射,例如每秒超过1000亿个参数(100 GS/s);(2)所有关键组件(光束分 splitter、组合器、光路径)在芯片上的干涉相位稳定性;(3)使用TFLN EO调制在CMOS兼容电压下进行并行幅度和相位编码,无需放大器且没有耦合串扰;(4)有符号数的线性运算,具有幅度响应但没有强度响应,并且时间积分读取(5)高信噪比和低光功率;(6)高分辨率的节能模拟到数字转换(ADC)电路;(7)通过时间积分读取将光周期(>100 GS/s)减少到电子时钟速率(0.1~1 GHz);以及(8)高吞吐量,因为每个复数操作有效等于6个实数操作。

2.2 同相计算与精度优化

我们首先验证了幅度和相位编码的精度。TFLN调制器采用匹配微波和光学传播指数的行波配置设计,电极末端配有50 Ω电阻以实现阻抗匹配。调制器与边缘对齐并定向,以方便焊接。另一版本的芯片仅包含幅度调制器,用于使用电探针进行高速实值乘法。调制器显示出超过40 GHz的宽带光电带宽,且1.5 cm电极长度下的半波电压为2 V,与我们之前的工作相似[7]。我们通过将目标复数模式(花朵或蝴蝶)编码到两条路径中的一条上,验证了幅度-相位精度,且同相读取结果显示了BPD上的复数实部和虚部,恢复的模式速率为10 MS/s。图1d中的结果与数字真实值进行比较,结果表明,实部的统计误差为σ=0.39%,虚部的统计误差为σ=0.43%,对应的均方误差(MSE)小于MSE=0.00002,表示精度为B=9位,计算公式为 𝐵 = 𝑙𝑜𝑔₂ (1/𝜎) + 1,考虑到符号位。此结果表明具有优异的相位和幅度精度。然而,随着时钟速率的提高,统计误差增大(表1),我们在40 GS/s时观察到σ=5.8%(MSE=0.0036),在128 GS/s时观察到σ=10%(MSE=0.01),与[6]中的结果相似。

通道响应均衡

在高时钟速率(R)下提高计算精度的一个关键挑战是要求整个带宽(从直流到R/2)上的通道响应一致,其中微小的失真,如反射(由于阻抗不匹配)、高频衰减或瞬态振荡,会降低信号完整性。对于高计算精度位数,这一要求尤为苛刻,因为误差容忍度按指数级别变化,σ<1/2^(B-1)。在这里,我们开发了频域均衡方法,其中通道响应 H(f) 通过同相检测进行测量,如图2a所示(方法)。因此,任何未见的输入信号在编码之前都通过1/H(f)滤波器进行预补偿。注意,滤波器可以通过预强调电驱动器进行实时校正[47]。图2b和2c展示了在40 GS/s下,使用修改后的国家标准与技术研究所(MNIST)数据库权重数据(28x28像素)的时间迹线,并与其数字真实值进行比较。频率响应被标定到20 GHz,这是由于我们的BPD带宽截止限制。频域响应展示了我们通道均衡的有效性,其中,比较784个符号输出信号(图2d和2e)后,误差从6.0%(MSE=0.0036)减少到1.6%(MSE=0.00025)进行校准,对应7位量化精度。编码数据被转换到频域,以展示频率响应校准的益处,如图2f所示。精度的改善受限于测量的传输函数H(f)的精度,在此过程中,我们从TFLN调制器的高带宽和线性度中受益。

640 (6)
640 (7)
640 (8)
640 (9)

图2 | 频率响应校准
a 左:通过编码随机数字并进行傅里叶变换,测量通道响应H(f)。右:通过在频域中乘以H(f)对任何未见的输入数据进行预补偿。
b-c MNIST权重编码的时间轨迹,在40 GHz时钟速率下,校准前(红色)和校准后(绿色)的精度改进。
d-e 编码误差的直方图,校准将标准差从5.96%(约5位精度)减少到1.59%(约7位精度)。
f 权重编码的相应频率响应,未校准时(蓝色)出现较大波动,校准后(红色)频谱变得更加平坦。

AI计算基准测试

我们探索了一个两层复数神经网络,在AI推理中识别MNIST图像(图3a和3b)。并行的幅度和相位调制实现了复值加权和读取。由于可用的高速驱动器数量,编码时钟速率设置为100 MS/s。我们进行频率响应校准以提高编码精度。测量的实部和虚部被结合形成复数输出,并且该复数值的幅度用于最终的分类(图3c和3d)。通道均衡将基准值与测量误差之间的差异从2.97%减少到1.69%(图3e-3h),从而将分类准确度从90.1%(校准前)提高到93.4%(图3i-3k)。这一比较突出了均衡在计算任务中的有效性。

640 (10)
640 (11)
640 (12)
640 (17)

图3 | 复值同相计算在MNIST分类中的实验结果
a 具有两层的复值ONN模型。28×28的输入图像映射到第一层,具有784×12的复值权重(实部和虚部),然后传递到第二层生成10个输出特征。
b 在TFLN光子芯片上实现的复值VVM原理,其中输入Xi和Wi的乘积通过同相检测生成实部和虚部。
c 使用低速光电二极管测量的积分时间轨迹示例,显示实部和虚部通道。基线偏离零是由于光电探测器读取中的偏移。
d 一幅代表性输入图像的分类结果。测量的实部和虚部输出通过幅度组合((Re² + Im²)⁰.⁵)形成跨10个类别的输出向量。
e 比较与基准值的250个VVM输出(从1000个图像中选取的25个)的实部时间轨迹,差异图显示在下方。
f 10000个VVM输出(1000个图像)的实部误差直方图,标准差为1.69%。
g 相应的虚部时间轨迹。
h 实部误差直方图,标准差为1.76%。
i-k 混淆矩阵,显示数字推理准确度为94.8%,经过校准的光学准确度为93.4%,未校准的光学准确度为90.1%。

我们进一步基准测试了我们的设备在高速AI推理中的性能,使用幅度调制器进行实数运算,其中我们加载了一个预训练的单层神经网络(28x28→10),其数字准确度为91%,用于识别MNIST图像(见方法)。在128 GS/s的计算时钟速率下,每个输入图像(28x28=784像素)在τ=6.125 ns的时间内与权重向量进行乘法运算(图4a)(图4c)。测得的积分时间轨迹(图4b)与基准值一致,统计误差为4.0%,对应的精度约为128 GS/s下的6位,比[20]中的结果高约2位。我们将残余误差归因于不足的校准带宽,因为我们的TFLN调制器仅校准到22 GHz,使用更高带宽的BPD可以提高这一点。对于102个未见的随机图像样本,分类性能达到92.16%的准确度(图4d-4e),这是相同测试数据集(95.10%)的数字准确度的96.9%,在统计误差范围内。

640 (19)
640 (20)

图4 | 在128 GS/s时钟速率下的手写数字分类实验
a. 单层ONN模型的高速VVM(向量-向量乘法)示意图。
b. 测量的326个VVM输出的时间轨迹(共1020个VVM输出),插图对应于c,一幅代表性输入图像的分类。
d–e. 数字与光学准确度的混淆矩阵比较。

量化感知迭代偏微分方程求解器
我们实现了量化感知算法,以进一步提高光子计算的精度,且在求解薄导电线上的电荷密度分布问题中进行了基准测试[48,49]。这是一个电磁学中奇异摄动的原型问题,在这个问题中,它找到所需的边界状态,使得一个常势谐函数在一个有限的、逐渐变薄的区域内成立,该问题广泛应用于薄线天线、纳米尺度导体中的近场耦合、等离激元和光子结构的准静态极限。我们的求解器旨在计算12位精度的轴向电荷密度分布ρ(x)。长度为L、半径为a的导线受到了施加的静态电压Vs(图5a)。在准静态极限下,静电势V(r)满足拉普拉斯方程 𝛻²V(r, z, 𝜃) = 0。感应电荷密度ρ(x)通过在导体表面强加等势来隐式地出现,使用格林函数表示法,偏微分方程(PDE)被转化为边界积分方程(BIE),

(14πϵ0)ρ(x)dx=Vs

这可以通过实值矩阵-向量乘法(MVM)来计算

V(m)=A(m,n)ρ(n)

通过离散化长度L为N个段,A(m,n)=14πϵ0dx(x+(nm)L/N)2+a2描述了站点m和n之间的耦合强度。由于耦合矩阵的高动态范围,即使在16位数字精度下,数字模型也会偏离基准值。因此,我们实现了一个外部-内部预处理共轭梯度(PCG)迭代求解器(图5b),该求解器在两个独立的部分计算ρ(n),在每次k次迭代中,数字外部循环通过将差异 tMk = Vs - VMk 输入低精度光子内部循环,验证VMk = AMNρNk,并计算校正项zNk以满足 tMk = AMNzNk(M = N = 100表示矩阵大小)。

从数学上讲,外部循环提取来自基准值的显著数字,这使得可以在光子中以低精度计算差异。这个混合的数字-光学求解器在设定的误差容忍度(0.1%)内收敛到电荷分布。实验中,我们以128 GS/s的时钟速率通过幅度调制对数据进行了编码,因为电荷模型是实值的。求解器的收敛率(向低残差收敛)由光子处理器的计算精度控制(图5c)。我们的求解器在2次外部迭代后收敛(图5h–5j),与内部循环光学矩阵输出(图5d,5e)和校正向量zNk(图5f,5g)。通过比较不同量化精度下的实验收敛性和数字仿真,我们验证了实验精度约为6位。最终解与基准值的差异标准偏差为0.25%。整个求解器在外部循环中执行3次MVM,在内部循环中执行11次MVM(9次AMNpN运算和2次AMNzN运算),其中光学过程加速了78.6%的运算。

640 (21)
640 (34)
640 (22)
640 (23)

图5 | 在128 GS/s时钟速率下,光子处理器上电荷分布的迭代PDE求解器实验演示
a. 导电线的示意图。
b. 结合电子和光学MVM的混合精度迭代精细化算法。AMN,耦合矩阵;ρN,电荷分布;VM,电势分布;tM,电势残差;zN,电荷校正(内部求解器解);rN,内部求解器残差;pN,共轭搜索方向;α,共轭方向上的步长;β,共轭系数。
c. 实验和仿真残差收敛率与迭代次数的关系。
d, e. 内部求解器的光学MVM AMNpN 输出,用于更新每次内部迭代中的校正向量zN。
f, g. 内部求解器计算的校正向量zN的演变。计算的MVM结果AMNpN迭代更新校正向量zN,直到残差低于指定的容忍度。
h-j. 数字外部求解器中解ρN的演变,显示与基准分布逐渐一致的进展。

偏微分方程求解中的密集与稀疏量化
随着模型复杂度的增加,我们求解了在振荡电场 ejωt激励下沿导电线的复值电磁散射(作为电流分布)(图6a)。该系统使用自由空间格林函数,并通过有效距离处理来正则化自相互作用和近自相互作用,采用积分形式的PDE模型,如下所示:

jk0Z0[I(z)G(z,z)+I(z)G(z,z)]dz=E(z)

其中 I(z)是未知的电流分布,G(z,z)是简化的3D格林函数,k0是自由空间中的波数,Z0是自由空间的波阻抗,E(z)是可以通过 delta-gap 激励建模的入射场。通过在均匀1D网格上使用矩量法离散化电场积分方程,得到一个密集的复数系统 AMNIN=bM,其中 AMN是 M×N 的耦合复矩阵(M = N = 101),IN是表示沿导线感应电流样本的电流向量,bM是一个非零的激励向量。我们使用与图5b相同的内外部迭代求解器架构,采用广义最小残差法(Generalized Minimal Residual Method,GMRES)[50]来求解电流分布。然而,阻抗矩阵 AMN中的元素在大小上变化剧烈。由于强局部相互作用,近对角元素相对较大,而大多数非对角元素接近零,这造成了显著的动态范围不平衡。这种不均匀的幅度分布对芯片内计算构成挑战,因为有限的8位分辨率无法同时准确表示既较大的近对角值,也表示较小的非对角值。

为了进一步改善内循环迭代求解器的动态范围,我们实现了密集-稀疏量化,这是一种在AI计算中用于权重压缩的混合精度计算技术[51,52]。我们将耦合矩阵AMN分解为稀疏分量 SMN,表示大幅度的近对角项,以及余量 DMN,包含低幅度的带外项, AMN=SMN+DMN(图6d)。稀疏部分包括21个对角线,占总计算工作量的约20%,通过数字处理。密集的复值余量矩阵被加载到光子芯片中,并通过同时进行幅度和相位编码(图6b),使硬件处理大部分操作(80%)。图6e展示了内循环求解器中AMNvN在前50次迭代中的演变示例。从零初始解开始,经过4次外部迭代后,模型在内光学求解器中完成200次混合精度MVM操作后收敛。尽管数字部分 SMNvN主导了整体幅度,密集部分 DMNvN对于收敛至关重要。演变过程和最终解如图6c所示,与数字基准值高度一致,统计误差为0.2%。

640 (24)
640 (35)
640 (25)
640 (26)
640 (27)

图6 | 基于稀疏-密集混合精度架构的复值迭代求解器实验演示
a. 细线电场积分方程中的散射问题。长度为L的完美导电线在其中心处受到入射场的激励,通过矩量法(MoM)在均匀离散化上求解感应电流分布。
b. 内部求解器的复值MVM示意图。
c. 电流分布的最终解。
d. 复值权重矩阵AMN的分解方法,分为带通分量 SMN和带外分量 DMN。顶部直方图是幅度分布,底部是相位面板。
e. GMRES内部求解器中的混合精度MVM。数字处理器计算高精度贡献 SMNvN,光子硬件评估低精度分量 DMNvN。两者的组合恢复了完整的矩阵-向量结果 AMNvN

3D模型的比特切片量化仿真

为了进一步将我们的混合精度框架推广到复杂问题,如雷达散射截面(RCS)的三维(3D)电磁仿真,我们提出了一种比特切片技术(方法),以进一步提高计算精度。金属飞机中的离散电场表面电流密度有15800个未知数,系统矩阵有15800×15800=249.64百万个元素(方法)。使用数字处理器,求解器在122次迭代后收敛,需要进行122次全精度(64位精度)的慢速MVM运算。由于模型的复杂性和规模,这个求解器被实现为一个数字仿真器,捕捉了我们同相计算设备在内部层的主要计算特性。图7a和7b展示了结果等效电流密度的幅度。


因此,仅仅在我们的内外迭代求解器中应用混合精度方法,并结合稀疏-密集方法,仍然不足以弥补光学MVM的低精度,导致求解器无法收敛到解决方案。因此,我们将系统矩阵和向量量化为16位,应用比特切片,并将每个MVM操作执行为四个8位MVM(图7c和方法),以适应同相处理器的计算精度。我们成功地使用8位光学张量模型解决了问题,并且在混合精度方法的外部循环中仅需要3次高精度MVM。我们在将其部署到光学芯片时对结果进行了仿真(方法)。最终,得到的总RCS的相对误差为0.0004,表明算法已经达到了准确的结果。图7d和7e分别展示了全4π立体角范围内的总RCS误差,以及滑翔机在xz平面、yz平面和xy平面上的归一化RCS,分别表示数字全精度求解器和混合精度光学求解器在每次外部迭代中的结果。尽管与单个8位MVP相比,这种方法增加了每次迭代的计算成本(方法),但与使用64位数字处理器相比,仍然显著更快。



640 (28)
640 (29)
640 (30)
640 (31)

图7 | 滑翔机散射
a. 由表面贴片组成的滑翔机结构。
b. 滑翔机表面电流密度的幅度。
c. 比特切片技术演示:将两个向量x和 w分解为8位,然后使用8位光学处理器进行乘法运算。
d. 混合精度迭代的详细信息,包括电流密度残差和总3D RCS残差。
e. 在每次外部迭代中的xz、yz和xy平面中的归一化RCS。

讨论
我们展示了一种量化感知的光电框架,使高速、低精度的类比光子处理器能够加速高精度计算任务,这代表了向通用光学计算迈出的重要一步,适用于AI计算及其他领域。这首次使光计算具备足够的精度,能够直接解决科学电磁学问题,这些问题通常只有在超过16位精度下才能收敛,借助于联合设计架构,包括内外循环迭代求解器、稀疏-密集矩阵分解和比特切片技术,解决了不同复杂度的问题,最终得到均方误差(MSE)在百万分之一(MSE=0.000004,σ=0.002)范围内的解。其次,我们开发了一种线性同相计算逻辑,这是扩展光子计算的关键组件,其技术性能总结如下:

计算精度

基于我们的通道均衡技术,电磁实数仿真中的计算精度在128 GS/s下达到了6位,相比于相同速度下的直接调制结果提高了2位[6]。随着校准带宽的提高,精度可以进一步提升。

预计吞吐量

我们演示了在高速下进行实数运算和在低速下进行复数运算的组合,这是由于高速驱动器的限制。在近期,考虑到1次复数乘法等于6次实数运算且乘法和累加同时进行的因素,高速复数计算可能达到有效吞吐量 T=2×6×128GOPS=1.536TOPS。通过在交叉开关架构[42,53]中进行空间并行处理,超过100×100通道的处理可以将吞吐量提高10,000倍,达到15 POPS的水平,这将使其在单芯片上比当前最先进的GPU快10倍。

延迟

尽管每次乘法的延迟受到编码向量所需时间的限制,但得益于高速编码,延迟短至几纳秒。这种延迟对于许多应用场景(如自动驾驶或实时分析RCS)来说足够低。

预计能效

所需的能源成本,包括驱动器件的光功率和电子功率,估计为520 mW(方法),对应于3 TOP/W,类似于当前最先进GPU的能效。由于我们电路中的模数转换器(ADC)由于低速集成读取而具有低功耗,功耗主要由电子驱动器决定,例如用于光学收发器的数字-模拟转换器,工作频率超过100 GHz,达到了低于1 pJ/bit的转换[54]。在近期,当采用具有超过100×100通道的交叉开关进行并行处理时,能效可提高100倍,达到约10,000 TOP/W,接近250 TOPS/W的水平。由于TFLN调制器仅需±0.4 V的电压驱动,能耗可能进一步减少。此外,最近关于使用TFLN调制器的光电数字-模拟转换器(ODACs)的进展可能进一步[55]减少电子开销,将调制器的能耗降低至每个设备仅为1.6 mW,这对应于在128 GS/s下每数据编码仅为约1 fJ,预计计算效率可达到200 TOPS/W。

结论

量化感知的光子同相计算建立了一种新的范式,其中超快、低精度的光学硬件不再仅限于低精度工作负载,而是通过算法-硬件共设计系统性地提升,以支持高保真、可扩展的数字仿真和人工智能计算。展望未来,高速电子-光子接口、宽带校准和共封装光电转换器[55]的进步将进一步扩展可达到的精度-吞吐量-能效权衡空间,使得密集的同相计算单元阵列能够作为可重配置加速器与片上交叉开关[42,53]结合使用,从而实现高吞吐量的扩展。结合新兴的混合精度算法、稀疏和结构化运算符以及领域特定求解器,这样的架构为解决大规模、复值问题提供了可扩展的路径,这些问题对于纯电子系统而言成本过高,例如用于雷达散射截面和物体检测的实时偏微分方程(PDE)求解器。随着量化感知混合精度算法在AI计算中的应用,尤其是在大语言模型中,99.5%的计算任务可以是低精度[51],光计算可以为这些任务提供快速且高效的解决方案。除了加速当今的AI推理外,通过解决基本的偏微分方程,这一方法为实时逆向设计、多物理建模和波动系统中的自适应学习开辟了机会,指向一个未来,其中光子处理器成为通用、节能计算平台的核心组件,物理模型与数据驱动方法紧密结合,推动可扩展的数字双胞胎、不确定性感知传感和边缘部署的基于物理的智能应用,涵盖从遥感和自动化系统到科学计算和材料发现等各个领域。

方法

频率响应测量

为了均衡每个调制器的频率响应,我们首先测量了由AWG、射频电缆、调制器、同相检测器和示波器组成的通道的传递函数。我们从AWG发送一组随机分布的值,目标计算数据速率,并记录示波器的输出。时域数据经过傅里叶变换后,除以基准值的频谱。我们从100个数据集(每个数据集包含1000个随机符号)中提取了平均传递函数。然后,这个传递函数被应用于预补偿部分,在编码之前将1/H(ω)滤波器添加到未见数据中。由于我们系统中可用的最高带宽平衡光电探测器(PD)为22 GHz(Optilab BPR-22-M),因此频率响应校准能够可靠执行的最大时钟速率被限制为44 GS/s。40 GS/s下的编码校准测量使用了Keysight M8199A AWG(最大130 GS/s)。

时间积分

我们使用现成的低速时间积分器(TI IVC 102 [8,10,38])对PD的电流进行积分,但这需要超过10 μs的放电时间。使用具有匹配类比带宽的BPD进行积分,可以提供快速放电时间的连续VVM的读取积分。

复值VVM测量

复值VVM实验使用四通道AWG(Tektronix AWG5014C)进行。幅度和相位调制器的半波电压分别为2.6 V和5.2 V。幅度调制器的偏置设置在强度消光点,并使用1.2 Vpp电压驱动,以确保线性编码。任何相位项可以映射到±π/2范围,从而实现任意的复值编码。在应用相位调制器之前,使用集成加热器来偏置两个臂的初始相对相位。此配置允许同时并准确地对幅度和相位进行编码,从而实现集成实部和虚部的完全复值读取。

128 GS/s下的实值MVM测量

在高速MNIST分类实验中,AWG提供了128 GS/s的时钟速率来驱动幅度调制。通过高速微波探针接触调制器,以保持带宽性能,同时集成加热器通过线焊接到PCB上。此配置确保封装的带宽限制不会影响128 GS/s实验的性能。读取过程使用10 MHz光电探测器进行。

飞机雷达散射截面

飞机结构被一个沿z方向传播的平面波照射,使用磁场积分方程(MFIE)来求解,在飞机表面找到等效的电场表面电流密度。采用基于切比雪夫的边界积分方程(CBIE)求解器[56]将物体分解为表面贴片,每个贴片离散为10×10个点,并在每个点上找到等效的电场表面电流密度,结果为15800个未知数。离散化的系统可以通过矩阵方程表示,其中系统矩阵具有15800×15800个元素。广义最小残差法(GMRES)作为一种迭代求解器,在每次迭代中执行矩阵-向量乘法(MVM),用于求解该系统。因此,这个散射问题非常复杂,具有大量的未知数,其中MVM的加速可以显著加快求解时间。

在我们的仿真器中,首先,幅度大于容忍度的主导元素被单独进行乘法运算(稀疏-密集方法),并使用16位精度,这在量化过程中减少了剩余矩阵元素的动态范围,从而减少了量化误差。我们设置的容忍度确保只有0.003%的数据被分离,因此它们在每次迭代中单独进行的高精度乘法计算不会引入显著的计算开销。其次,由于系统的复杂性仅通过8位值表示,我们使用比特切片操作对所有16位MVM进行处理,将其分解为四个8位MVM操作。内部GMRES的容忍度设置为0.1,以实现收敛。

AI模型推理

在复值模型中,输入层来自一个由28x28像素组成的图像,展平为784个时间步,并送入第一层,使用一个预训练的784x12参数矩阵(图3a)。第一层的计算结果被串行化,并送入第二层进行计算,作为芯片输入(图3b)。实部和虚部的时间轨迹通过平衡光电二极管进行测量。然后,这些复值输出被转换为强度和相位形式,只有强度作为最终输出用于在10个类别之间进行分类。

比特切片

每个16位向量 XN和 YN被分离成两个8位数据,通过 XN=XN1×28+XN2和 WN=WN1×28+WN2进行处理。因此,两个比特切片向量的乘积通过4次有效的8位乘法的加权和计算:

YN=XNWN=(XN1WN1×28+(XN2WN2+XN1WN2)×24+XN2WN2)

在部署到模拟光计算时,为了避免 XNWN项的类比噪声主导其他项,尽管它已被8位数字化,噪声底应保持较低,以确保16位信噪比[57],这在我们的架构中是可实现的,得益于低速集成读取。对于中间计算位,例如,可以将12位数据切片为光电组合,使用4位数字 XNWN和8位类比用于较低的项。

预计功耗

能量消耗包括光学功率和电气功率,涉及两个幅度调制器和两个相位调制器,时钟速率为128 GS/s。激光源消耗了1 mW。在数据编码中,TFLN调制器的能量消耗可以根据其驱动条件进行估算。幅度调制器在准线性区域工作,峰-峰电压为0.83 V,相应的均方根驱动电压为0.29 V。在50Ω终端下,这导致使用两个幅度调制器时每次操作的能量成本约为13 fJ。在完整系统中,我们考虑每个调制器由一个数字-模拟转换器驱动,其转换能量为1 pJ/conv,这在总功率中占主导地位,功耗为519.9 mW。对应的能效约为3 TOPS/W。进一步开发光学数字-模拟转换器可能会将驱动功耗降低到基本的TFLN调制器功耗,从而将系统的总功率降低到仅8 mW,能效达到约200 TOPS/W。

表1. 不同速度下的随机数据乘法

640 (32)

表2. 光子计算平台间计算精度和时钟速率的比较

640 (33)

关于我们:

OMeda成立于2021年,由3名在微纳加工行业拥有超过7年经验的工艺,项目人员创立。目前拥有员工15人,在微纳加工(涂层、光刻、蚀刻、双光子印刷、键合)等领域拥有丰富的经验。 同时,我们支持4/6/8英寸晶圆的纳米加工。 部分设备和工艺支持12英寸晶圆工艺。针对MEMS传感器、柔性传感器、微流控、微纳光学等行业。

中国(上海)自由贸易试验区临港新片区业盛路188号450室 电话:+86 188 233 40140 邮箱:jing.chen@omeda-optics.com

来源:OMeda

关于我们

OMeda(上海奥麦达微)成立于2021年,由3名在微纳加工行业拥有超过7年经验的工艺,项目人员创立。在微纳加工(镀膜、光刻、蚀刻、双光子打印、键合,键合)等工艺拥有丰富的经验。 同时,我们支持4/6/8英寸晶圆的纳米加工。部分设备和工艺支持12英寸晶圆工艺。针对MEMS传感器、柔性传感器、微流控、微纳光学,激光器,光子集成电路,Micro LED,功率器件等行业。

姓名:*
邮件:*
公司名称:
电话:*
您的需求: