摘要
人工智能的崛起引发了数据量的指数增长,要求快速高效的处理。高速、节能和可并行扩展的计算硬件因此变得越来越重要。我们展示了一款基于拓扑调制器的晶圆级非易失性拓扑光子计算芯片。通过拓扑光子束缚,利用铁电钛酸铅锆(PZT)薄膜的GHz级电光响应和非易失性,我们的芯片实现了1,000倍加速重构、零静态功耗操作,并具有每平方毫米266万亿次操作的计算密度(TOPS/mm²)。这一密度超越了硅光子重构计算芯片两个数量级,超过了薄膜铌酸锂平台四个数量级。该芯片的16通道波长-空间复用设计提供了1.92 TOPS的吞吐量,具有95.64%的数字识别准确度和94.5%的精度,用于求解时变的偏微分方程。此外,该芯片支持功能重构,用于高带宽密度的光学输入/输出。该研究为高效高速光子张量处理建立了铁电拓扑光子学的基础。
人工智能(AI)在自动驾驶、工业物联网和医疗诊断等领域的爆炸性增长要求计算架构提供实时处理、超高效率和超大规模能力。基于冯·诺依曼的数字处理器面临根本性障碍:互连RC延迟和焦耳加热导致功耗随着频率的增加呈超线性增长,造成无法克服的性能扩展限制。光子计算作为一种变革性的计算范式,具有三个基本优势:太赫兹级的工作带宽、利用频率和极化自由度的固有并行性以及低延迟。近年来,光子计算取得了显著突破,在计算速度、能效和延迟性能方面展现了革命性的优势。
尽管光子计算取得了进展,但其架构仍面临三大根本挑战:1)计算能力和密度。尽管片上衍射光学神经网络通过高计算密度实现超过100万亿次操作每秒(TOPS)的吞吐量,但其静态权重本质上缺乏重构能力。可重构的非衍射网络(例如马赫-曾德干涉仪(MZI)网格或微环阵列)通过并行化扩展能力,但仍受限于物理通道扩展,而非设备创新。这种方法不可避免地扩大了占地面积,将计算密度限制在<2 TOPS/mm²。2)可重构性。大多数硅/氮化硅架构受限于微秒级热光权重调节延迟,缺乏快速参数更新能力。这种缓慢的重构阻碍了动态输入/输出维度适应,严重影响了实时的扇入/扇出重构,尤其是在计算密集型任务如时变偏微分方程求解中。3)能效。多处理器AI系统要求超高效的硬件。热光加热器和载流子调制中的毫瓦级功耗与光子计算的能效优势相矛盾,严重限制了可扩展集成和实际部署。
#划重点
#PZTOI晶圆 #PZT电光调制器光刻显影刻蚀流片
#6寸DUVKRF150nm流片
SOI晶圆:--220nm薄膜/ 3um厚膜-3umSIO2-675umALOOI晶圆;--氧化铝薄膜晶圆,键合工艺和镀膜工艺
TAOOI晶圆--氧化钽薄膜晶圆,镀膜工艺
SINOI晶圆--超低损耗氮化硅薄膜晶圆,210nm-300nm-400nm-800nm
SICOI晶圆;新型量子光学平台500nm-700nm-1um
6寸LTOI晶圆批量供应;铌酸锂的有力的竞争对手,薄膜钽酸锂晶300600
8寸LNOI晶圆;8寸LNOI助力更大规模薄膜铌酸锂产品量产
LN/LT-SOI/Si/SIN W2W&D2W异质集成
流片: 6寸 氮化硅 铌酸锂 硅光 超高性价比流片, 1个BLOCK的价格买一整片晶圆
划重点--全国产-超高性价比-6 寸硅光-氮化硅-铌酸锂流片白皮书
我们为客户提供晶圆(硅晶圆,玻璃晶圆,SOI晶圆,GaAs,蓝宝石,碳化硅(导电,非绝缘),Ga2O3,金刚石,GaN(外延片/衬底)),镀膜(PVD,cvd,Ald,PLD)和材料(Au Cu Ag Pt Al Cr Ti Ni Sio2 Tio2 Ti3O5,Ta2O5,ZrO2,TiN,ALN,ZnO,HfO2。。更多材料),键合(石英石英键合,蓝宝石蓝宝石键合)光刻,高精度掩模版,外延,掺杂,电子束光刻等产品及加工服务(请找小编领取我们晶圆标品库存列表,为您的科学实验加速。
请联系小编免费获取原文
文章名:Ultrafast Reconfigurable Topological Photonic Processing Accelerator
作者:Wenfeng Zhou1,4, Xin Wang1,4, Xun Zhang1,4, Yuqi Chen1, Min Sun1, Jingchi Li1, Xiong Ni1, Yahui Zhu1,Qingqing Han1, Jungan Wang2, Chen Yang2, Bin Li2, Feng Qiu2,3, Yikai Su1*, Yong Zhang1
单位:1. State Key Laboratory of Photonics and Communications, Department of Electronic Engineering, ShanghaiJiao Tong University; Shanghai, China.
2. AIRC, Hangzhou Institute for Advanced Study, University of Chinese Academy of Sciences; Hangzhou,China.
3. Juhe Electro-optic (Hangzhou) Tech. Co. Ltd., Hangzhou, China
近年来,已经探索了一些新兴材料平台,以解决这些挑战。尽管薄膜铌酸锂(TFLN)电光调制器能够实现纳秒级重构,但其低泊克尔系数要求使用厘米级调制臂,导致计算密度比硅光子器件低两个数量级。直流漂移进一步要求功耗较高的热相位调节器。相变材料提供了非易失性和零静态功耗,但在非晶-晶态转换过程中存在状态转换缓慢和光损失的问题,精确的多级控制仍然具有挑战性。因此,开发能够实现高计算密度、动态可配置性和能效的光子计算硬件仍然是一个挑战。
在这里,我们展示了一款晶圆级非易失性拓扑光子计算(NTPC)芯片,单片集成了基于薄膜PZT平台的拓扑调制器。通过利用铁电PZT薄膜的67 GHz电光响应和非易失性,我们的芯片实现了光路径控制,具有1,000倍更快的动态重构速度和零静态功耗。通过16通道波长-空间复用集成20个超紧凑的拓扑调制器,NTPC芯片实现了1.92 TOPS的吞吐量和266 TOPS/mm²的计算密度,性能超越了硅重构计算芯片两个数量级,超过了薄膜铌酸锂芯片四个数量级。成功的应用包括图像边缘检测、手写数字识别(95.64%准确度)和二维热传导解决方案(94.5%准确度),建立了首个用于光子张量处理的高速非易失性铁电平台。此外,非易失性使得NTPC能够进行动态重构。这使得单片集成的拓扑调制器能够执行密集的波长分复用(DWDM),实现了超过3.56 Tbps/mm的光学输入/输出带宽密度。这些成就突显了NTPC的多功能适应性和功能扩展性。
结果
加速器架构与工作原理。我们提出了一种NTPC,它协同集成了波长和空间分复用(WDM和SDM)。NTPC通过将4个波长通道与4个空间模式结合,实现了16通道并行处理(图1d),形成了一个密集的乘加阵列。每个计算单元由两个串联耦合的拓扑光子晶体(TPC)调制器组成。前端调制器执行输入数据的动态编码,而后端调制器则实现实时权重更新。
NTPC的核心组件是高带宽电光调制器。片上电光调制器通常使用硅的载流子色散或TFLN的泊克尔效应。硅调制器面临带宽限制、非线性和载流子吸收损失的问题。尽管TFLN调制器具有潜力,但其电光系数较低(约30 pm/V),需要厘米级的调制臂,这妥协了紧凑性和计算密度(图1a)。为了克服这些限制,我们采用了电光系数显著更高的薄膜PZT(约100 pm/V),以实现高效的电光调制。此外,我们利用了拓扑光子晶体微腔,具有更小的模式体积(详见附加部分[1])。这一设计增强了光场束缚,加强了电光相互作用,从而实现了更高效的调制。因此,所需的调制长度减少,计算密度提高。
NTPC需要级联两个电光调制器,因此它们之间需要精确的波长对准。波长对准通常通过热光效应来实现(图1a)。不幸的是,这种方法会消耗大量功率,每个单元通常需要数十毫瓦的功率。随着芯片规模的增大,这种功率需求会急剧增加,并引入有害的热串扰。我们通过利用薄膜PZT的固有非易失性克服了这些限制,实现了接近零功率的调谐和重构(详见附加部分[2]中的非易失性操作原理)。PZT通过直接电气操作铁电领域极化提供了解决方案,能够精确控制折射率,而无需持续的偏置电压(图1b)。
图1. 集成非易失性拓扑光子计算芯片(NTPC)的概念。
(a) 传统的点积架构 (i)、(ii),与NTPC架构 (iii)。
(b) PZT中铁电域的示意图(俯视图)以及有效折射率n与极化电场强度之间的关系。
(c) 计算单元执行两个独立的操作:1) 光学卷积,将图像编码在TPC1上,卷积核在TPC2上,2) 通过加载热源在TPC1上和配置在TPC2上的拉普拉斯算子进行热传导仿真。
(d) NTPC芯片的示意图,具有16通道并行处理。
(e) 向量维度和计算密度在最新平台和架构中的性能比较。
为了展示NTPC的性能优势,我们评估了三个关键应用(图1c):图像处理、手写数字分类和求解时变偏微分方程(PDEs)。NTPC在计算密度和扇入大小上实现了数量级的提升(图1e)。NTPC的制造、表征以及光子计算演示的详细信息将在后续部分中呈现。
NTPC的制造与表征。本节详细介绍了NTPC芯片的制造与表征过程。首先,通过种子层在4英寸SiO₂/Si基板上沉积无裂纹的优先(100)取向的PZT薄膜,采用基于溶液的化学沉积技术。这种方法不仅与互补金属氧化物半导体(CMOS)技术具有出色的兼容性,而且在可扩展性和成本效益制造方面具有优势(图2a)。为了解决薄膜PZT刻蚀中的挑战——特别是如何实现垂直侧壁——我们采用了氮化硅(SiN)加载的PZT波导(图2c)。利用成熟的SiN制造工艺为薄膜PZT光子器件的大规模集成提供了一条可行的路径(详细信息见方法部分)。
图2. NTPC的表征。
(a) 含有NTPC的4英寸SiN加载PZT晶圆。
(b) NTPC芯片的显微镜图像。
(c) SiN加载PZT波导横截面的假彩色扫描电子显微镜(SEM)图像。
(d) 拓扑调制器的扫描电子显微镜(SEM)图像。
(e) 不同周期下TPC的传输光谱,在1534 nm、1545 nm、1555 nm和1566 nm处有共振。
(f~i) 不同周期的拓扑调制器的S21响应测量结果。
为了充分发挥光子计算中固有的大规模并行性,我们实现了16通道设计,采用4通道波长分复用(WDM)和4通道空间分复用(SDM)(图2b)。四个前端拓扑电光调制器动态地对四种不同波长的输入数据进行编码。十六个后端拓扑调制器在四个波长和四个空间维度上执行实时权重更新。这两种调制器类型均利用薄膜PZT中的高速泊克尔效应,实现了快速的信号编码和实时重构。制造的拓扑腔体显示出9,000的品质因数(Q因子)和24 dB的消光比(图2d),而制造的3 dB分离器显示出0.5 dB的过剩损耗(单元设备的结果详见附加部分[3])。我们的4英寸PZT晶圆制造技术通过增加其他复用维度(如极化和模式),支持进一步的可扩展性,承诺显著增强片上计算能力。
NTPC的高速拓扑调制器。高速电光调制器是NTPC的核心功能元件。为了同时最大化调制带宽并最小化占地面积,我们采用了双管齐下的策略:1)材料优化:利用PZT的优越电光系数实现高效的调制,显著减少所需的光学交互长度。2)结构创新:采用拓扑光子晶体微腔实现卓越的光场束缚,最小化模式体积。这极大增强了电光相互作用,有助于紧凑的高速调制。
该调制器通过在两个具有不同拓扑不变量的1D拓扑光子晶体(TPC)交界处形成的拓扑界面态来工作,这些光子晶体通过Su-Schrieffer-Heeger(SSH)模型进行设计。与传统的光子晶体纳米光梁腔体容易产生多个共振模式不同,我们的拓扑腔体设计提供了独立控制Q因子和模式体积的能力,同时严格保持固有的单模操作,从而消除了复杂的模式管理。NTPC需要多个波长特定的拓扑调制器,通过调整晶格周期来实现。图2e展示了四个不同周期的TPC的传输谱,每个光谱都显示了一个尖锐的共振峰,代表在独特波长处的拓扑界面态。数据拟合结果得出Q因子为9000,对应的光子寿命为τ = Qλ/(2πc) ≈ 7.3 ps,理论上设定了大约22 GHz的调制带宽上限。
为了激活TPC调制器中的电光效应,我们将一个周期为1秒、占空比为50%的方波脉冲列施加到电极上。这个极化过程持续15分钟,以确保铁电域沿单一优选方向完全且均匀地对齐。然后,通过调整直流偏置电压并监测传输光谱的变化来表征静态调谐效率,得到了14 pm/V的值(详细信息见附加部分[4])。利用这个拓扑界面态,我们实现了第一个拓扑PZT调制器,达到了1.6 × 225 µm²的超紧凑占地面积。通过利用瞬态峰响应,调制器突破了光子寿命带宽限制,达到了超过67 GHz。据我们所知,这是已展示的最紧凑的薄膜PZT调制器,具有超过40 GHz的带宽。所有四个波长特定的调制器均一致地达到了超过67 GHz的调制带宽(图2f-i),展现出卓越的稳定性和可重复性(详细信息见附加部分[5])。
NTPC的非易失性重构操作。在16通道NTPC芯片中,每个通道需要两个相同波长的电光调制器:一个前端TPC调制器用于高速信号编码,另一个后端调制器用于实时权重更新。热光调谐是一种常用的波长对准方法,但集成微加热器每个设备消耗超过10 mW,增加了光子计算的能耗。为了解决这个挑战,我们利用PZT的非易失性特性来实现波长校准。
我们通过Vset扫描(9 V至32 V,图3b)进行非易失性测试,获得了23个可调非易失性状态(图3c)。这种连续可调的折射率使我们能够在3 nm的范围内实现任意波长调整。作为非易失性的典型演示,我们展示了一个稳定的六级忆阻器。定义550 pm的调谐为一个状态,实现了6个可编程操作(图3d)。为了验证重复性(这是NTPC性能的关键),我们对这些状态进行10次擦写操作,观察到波长变化小于50 pm(图3e),确认了极好的稳定性。
图3. NTPC的非易失性光路径重构。
(a) 测量过程示意图。
路径1:当光注入端口#I1时,在监测端口#M1检测TPC1的传输光谱;
路径2:当光进入端口#O1时,在监测端口#M2观察TPC2的传输光谱;
路径3:当光注入端口#I1时,经过TPC1和TPC2依次传播的复合传输光谱在输出端口#O1测量。
FPC:光纤偏振控制器;OSA:光谱分析仪;DC Source:直流电源。
(b) 不同施加电压下的传输光谱。
(c) 在23种不同电压条件下的波长调谐统计分析。
(d) 上:六个非易失性不同状态;下:施加电压幅值。
(e) 通过10次擦写-写入周期进行六个不同非易失性状态的稳定性测试。
(f) 在初始随机制造变化下路径1、路径2和路径3的传输光谱。
(g) 路径3的非易失性传输光谱与施加电压的关系。
(h) 在非易失性对准后,路径3传输光谱在25小时内的稳定性表征。
我们增加了两个监测端口(#M1和#M2)来跟踪TPC1和TPC2微腔之间的对准。通过定制设计的光束分 splitter,15%的光被引导到监测端口,实现了实时的共振跟踪(图3a)。初步测量显示,由于制造工艺的变化,TPC1(1544.1 nm)和TPC2(1545.8 nm)之间存在1700 pm的偏移(图3f)。这种不对齐产生了一个组合带隙,阻止了Path3的传输,扰乱了输入数据和权重之间的乘加操作。光谱对准协议通过施加偏置电压控制TPC1的共振红移来实现。施加的电压(60秒持续时间)诱导铁电域切换,随后进行60秒的稳定期,以确保域松弛,然后进行Path3的光谱表征。根据PZT的非易失性特性,我们估计调谐电压应落在23-25 V范围内。系统化地:(i)没有偏置(0 V)时,Path3没有共振传输。(ii)在23 V偏置下,TPC1和TPC2之间发生部分光谱重叠,产生共振峰,消光比为12 dB。(iii)在25 V时,TPC1发生了1.7 nm的红移,与TPC2实现完全的光谱对准,显著增强了共振(消光比为22 dB;图3g)。每个测量周期后,反向偏置将设备重置到初始状态。这种电压依赖的光谱调谐演示了对光子网络中腔体间耦合的精确控制。基于PZT的非易失性对准确保了光学芯片的长期稳定性。我们对Path3进行了25小时的监测,结果显示消光比持续为22 dB,波长漂移小于50 pm(图3h),验证了该方法的可靠性。
与传统的热光调谐技术(通常每个设备消耗数十毫瓦功率)相比,我们基于PZT的铁电非易失性对准仅需0.05 nW的总能量,调谐效率为0.0294 nW/nm(详细分析见附加部分[6])。这意味着功耗减少了八个数量级。因此,该技术为光学计算芯片提供了一个强大的解决方案,同时实现了超低功耗和高计算密度,适用于NTPC图像处理任务和手写数字识别。我们提出的可编程拓扑芯片作为一个多功能平台,能够执行多种光学功能。为了严格评估其在卷积计算中的性能,我们通过图像边缘检测和十类手写数字分类任务进行了全面的系统级验证,展示了其广泛的适用性和可扩展性。
通过采用四个不同的波长并结合四通道空间分复用,我们构建了16个并行计算通道。在预处理阶段,原始的512×512像素图像被展平为1×262144维的特征向量,并加载到前端TPC调制器中,同时3×3卷积核的参数被转换为相同维度的权重向量,并以60 GBaud的速率加载到后端TPC调制器中(图4a)。详细的测试程序见附加部分[7]。
计算结果表明,通过卷积核重构成功实现了三种基本的图像处理操作:恒等变换、锐化增强和边缘提取(图4b)。采用可分离卷积方法,我们独立计算了沿X/Y方向的图像梯度特征,随后进行特征融合,清晰地揭示了边缘结构信息。实验数据与理论预测结果高度一致。详细的边缘检测方法见附加部分[8]。
图4. NTPC用于图像处理和数字分类任务。
(a) NTPC用于图像处理任务的示意图。
(b) 使用3×3卷积核的卷积操作:相同图像、锐化和边缘检测的仿真与实验结果。
(c) 手写数字识别系统的卷积神经网络框架。
(d) 使用3×3卷积核对MNIST数字图像执行卷积操作的理想(蓝色)和实验(灰色)输出波形。放大的时间轮廓捕捉了从55 ns到75 ns的瞬态响应。
(e) 80个训练周期中的动态变化:模拟准确率、实验准确率和实验交叉熵损失的比较演变。
(f) 计算得到的混淆矩阵和 (g) 实验得到的混淆矩阵(96.46% vs 95.64%准确率)。
此外,我们开发了基于光学神经网络的手写数字分类系统(图4c)。实现过程包括:在输入处理中,28×28像素的图像被展平为1×784(28×28)向量。这些向量在前端调制器上以60 GBaud的速率进行时间强度编码。计算表明,单图像处理需要13.08纳秒(784÷60 GBaud),理论吞吐量为每秒7650万图像。特征提取阶段采用3×3光学卷积核,工作速率为60 GBaud。经过ReLU非线性激活后,输出被转换为1×169的特征向量,随后通过电域中的169×128全连接层生成1×10的分类向量(最大索引表示识别结果)。值得注意的是,每个向量的维度设置为262,144,这一限制由我们高速任意波形发生器(AWG)的规格所决定。NTPC在向量乘积维度为262144×16=4.2×10⁶时,达到了前所未有的60 GHz权重更新速度,比传统光学计算方法提高了六个数量级。卷积原理的详细信息见附加部分[9]。
实验结果显示,在50-75纳秒范围内,实测(灰色)和理想(蓝色)卷积输出之间具有良好的一致性(图4d),验证了NTPC的特征提取能力。在MNIST数据集(60,000个训练图像/10,000个测试图像)上,硬件训练曲线与软件仿真结果一致(图4e),交叉熵损失呈一致的指数衰减。最终的测试准确率达到95.64%(图4f),接近理论值96.46%(图4g),0.82%的差异可归因于系统噪声、调制器漂移、探测器非线性和EDFA噪声。
NTPC集成了20个拓扑调制器,使用4通道WDM和4通道SDM,实现了16并行通道的光学计算架构。该芯片以120 GOPS的计算速度和1.92 TOPS的峰值计算能力(由60×2×4×4次操作推导得出)运行。在0.0072 mm²的紧凑活动区域上,它提供了266 TOPS/mm²的卓越计算密度。通过消除热光调谐功耗,并利用电光调制和非易失性重构的固有低能耗特性,NTPC实现了265 fJ/OP的卓越能效(详细分析见附加部分[10])。这一突破为下一代光学计算技术铺平了道路,能够同时实现高速运行、创纪录的计算密度和超低功耗。
NTPC用于求解偏微分方程(PDEs)。光学计算用于时间演化的PDEs通常使用有限差分离散化,将导数转换为矩阵运算。核心计算涉及迭代矩阵-向量乘法,复杂度随网格大小呈二次增长(n²个变量 → n²×n²的系数矩阵)。这为传统硬件带来了可扩展性挑战。NTPC通过动态调整输入/输出矩阵维度,成功解决了由于高分辨率离散化引起的设备数量指数增长问题。因此,这一能力使NTPC成为解决时间演化PDEs的一个非常有前景的平台。
NTPC通过灵活的矩阵大小调整克服了这些限制。它将热场和系数矩阵重新形状为1D向量:热数据通过前端调制器加载,而系数通过后端调制器加载。光域乘法结果被捕捉并进行数字处理,以迭代更新解(图5a)。成功的6×6网格拉普拉斯算子演示(图5b)突出了NTPC在光学PDE求解中的优势。
图5. NTPC用于求解时间演化的偏微分方程——热方程求解。
(a) 处理热方程的示意图:热源参数和拉普拉斯矩阵数据经过高速加载到NTPC中。计算后,光学输出通过光电探测器(PD)转换为电信号,使用示波器捕获并进行计算处理。
(b) 网格大小为36×36的拉普拉斯算子系数矩阵。
(c) 通过热源矩阵和离散拉普拉斯算子的点积生成的信号波形(计算:灰色 vs 实验:蓝色)。
(d) 模拟和 (e) 实验的初始热场。
(f) 模拟和 (g) 实验的热场分布在0.75秒、2秒和3.5秒时的结果。
(h) 网格点(5,5)处热场的动态变化。
(i) 从0到5秒的时间相关解的精度,达到超过94.5%的准确率。
数据加载配置为1-GSa/s,每64个样本对应一个空间点的计算。图5c展示了1D热场演化向量的比较分析,模拟(灰色曲线)和实验计算(蓝色曲线)结果,其中终端标记有助于数据识别。从这些1D向量重建的二维热场分布,分别展示了模拟(图5d)和实验(图5e)结果。实验数据与模拟结果在这两种维度表示中都表现出良好的吻合。
此外,热源偏离域中心,以严格测试远距离热传导的准确性。实验测量显示与模拟结果良好吻合,如0.75秒、2秒和3.5秒时的热场比较(图5f和5g)。网格点(5,5)处的温度演化曲线(图5h)显示了模拟(浅蓝色实线)和实验(红色虚线)之间的良好一致性,验证了我们的计算方法。
计算精度的演化表现出几个关键特征。初始精度受到仪器固有限制的影响,在测量过程中引入了随机噪声。随着计算的进行,连续时间步长中的累计误差变得越来越显著,导致整体精度逐渐下降(图5i)。关于数据采集、处理管道和精度量化的完整技术细节,见附加部分[11]。
可重构NTPC用于高带宽密度光学输入/输出。除了提升光学计算中的计算密度外,超紧凑的拓扑调制器特别适合用于未来分散式数据中心中的短距离光学互连,其中极致的紧凑性和高速是至关重要的。虽然微环调制器目前作为核心组件,但我们的拓扑调制器在带宽和速度上具有可比性,同时体积小了两个数量级。
通过利用PZT的非易失性,我们展示了NTPC的近零功率动态重构。通过精确设计NTPC中的16个后端TPC调制器(图6a),实现了100 GHz通道间隔的波长分复用(DWDM)(图6b-e)。高速测试显示,所有16个调制器在50 Gbps下操作时,能够获得定义良好的眼图(图6f),实现了总数据吞吐量为0.8 Tbps。与Ayar Labs和Intel基于微环的调制器相比(它们分别展示了0.36 Tbps/mm和0.46 Tbps/mm的带宽密度),我们的NTPC利用拓扑光子学的微型化能力,在0.225毫米长的边缘占地面积内实现了3.56 Tbps/mm的带宽密度。这一指标——通常用于评估光学输入/输出容量——突显了线性扩展如何直接影响通道的可扩展性,强调了我们平台所实现的卓越集成密度。详细的实验验证见附加部分[12]和附加部分[13]。
图6. 用于DWDM系统的可重构NTPC。
(a) 通过NTPC架构重新配置的DWDM系统示意图。
(b-e) 具有100 GHz(0.8 nm)均匀通道间隔的非易失性传输光谱重构。
(f) 所有16个TPC调制器在50 Gbps下运行的OOK信号测量眼图。
表 1. 各类平台与架构的最先进可重构光学计算芯片性能对比
a. 计算结果来源于附加材料;
b. 为保持一致性,数据使用附加材料中提供的标准差重新计算;
c. 这些数据可以基于现有的最先进设备获得。
讨论
总之,我们设计并实现了一种可编程拓扑光子芯片,该芯片协同集成了非易失性可调性、超快电光调制和强光束束缚于紧凑的架构中。通过利用铁电PZT薄膜的大泊克尔系数和非易失性特性,我们展示了拓扑边缘态的亚纳秒重构,并且静态功耗接近零。该芯片在两个关键领域表现出色:光学计算和光学互连。它支持并行光子内存计算,计算密度达到266 TOPS/mm²,超越了传统的可重构计算架构两到四个数量级。同时,它还作为一个高带宽的DWDM接口,具有超过3.56 Tbps/mm的I/O边缘密度,证明了其卓越的可扩展性和多功能性。
我们的研究成果建立了一个高速度、非易失性的铁电平台,在速度、集成密度和能效方面优于现有的解决方案。该芯片在扇入/扇出扩展性和快速权重更新方面的灵活性,使其成为下一代光子计算的有力候选平台(见表1)。展望未来,将光学微梳集成到PZT平台上可能会显著扩展并行波长通道,从而增强光子卷积能力,以应对复杂的AI任务。与高速电子接口(如模拟-数字转换器/数字-模拟转换器)的共同设计有望进一步降低系统功耗和延迟。扩展到更大规模的调制器阵列并优化特定拓扑算法将是实现NTPC在实时科学计算、边缘智能等领域全部潜力的关键。
方法
设备制造
NTPC的制造过程如下:首先,采用化学溶液沉积(CSD)方法,将300 nm厚的PZT铁电薄膜沉积在由2 µm厚的SiO₂绝缘层和525 µm厚的Si基板构成的基片上。随后,通过等离子体增强化学气相沉积(PECVD,Oxford)沉积400 nm厚的SiN介电层。为了进行图案化,使用Vistec EBPG 5200+电子束光刻(EBL)系统,配合AR-P6200.09光刻胶精确定义硅氮化物波导结构,随后通过电感耦合等离子体(ICP)干法刻蚀将图案转移到SiN层中。最后,通过电子束蒸发制造电极和连接垫,首先沉积10 nm厚的钛(Ti)粘附层,然后沉积300 nm厚的金(Au)层,最后通过剥离工艺形成最终的金属结构。