改进Transformer的高光谱图像地物分类方法——以黄河三角洲为例
Improved Transformer-based hyperspectral image classification method for surface features: A case study of the Yellow River Delta
通讯作者: 樊彦国(1965-),男,博士,教授,主要从事3S技术在数字国土、城市及海岸带方向的教学与研究工作。Email:ygfan@upc.edu.cn。
责任编辑: 张仙
收稿日期: 2023-04-18 修回日期: 2023-08-15
基金资助: |
|
Received: 2023-04-18 Revised: 2023-08-15
作者简介 About authors
李 薇(2000-),女,硕士研究生,主要研究方向为深度学习与遥感应用。Email:
高光谱技术已成为沿海湿地监测的主要手段,但传统高光谱分类方法通常存在特征提取不充分、同物异谱和场景碎片化等问题。针对这些问题,该文将Transformer用于高光谱分类,提出一种新的分类方法。该方法基于视觉自注意力模型(Vision Transformer,ViT),利用Non-local技术学习全局空间特征,扩大感受野解决提取判别特征不足的问题; 同时,通过自适应跨层残差连接加强层间信息交换,解决信息损失的问题。选取NC16和NC13黄河三角洲湿地数据集作为实验数据,并将提出的方法与支持向量机(support vector machine,SVM)、一维卷积神经网络(one dimensional convolution neural network,1DCNN)、上下文深度卷积神经网络(contextual deep convolution neural network,CDCNN)、光谱空间残差网络(spectral-spatial residual network,SSRN)、混合光谱网络(hybrid spectral network,HybridSN)和ViT进行比较分析。结果表明,所提方法的总体精度(overall accuracy,OA)、平均精度(average accuracy,AA)和Kappa系数均有显著提高,OA分别达到96.24%和73.84%,AA分别达到83.42%和74.87%,Kappa分别达到94.80%和68.94%。
关键词:
Hyperspectral technology has become the major means of coastal wetland monitoring. However, traditional hyperspectral classification methods usually face challenges such as insufficient feature extraction, the same surface features corresponding to different spectra, and fragmented scenes. To solve these problems, this study proposed a new classification method by applying Transformer to hyperspectral classification. This vision Transformer (ViT)-based method expanded the receptive field by learning global spatial features using non-local technology, thus overcoming the insufficient extraction of discriminant features. Meanwhile, this method enhanced the cross-layer information interchange through cross-layer adaptive residual connection, thus eliminating information loss. This study, taking NC16 and NC13 wetland datasets of the Yellow River Delta as experimental data, compared the classification method proposed in this study to support vector machine (SVM), one-dimensional convolution neural network (1DCNN), contextual deep convolution neural network (CDCNN), spectral-spatial residual network (SSRN), hybrid spectral network (HybridSN), and ViT. The comparison results show that the new method yielded significantly elevated overall accuracy (OA) of up to 96.24% and 73.84%, average accuracy (AA) reaching 83.42% and 74.87%, and Kappa coefficients of up to 94.80% and 68.94%, respectively for the two datasets.
Keywords:
本文引用格式
李薇, 樊彦国, 周培希.
LI Wei, FAN Yanguo, ZHOU Peixi.
0 引言
湿地是全球价值最高的生态系统,被誉为“地球之肾”、物种宝库、储碳库和气候变化的调节器,在孕育和丰富世界生物多样性领域中发挥了至关重要的作用。准确的沿海湿地监测对水资源保护[1]、生物多样性保护[2]和蓝碳碳汇开发[3]具有重要意义。湿地分类可以为制定湿地保护计划和保护湿地物种多样性提供必要的参考信息。由于不同地面物体的光谱相似性,并且存在严重的碎片化和空间异质性,沿海湿地测绘仍是一大挑战。随着我国遥感研究的迅猛发展,高光谱已成为众多遥感技术中最重要的方向之一,高光谱图像(hyperspectral images,HSI)包含几十甚至上百个波段,真正实现了图谱合一[4-5]。目前,HSI已经在许多领域取得了广泛的应用,如医学图像处理、土地测绘、精准农业、食品检测、气象监测、矿物勘探等[6]。遥感监测技术具有省时、省力、对湿地无破坏性采样、快速宏观监测等优势,已成为目前获取大面积湿地信息的主要途径。近年来,基于遥感的湿地分类工作越来越多。
HSI分类是针对HSI的一项基础研究,传统的分类模型在处理小样本问题中表现良好,但是当训练集增大时并不能挖掘出图像的深层信息而出现性能瓶颈,采用深层结构的模型能够充分利用影像的空间光谱信息。目前,图像分类中主流的技术是深度神经网络,如堆叠自编码器(stacked autoencoder,SAE)、卷积神经网络(convolutional neural networks,CNN)、循环神经网络(recurrent neural networks,RNN)等[7⇓⇓⇓⇓-12]。SAE需要数据被处理成一维数据,分层提取图像的深层特征,忽视了HSI的空间信息,影响分类精度。在基于CNN的高光谱分类方法中,一维卷积神经网络(one dimensional convolution neural network,1DCNN)是一种单分支光谱分类方法,它只考虑光谱信息而忽略空间信息; 上下文深度卷积神经网络(contextual deep convolution neural network,CDCNN)方法利用多尺度卷积滤波器实现了光谱和空间信息的联合利用,并利用残差连接的方法引入了更高更深的网络; 光谱空间残差网络(spectral-spatial residual network,SSRN)利用残差连接和三维卷积核构建了深度残差网络模型,能够利用深层次的空谱联合特征,相较于1DCNN和CDCNN方法的分类精度有所提高; 混合光谱网络(hybrid spectral network,HybridSN)利用三维卷积和二维卷积联合提取光谱和空间特征。RNN无法并行训练模型,限制了实际应用中的分类性能。
随着分类方法的深入发展,Transformer模型成为当前主要的神经网络模型之一,由于使用了多头自注意力机制,通过位置编码来捕获全局序列信息,可以更有效地处理和分析序列数据[13]。Hong等[14]将Transformer模型应用到HSI分类,采用分组光谱嵌入和层与层之间自适应融合的方式,对光谱波段进行分组,学习分组相邻波段的高级特征,在公开数据集中实现较好的分类结果; Zhong等[15]设计了一个光谱空间变压器网络(spectral-spatial transformer network,SSTN),用注意力模块取代了卷积操作。许多湿地分类研究也采用了Transformer模型,例如,Liu等[16]提出利用2个Transformer深度网络融合局部和全局特征的HSI分类方法,用于绘制ZY1-02D卫星图像的沿海湿地; Gao等[17]设计了空间光谱视觉自注意力模型(spatial-spectral Vision Transformer,SSViT)从融合图像中提取序列关系,对土地植被覆盖和生物数据进行一致分析,揭示了底栖生物的分布规律。研究表明,采用Transformer模型有助于湿地HSI分类。但是,在前人使用Transformer模型进行HSI分类中,判别特征提取不足、捕获长范围依赖效率低以及在网络学习过程中层间信息交换损失的问题依然存在。
ViT是2020年Google团队提出的将Transformer应用在图像分类的模型,模型简单、效果好且可扩展性强,为视觉相关任务提供了新的见解、灵感和创造性空间,Dosovitskiy等[18]实验表明使用迁移学习的ViT与最先进的卷积网络相比能够取得优异的结果,且训练所需的计算资源大量减少。本文将Non-local模块和跨层自适应融合机制(cross-layer adaptive fusion,CAF)应用到ViT模型,并引入标签平滑缓解过拟合问题,采用patch-wise的输入方式,在很大程度上保留网络学习中的频谱顺序信息,同时考虑空间上下文信息。旨在在训练样本有限的情况下,建立一个基于ViT的端到端训练网络模型,在保证湿地数据集分类精度的基础上减少网络的复杂性。
1 本文方法
本文改进的基于ViT的HSI分类网络,充分利用Non-local的判别特征提取能力和CAF模块的层间信息交换效率,进一步提高了HSI分类的性能。其网络框架图如图1所示,图1(a)为本文改进模型的总体框架概述,图1(b)为Transformer编码器的具体流程。首先,在光谱特征提取器中加入中范围的残差连接机制来自适应学习跨层特征融合,增强层与层之间的连接,减少网络学习过程中的信息损失,其次,为了充分利用HSI丰富的光谱空间信息,在Transformer Encoder块之后插入非局部模块扩大感受野,帮助模型关注重要特征。为了防止训练过拟合问题,同时将标签平滑机制集成到ViT框架中,并以patch-wise为输入方式,提高细微光谱差异的细节捕获能力,提高层间的信息传递性,最后经过分类器得到分类结果。
图1
1.1 Non-local模块
图2
Non-local模块的注意力行为可以有效地表达目标信息,抑制不相关的信息,帮助模型关注重要特征,以适应复杂背景、小目标、目标重叠或稀疏地理对象分布不均匀等问题。定义公式为:
式中: x为输入特征图; i为输出位置,如时间、空间或者时空的索引,指对当前位置的响应; j为全局响应; f函数计算i和j的相似度; g函数计算特征图在j位置上的表示; C(x)为响应因子。
Non-local通过计算任意2个位置之间的交互直接捕捉远程依赖,而不用局限于相邻点,其相当于构造了一个和特征图谱尺寸一样大的卷积核,从而可以维持更多信息。Non-local模块的非局部操作不管位置距离如何都可以模拟HSI的长距离依赖关系,即使是在有限层的浅层网络中。非局部操作将一个位置的响应作为输入特征映射中所有位置的特征的加权和,因此,每个位置的权重都被自动学习。
1.2 CAF模块
残差连接机制是在ResNet网络中提出的思想,它可以增强层间的信息交换,减少网络学习过程中的信息损失,已被证明是深度网络中的一种有效的策略[22⇓-24]。例如,He等[25]探索了各种残差结构的效果,解决了深度CNN难以训练并且过深的层数导致性能退化的问题。由于Transformer中的残差连接只在单个块中使用,这样削弱了不同层之间的连接。短残差连接机制的信息“记忆”能力仍然有限,而长残差连接机制由于高水平和低水平特征之间的较大差距,往往会产生特征融合不足。为此,本文在光谱特征提取器中加入中范围的残差连接机制来自适应学习跨层特征融合,CAF模块的数量是提高本文网络分类性能的重要因素。模块介绍见图3,可以看到,CAF只跳过一个编码器,原因有2个,一方面,如果使用相对较长的残差连接甚至更多的编码器,会导致特征融合不足和潜在的信息丢失,另一方面对于训练样本较少的数据集,一个4层或5层的浅层网络已经适合HSI图像分类任务,因此,本文模型中设计CAF模块只跳过一个编码器。
图3
1.3 标签平滑法
在实际应用中只有有限的训练样本是一个常见的问题,而这会导致模型面临“过拟合”的问题,测试数据的分类精度较低。为了解决本文模型中的过拟合问题,引入了标签平滑法。
在图像分类任务中,每个训练样本M都有相对应的标签n∈{1,2,…,K},K为类别的数量。使用一个K维独热(one-hot)向量N来表示训练样本M的标签:
式中: q=1,2,…,K;
然而,Hinton等[26]的研究表明,如果我们将所有的地面真实标签指定为“硬标签”(即
式中:
通过简化模型来学习每个训练样本的全概率标签,标签平滑机制可以缓解过拟合问题,提高模型的泛化能力。
2 研究区概况与数据集
2.1 研究区概况
黄河三角洲湿地是渤海重要的生态功能区域,位于中国山东省东北部的渤海沿岸(N36°55'~38°16',E117°31'~119°18'),如图4所示,是中国最完整、最广泛、最全面的湿地生态系统,河流、芦苇、盐渍湿地等天然湿地约占68.4%,其余为池塘、水库等人工湿地。植被覆盖率高达53.7%,是我国沿海地区面积最大的海滩自然植被区域,鸟类资源丰富,珍稀濒危鸟类众多,在生物多样性保护和生态修复中起着重要的作用。
图4
2.2 数据集描述
本文使用的数据是Xie等[27]建立的湿地土地覆盖类型数据库,即黄河三角洲HSI数据集,数据集由DJI M600无人机平台搭载的12 mm焦距Nano-hyperspec成像传感器采集,包含NC12,NC16和NC13 3个数据集,为了验证本文方法的有效性,选取NC16和NC13数据集进行试验。
2.2.1 NC16数据集
NC16数据集于2020年9月23日晴朗无云的天气情况下获取。采集时间为13: 50—14: 20,无人机的飞行高度是400 m,空间分辨率约0.266 m,图像尺寸为1 060像素×976像素,总共涵盖了270个波段。该数据集地物类型共有16类,包括水域、柽柳、旱田等。
2.2.2 NC13数据集
NC13数据集于2020年9月24日14: 47—15: 20时间段内采集,天气状况阴。无人机的飞行高度为300 m,空间分辨率约为0.182 m,数据集中的图像尺寸为1 098像素×808像素,共有270个波段,包含13种土地覆盖类型,大部分为混生地物。
3 实验结果与讨论
本章节介绍了实现细节和比较的先进方法,以定量和定性地评估所提出的模型在湿地HSI分类中的性能。
3.1 分类方法对比分析
在本节中,使用NC16和NC13数据集来验证所改进模型的有效性。所有实验均是在配有NVIDIA GeForce RTX 3060,128 GB RAM的Windows 10系统上运行的,深度学习采用Pytorch框架。对于每个数据集,选择少量的样本作为训练集,其余的作为测试集,其中NC16和NC13数据集训练样本数分别设为2.89%和1.66%,我们采用了Adam优化器,其批次大小为64。学习速率初始化为5E-4,并设置随着epochs的增大而逐渐减小学习率从而达到更好的训练效果。每个实验独立重复进行,调整超参数并选用最优参数。此外,最大训练epochs的数量被设置为400。
表1 NC16数据集的不同方法的分类结果
Tab.1
类别 | 查全率 | ||||||
---|---|---|---|---|---|---|---|
SVM | 1DCNN | CDCNN | SSRN | HybridSN | ViT | 本文方法 | |
碱蓬 | 93.91 | 99.76 | 99.63 | 99.64 | 96.23 | 98.78 | 99.87 |
水泥路 | 94.46 | 88.02 | 92.19 | 87.61 | 78.10 | 64.34 | 81.59 |
沥青柏油路 | 93.12 | 87.09 | 87.02 | 87.97 | 74.33 | 80.28 | 91.56 |
水域 | 89.97 | 99.10 | 91.67 | 98.38 | 96.41 | 97.75 | 99.99 |
石块 | 71.45 | 93.19 | 95.15 | 93.40 | 76.00 | 95.48 | 78.23 |
草地 | 80.52 | 76.74 | 73.33 | 73.71 | 91.53 | 74.47 | 74.44 |
铁杆 | 0 | 0 | 0 | 12.50 | 0 | 31.25 | 33.50 |
柽柳 | 0 | 60.46 | 85.98 | 55.81 | 49.87 | 54.56 | 82.29 |
枯萎的芦苇 | 50.16 | 57.40 | 66.24 | 53.03 | 79.66 | 70.28 | 66.25 |
芦苇 | 47.15 | 52.76 | 78.23 | 73.18 | 54.18 | 63.69 | 71.19 |
互花米草 | 98.72 | 94.11 | 95.36 | 86.54 | 92.00 | 95.74 | 96.37 |
苔藓 | 31.50 | 67.89 | 71.50 | 76.42 | 98.02 | 73.72 | 72.16 |
旱田 | 84.93 | 82.00 | 88.64 | 92.74 | 96.57 | 96.07 | 94.94 |
湿地 | 97.36 | 91.92 | 91.68 | 94.64 | 99.93 | 94.15 | 97.40 |
滩涂 | 65.41 | 82.19 | 93.91 | 68.20 | 93.91 | 88.01 | 94.87 |
标准反射板 | 0 | 100.00 | 57.60 | 43.80 | 31.00 | 93.75 | 100.00 |
OA | 85.76 | 92.63 | 92.72 | 94.99 | 94.18 | 94.62 | 96.24 |
AA | 62.42 | 77.04 | 79.25 | 74.85 | 75.48 | 79.52 | 83.42 |
Kappa | 80.82 | 89.86 | 90.01 | 93.12 | 92.11 | 92.62 | 94.80 |
图5
由分类结果可以看出,NC16数据集中铁杆、柽柳、标准反射板类别在不同网络模型中分类结果较差,SVM,1DCNN,CDCNN和 HybridSN方法不能识别铁杆类,不能很好地在分类图中对柽柳进行分类,因为它们的样本量相对较少,此外,随机抽样是基于百分比抽样,导致这些类别的训练数量少,样本不均衡。1DCNN获得了有噪声的分类图,原因是不能有效提取空间信息。通过引入注意力机制,SSRN和ViT方法比 SVM,1DCNN 和 CDCNN方法获得了更好的分类性能,OA值分别达到94.99%和94.62%。相比之下,由于本文方法充分利用了多头注意机制捕获长距离依赖、有效增强层间信息交换,所以在NC16数据集上可以在所有方法中获得更好的性能,分类结果稳定,杂碎斑点较少,相比于ViT,改进方法的OA,AA和Kappa分别提高了2.18,3.90和1.62百分点。
表2 NC13数据集的不同方法的分类结果
Tab.2
类别名称 | 查全率 | ||||||
---|---|---|---|---|---|---|---|
SVM | 1DCNN | CDCNN | SSRN | HybridSN | ViT | 本文方法 | |
碱蓬 | 86.08 | 80.37 | 80.97 | 91.10 | 95.53 | 88.30 | 92.23 |
沥青水泥混合路面 | 99.96 | 99.77 | 98.64 | 99.37 | 100.00 | 94.05 | 99.73 |
湿地 | 77.10 | 87.17 | 86.65 | 90.04 | 70.77 | 73.38 | 80.37 |
水域 | 99.98 | 99.97 | 98.82 | 99.81 | 100.00 | 99.54 | 99.76 |
石油 | 90.35 | 93.78 | 91.08 | 99.54 | 95.20 | 94.24 | 99.04 |
芦苇 | 31.84 | 46.96 | 53.91 | 44.27 | 52.84 | 52.00 | 50.89 |
柽柳 | 0 | 38.94 | 60.00 | 50.56 | 17.04 | 46.36 | 57.27 |
车 | 27.36 | 65.49 | 77.74 | 87.72 | 72.93 | 57.36 | 85.17 |
旱田 | 53.67 | 81.13 | 87.64 | 66.06 | 98.27 | 92.00 | 74.97 |
标准反射板 | 0 | 100.00 | 37.65 | 97.37 | 0 | 89.79 | 51.02 |
柽柳芦苇混生 | 35.12 | 56.63 | 53.44 | 59.60 | 59.13 | 51.73 | 52.13 |
碱蓬芦苇混生 | 61.56 | 64.79 | 69.23 | 46.54 | 69.73 | 51.98 | 65.12 |
芦苇水域混合 | 45.82 | 49.52 | 49.88 | 65.77 | 58.54 | 68.72 | 65.61 |
OA | 69.38 | 70.41 | 69.81 | 71.46 | 70.65 | 70.86 | 73.84 |
AA | 54.53 | 74.19 | 72.74 | 76.75 | 68.46 | 73.80 | 74.87 |
Kappa | 62.73 | 64.91 | 64.29 | 66.18 | 65.19 | 65.47 | 68.94 |
图6
在NC13数据集上存在许多混生地物,这使得分类任务非常困难。SVM,1DCNN 和 CDCNN在NC13数据集上表现欠佳,这是由于它们的特征提取器无法提取出复杂场景下的地物特征。HybridSN结合2DCNN和3DCNN提高分类结果,然而,在一些对象中也存在一些错误分类的像素,对柽柳和标准反射板的分类效果差,原因是训练样本少。基于注意力机制的方法,SSRN引入残差连接来提高分类性能,ViT和本文提出的方法获得了更好的分类精度,这也表明了注意机制确实有助于提高分类精度。在所有基于注意力的方法中,本文模型通过整合光谱和空间信息,提高层间信息传递性获得了最高的分类精度,OA,AA和Kappa分别达到了73.84%,74.87%和68.94%。
3.2 消融实验
为验证Non-local和自适应跨层连接模块在黄河三角洲湿地高光谱地物分类任务上的有效性,本文基于ViT模型进行了消融实验,消融实验结果如表3所示。具体来说,没有Non-local和CAF模块的ViT的分类精度最低,通过将Non-local或CAF插入ViT,均可得到精度更高的分类结果。更好的是,Non-local和CAF的联合开发可以进一步显著提高性能。这可以解释为,在添加CAF后,光谱信息能够更有效、更容易地学习,Non-local可以抑制不相关信息,提取更多的判别特征。结果表明,相较于基础模型,使用Non-local和CAF模块后的ViT模型高光谱地物分类的结果有显著提升。
表3 消融实验的结果
Tab.3
Non-local | CAF | NC16 | NC13 | ||||
---|---|---|---|---|---|---|---|
OA | AA | Kappa | OA | AA | Kappa | ||
× | × | 94.62 | 79.52 | 92.62 | 70.86 | 73.80 | 65.47 |
× | √ | 95.41 | 76.82 | 93.67 | 71.26 | 74.49 | 65.94 |
√ | × | 95.61 | 79.97 | 93.94 | 71.73 | 74.72 | 66.51 |
√ | √ | 96.24 | 83.42 | 94.80 | 73.84 | 74.87 | 68.94 |
4 结论
为充分挖掘高光谱图像中所包含的空间光谱信息,本文改进了一种可以提高黄河三角洲湿地HSI分类性能的ViT方法,该方法将Non-local模块与ViT结构有机地集成,采用跨层残差连接机制减少网络学习过程中的信息损失,有助于层间信息传递,最小限度地减少空间和光谱特征的损失,也避免了局部信息的丢失,这种操作使得对土地覆盖类型特征的分析更加充分,全面利用不同层之间的特征信息,更好地进行地物分类。
利用NC16和NC13数据集进行实验,并与SVM,1DCNN,CDCNN,SSRN,HybridSN和ViT等方法进行对比分析。实验表明,与其他分类方法相比,本文提出的方法能有效提高分类性能,在精度上达到了最高,证明了该方法的实用性。未来将基于ViT结构研究不同的湿地高光谱场景数据之间的泛化能力,从而进一步提高分类精度。
参考文献
Spatiotemporal evolution of wetland eco-hydrological connectivity in the Poyang Lake area based on long time-series remote sensing images
[J].
Machine learning with high-resolution aerial imagery and data fusion to improve and automate the detection of wetlands
[J].
Modelling aboveground biomass carbon stock of the Bohai rim coastal wetlands by integrating remote sensing,terrain,and climate data
[J].
基于改进DenseNet和空谱注意力机制的高光谱图像分类
[J].
Hyperspectral image classification based on modified DenseNet and spatial spectrum attention mechanism
[J].
改进3D-CNN的高光谱图像地物分类方法
[J].
Improved 3D-CNN-based method for surface feature classification using hyperspectral images
[J].
Multichannel pulse-coupled neural network-based hyperspectral image visualization
[J].
基于深度学习的农作物病虫害图像识别技术研究进展
[J].
Research progress on image recognition technology of crop pests and diseases based on deep learning
[J].
Deep learning-based classification of hyperspectral data
[J].
Deep recurrent neural networks for hyperspectral image classification
[J].
Capsule networks for hyperspectral image classification
[J].
Generative adversarial networks for hyperspectral image classification
[J].
结合Transformer与多尺度残差机制的高光谱遥感分类
[J].
Hyperspectral remote-sensing classification combining transformer and multiscale residual mechanisms
[J].
Spectral-spatial feature tokenization transformer for hyperspectral image classification
[J].
SpectralFormer:Rethinking hyperspectral image classification with transformers
[J].
Spectral-spatial transformer network for hyperspectral image classification:A factorized architecture search framework
[J].
Mapping coastal wetlands using transformer in transformer deep network on China ZY1-02D hyperspectral satellite images
[J].
Fusion classification of HSI and MSI using a spatial-spectral vision transformer for wetland biodiversity estimation
[J].
An image is worth 16x16 words:Transformers for image recognition at scale
[J/OL].
Hyperspectral image classification based on non-local neural networks
[C]//
Enhanced non-local cascading network with attention mechanism for hyperspectral image denoising
[C]//
A non-local capsule neural network for hyperspectral remote sensing image classification
[J].
Identity mappings in deep residual networks
[C]//
Densely connected convolutional networks
[C]//
U-net:Convolutional networks for biomedical image segmentation
[C]//
Deep residual learning for image recognition
[C]//
Distilling the knowledge in a neural network
[J].
Multilayer global spectral-spatial attention network for wetland hyperspectral image classification
[J].
Classification of hyperspectral remote sensing images with support vector machines
[J].
Deep convolutional neural networks for hyperspectral image classification
[J].
Going deeper with contextual CNN for hyperspectral image classification
[J].
Spectral-spatial residual network for hyperspectral image classification:A 3-D deep learning framework
[J].
HybridSN:Exploring 3-D-2-D CNN feature hierarchy for hyperspectral image classification
[J].
Attention is all you need
[J].
/
〈 |
|
〉 |
