国产AV88|国产乱妇无码在线观看|国产影院精品在线观看十分钟福利|免费看橹橹网站

廣西師范大學(xué)學(xué)報(自然科學(xué)版)2022年第2期

發(fā)布時間:2022-10-16 | 雜志分類:其他
免費(fèi)制作
更多內(nèi)容

廣西師范大學(xué)學(xué)報(自然科學(xué)版)2022年第2期

http:∥xuebao.gxnu.edu.cnRobotX challenge[J]. IEEE Journal of Oceanic Engineering, 2019, 44(2): 343-351. DOI: 10.1109 / JOE.2018.2868488.[5] 謝德勝, 徐友春, 王任棟, 等. 基于三維激光雷達(dá)的無人車障礙物檢測與跟蹤[J]. 汽車工程, 2018, 40(8): 952-959.DOI: 10.19562 / j.chinasae.qcgc.2018.08.013.[6] 薛培林, 吳愿, 殷國棟, 等. 基于信息融合的城市自主車輛實(shí)時目標(biāo)識別[ J]. 機(jī)械工程學(xué)報, 2020, 56(12): 165-173. DOI: 10.3901 / JME.2020.12.165.[7] 鄭少武, 李巍華, 胡堅(jiān)耀. 基于激光點(diǎn)云與圖像信息融合的交通環(huán)境車輛檢測[ J]. 儀器儀表學(xué)報, 2019, 40(12):143-151. DOI: 10.19650 / j.cnki.cjsi.J1905607.[8] WANG G J, WU J, XU T... [收起]
[展開]
廣西師范大學(xué)學(xué)報(自然科學(xué)版)2022年第2期
粉絲: {{bookData.followerCount}}
文本內(nèi)容
第51頁

http:∥xuebao.gxnu.edu.cn

RobotX challenge[J]. IEEE Journal of Oceanic Engineering, 2019, 44(2): 343-351. DOI: 10.1109 / JOE.2018.2868488.

[5] 謝德勝, 徐友春, 王任棟, 等. 基于三維激光雷達(dá)的無人車障礙物檢測與跟蹤[J]. 汽車工程, 2018, 40(8): 952-959.

DOI: 10.19562 / j.chinasae.qcgc.2018.08.013.

[6] 薛培林, 吳愿, 殷國棟, 等. 基于信息融合的城市自主車輛實(shí)時目標(biāo)識別[ J]. 機(jī)械工程學(xué)報, 2020, 56(12): 165-

173. DOI: 10.3901 / JME.2020.12.165.

[7] 鄭少武, 李巍華, 胡堅(jiān)耀. 基于激光點(diǎn)云與圖像信息融合的交通環(huán)境車輛檢測[ J]. 儀器儀表學(xué)報, 2019, 40(12):

143-151. DOI: 10.19650 / j.cnki.cjsi.J1905607.

[8] WANG G J, WU J, XU T, et al. 3D vehicle detection with RSU LiDAR for autonomous mine[ J]. IEEE Transactions on

Vehicular Technology, 2021, 70(1): 344-355. DOI: 10.1109 / TVT.2020.3048985.

[9] DAI D Y, WANG J K, CHEN Z H, et al. Image guidance based 3D vehicle detection in traffic scene[J]. Neurocomputing,

2021, 428: 1-11. DOI: 10.1016 / j.neucom.2020.11.060.

[10] 陳龍, 司譯文, 田濱, 等. 基于 3D LiDAR 的礦山無人駕駛車行駛邊界檢測[J]. 煤炭學(xué)報, 2020, 45(6): 2140-2146.

DOI: 10.13225 / j.cnki.jccs.zn 20.0093.

[11] CHOE J S, JOO K D, IMTIAZ T, et al. Volumetric propagation network: stereo-LiDAR fusion for long-range depth

estimation[J]. IEEE Robotics and Automation Letters, 2021, 6(3): 4672-4679. DOI: 10.1109 / LRA.2021.3068712.

[12] 張燦龍, 李燕茹, 李志欣, 等. 基于核相關(guān)濾波與特征融合的分塊跟蹤算法[ J]. 廣西師范大學(xué)學(xué)報(自然科學(xué)版),

2020, 38(5): 12-23. DOI: 10.16088 / j.issn.1001-6600.2020.05.002.

[13] NIE J, YAN J, YIN H L, et al. A multimodality fusion deep neural network and safety test strategy for intelligent vehicles

[J]. IEEE Transactions on Intelligent Vehicles, 2021, 6(2): 310-322. DOI: 10.1109 / TIV.2020.3027319.

[14] ZHANG X Y, LI Z W, GAO X. Channel attention in LiDAR-camera fusion for lane line segmentation [ J]. Pattern

Recognition, 2021, 118: 108020. DOI: 10.1016 / J.PATCOG.2021.108020.

[15] 王肖, 李克強(qiáng), 王建強(qiáng), 等. 基于三維激光雷達(dá)的智能車輛目標(biāo)參數(shù)辨識[ J]. 汽車工程, 2016, 38(9): 1146-1152.

DOI: 10.19562 / j.chinasae.qcgc.2016.09.017.

[16] 李明磊, 王力, 宗文鵬, 等. 采用八叉樹體素生長的點(diǎn)云平面提取[J]. 光學(xué)精密工程, 2018, 26(1): 172-183. DOI:

10.3788 / OPE.20182601.0172.

[17] 吳毅華, 梁華為, 王智靈, 等. 基于激光雷達(dá)回波信號的自適應(yīng)閾值車道線檢測[ J]. 機(jī)器人, 2015, 37(4): 451-

458. DOI: 10.13973 / j.cnki.robot.2015.0451.

[18] 陳紫強(qiáng), 張雅瓊.一種基于 YOLOv4 的改進(jìn) DeepSort 目標(biāo)跟蹤算法[J]. 桂林電子科技大學(xué)學(xué)報, 2021, 41(2): 140-

145. DOI: 10.16725 / j.cnki.cn45-1351 / tn.2021.02.009.

[19] 丁萌, 姜欣言. 先進(jìn)駕駛輔助系統(tǒng)中基于單目視覺的場景深度估計方法[ J]. 光學(xué)學(xué)報, 2020, 40(17): 1715001.

DOI: 10.3788 / AOS202040.1715001.

[20] 彭博, 蔡曉禹, 唐聚, 等. 基于形態(tài)檢測與深度學(xué)習(xí)的高空視頻車輛識別[J]. 交通運(yùn)輸系統(tǒng)工程與信息, 2019, 19

(6): 45-51. DOI: 10.16097 / j.cnki.1009-6744.2019.06.008.

[21] 程海博, 熊顯名. 基于 GIoU 的 YOLOv3 車輛識別方法[ J]. 桂林電子科技大學(xué)學(xué)報, 2020, 40(5): 429-433. DOI:

10.16725 / j.cnki.cn45-1351 / tn.2020.05.010.

[22] ZHAO X M, SUN P P, XU Z G, et al. Fusion of 3D LIDAR and camera data for object detection in autonomous vehicle

applications[J]. IEEE Sensors Journal, 2020, 20(9): 4901-4913. DOI: 10.1109 / JSEN.2020.2966034.

[23] ZHE T, HUANG L Q, WU Q, et al. Inter-vehicle distance estimation method based on monocular vision using 3D detection

[J]. IEEE Transactions on Vehicular Technology, 2020, 69(5): 4907-4919. DOI: 10.1109 / TVT.2020.2977623.

[24] POURMOHAMAD T, LEE H K H. The statistical filter approach to constrained optimization[ J]. Technometrics, 2020, 62

(3): 303-312. DOI: 10.1080 / 00401706.2019.1638304.

[25] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]∥ 2016 IEEE Conference on

Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2016: 770-778. DOI: 10.

1109 / CVPR.2016.90.

47

第52頁

廣西師范大學(xué)學(xué)報(自然科學(xué)版),2022,40(2)

[26] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]∥ 2017 IEEE Conference on

Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2017: 936-944. DOI: 10.

1109 / CVPR.2017.106.

[27] GEIGER A, LENZ P, STILLER C, et al. Vision meets robotics: the KITTI dataset[J]. The International Journal of Robotics

Research, 2013, 32(11): 1231-1237. DOI: 10.1177 / 0278364913491297.

Vehicle Detection for Autonomous Vehicle System Based on

Multi-modal Feature Fusion

XUE Qiwei

1,2

, WU Xiru

1,2?

(1. School of Electronic Engineering and Automation, Guilin University of Electronic Technology,

Guilin Guangxi 541004, China; 2. Guangxi Key Laboratory for Nonlinear Circuit and Optical Communication

(Guangxi Normal University), Guilin Guangxi 541004, China)

Abstract: Aiming at the low accuracy of vehicle detection in unmanned system environment perception, a threedimensional vehicle detection algorithm based on multi-modal feature fusion is proposed. Through the joint

calibration of millimeter wave radar and camera, the coordinate relationship between the two sensors is matched

and the sampling error is reduced. Statistical filtering is used to eliminate the redundant points of millimeter wave

radar data and reduce the interference of outliers. The multi-modal feature fusion module is constructed, and the

point cloud and image information are fused by pixel average. Adding the feature pyramid to extract the fused

high-level feature information to improve the detection accuracy in complex road scenes, a feature fusion region

recommendation structure is established, and the region recommendation is generated according to the advanced

feature information. After removing the redundant detection frame, the vehicle detection results are output

through the vertex matching of the detection frame. The experimental results on KITTI data set show that the

proposed method can realize vehicle detection quickly and accurately. The average detection time is 0.14 s and

the average detection accuracy is 84.71%. The algorithm has important theoretical and practical value, and can

provide a powerful means for vehicle detection in unmanned system.

Keywords: millimeter wave radar; environment perception; multi-modal feature fusion; vehicle detection;

autonomous vehicle system

(責(zé)任編輯 黃 勇)

48

第53頁

第 40 卷 第 2 期

2022 年 3 月

廣西師范大學(xué)學(xué)報(自然科學(xué)版)

Journal of Guangxi Normal University (Natural Science Edition)

Vol. 40 No. 2

Mar. 2022

DOI:10.16088 / j.issn.1001-6600.2021081303 http: xuebao.gxnu.edu.cn

張文龍, 南新元. 基于改進(jìn) YOLOv5 的道路車輛跟蹤算法[J]. 廣西師范大學(xué)學(xué)報(自然科學(xué)版), 2022, 40(2): 49-57. ZHANG W L, NAN

X Y. Road vehicle tracking algorithm based on improved YOLOv5[ J]. Journal of Guangxi Normal University (Natural Science Edition), 2022, 40

(2): 49-57.

基于改進(jìn) YOLOv5 的道路車輛跟蹤算法

張文龍, 南新元?

(新疆大學(xué) 電氣工程學(xué)院, 新疆 烏魯木齊 830047)

摘 要: 針對現(xiàn)有多目標(biāo)跟蹤算法參數(shù)量和計算量大, 難以滿足移動設(shè)備實(shí)時性要求的問題, 本文通過改進(jìn) JDE 跟蹤算

法, 提出了一種道路車輛多目標(biāo)跟蹤算法。 首先, 設(shè)計關(guān)聯(lián)融合網(wǎng)絡(luò)來解決 JDE 算法中多任務(wù)學(xué)習(xí)存在的競爭問題, 提

高算法的跟蹤精度, 減少身份切換次數(shù); 其次, 使用改進(jìn)的 EfficientNetv2 重新構(gòu)建 YOLOv5 的特征提取網(wǎng)絡(luò), 降低模型

復(fù)雜度, 提高模型實(shí)時檢測速度; 最后, 使用改進(jìn)的 YOLOv5 檢測算法與 JDE 跟蹤算法結(jié)合, 實(shí)現(xiàn)道路車輛多目標(biāo)跟

蹤。 實(shí)驗(yàn)結(jié)果表明, 提出的方法相比原 JDE 跟蹤算法, MOTA 提高 0.3 個百分點(diǎn)、 跟蹤速度提高約 43.2%, 可以滿足實(shí)

際自動駕駛場景中對車輛跟蹤的速度要求。

關(guān)鍵詞: 車輛跟蹤; EfficientNet; 通道注意力; 關(guān)聯(lián)融合網(wǎng)絡(luò); YOLOv5

中圖分類號: TP391.41 文獻(xiàn)標(biāo)志碼: A 文章編號: 1001-6600(2022)02-0049-09

道路場景中最重要的組成部分是汽車,隨著自動駕駛汽車出現(xiàn),道路場景下汽車跟蹤技術(shù)的研究日益

重要,作為自動駕駛技術(shù)環(huán)境感知的一個重要組成部分,其對多目標(biāo)跟蹤算法的準(zhǔn)確度和實(shí)時性要求

較高。

目前,多目標(biāo)跟蹤算法主要分為傳統(tǒng)方法和基于深度學(xué)習(xí)方法。 傳統(tǒng)方法主要有光流法[1]

、核相關(guān)

濾波[2-4]等,其跟蹤速度快,但缺乏對尺度變化目標(biāo)的處理,導(dǎo)致跟蹤效果不佳。 基于深度學(xué)習(xí)的跟蹤算

法在行人重識別(ReID) 技術(shù)[5-6] 推動下獲得了前所未有的發(fā)展,實(shí)現(xiàn)了速度與精度的雙重提升。 基于

ReID 的目標(biāo)跟蹤算法主要分為 2 類:one-shot 和 two-stage,這 2 類模型都是基于檢測的跟蹤( tracking-bydetection)方法。 其中,two-stage 算法將跟蹤流程分為檢測和匹配 2 個獨(dú)立的過程,使用 2 個不同的網(wǎng)絡(luò)分

別提取特征,雖然這樣可以提高算法準(zhǔn)確度,但是使用 2 個網(wǎng)絡(luò)模型計算成本過高,不適合自動駕駛這種

實(shí)時性要求較高的場景。 典型的 two-stage 算法有 DeepSORT

[7]

、HOGM

[8]等。 隨著多目標(biāo)跟蹤算法發(fā)展,

為解決 two-stage 算法速度過慢問題,one-shot 算法被提出,這類算法通過將 ReID 嵌入到檢測器中,將 2 個

獨(dú)立的任務(wù)作為一個多任務(wù)學(xué)習(xí)模型,通過共享權(quán)值,同時輸出目標(biāo)檢測框和 ReID 表觀特征,達(dá)到近似

實(shí)時的速度。 如 Wang 等[9]提出 JDE(joint detection and embedding)算法,通過使用 YOLOv3

[10] 作為檢測

器,將 ReID 嵌入到檢測器中,共同學(xué)習(xí)特征表示,獲得了速度與精度的雙重提升;Zhang 等[11] 通過分析

JDE 的不足,提出了 FairMOT 算法,使用 DLA(deep layer aggregation)

[12]模型和 anchor-free 算法[13]

,提高了

算法的準(zhǔn)確度;晏康等[14]通過組合空間和通道注意力,一定程度上改善了 JDE 跟蹤算法的性能;薛俊韜

等[15]利用 MobileNet

[16]替換 YOLOv3 檢測器的骨干特征提取網(wǎng)絡(luò),顯著提高了跟蹤算法的實(shí)時性,但減少

了跟蹤算法的跟蹤精度;馬永杰等[17]通過在 YOLOv3 算法上增加一個檢測頭,并與 DeepSORT 算法結(jié)合,

提高了算法對汽車的檢測精度。

雖然這些文獻(xiàn)對輕量級網(wǎng)絡(luò)進(jìn)行了初步研究,但在非常有限的計算預(yù)算中追求最好的精度-速度折中

仍然是視覺領(lǐng)域的難點(diǎn)。 本文的目的是把這個權(quán)衡作為一個整體,考慮精度和實(shí)時性,通過將改進(jìn)的

收稿日期: 2021-08-13 修回日期: 2021-09-29

基金項(xiàng)目: 新疆維吾爾自治區(qū)自然科學(xué)基金(2019D01C079)

通信作者: 南新元(1969—), 男, 新疆烏魯木齊人, 新疆大學(xué)教授。 E-mail: 2373132779@qq.com

第54頁

廣西師范大學(xué)學(xué)報(自然科學(xué)版),2022,40(2)

YOLOv5 檢測算法與 JDE 跟蹤算法結(jié)合,同時設(shè)計關(guān)聯(lián)融合網(wǎng)絡(luò)來緩解 JDE 算法多任務(wù)學(xué)習(xí)中不同任務(wù)

之間的競爭問題,提出一種有效的道路車輛多目標(biāo)跟蹤算法,該算法能有效減少模型復(fù)雜度,提高 JDE 算

法實(shí)時跟蹤速度,且不降低算法跟蹤性能。

1 相關(guān)工作

1.1 注意力機(jī)制

注意力機(jī)制在計算機(jī)視覺領(lǐng)域取得了巨大成功,它僅包含少量參數(shù),可以帶給模型性能提升,通過關(guān)

注感興趣信息,對提取特征進(jìn)行過濾,提高特征重要性。 注意力機(jī)制主要分為通道注意力機(jī)制、空間注意

力機(jī)制和混合注意力機(jī)制。 通道注意力機(jī)制通過按通道對特征圖進(jìn)行提取,使用提取到的權(quán)值來表示特

征重要性。 SENet

[18]網(wǎng)絡(luò)通過使用全局平均池化獲得每個特征通道上的平均值,然后使用 2 個全連接層

學(xué)習(xí)非線性特征,最后將獲得的權(quán)重與原輸入特征加權(quán)。 ECANet

[19] 使用一維卷積學(xué)習(xí)通道之間的交互

信息,避免特征完全獨(dú)立,從而學(xué)習(xí)更有效的特征表示。 FCANet

[20] 從頻域的角度思考通道注意力,獲得

了較好的效果。 混合注意力機(jī)制結(jié)合空間注意力和通道注意力同時提取目標(biāo)的空間信息和通道信息。 如

Woo 等[21]將空間注意力與通道注意力串聯(lián),提出了 CBAM 注意力機(jī)制,在多個計算機(jī)視覺任務(wù)中獲得了

優(yōu)秀的性能。

1.2 JDE 模型

JDE 算法通過擴(kuò)展 YOLOv3 網(wǎng)絡(luò),將 ReID 和檢測器集成到一個網(wǎng)絡(luò)模型中,共享低級特征,能有效避

免重復(fù)計算,JDE 基本結(jié)構(gòu)如圖 1 所示。

Predict1

Predict2

Predict3

Crossentropy loss

Smooth-L1

loss

Triplet loss 1/8 downsample

1/16 downsample

1/32 downsample

圖 1 JDE 結(jié)構(gòu)

Fig. 1 Structure of JDE

從圖 1 中可以看出,JDE 采用特征金字塔網(wǎng)絡(luò)(feature pyramid networks, FPN)

[22] 結(jié)構(gòu)提取多個不同

尺度的特征圖進(jìn)行預(yù)測,從而提高了目標(biāo)檢測中尺度變化目標(biāo)的檢測能力。 輸入的視頻幀首先通過主干

網(wǎng)絡(luò)向前傳遞,獲得 3 個不同尺度的特征圖,即分別具有 1 / 32、1 / 16 和 1 / 8 下采樣率的特征圖。 接著,將

下采樣率為 1 / 32 的特征圖進(jìn)行上采樣,并通過跳過連接與下采樣率為 1 / 16 的特征圖進(jìn)行融合,下采樣率

為 1 / 8 的特征圖同理。 然后,在這 3 個不同尺度的融合特征圖上添加 YOLO 檢測頭,每個 YOLO 檢測頭由

幾個卷積層堆疊組成,并輸出一個大小為 H×W×(6A+D)的預(yù)測特征圖,式中:A 表示 anchor 的數(shù)量;D 是

ReID 中 embedding 的維數(shù);H 表示特征圖的高;W 表示特征圖的寬。 最后,將得到的特征圖用于后續(xù)的卡

爾曼濾波和匈牙利算法進(jìn)行軌跡匹配。

2 基于 YOLOv5 的多目標(biāo)跟蹤算法

2.1 改進(jìn)的 YOLOv5 檢測網(wǎng)絡(luò)

與 YOLOv3 檢測算法相比,YOLOv5 作為最新的一階段目標(biāo)檢測算法,獲得了速度與精度的雙重提

升。 但對于資源較少的設(shè)備,YOLOv5 模型仍然較大,不適合部署到資源較少的設(shè)備上。 模型參數(shù)量計算

如式(1),

50

第55頁

http:∥xuebao.gxnu.edu.cn

J = d×Cin

×k×k×Cout。 (1)

式中:Cin 、Cout分別表示輸入、輸出通道數(shù);k 表示卷積核大小;d 表示卷積模塊的數(shù)量。 從式(1)中可以看

出,當(dāng)模型的輸入和輸出通道由 C 變?yōu)?nC 時,模型參數(shù)量將擴(kuò)大 n

2 倍;當(dāng)卷積核大小由 k 變?yōu)?nk 時,同

理,模型參數(shù)量也將擴(kuò)大 n

2 倍;若將模型的深度由 d 變?yōu)?nd 時,參數(shù)量將擴(kuò)大 n 倍。

YOLOv5 特征提取網(wǎng)絡(luò)通道數(shù) C 被設(shè)置較大,通過式(1)可知,其模型復(fù)雜度過高。 為了減少模型復(fù)

雜度,提高模型的實(shí)時檢測速度,使算法更適合自動駕駛?cè)蝿?wù),本文采用 EfficientNetV2

[23]替換 YOLOv5 的

特征提取網(wǎng)絡(luò)。 EfficientNetV2 通過縮減通道寬度 C,擴(kuò)增深度 d,實(shí)現(xiàn)了模型復(fù)雜度和準(zhǔn)確度的折中。

EfficientNetV2 主干網(wǎng)絡(luò)由 Fused-MBConv 和 MBConv 模型結(jié)構(gòu)組成,其結(jié)構(gòu)如圖 2 所示。

Conv1×1 Depthwis

e3×3 SE Conv1×1

H,W,C H,W,4C H,W,C

Conv3×3 SE Conv1×1

H,W,C H,W,4C H,W,C

(a) MBConv

(b) Fused-MBConv

圖 2 MBConv、Fused-MBConv 結(jié)構(gòu)

Fig. 2 Structure of MBConv and Fused-MBConv

MBConv 核心模塊采用深度可分離卷積[16]

,相比傳統(tǒng)卷積,它具有更少的參數(shù)量,深度可分離卷積與

傳統(tǒng)卷積參數(shù)量下降比為

r =

Cin

×k×k+Cin

×Cout

Cin

×Cout

×k×k

=

1

Cout

+

1

k

2

。 (2)

EfficientNetV2 使用 SENet 提高模型準(zhǔn)確率,SENet 通過全局平均池化提取特征圖的全局信息,利用得

到的 1×1×C 矩陣來表示特征,但仍然存在不足。 從頻域的角度分析,全局平均池化提取特征將會造成信

息丟失,通過二維離散余弦變換(2D-DCT)分析,2D-DCT 變換可以描述為

f

2d

h,w

= ∑

H-1

h = 0∑

W-1

w = 0

x

2d

i,j

cos

πh

H

(i + 0.5) ( ) cos

πw

W

(j + 0.5) ( ) 。 (3)

式中: f

2d表示 2D-DCT 頻譜;x

2d表示輸入特征。 2D-DCT 逆變換可以被描述為

x

2d

i,j

= ∑

H-1

h = 0∑

W-1

w = 0

f

2d

h,w

cos

πh

H

(i + 0.5) ( ) cos

πw

W

(j + 0.5) ( ) 。 (4)

令式(3)中 h 和 w 為 0,式(3)變?yōu)?/p>

f

2d

0,0

= ∑

H-1

h = 0∑

W-1

w = 0

x

2d

i,j

= gap(x

2d

)HW, (5)

式中 gap 表示全局平均池化。 從式(5)可以看出,全局平均池化只是 2D-DCT 的特殊形式,與低頻分量成

比例關(guān)系。 因此 EfficientNetV2 中 SENet 使用全局平均池化會造成信息丟失,且 SENet 中通過使用 2 個全

連接層對通道進(jìn)行擠壓和擴(kuò)張,獲取更多非線性變換,但 2 個全連接層的使用會帶來較多參數(shù)量。 為了進(jìn)

一步提高模型實(shí)時檢測速度,降低模型復(fù)雜度,本文受 FCANet 啟發(fā),結(jié)合 DCT 與 ECANet 提出 D-ECA 通

道注意力,替換 EfficientNetV2 中的 SENet,提出的注意力模塊如圖 3 所示。

將輸入特征按通道分為 N 組,每組通道數(shù) C / N,利用式(3) 計算每組離散余弦變換權(quán)值,如式(6)

所示。

F

i = D

u,v

(X

i

) = ∑

H-1

h = 0 ∑

W-1

w = 0

X

i

:,h,w

cos

πh

H

(u + 0.5) ( ) cos

πw

W

(v + 0.5) ( ) , (6)

式中 D(X)表示 2D-DCT 變換。 由式(3)、(5)可知,相比使用全局平均池化,DCT 能夠獲取更多的頻率信

51

第56頁

廣西師范大學(xué)學(xué)報(自然科學(xué)版),2022,40(2)

息。 然后使用核大小為 k 的一維卷積學(xué)習(xí)相鄰?fù)ǖ乐g的信息,為了避免通過交叉驗(yàn)證手動調(diào)整 k,設(shè)計

了一種自適應(yīng)確定 k 的方法,核大小 k 自適應(yīng)描述如式(7)所示。

k =φ(C)=

log2C

a

+

b

a odd

, (7)

式中: | t |

odd表示最近的奇數(shù) t;a 和 b 設(shè)置為 2 和 1,并在本文所有實(shí)驗(yàn)中保持一致。 最后使用 Sigmoid 激

活函數(shù)輸出注意力權(quán)值,與輸入特征加權(quán)融合。

1

2

N

...

3

DCT

DCT

DCT

Input DCT Output

H

W

C C

H

W

C

H

W

FN

...

...

F2

F1

1×1×C

Conv1D Sigmoid

圖 3 通道注意力

Fig. 3 Channel attention

2.2 關(guān)聯(lián)融合網(wǎng)絡(luò)

相比傳統(tǒng)的多目標(biāo)跟蹤算法,JDE 雖然獲得了精度與速度的雙重提升,但通常低于兩階段跟蹤算法。

文獻(xiàn)[11]指出,諸如 JDE 這種單階段多目標(biāo)跟蹤算法,由于多任務(wù)學(xué)習(xí)中不同任務(wù)之間的競爭,使學(xué)習(xí)到

的 ReID 特征不是最優(yōu)的,這將導(dǎo)致大量的 ID 切換。 為了解決這個問題,參考 DANet

[24] 和 PADNet

[25]

,通

過設(shè)計關(guān)聯(lián)融合網(wǎng)絡(luò)( associative fusion network, AFN)來提高 JDE 跟蹤算法中檢測器與 ReID 的協(xié)作學(xué)

習(xí),提出的關(guān)聯(lián)融合網(wǎng)絡(luò)如圖 4 所示。

F

T

G1

G2

M1

M3

M2

H1

H2

Freid

Fdet

permute

view

view

view

view

Y1

Y2

圖 4 AFN 結(jié)構(gòu)

Fig. 4 Structure of AFN

圖 4 中 F∈R

C×H×W 表示來自檢測頭的輸出,首先使用一個自適應(yīng)平均池化層獲取特征信息 T∈

R

C×H′×W′

,然后使用 2 個卷積核大小為 3 的卷積層分別學(xué)習(xí) ReID 的嵌入信息 G1 和用于檢測的特征信息

G2 ,然后將輸出的 2 個用于不同任務(wù)的特征信息通過 view 操作變換為尺寸 H∈R

C×P

,其中 P =H′×W′,然后

對 H1 和 H2 分別使用 Softmax 激活函數(shù)學(xué)習(xí) 2 個任務(wù)的自關(guān)聯(lián)矩陣 M1 和 M2 ,其計算公式如式(8)。

mi

=

exp(hi)

P

j = 1

exp(hj)

, (8)

式中:hi 表示矩陣 H 中的第 i 個元素;mi 表示自關(guān)聯(lián)矩陣 M 中的第 i 個元素。 同樣,將 H1 和 H2 特征進(jìn)

行融合,然后使用 Softmax 激活函數(shù)以學(xué)習(xí)不同任務(wù)之間的共性。 將 Softmax 的輸出通過 permute 操作變

換為尺寸 R

P×C

,將自關(guān)聯(lián)矩陣與互關(guān)聯(lián)矩陣執(zhí)行矩陣乘法,輸出關(guān)聯(lián)融合特征 Y∈R

C×C

,然后將原輸入特

52

第57頁

http:∥xuebao.gxnu.edu.cn

征 F 重新排列為 R

C× N 尺寸,其中 N=H×W。 最后將重新排列后的輸入特征與學(xué)習(xí)到的融合特征執(zhí)行矩陣

乘法重新構(gòu)造特征圖,以增強(qiáng)每個任務(wù)的特征表達(dá)能力。 通過殘差連接,將輸入特征 F 與融合特征融合,

以防止信息丟失。

2.3 多目標(biāo)跟蹤模型總體結(jié)構(gòu)

本文提出改進(jìn) YOLOv5 的多目標(biāo)跟蹤模型總體結(jié)構(gòu)如圖 5 所示。 從圖 5 中可以看出,由于模型需要 5

次下采樣,輸入圖片尺度需要為 32 的整數(shù)倍,為了適應(yīng)視頻數(shù)據(jù)集的尺寸,本文輸入圖片分辨率設(shè)置為

1 280×384。 通過主干特征提取網(wǎng)絡(luò),輸入的視頻幀向前傳遞,獲得 5 個不同尺度的特征圖,本文提取160×

48、80×24、40×12 等 3 個尺度的特征圖,然后使用路徑融合網(wǎng)絡(luò)(path aggregation network, PAN)

[26]完成多

尺度融合,提取更加豐富的特征,加強(qiáng)對小尺度目標(biāo)的檢測和跟蹤能力。 然后在每個 PAN 層的輸出路徑

上接入 AFN 模塊,促使模型學(xué)習(xí)與任務(wù)相關(guān)的特征,提高檢測和 ReID 這 2 個任務(wù)的協(xié)作學(xué)習(xí)能力,緩解

由于 2 個任務(wù)之間競爭導(dǎo)致的性能退化。 接著將提取到的表觀特征和檢測框,利用卡爾曼濾波和匈牙利

算法完成關(guān)聯(lián)和匹配。 具體地說,oi 為用表觀特征表示的一個軌跡,mi

= (x,y,r,h,x′,y′,r′,h′) 表示目標(biāo)

運(yùn)動狀態(tài),這里:x、y 表示邊界框的中心;r 表示寬高比;h 表示邊界框的高;x′、y′、r′、h′表示沿各自方向的

速度。 對于第一幀,首先通過第一幀的檢測結(jié)果初始化為新的軌跡。 對于后續(xù)視頻幀,計算所有卡爾曼濾

波觀測值和軌跡池的成對運(yùn)動關(guān)聯(lián)矩陣 Am 和外觀關(guān)聯(lián)矩陣 Ao。 余弦相似度計算外觀關(guān)聯(lián)矩陣,馬氏距

離計算運(yùn)動關(guān)聯(lián)矩陣,然后利用匈牙利算法求解線性分配問題,其損失函數(shù)為

L =αAo

+(1-α)Am 。 (9)

最后利用卡爾曼濾波算法更新所有匹配軌跡的運(yùn)動狀態(tài),計算如式(10)所示。

384

1 280

1×DBS

3×FMB

Conv

5×FMB

Conv

5×FMB

Conv

7×MB

Conv

14×MB

Conv

18×MB

Conv

5×MB

Conv

1×SPP 1×DBS

Concat

3×CSP

1×DBS

Concat

3

640 ×192 ×24

320 ×96×48

80×24×160

40×12×304

40×12×512

160 ×48×80

80×24×512

40×12×512

DBS  Conv BN SiLU

CSP  DBS

(1,C/2)

DBS

(1,C/2)

DBS

(3,C/2)

Conv

(1,C/2)

Conv

(1,C/2)

Concat BN LeakyR

eLU

DBS

(1,C)

3×CSP 1×DBS

1×DBS

Concat

640 ×192 ×24

80×24×176

40×12×1 024

40×12×512

80×24×256

160 ×48×256

80×24×256

80×24×512

40×12×1 024

1×AFN

Concat 3×CSP 1×AFN

3×CSP 1×AFN

Predict 1

Predict 2

Predict 3

Upsample

Upsample

Cross-entropy loss

Smooth-L1 loss

Triplet loss

圖 5 本文跟蹤算法總體結(jié)構(gòu)

Fig. 5 Overall structure of the tracking algorithm in this article

53

第58頁

廣西師范大學(xué)學(xué)報(自然科學(xué)版),2022,40(2)

o

t

i

=λo

t-1

i

+(1-λ)fi

t

, (10)

式中: fi

t 表示當(dāng)前匹配觀察值的 embedding;λ = 0.9 表示一個動量因子。 如果連續(xù) 2 幀內(nèi)有未匹配到的檢

測結(jié)果,則將這個檢測結(jié)果初始化為新的軌跡。 如果某條軌跡連續(xù) 30 幀內(nèi)沒有被分配新的目標(biāo),則刪除

這個軌跡。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)參數(shù)設(shè)置

本文實(shí)驗(yàn)平臺為 Intel i7-6700HQ、16 GiB 內(nèi)存、NVIDIA GTX1060 6 GiB 的 PC;軟件環(huán)境為 Windows10

操作系統(tǒng)、CUDA11.1、PyTorch1.8 深度學(xué)習(xí)框架。 在多目標(biāo)跟蹤任務(wù)中,以 MOT Challenge 評估標(biāo)準(zhǔn)來對

多目標(biāo)跟蹤算法進(jìn)行評估,其中主要選擇多目標(biāo)跟蹤準(zhǔn)確度(MOTP)、多目標(biāo)跟蹤精度(MOTA)、目標(biāo) ID

切換次數(shù)(IDSW)、跟蹤軌跡被準(zhǔn)確跟蹤 80%以上的目標(biāo)個數(shù)(MT)、跟蹤軌跡被準(zhǔn)確跟蹤 20%以下的目

標(biāo)個數(shù)(ML),每秒處理圖片的數(shù)量(FPS)。 相應(yīng)的計算公式如下:

PMOTA

= 1 -

∑t

St

+ Et

+ It

∑t

Tt

, (11)

PMOTP

=

Bt,j

∑t

Nt

。 (12)

式中:Tt 表示第 t 幀真實(shí)邊界框的數(shù)量;Et 表示第 t 幀誤檢樣本的數(shù)量;St 表示第 t 幀漏檢樣本的數(shù)量;It

表示第 t 幀目標(biāo)身份切換次數(shù);Nt 表示第 t 幀目標(biāo)成功匹配的數(shù)量;Bt,j表示第 j 個檢測結(jié)果與真實(shí)邊界框

的重疊率。

3.2 跟蹤算法實(shí)驗(yàn)對比

本文選取 KITTI-tracking 基準(zhǔn)數(shù)據(jù)集,數(shù)據(jù)集中視頻以 10 frame / s 速度拍攝,并包含較大的幀間運(yùn)動,

是當(dāng)前最全面的自動駕駛數(shù)據(jù)集,其主要包括城市、鄉(xiāng)村和十字路口等交通場景。 本文選取數(shù)據(jù)集中的

Car、Van 和 Truck 3 個類別,然后將這 3 個類別都劃分為 Car 類。 為了增加數(shù)據(jù)多樣性,減少模型過擬合,

提高汽車跟蹤算法的準(zhǔn)確率,本文采用實(shí)時數(shù)據(jù)擴(kuò)充處理數(shù)據(jù)樣本,例如水平翻轉(zhuǎn)、顏色空間變換、Mosaic

數(shù)據(jù)增強(qiáng)等。 本文訓(xùn)練參數(shù)設(shè)置為:embedding 維度為 512;batch size 為 4;最大迭代次數(shù)為 50;優(yōu)化策略

采用 SGD 函數(shù);動量因子 0.95;初始學(xué)習(xí)率為 0.005,學(xué)習(xí)率在第 30 代和 40 代分別下降 10 倍;權(quán)重衰減設(shè)

置為 0.000 5。 本文在 JDE 算法的基礎(chǔ)上添加和修改各個模塊的消融實(shí)驗(yàn),如表 1 所示。

表 1 消融實(shí)驗(yàn)

Tab. 1 Ablation experiment

AFN YOLOv5 EfficientNetV2 D-ECA MOTA↑/ % MOTP↑/ % MT↑/ % ML↓/ % IDWS↓ FPS↑

71.86 80.33 62.87 8.37 343 7.57

√ 72.01 81.63 63.35 6.81 209 6.56

√ √ 73.08 83.70 64.40 6.28 166 6.98

√ √ √ 71.13 81.34 60.21 6.81 224 10.65

√ √ √ √ 72.16 81.28 64.92 7.85 216 10.84

注:“↑”表示數(shù)值越大效果越好;“↓”表示數(shù)值越小效果越好。

從表 1 中可以看出,在原 JDE 算法上添加 AFN 模塊后,MOTA、MOTP 都有一定的提升,并且顯著減少

了 IDWS。 使用 YOLOv5 替換 YOLOv3 后,跟蹤算法的整體性能均得到了有效提升,表明檢測器對跟蹤算

法的整體性能有很大影響。 當(dāng)再次使用 EfficientNetV2 替換 YOLOv5 的特征提取網(wǎng)絡(luò),由于特征提取能力

54

第59頁

http:∥xuebao.gxnu.edu.cn

不足,導(dǎo)致跟蹤算法的整體性能下降,但算法的 FPS 提高約 52.6%,在此基礎(chǔ)上引入 D-ECA 注意力模塊,

使 MOTA 提高 1.03 個百分點(diǎn),且一定程度上減少 IDWS。 最終本文算法相比原 JDE 算法 FPS 提高約

43.2%,MOTA 提高 0.3 個百分點(diǎn),IDWS 減少 37%,能有效取得精度與速度折中,具有一定的實(shí)際意義。 表

2 展示了本文算法與其他主流算法的性能對比,從表 2 中可以看出,本文算法大部分評價指標(biāo)均優(yōu)于對比

算法,具有一定競爭力。

表 2 不同方法對比

Tab. 2 Comparison of different methods

算法 MOTA↑/ % MOTP↑/ % MT↑/ % ML↓/ % IDWS↓

SORT 53.15 77.75 26.15 29.39 370

DeepSORT 67.42 85.25 46.15 13.85 453

Point3DT 67.56 76.83 60.46 12.77 294

本文算法 72.16 81.28 64.92 7.85 216

注:“↑”表示數(shù)值越大效果越好;“↓”表示數(shù)值越小效果越好。

選取 KITTI 基準(zhǔn)數(shù)據(jù)集中視頻序列對本文算法跟蹤結(jié)果可視化。 圖 6(a)為視頻序列 0010 可視化結(jié)

果,這段視頻道路交通情況較為復(fù)雜,ID 為 155 的車輛需要左轉(zhuǎn),ID 為 124、125 的車輛遮擋較為嚴(yán)重,且

多條軌跡相交。 可以看出 ID 為 135 的車輛在第 31 幀期間被遮擋后,在第 35 幀被重新檢測到,且 ID 沒有

發(fā)生變化,其他車輛跟蹤效果良好均沒有發(fā)生 ID 切換。 圖 6(b)為視頻序列 0000 的可視化結(jié)果,從中可

以看出,本文算法對擁擠的停車環(huán)境仍然有很好的跟蹤效果。

圖 6 本文算法跟蹤結(jié)果

Fig. 6 Tracking results of the algorithm in this paper

4 結(jié)語

本文通過改進(jìn) JDE 跟蹤算法,提出了一個有效的車輛跟蹤算法。 首先在 JDE 算法的基礎(chǔ)上添加 AFN

模塊,減少身份切換次數(shù),其次使用 EfficientNetV2 替換 YOLOv5 的特征提取網(wǎng)絡(luò),提高模型的實(shí)時檢測速

度,同時減少模型復(fù)雜度,使跟蹤算法更適合自動駕駛?cè)蝿?wù),同時為了解決 EfficientNetV2 特征提取能力不

足的問題,通過引入 D-ECA 模塊,提高模型對車輛的檢測和跟蹤能力。 實(shí)驗(yàn)結(jié)果表明,本文算法有效地對

55

第60頁

廣西師范大學(xué)學(xué)報(自然科學(xué)版),2022,40(2)

JDE 網(wǎng)絡(luò)進(jìn)行了壓縮,提高了算法實(shí)時跟蹤速度和檢測能力。 但本文算法對嚴(yán)重遮擋和密集車輛的跟蹤

效果仍然有待提高。 未來工作將研究在保證不降低實(shí)時性的情況下,提高對密集目標(biāo)和遮擋目標(biāo)的跟蹤

能力。

參 考 文 獻(xiàn)

[1] 張可, 楊燦坤, 周春平, 等. 無人機(jī)視頻圖像運(yùn)動目標(biāo)檢測算法綜述[J]. 液晶與顯示, 2019, 34(1): 98-109. DOI:

10.3788 / YJYXS20193401.0098.

[2] 張燦龍, 蘇建才, 李志欣, 等. 基于 AdaBoost 置信圖的紅外與可見光目標(biāo)跟蹤[ J]. 廣西師范大學(xué)學(xué)報(自然科學(xué)

版), 2018, 36(4): 42-50. DOI: 10.16088 / j.issn.1001-6600.2018.04.006.

[3] 張燦龍, 李燕茹, 李志欣, 等. 基于核相關(guān)濾波與特征融合的分塊跟蹤算法[J]. 廣西師范大學(xué)學(xué)報(自然科學(xué)版),

2020, 38(5): 12-23. DOI: 10.16088 / j.issn.1001-6600.2020.05.002.

[4] 黃一凡, 楊建業(yè), 戚國慶. 基于二自由度轉(zhuǎn)臺的雙目視覺跟蹤技術(shù)研究[ J]. 電子設(shè)計工程, 2018, 26(14): 181-

185. DOI: 10.14022 / j.cnki.dzsjgc.2018.14.039.

[5] 馮霞, 杜佳浩, 段儀濃, 等. 基于深度學(xué)習(xí)的行人重識別研究綜述[ J]. 計算機(jī)應(yīng)用研究, 2020, 37( 11): 3220-

3226, 3240. DOI: 10.19734 / j.issn.1001-3695.2019.09.0514.

[6] 尹梓睿, 張索非, 張磊, 等. 適于行人重識別的二分支 EfficientNet 網(wǎng)絡(luò)設(shè)計[ J]. 信號處理, 2020, 36(9): 1481-

1488. DOI: 10.16798 / j.issn.1003-0530.2020.09.013.

[7] WOJKE N, BEWLEY A, PAULUS D. Simple online and realtime tracking with a deep association metric[C]∥ 2017 IEEE

International Conference on Image Processing ( ICIP). Piscataway, NJ: IEEE Press, 2017: 3645-3649. DOI: 10.1109 /

ICIP.2017.8296962.

[8] ZHOU Z W, XING J L, ZHANG M D, et al. Online multi-target tracking with tensor-based high-order graph matching

[C]∥ 2018 24th International Conference on Pattern Recognition ( ICPR). Piscataway, NJ: IEEE Press, 2018: 1809-

1814. DOI: 10.1109 / ICPR.2018.8545450.

[9] WANG Z D, ZHENG L, LIU Y X, et al. Towards real-time multi-object tracking[EB/ OL]. (2020-07-14)[2021-08-13].

https:∥arxiv.org / abs/ 1909.12605.

[10] REDMON J, FARHADI A. YOLOv3: An incremental improvement[EB/ OL]. (2018-04-08)[2021-08-13]. https:∥arxiv.

org / abs/ 1804.02767v1.

[11] ZHANG Y F, WANG C Y, WANG X G, et al. FairMOT: on the fairness of detection and re-identification in multiple

object tracking[J]. International Journal of Computer Vision, 2021, 129( 11): 3069-3087. DOI: 10.1007 / s11263-021-

01513-4.

[12] YU F, WANG D Q, SHELHAMER E, et al. Deep layer aggregation [ C]∥ 2018 IEEE/ CVF Conference on Computer

Vision and Pattern Recognition. Los Alamitos, CA: IEEE Computer Society, 2018: 2403-2412. DOI: 10. 1109 / CVPR.

2018.00255.

[13] ZHOU X Y, WANG D Q, KR?HENBüHL P. Objects as points[EB/ OL]. (2019-04-25) [2021-08-13]. https:∥arxiv.

org / abs/ 1904.07850.

[14] 晏康, 曾鳳彩, 何寧, 等. 引入注意力機(jī)制的 JDE 多目標(biāo)跟蹤方法[J/ OL]. 計算機(jī)工程與應(yīng)用, 2021[2021-08-13].

http:∥kns.cnki.net / kcms/ detail / 11.2127.TP.20210524.0920.004.html. DOI: 10.3778 / j.issn.1002-8331.2104-0049.

[15] 薛俊韜, 馬若寒, 胡超芳. 基于 MobileNet 的多目標(biāo)跟蹤深度學(xué)習(xí)算法[ J]. 控制與決策, 2021, 36(8): 1991-1996.

DOI: 10.13195 / j.kzyjc.2019.1424.

[16] SANDLER M, HOWARD A, ZHU M L, et al. MobileNetV2: inverted residuals and linear bottlenecks[C]∥ 2018 IEEE/

CVF Conference on Computer Vision and Pattern Recognition. Los Alamitos, CA: IEEE Computer Society, 2018: 4510-

4520. DOI: 10.1109 / CVPR.2018.00474.

[17] 馬永杰, 馬蕓婷, 程時升, 等. 基于改進(jìn) YOLO v3 模型與 Deep-SORT 算法的道路車輛檢測方法[ J]. 交通運(yùn)輸工程

學(xué)報, 2021, 21(2): 222-231. DOI: 10.19818 / j.cnki.1671-1637.2021.02.019.

[18] HU J, SHEN L, AIBANIE S, et al. Squeeze-and-excitation networks [ J]. IEEE Transactions on Pattern Analysis and

Machine Intelligence, 2020, 42(8): 2011-2023. DOI: 10.1109 / TPAMI.2019.2913372.

56

第61頁

http:∥xuebao.gxnu.edu.cn

[19] WANG Q L, WU B G, ZHU P F, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]∥

2020 IEEE/ CVF Conference on Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer

Society, 2020: 11531-11539. DOI: 10.1109 / CVPR42600.2020.01155.

[20] QIN Z Q, ZHANG P Y, WU F, et al. FCANet: frequency channel attention networks[EB/ OL]. (2021-07-23)[2021-08-

13]. https:∥arxiv.org / abs/ 2012.11879.

[21] WOO S H, PARK J C, LEE J Y, et al. CBAM: convolutional block attention module[C]∥ Computer Vision-ECCV 2018:

LNCS volume 11211. Cham: Springer Nature Switzerland AG, 2018: 3-19. DOI: 10.1007 / 978-3-030-01234-2_1.

[22] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]∥ 2017 IEEE Conference on

Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2017: 936-944. DOI: 10.

1109 / CVPR.2017.106.

[23] TAN M X, LE Q V. EfficientNetV2: smaller models and faster training[EB/ OL]. (2021-06-23) [2021-08-13]. https:∥

arxiv.org / abs/ 2104.00298.

[24] FU J, LIU J, TIAN H J, et al. Dual attention network for scene segmentation [ C]∥ 2019 IEEE/ CVF Conference on

Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2019: 3141-3149. DOI:

10.1109 / CVPR.2019.00326.

[25] XU D, OUYANG W L, WANG X G, et al. PAD-Net: multi-tasks guided prediction-and-distillation network for

simultaneous depth estimation and scene parsing [ C]∥ 2018 IEEE/ CVF Conference on Computer Vision and Pattern

Recognition. Los Alamitos, CA: IEEE Computer Society, 2018: 675-684. DOI: 10.1109 / CVPR.2018.00077.

[26] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]∥ 2018 IEEE/ CVF Conference on

Computer Vision and Pattern Recognition. Los Alamitos, CA: IEEE Computer Society, 2018: 8759-8768. DOI: 10.1109 /

CVPR.2018.00913.

Road Vehicle Tracking Algorithm Based on Improved YOLOv5

ZHANG Wenlong, NAN Xinyuan

?

(School of Electrical Engineering, Xinjiang University, Urumchi Xinjiang 830047, China)

Abstract:To solve the problem that it’s difficult for the large amount of network parameters and calculations for

existing multi-object tracking algorithm to meet the real-time requirements of mobile devices, a road vehicle

multi-object tracking algorithm is proposed by improving the JDE tracking algorithm. Firstly, in order to improve

the tracking accuracy of the algorithm and reduce the number of ID switching, the association fusion network is

used to solve the competition problem of multi-task learning in the JDE algorithm. Secondly, in order to reduce

the complexity of the model and improve the real-time detection speed of the model, the improved EfficientNetV2

is used to rebuild the feature extraction network in YOLOv5. Finally, the improved YOLOv5 detection algorithm

is combined with the JDE tracking algorithm to achieve multi-object tracking of road vehicles. The experimental

results show that compared with the original JDE tracking algorithm, the proposed method improves MOTA by 0.3

percentage point and tracking speed by about 43.2%. It can meet the speed requirements for vehicle tracking in

actual autonomous driving scenarios.

Keywords: vehicle tracking; EfficientNet; channel attention; associative fusion network; YOLOv5

(責(zé)任編輯 黃 勇)

57

第62頁

第 40 卷 第 2 期

2022 年 3 月

廣西師范大學(xué)學(xué)報(自然科學(xué)版)

Journal of Guangxi Normal University (Natural Science Edition)

Vol. 40 No. 2

Mar. 2022

DOI: 10.16088 / j.issn.1001-6600.2021061505 http: xuebao.gxnu.edu.cn

劉振宇, 宋樹祥, 岑明燦, 等. 低功耗高精度 Sigma-Delta 調(diào)制器的建模與設(shè)計[J]. 廣西師范大學(xué)學(xué)報(自然科學(xué)版), 2022, 40(2): 58-

70. LIU Z Y, SONG S X, CEN M C, et al. Modeling and design of low power and high precision sigma-delta modulator[ J]. Journal of Guangxi

Normal University (Natural Science Edition), 2022, 40(2): 58-70.

低功耗高精度 Sigma-Delta 調(diào)制器的建模與設(shè)計

劉振宇, 宋樹祥?

, 岑明燦, 蔣品群, 蔡超波

(廣西師范大學(xué) 電子工程學(xué)院, 廣西 桂林 541004)

摘 要: 為提升 Sigma-Delta 調(diào)制器精度的同時降低其功耗, 本文設(shè)計一款改進(jìn)型二階單環(huán) CIFF 結(jié)構(gòu) Sigma-Delta 調(diào)制

器, 通過采用運(yùn)放共享技術(shù)降低由噪聲整形濾波器個數(shù)引入的額外功耗; 提出浮動系數(shù)迭代思想應(yīng)用于調(diào)制器在

MATLAB 下的建模, 最終確定滿足精度需求的各項(xiàng)參數(shù)具體值, 通過引入非理想因素對所得參數(shù)仿真驗(yàn)證滿足最低性能

指標(biāo)后進(jìn)行晶體管級電路設(shè)計。 該調(diào)制器信號帶寬為 8 kHz, 采樣頻率為 4 MHz。 電路設(shè)計使用 UMC 0.11 μm CMOS 工

藝, 核心電路版圖尺寸為 226.8 μm×187.44 μm, 后端仿真結(jié)果表明, 當(dāng)電源電壓為 1.2 V 時, 調(diào)制器總功耗為 290 μW。

在-40~ 125 ℃ , 各工藝角的有效位數(shù)(ENOB) 大于等于 15 bits。

關(guān)鍵詞: Sigma-Delta 調(diào)制器; 浮動系數(shù); MATLAB 建模; 低功耗; 高精度; 語音芯片

中圖分類號: TN761 文獻(xiàn)標(biāo)志碼: A 文章編號: 1001-6600(2022)02-0058-13

隨著便攜式可穿戴設(shè)備的飛速發(fā)展,高分辨率和低功耗語音芯片的需求持續(xù)增長,而 Sigma-Delta 調(diào)

制器作為語音芯片主要部件,其設(shè)計的好壞直接決定了芯片的成敗,因此設(shè)計一款高精度低功耗的調(diào)制器

成為一項(xiàng)具有挑戰(zhàn)性的任務(wù)。 Sigma-Delta 調(diào)制器主要分為 CT ( continuous-time) Sigma-Delta 和 DT

(discrete-time)Sigma-Delta 兩類,由于環(huán)路濾波器結(jié)構(gòu)上的差異,盡管 CT 調(diào)制器在帶寬上表現(xiàn)優(yōu)于 DT 調(diào)

制器,但前者在實(shí)際電路中會引入非理想因素,在相同非理想因素的作用下 DT 調(diào)制器表現(xiàn)明顯優(yōu)于 CT

調(diào)制器[1-2]

。

由于 8 kHz 帶寬就能滿足語音芯片 Sigma-Delta 調(diào)制器的應(yīng)用需求,不需要 1 MHz 以上級別的大帶

寬,因此選用 DT 調(diào)制器更為合適。 2011 年 Bonizzoni 等[3]提出一種采用 2 個運(yùn)算放大器設(shè)計三階調(diào)制器

的思想,但因其采用了 5 位量化技術(shù),故會引入非線性,使調(diào)制器最終分辨率只有 10 bits。 2016 年 Kwon

等[4]利用單環(huán)結(jié)構(gòu)半延時積分技術(shù)實(shí)現(xiàn)了 0.4 mW 功耗下分辨率達(dá) 13 bits 的調(diào)制器,但是該技術(shù)對噪聲

整形濾波器性能要求苛刻不易于實(shí)現(xiàn)。 2019 年周志興等[5]設(shè)計的調(diào)制器分辨率雖然達(dá)到了 16 bits,但由

于采用了傳統(tǒng)的電路架構(gòu),其功耗高達(dá) 4 mW。 Sung 等[6-7]于 2017 年實(shí)現(xiàn)了帶寬可調(diào)的調(diào)制器,由于其采

用了多位量化引入了非線性因素,造成該調(diào)制器分辨率僅有 10 bits;2020 年該團(tuán)隊(duì)采用四階噪聲整形 2-2

級聯(lián)結(jié)構(gòu)設(shè)計了一款分辨率達(dá) 16 bits 的調(diào)制器,但級聯(lián)結(jié)構(gòu)增加了電路的復(fù)雜度,使其功耗高達(dá) 7.8 mW。

2020 年 Li 等[8]利用多位量化 flash ADC 技術(shù)和 MASH 架構(gòu)設(shè)計了 17.9 bits 高分辨率的調(diào)制器,但由于引

入了額外的 ADC 電路以及 MASH 架構(gòu),使得該調(diào)制器功耗高達(dá) 68 mW。

針對上述問題,本文首先對傳統(tǒng)架構(gòu)的單環(huán)級聯(lián)分布式前饋型調(diào)制器( cascade-of-integrators feed

forward,CIFF)存在的不足進(jìn)行分析,在第 1 章講述系統(tǒng)級電路設(shè)計加入浮動系數(shù)迭代思想提升精度,第

2.1節(jié)講述晶體管級電路設(shè)計應(yīng)用運(yùn)放共享技術(shù)降低功耗。 本文設(shè)計的調(diào)制器應(yīng)用第 1 章提出的思想與

第 2.1 節(jié)應(yīng)用的技術(shù)相結(jié)合實(shí)現(xiàn)了預(yù)定的設(shè)計指標(biāo),以此滿足語音芯片對低功耗、高精度 Sigma-Delta 調(diào)制

收稿日期: 2021-06-15 修回日期: 2021-07-02

基金項(xiàng)目: 國家自然科學(xué)基金(62061005); 廣西研究生教育創(chuàng)新計劃項(xiàng)目(YCSW2021070); 廣西高校中青年教師科

研基礎(chǔ)能力提升項(xiàng)目(2020KY02028)

通信作者: 宋樹祥(1970—), 男, 湖南衡陽人, 廣西師范大學(xué)教授, 博導(dǎo)。 E-mail: songshuxiang@mailbox.gxnu.edu.cn

第63頁

http:∥xuebao.gxnu.edu.cn

器的需求。

1 Sigma-Delta 調(diào)制器的系統(tǒng)級設(shè)計

調(diào)制器的有效位數(shù)大于或者等于 16 bits 可稱為高分辨率,而 Sigma-Delta 調(diào)制器的高分辨率是依賴其

過采樣和噪聲整形技術(shù)共同作用產(chǎn)生的效果。 本文設(shè)計的 Sigma-Delta 調(diào)制器應(yīng)用于語音芯片,分辨率需

要達(dá)到 16 bits,工作帶寬 8 kHz,采樣頻率 4 MHz,過采樣率 256。 下面將圍繞上述指標(biāo)對調(diào)制器各部分的

設(shè)計進(jìn)行分析。

調(diào)制器分辨率主要由調(diào)制器的量化器位數(shù)(B)、過采樣率(OOSR )、噪聲整形濾波器階數(shù)(N)共同決

定。 信號量化噪聲比(SSQNR)是衡量 Sigma-Delta 調(diào)制器分辨率的重要指標(biāo),其可以表示為[9]

SSQNR≈(6.02B+1.76)+10log(OOSR)+N×20log

OOSR

π

( ) 。 (1)

由式(1)可知,通過提高量化器位數(shù)、過采樣率、噪聲整形濾波器階數(shù)可使調(diào)制器實(shí)現(xiàn)較高的分辨率,

但提高量化器位數(shù)會引入電路非線性問題,采用 1 bit 量化則可以避免出現(xiàn)此問題;過采樣率越大,相應(yīng)噪

聲整形濾波器需要的帶寬就會越高,從而造成功耗增加,不符合設(shè)計低功耗調(diào)制器的理念;而增加濾波器

的階數(shù)會使得電路更加復(fù)雜、芯片面積占用過大,對器件的匹配性難度增加。 基于上述因素,結(jié)合本文涉

及調(diào)制器的應(yīng)用場景折衷考慮,決定采用 2 階 1 bit 單環(huán) CIFF 型結(jié)構(gòu),過采樣率 OOSR取值 256。

根據(jù)應(yīng)用最廣泛的 Lee 判據(jù)(Lee criterion)可知,一個量化位數(shù)為 1 bit 的 Sigma-Delta 調(diào)制器其經(jīng)驗(yàn)

穩(wěn)定條件是噪聲傳遞函數(shù)滿足 max | NTF( e

jw

) | <1.5

[10]

。 因此在 MATLAB 建立 Sigma-Delta 調(diào)制器模型,

如圖 1 所示,其參數(shù)變量 H 設(shè)置小于 1.5。

DAC

b1 b2 b3

c2 a2

a1

c1

g1

u n

y n

v n

x1 n

x2 n

z z

    

圖 1 MATLAB 2 階 CIFF SDM Simulink 理論模型

Fig. 1 Theoretical model of MATLAB second-order CIFF SDM Simulink

根據(jù)圖 1 可得式(2) ~ (5)。 變量 u 代表輸入信號 x(n),變量 v 代表輸出信號 v(n);變量 x1 代表圖 1

中第 1 個積分器的輸出 x1(n),變量 x2 代表圖 1 中第 2 個積分器的輸出 x2(n);y(n)為第 3 個積分器與各

求和支路運(yùn)算后的結(jié)果;變量 a1 、a2 為反饋系數(shù);變量 b1 、b2 和 b3 為輸入前饋系數(shù);c1 、c2 為積分增益系數(shù);

g1 為反饋系數(shù);H 為噪聲傳輸函數(shù)設(shè)定的參數(shù)變量。

x1

= (b1 u-c1

v-g1

x2 )H, (2)

x2

= (c2

x1

+b2 u)H, (3)

y = b3 u+a2

x2

+a1

x1 , (4)

v = y+e。 (5)

Sigma-Delta 調(diào)制器的信號傳輸函數(shù) SSTF和噪聲傳遞函數(shù) NNTF由式(2) ~ (5)聯(lián)立可得:

S

CCIFF

STFk = 1(z) =

(b3

c2 g1

+ a2

b1

c2

- a1

b2 g1 )H +

i∑= 1,2

ai

bi

+

b3

H

(a2

c1

c2

+ c2 g1 )H + a1

c1

+

1

H

, (6)

59

第64頁

廣西師范大學(xué)學(xué)報(自然科學(xué)版),2022,40(2)

N

CCIFF

NTFk = 1(z)=

c2 g1H+

1

H

(a2

c1

c2

+a2 g1 )H+a1

c1

+

1

H

。 (7)

將 H=

1

z-1

代入式(7)得進(jìn)一步簡化后的信號傳輸函數(shù)

S

CCIFF

STFk = 1(z)=

(z-1)

2+c2 g1

(z-1)

2+a1

c1(z-1)+(a2

c1

c2

+c2 g1 )

。 (8)

由式(1)至式(8)可得到本文調(diào)制器的各項(xiàng)系數(shù),如表 1 所示。

表 1 Sigma-Delta 調(diào)制器的系數(shù)理論值

Tab. 1 Theoretical and optimal values of sigma delta modulator coefficients

系數(shù) 理論值 最優(yōu)值

a1 3.5 3.8

a2 3.95 4

b1 0.353 0.3

b2 0 0

b3 1 0.8

c1 0.353 0.4

c2 0.338 0.3

g1 0.02 0.02

極點(diǎn)位置由反饋系數(shù) a 調(diào)整,使帶外增益滿足 Lee 判據(jù)[2]

,提髙系統(tǒng)穩(wěn)定性。 由式(6)至式(8)可知

輸入前饋系數(shù) b 對系統(tǒng)穩(wěn)定性和基帶內(nèi)噪聲性能不會產(chǎn)生影響,僅對信號傳輸函數(shù) S

CCIFF

STFk = 1( z)造成影響,

其設(shè)置保證了基帶內(nèi)信號具有較好的平坦度與合理的增益范圍。 積分增益系數(shù) c 使噪聲整形濾波器的輸

出電平處于合理范圍,保證系統(tǒng)的穩(wěn)定性。 反饋系數(shù) g 用于調(diào)整零點(diǎn)位置,本設(shè)計中將其設(shè)置為0.02,從

而優(yōu)化基帶內(nèi)噪聲。 零點(diǎn)的取值為 z。

傳統(tǒng)的調(diào)制器建模方法通常通過傳遞函數(shù)求解出系數(shù),如表 1 所示,再運(yùn)用于 MATLAB 的 Simulink

模型中進(jìn)行仿真驗(yàn)證。 在開關(guān)電容電路中,由于電容值無法完全匹配,所以支路系數(shù)的取值無法完全和理

論值相同。 因此在實(shí)際情況中,電路的各項(xiàng)系數(shù)都會有一個抖動,要求設(shè)計出系統(tǒng)能夠滿足性能指標(biāo)要求

的最大抖動系數(shù),即抖動門限抖動的大小取決于電路設(shè)計的精度。 因此直接采用表 1 的系數(shù)理論值并不

能使調(diào)制器的性能發(fā)揮到最佳。

為解決上述問題,本文將浮動系數(shù)迭代思想應(yīng)用于傳遞函數(shù)中計算各個系數(shù)值。 當(dāng)各個模塊子電路

的匹配精度達(dá)到 10%才能保證整個調(diào)制器相對穩(wěn)定的精度[11-14]

,因此本文提出的浮動系數(shù)迭代的浮動值

定為各個系數(shù)的±10%。 系統(tǒng)及設(shè)計中應(yīng)用提出的浮動系數(shù)迭代思想運(yùn)算的流程如圖 2 所示。

利用上述思想將式(6) ~ (8)的參數(shù)分別設(shè)置±10%的波動后,利用 MATLAB 的 Simulink 模型(如圖 3

所示)進(jìn)行迭代仿真,繪制出各個參數(shù)對整個調(diào)制器系統(tǒng) SNR 的影響曲線,并根據(jù)曲線確定每個參數(shù)的最

優(yōu)值。 以表 1 的系數(shù) a1 理論值為例,利用迭代算法得到的浮動取值與 SNR 關(guān)系的曲線如圖 4 所示。 圖 4

中,紅色和藍(lán)色的點(diǎn)分別代表 a1 取相應(yīng)點(diǎn)對應(yīng)橫坐標(biāo)數(shù)值時得到的最終輸出 SNR 和 DR,擬選取的數(shù)值

點(diǎn)左右兩側(cè)數(shù)值點(diǎn)對應(yīng)縱坐標(biāo)值不能有太大的波動,否則將影響系統(tǒng)的問題定性。 實(shí)豎線穿過的點(diǎn)代表

a1 最終取值。

60

第65頁

http:∥xuebao.gxnu.edu.cn

)2

2K

242F+/

E#

K



10%U

圖 2 應(yīng)用提出的浮動系數(shù)迭代思想運(yùn)算的流程

Fig. 2 Applying the proposed floating coefficient iteration idea to test the flow chart

c1

b1

kT/C

OpNoise

a1

y1 y2

a2 c2

b2

b3

g1

z

z





z

z

kT/C

J

ADC

DAC

ADC-DAC

ADC-DAC

PSD

yout

IDEAL

Integrator(with delay)

圖 3 2 階 CIFF Sigma-Delta 調(diào)制器 MATLAB SIMULINK 模型

Fig. 3 MATLAB second-order CIFF SDM SIMULINK model

圖 4 以 a1 為例使用迭代算法得到的參數(shù)最優(yōu)值

Fig. 4 Taking a1

as an example, the optimal value of the parameter was obtained by using the iterative algorithm

圖 5(a)為表 1 系數(shù)理論值的輸出頻譜,圖 5( b)為表 1 系數(shù)最優(yōu)值的輸出頻譜。 從圖 5 中可以清晰

看到,最優(yōu)值得到的 SNR 明顯優(yōu)于理論值得到的 SNR,有效位數(shù) ENOB 也比未進(jìn)行系數(shù)迭代的高0.27 bit。

61

第66頁

廣西師范大學(xué)學(xué)報(自然科學(xué)版),2022,40(2)

圖 5 不同系數(shù)的仿真結(jié)果

Fig. 5 Simulation results of different coefficients

由文獻(xiàn)[15]知,第一級采樣電容可以通過式(9)確定,

SSNR

=

V

2

P

/ 2

8KT / CS1

×OOSR。 (9)

根據(jù)預(yù)定指標(biāo)有效位數(shù) EENOB

= 16 bits,SSNR≈10

10

,OOSR

= 256,VP

= 1 V,由式(9)得 CS1

= 1.6 pF。

2 Sigma-Delta 調(diào)制器晶體管級電路的實(shí)現(xiàn)

本文提出的基于浮動系數(shù)迭代思想的運(yùn)放共享改進(jìn)型低功耗高精度 CIFF Sigma-Delta 調(diào)制器如圖 6

所示,該調(diào)制器包括由積分器構(gòu)成的噪聲整形濾波器、比較器、加法器和時鐘產(chǎn)生電路。 由于 Sigma-Delta

調(diào)制器的分辨率主要受第一級噪聲整形濾波器的影響[16]

,且本文采用的濾波器階數(shù)為 2 階,為達(dá)到低功

耗條件下不降低精度,對如圖 7 所示 2 階傳統(tǒng)結(jié)構(gòu)的運(yùn)放進(jìn)行改進(jìn),將傳統(tǒng) 2 階結(jié)構(gòu)的 2 個運(yùn)放合并為一

個運(yùn)放,通過兩相不交疊時鐘控制其工作過程,可以消除第二級噪聲整形濾波器引入的功耗[17-18]

。

2.1 運(yùn)放共享技術(shù)的分析與實(shí)現(xiàn)

由于圖 7 中傳統(tǒng)架構(gòu)結(jié)構(gòu)上下對稱,故本文此處僅對 Sigma-Delta 調(diào)制器上半部分進(jìn)行工作狀態(tài)分

析,如圖 8 所示。 圖 8(a)為調(diào)制器電路進(jìn)行采樣操作,圖 8(b)為調(diào)制器電路進(jìn)行積分操作。

在圖 8 中,粗線代表調(diào)制器該支路目前正在進(jìn)行信號傳輸,VCM為電路的共模電壓,用箭頭指明相應(yīng)狀

態(tài)下的信號傳輸方向。 φ1 相位,如圖 8(a)所示,第一級采樣電容 Cs1和第二級采樣電容 Cs2分別同時對輸

入信號 Vi1和第一級積分器 X1 上一時刻輸出的積分結(jié)果進(jìn)行采樣。 φ2 相位,如圖 8(b)所示,積分器 X1、

X2 進(jìn)行積分操作,積累在采樣電容 Cs1 、Cs2上的電荷分別通過積分器 X1、X2 轉(zhuǎn)移到積分電容 Cf1 、Cf2中。

OP OP

P f f N

VREFP

VCM

VCM

VCM VCM VCM

VCM VCM

VCM

VREFN

S2

S2

S2

S2

S2

S2

S2 S2

S2

S2

S2

S1

S1

S1

S1

S1

S1

S1 S1

S1

S1

S1

S1

Vi+

Vi

Cs1

Cs1 Cs2

Ca1

Ca2

Ca2

Ca1

Cb

Cs2

Cf1

C2

Cf 2

Cf1

f N P f

VREFN VREFP

Cb

OP-AMP Share

Vout

X 1 X 2

圖 6 改進(jìn)型低功耗高精度 CIFF Sigma-Delta 調(diào)制器原理

Fig. 6 Schematic diagram of improved CIFF sigma-delta modulator with low-power consumption and high-precision

62

第67頁

http:∥xuebao.gxnu.edu.cn

OP OP

P f f N

VREFP

VCM

VCM

VCM VCM VCM

VCM VCM

VCM

VREFN

S2

S2

S2

S2

S2

S2

S2

S2 S2

S2

S2

S2

S1

S1

X 1 X 2 S1

S1

S1

S1

S1 S1

S1

S1

S1

S1

Vi+

Vi

Cs1

Cs1 Cs2

Ca1

Ca2

Ca2

Ca1

Cb

Cs2

Cf1

Cf 2

Cf1

f N P f

VREFN VREFP

Cb

Vout

C2

圖 7 傳統(tǒng) 2 階 CIFF Sigma-Delta 調(diào)制器結(jié)構(gòu)原理

Fig. 7 Schematic diagram of traditional 2

rd CIFF sigma-delta modulator

圖 8 的工作方式在每一個相位積分器只進(jìn)行一個操作,但是卻要引入 2 個積分器帶來的功耗。 為了

解決該問題,本文提出 2 階調(diào)制器只使用一個積分器,通過合理調(diào)整開關(guān)的順序,做到積分器在同一個相

位既能采樣又可積分,具體電路原理如圖 9 所示。 分析圖 9 結(jié)構(gòu)時可以分為內(nèi)環(huán)和外環(huán) 2 個部分:內(nèi)環(huán)部

分由開關(guān) S2 、開關(guān) S1 和采樣電容 Cs1 、積分電容 Cf1構(gòu)成。 從輸入信號 Vi1的輸入開始,經(jīng)開關(guān) S2 、采樣電容

Cs1完成圖 8(a)傳統(tǒng)結(jié)構(gòu)中輸入信號 Vi1到采樣電容 Cs1的采樣過程;通過開關(guān) S1 、內(nèi)環(huán)的積分電容 Cf1和積

分器 X,完成圖 8(b)傳統(tǒng)結(jié)構(gòu)中第一級積分器的積分功能。 外環(huán)由開關(guān) S2 、開關(guān) S1 和采樣電容 Cs2 、積分

電容 Cf2構(gòu)成。 從圖 9 中的積分器 X 輸出 Vop1out開始,經(jīng)開關(guān) S1 、采樣電容 Cs2完成圖 8(a)傳統(tǒng)結(jié)構(gòu)中第一

級積分器輸出到采樣電容 Cs2的采樣過程;通過開關(guān) S2 、外環(huán)的積分電容 Cf2和積分器 X,完成圖 8(b)傳統(tǒng)

結(jié)構(gòu)中第二級積分器的積分功能。

OP OP

P f f N

VREFP

VCM

VCM

VCM VCM VCM VCM VCM

VREFN

S2

S2 S2

S2

S2 S2

S2

S2

S1

S1

S1

S1

S1

S1 S1 Vi1 Cs1 Cs2

Ca1

Ca2

C Cf 2 f1

Cb

Vout

OP OP

P f f N

VREFP

VCM

VCM

VCM VCM VCM VCM VCM

VREFN

S2

S2 S2

S2

S2 S2

S2

S2

S1

S1

S1

S1

S1

S1 S1 Vi1

Cs1 Cs2

Ca1

Ca2

C Cf 2 f1

Cb

Vout

(a)F

(b)/

X 1 X 2

X 1 X 2

圖 8 傳統(tǒng)的單環(huán) 2 階 Sigma-Delta 調(diào)制器工作狀態(tài)

Fig. 8 Operating state diagram of a traditional single-ring second-order sigma-delta modulator

63

第68頁

廣西師范大學(xué)學(xué)報(自然科學(xué)版),2022,40(2)

傳統(tǒng)的單環(huán) 2 階 Sigma-Delta 調(diào)制器的第一級和第二級噪聲整形濾波器由不完全相同的積分器構(gòu)成,

往往第一級增益要求較高,第二級可以有所降低;而本文改進(jìn)的單環(huán) 2 階調(diào)制器將第一級高增益的噪聲整

形濾波器也應(yīng)用在第二級,這反而可以提高調(diào)制器的精度。 雖然改進(jìn)的單環(huán) 2 階調(diào)制器比傳統(tǒng)的單環(huán) 2

階調(diào)制器減少了一個噪聲整形濾波器的使用,降低了功耗的同時也提升了精度,但是在圖 9 可以看出,在

內(nèi)環(huán)和外環(huán)卻比傳統(tǒng) 2 階調(diào)制器增加了 2 組開關(guān),開關(guān)的增加勢必會引入非線性因素。 通過文獻(xiàn)[19]所

述改進(jìn)型調(diào)制器結(jié)構(gòu)增加的開關(guān)引入的噪聲僅僅比傳統(tǒng)結(jié)構(gòu)調(diào)制器高出 8%,在上文所述 10%浮動范圍

內(nèi),相比于傳統(tǒng)調(diào)制器結(jié)構(gòu),改進(jìn)型調(diào)制器結(jié)構(gòu)提升了精度和降低了功耗,且引入噪聲范圍在預(yù)設(shè)范圍內(nèi),

因此本文提出的基于浮動系數(shù)迭代思想的運(yùn)放共享改進(jìn)型低功耗高精度 CIFF Sigma-Delta 調(diào)制器是有實(shí)

際意義的。

OP

P f f N

VREFP

VCM

VCM

VCM

VCM VCM

VCM

VCM

VCM

VCM

VCM

VCM

VCM

VCM VCM

Vop1out

Vop2out

Vop1out

Vop2out

VCM

VCM VCM

VREFN

VREFP VREFN

S2

S2

S2

S2

S2

S2

S2

S2

S2

S2

S2

S2 S2

S2

S2

S2

S2

S2

S2

S2 S2

S2

S2

S2

S2

S2

S1

S1

S1 S1

S1

S1

S1

S1

S1

S1

S1

S1

S1

S1 S1

S1 S1

S1

S1

S1

S1 S1

S1

S1

Vi+

Vi Cs1

Cs2

Ca1

Cs1

Cs2 Cf 2

Cf 1

Ca1

Ca2

Ca2

Cb

Cf1

Cf 2

Vout

P f f N

Cb

圖 9 基于浮動系數(shù)迭代思想的運(yùn)放共享改進(jìn)型低功耗高精度 CIFF Sigma-Delta 調(diào)制器原理

Fig. 9 Schematic diagram of an improved low-power and high-precision CIFF sigma-delta

modulator for op-amp sharing based on floating coefficient iteration idea

2.2 噪聲整形濾波器設(shè)計

本文設(shè)計的 Sigma-Delta 調(diào)制器采用如圖 10 所示的單級運(yùn)放,并結(jié)合如圖 11 所示增益提高,輔助運(yùn)

放(Gain Boost)構(gòu)成噪聲整形濾波器。 未加入增益提高(Gain Boost)結(jié)構(gòu)時,圖 10 運(yùn)放的直流增益為

Av

= gm12 {[(gm18

+gmb18 )ro18(ro12‖ro20‖ro22 )] | | [(gm16

+gmb16 )ro16

ro14 ]}。 (10)

單級選取折疊式共源共柵結(jié)構(gòu)。 當(dāng) PMOS 管和 NMOS 管

W

L

相等時,前者產(chǎn)生的

1

f

噪聲較后者低,故使

用 PMOS 差分對作為運(yùn)放輸入級[19-20]

。 圖 10 增益提高型折疊式共源共柵運(yùn)算放大器中的輔助運(yùn)放利用

了對運(yùn)放單位增益帶寬(GBW)沒有影響的偽差分等效模型接法。 但是此接法會使得運(yùn)放的主極點(diǎn)減小

64

第69頁

http:∥xuebao.gxnu.edu.cn

Vout+

Vout

Vb2

Vf b

Vb1 M10

M13 M14

M11 M12 M17

M15

M19 M20

M21 M22

M23

M16

M18

VVDD

VGND

Vin

Vin

Gain Boost

Gain Boost

圖 10 運(yùn)算放大器主電路

Fig. 10 Main circuit of operational amplifier

為非偽差分接法時的

1

Again

,設(shè) Again為增益自舉輔助

運(yùn)放的增益,加上該輔助運(yùn)放后,圖 10 運(yùn)放的直流

增益為

Avtot

= AvAgain 。 (11)

但實(shí)際上,主運(yùn)放和輔助運(yùn)放對單位增益帶寬

(GBW)的選取也有一定要求,若輔助運(yùn)放的單位

增益帶寬 ( GBW) 小于主運(yùn)放的單位增益帶 寬

(GBW),則會在主運(yùn)放的頻率特性中引入一個零

極點(diǎn)對, 從而對整個運(yùn)放的建立特性產(chǎn)生較大

影響[21-22]

調(diào)制器應(yīng)用于語音領(lǐng)域,設(shè)計需要留有一定的

裕量, 因此設(shè)計單位增益帶寬(GBW)為 15 MHz,

SR 為 20 V/ μs, 相 位 裕 度 接 近 90°, 增 益 為

110 dB。

為穩(wěn)定運(yùn)算放大器輸出的共模電壓,基于電荷

分配原理設(shè)計了如圖 12 所示的共模反饋電路,其

中電容 CMi(i = 1,2,3,4)的大小需滿足 CMl

=CM2 ,CM3

=CM4 。 時鐘 Ck1 、Ck2 的控制開關(guān) S1 、S2 。 S1 斷開 S2 閉合時

電容 CMl、CM2存儲的電壓值為 VCMO

-Vb5 ;S1 閉合 S2 斷開時將 CMl、CM2存儲的電荷分配給電容 CM3和 CM4 ,

使得

VO+ +VO- -2Vfb≈2(VCMO

-Vb5 )。 (12)

如果 Vb5與 Vfb所需要的理想電壓非常接近,那么就可以保證 VO+ +VO-≈2VCMO,從而達(dá)到穩(wěn)定運(yùn)放共模

輸出的目的。 該共模反饋電路接在運(yùn)放的輸出端,電容 CMl

+CM3和 CM2

+CM4在 S1 閉合的時,可以看作運(yùn)放

輸出端負(fù)載,等效于增大了運(yùn)放負(fù)載電容,因此 CMl ~ CM4的取值不宜過大。 為了滿足共模電壓建立時間、

精度,電容的選取一般遵循 CMl

= 4CM3的原則。

Vout+

Vout

Vb3

Vb4

Vb5

Vb1

Vb2

M1 M5 M6

M8

M10

M7

M2 M3

M9

M4 M11 M12

VVDD

VGND

Vin

Vin

C1 C2

圖 11 輔助運(yùn)放電路

Fig. 11 Auxiliary Operational Amplifier

Vout+

Vout

Vf b Vb5

S2

S2

S2

S1

S1

S1

VCMO

VCMO

CM2

CM3

CM4

CM1

圖 12 共模反饋電路

Fig. 12 CMFB circuit

2.3 鎖存比較器電路設(shè)計

Sigma-Delta 調(diào)制器擁有的噪聲整形技術(shù)會對比較器的 offset 進(jìn)行處理[23]

,因此對比較器的要求并不

高,本文采用的比較器及其鎖存單元如圖 13、14 所示。 通過時鐘控制比較器工作在 2 個相位,PM4、PM5、

65

第70頁

廣西師范大學(xué)學(xué)報(自然科學(xué)版),2022,40(2)

NM0、NM1 構(gòu)成 2 個正反饋電路,VP1B

= 0 時,比較器復(fù)位,把比較器輸出節(jié)點(diǎn)和內(nèi)部節(jié)點(diǎn)拉到 VVDD,SB 和

RB 被拉到 VVDD,VP1B

= VVDD時,比較器工作在放大區(qū),原理同放大器 PM2 / PM0 / PM1 / PM3 是復(fù)位管。

PM2 PM0 PM4 PM5

NM1 NM0

NM2

NM4

NM3

PM1

SB

RB

PM3

VVDD

VGND

VP1B VP1B VP1B VP1B

Vin Vin

VP1B

圖 13 動態(tài)鎖存比較器

Fig. 13 Dynamic latch comparator

PCKB

PCK

NCK

NCKB

SB

RB

SDM_OUT

P2D

圖 14 動態(tài)鎖存比較器邏輯單元

Fig. 14 Dynamic latch comparator logic unit

3 Sigma-Delta 調(diào)制器的版圖與后仿結(jié)果

本文設(shè)計的 Sigma-Delta 調(diào)制器采用 UMC 0.11 μm CMOS 工藝,調(diào)制器版圖如圖 15 所示,其尺寸為

226.8 μm×187.44 μm。

將 350 mV @ 1.7 kHz 的輸入信號輸入到圖 6 本文設(shè)計的基于浮動系數(shù)迭代思想的運(yùn)放共享改進(jìn)型

低功耗高精度 CIFF Sigma-Delta 調(diào)制器,將其輸出的 1 bit 碼流導(dǎo)入到 MATLAB 中進(jìn)行信噪比分析,輸出

頻譜如圖 16 所示,后仿真測試結(jié)果表明:在信號帶寬為 8 kHz、采樣頻率為 4 MHz、供電電壓為 1.2 V 時,該

調(diào)制器輸出的峰值信噪比為 98 dB,有效位數(shù)(ENOB)為 16.1 bits。 基于浮動系數(shù)迭代思想對調(diào)制器的系

數(shù)篩選更加精確,更真實(shí)地將實(shí)際電路中存在的匹配和非線性因素反映到系數(shù)的選取上,為提升調(diào)制器精

度提供了一個重要的思想指引。 語音信號頻率為 300~3 400 Hz,因此本文設(shè)計的調(diào)制器滿足語音芯片的

66

第71頁

http:∥xuebao.gxnu.edu.cn

應(yīng)用需求。 由于本文設(shè)計的調(diào)制器采用運(yùn)放共享技術(shù)降低由噪聲整形濾波器個數(shù)引入的額外功耗,因此

調(diào)制器總功耗為 290 μW。

圖 15 本文設(shè)計的 Sigma-Delta 調(diào)制器版圖

Fig. 15 Sigma-Delta modulator layout designed in this paper

圖 16 本文設(shè)計的 Sigma-Delta 調(diào)制器輸出頻譜 (FFT of 2

13

points)

Fig. 16 Output spectrum of sigma-delta modulator designed in this paper (FFT of 2

13

points)

本文設(shè)計的基于浮動系數(shù)迭代思想的運(yùn)放共享改進(jìn)型低功耗高精度 CIFF Sigma-Delta 調(diào)制器,在各

工藝角下,后仿真得到的有效位數(shù)(ENOB)如表 2 所示。 在版圖設(shè)計時充分考慮了器件匹配,做好了對各

個子電路模塊隔離,因此版圖仿真結(jié)果表明:在-40 ~ 125 ℃ 測試環(huán)境下,調(diào)制器的有效位數(shù)(ENOB)隨著

溫度的降低有所提升,但在較高溫度下略有下降。 總體而言,該調(diào)制器有效位數(shù)(ENOB)受溫度影響較

小,具有實(shí)際應(yīng)用意義,在各工藝角和各溫度下的有效位數(shù)(ENOB)大于等于 15 bits,滿足調(diào)制器預(yù)定精

度要求。

FoM 是衡量調(diào)制器性能的主要指標(biāo),根據(jù)品質(zhì)因數(shù) figure-of-merit(FoM)來標(biāo)準(zhǔn)化能量消耗百分比的

位(EENOB ),式(13)為能量消耗計算公式,式中 NFoM代表品質(zhì)因數(shù)(FoM),PPOWER和 BBW分別是調(diào)制器的總

功耗和輸入信號帶寬。 式(14)中 EENOB為有效位數(shù)。

67

第72頁

廣西師范大學(xué)學(xué)報(自然科學(xué)版),2022,40(2)

表 2 不同工藝角下調(diào)制器的有效位數(shù)

Tab. 2 Effective bits of modulator at different process angles

Tr

/ ℃ t

tt

/ bits f

ff

/ bits sss

/ bits

-40 16.3 15.9 15.8

27 16.1 15.7 15.6

85 15.9 15.2 15.1

125 15.4 15.0 15.0

NFoM

=

PPOWER

2

EENOB ×2×BBW

ηpj

ηconversion

-l ( step ) , (13)

EENOB

=

SSNR

-1.76

6.02

。 (14)

表 3 為近年國內(nèi)外設(shè)計的 Sigma-Delta 調(diào)制器各項(xiàng)參數(shù)對比情況,從表中可以看出,本文設(shè)計的

Sigma-Delta 調(diào)制器可以實(shí)現(xiàn)低功耗高精度的 AD 轉(zhuǎn)換。

表 3 調(diào)制器性能對比

Tab. 3 Comparison of modulator performance

性能參數(shù) 本文 文獻(xiàn)[24](2014) 文獻(xiàn)[7](2017) 文獻(xiàn)[5](2019) 文獻(xiàn)[6](2020)

工藝/ μm 0.11 — 0.18 0.35 0.18

電源電壓/ V 1.2 5 1.8 2.5 1.8

過采樣率(OSR) 256 256 256 256 256

帶寬/ kHz 8 0.3 20 12 20

有效位數(shù)/ bits 16.1 15.0 13.8 16.5 14.18

功耗/ mW 0.29 4.67 18.82 4 18.9

品質(zhì)因數(shù)

ηpj

ηconversion

-l ( step ) 0.27 237.5 357.6 2.5 24.5

芯片面積/ mm

2

0.043 0.13 0.3 0.14 0.13

注:“—”表示該參考文獻(xiàn)未列出此項(xiàng)數(shù)據(jù)。

4 結(jié)語

本文設(shè)計了一種應(yīng)用于語音領(lǐng)域基于浮動系數(shù)迭代思想的運(yùn)放共享改進(jìn)型低功耗高精度 CIFF

Sigma-Delta 調(diào)制器,通過運(yùn)放共享技術(shù)降低了傳統(tǒng) 2 階調(diào)制器結(jié)構(gòu)中 2 個噪聲整形濾波器引入的功耗,并

將浮動系數(shù)迭代思想應(yīng)用于系統(tǒng)及設(shè)計獲取系數(shù),使得調(diào)制器的精度提升了 0.27 bit。 在 UMC 0.11 μm

CMOS 工藝下完成了整個調(diào)制器原理圖和版圖的設(shè)計,后仿真的結(jié)果表明:該調(diào)制器在輸入信號帶寬為 8

kHz、過采樣率為 256 時,輸出的有效分辨率達(dá)到 16 bits,滿足預(yù)定設(shè)計指標(biāo)要求。

參 考 文 獻(xiàn)

[1] 王盟皓, 侯訓(xùn)平, 陸鐵軍. 基于 Matlab 的寬帶連續(xù)時間 Sigma-Delta 調(diào)制器設(shè)計[ J]. 微電子學(xué)與計算機(jī), 2020, 37

(6): 70-74. DOI: 10.19304 / j.cnki.issn1000-7180.2020.06.014.

68

第73頁

http:∥xuebao.gxnu.edu.cn

[2] 王福強(qiáng). 連續(xù)時間帶通 Sigma-Delta 調(diào)制器的設(shè)計方法及實(shí)現(xiàn)技術(shù)研究[D]. 沈陽: 沈陽工業(yè)大學(xué), 2020. DOI: 10.

27322 / d.cnki.gsgyu.2020.000623.

[3] BONIZZONI E, PEREZ A P, MALOBERTI F, et al. Two op-amps third-order sigma-delta modulator with 61-dB SNDR, 6-

MHz bandwidth and 6-mW power consumption[J]. Analog Integrated Circuits and Signal Processing, 2011, 66(3): 381-

388. DOI: 10.1007 / s10470-010-9538-9.

[4] KWON C K, KIM H, PARK J, et al. A 0. 4-mW, 4. 7-ps resolution single-loop ΔΣ TDC using a half-delay time integrator

[J]. IEEE Transactions on Very Large Scale Integration (VLSI) Systems, 2016, 24( 3): 1184-1188. DOI: 10. 1109 /

TVLSI. 2015. 2438851.

[5] 周志興, 來強(qiáng)濤, 姜宇, 等.一種應(yīng)用于角度傳感器的 Sigma Delta ADC 設(shè)計[J]. 微電子學(xué)與計算機(jī), 2019, 36(8):

25-29. DOI: 10.19304 / j.cnki.issn1000-7180.2019.08.006.

[6] SUNG G M, LEE C T, XIAO X, et al. 4

th

-order switched-current multistage-noise-shaping delta-sigma modulator with a

simplified digital noise-cancellation circuit[J]. IEEE Access, 2020, 8: 168589-168600. DOI: 10. 1109 / ACCESS.

2020.3023416.

[7] SUNG G M, GUNNAM L C, LIN W S, et al. A third-order multibit switched-current delta-sigma modulator with switchedcapacitor flash ADC and IDWA[ J]. IEICE Transactions on Electronics, 2017, E100. C( 8): 684-693. DOI: 10.1587 /

transele.E100.C.684.

[8] LI D, QIAN X J, LI R Z, et al. High resolution ADC for ultrasound color doppler imaging based on MASH sigma-delta

modulator[ J ]. IEEE Transactions on Biomedical Engineering, 2020, 67 ( 5 ): 1438-1449. DOI: 10. 1109 / TBME.

2019.2938275.

[9] SCHREIER R, PAVAN S, TEMES G C. Understanding delta-sigma data converters [M]. 2nd ed. New York: IEEE, 2017.

DOI: 10.1002 / 9781119258308.

[10] CHAO K C H, NADEEM S, LEE W L, et al. A higher order topology for interpolative modulators for oversampling A/ D

converters[J]. IEEE Transactions on Circuits and Systems, 1990, 37(3): 309-318. DOI: 10.1109 / 31.52724.

[11] SAFI-HARB M, ROBERTS G W. Low power delta-sigma modulator for ADSL applications in a low-voltage CMOS

technology[J]. IEEE Transactions on Circuits and Systems I: Regular Papers, 2005, 52(10): 2075-2089. DOI: 10.1109 /

TCSI.2005.852925.

[12] 王彬, 何光旭, 肖姿逸, 等.一種高精度單環(huán)高階 Σ-Δ 調(diào)制器[ J]. 微電子學(xué), 2017, 47( 5): 644-647. DOI: 10.

13911 / j.cnki.1004-3365.2017.05.012.

[13] 李俊宏. 基于動態(tài)誤差消除技術(shù)的 Sigma-Delta 調(diào)制器的研究與設(shè)計[D]. 成都: 西南交通大學(xué), 2019. DOI: 10.

27414 / d.cnki.gxnju.2019.000724.

[14] 胡云. 用于醫(yī)療電子的 24 位 Sigma-delta 調(diào)制器的研究與設(shè)計[D]. 西安: 西安電子科技大學(xué), 2020. DOI: 10.

27389 / d.cnki.gxadu.2020.003237.

[15] NDJOUNTCHE T. Delta-sigma data converters[M]. Boca Raton: CRC Press, 2011. DOI: 10.1201 / b10943-12.

[16] SCHREIER R, SILVA J, STEENSGAARD J, et al. Design-oriented estimation of thermal noise in switched-capacitor

circuits[J]. IEEE Transactions on Circuits and Systems I: Regular Papers, 2005, 52(11): 2358-2368. DOI: 10.1109 /

TCSI.2005.853909.

[17] LEE I, KIM B, LEE B G. A low-power incremental delta-sigma ADC for CMOS image sensors[J]. IEEE Transactions on

Circuits and Systems II: Express Briefs, 2016, 63(4): 371-375. DOI: 10.1109 / TCSII.2015.2503706.

[18] FREITAS L M C, MORGADO-DIAS F. Reference power supply connection scheme for low-power CMOS image sensors

based on incremental sigma-delta converters[J]. Electronics, 2021, 10(3): 299. DOI: 10.3390 / electronics10030299.

[19] 譚曉強(qiáng). 低功耗分時復(fù)用 Delta-Sigma 調(diào)制器[D]. 長沙: 國防科學(xué)技術(shù)大學(xué), 2010.

[20] BANU M, KHOURY J M, TSIVIDIS Y. Fully differential operational amplifiers with accurate output balancing[ J]. IEEE

Journal of Solid-State Circuits, 1988, 23(6): 1410-1414. DOI: 10.1109 / 4.90039.

[21] BULT K, GEELEN G J G M. A fast-settling CMOS op amp for SC circuits with 90-dB DC gain[J]. IEEE Journal of SolidState Circuits, 1990, 25(6): 1379-1384. DOI: 10.1109 / 4.62165.

[22] 周述, 蔣品群, 宋樹祥. 2.8~ 8.5 GHz 全集成高增益低功耗超寬帶低噪聲放大器設(shè)計[J]. 廣西師范大學(xué)學(xué)報(自然

科學(xué)版), 2017, 35(2): 9-16. DOI: 10.16088 / j.issn.1001-6600.2017.02.002.

[23 ] PATHAN A, MEMON T D. Sigma-delta modulation based single-bit adaptive DSP algorithms for efficient mobile

69

第74頁

廣西師范大學(xué)學(xué)報(自然科學(xué)版),2022,40(2)

communication[ J]. Circuits, Systems, and Signal Processing, 2021, 40 ( 4): 1788-1801. DOI: 10. 1007 / s00034-020-

01553-0.

[24] 袁云, 李福杰, 趙野, 等.一種可集成于電池組檢測芯片的 Sigma-Delta A/ D 轉(zhuǎn)換器[J]. 微電子學(xué)與計算機(jī), 2014,

31(11): 143-147. DOI: 10.19304 / j.cnki.issn1000-7180.2014.11.031.

Modeling and Design of Low Power and High Precision Sigma-Delta Modulator

LIU Zhenyu, SONG Shuxiang

?

, CEN Mingcan, JIANG Pinqun, CAI Chaobo

(College of Electronic Engineering, Guangxi Normal University, Guilin Guangxi 541004, China)

Abstract: In order to improve the accuracy of the Sigma-Delta modulator and reduce its power consumption, an

improved second-order single-loop CIFF Sigma-Delta modulator is designed. The additional power consumption

caused by the number of noise shaping filters is reduced by using op-amp sharing technology. The idea of floating

coefficient iteration is applied to the modeling of the modulator in MATLAB, and the specific values of various

parameters that meet the precision requirements are finally determined. Through the introduction of non-ideal

factors, the obtained parameters are simulated and verified to meet the minimum performance index, and then

the transistor level circuit is designed. The modulator has a signal bandwidth of 8 kHz and a sampling frequency

of 4 MHz. The circuit design uses UMC 0.11 μm CMOS process, and the core circuit layout size is 226.8 μm×

187.44 μm. The post-simulation results show that when the power supply voltage is 1. 2 V, the total power

consumption of the modulator is 290 μW. At -40-125 ℃ , and the effective bits of each process Angle is more

than 15 bits.

Keywords: sigma-delta modulator; floating coefficient; matlab modeling; low power consumption; highprecision; voice chip

(責(zé)任編輯 蘇凱敏)

70

第75頁

第 40 卷 第 2 期

2022 年 3 月

廣西師范大學(xué)學(xué)報(自然科學(xué)版)

Journal of Guangxi Normal University (Natural Science Edition)

Vol. 40 No. 2

Mar. 2022

DOI: 10.16088 / j.issn.1001-6600.2021060803 http: xuebao.gxnu.edu.cn

龔闖, 劉志強(qiáng), 陸葉, 等. 基于動量因子 DD-LMS 算法在高速相干接收機(jī)中的應(yīng)用[J]. 廣西師范大學(xué)學(xué)報(自然科學(xué)版), 2022, 40(2):

71-80. GONG C, LIU Z Q, LU Y, et al. Application of momentum factor DD-LMS algorithm in high speed coherent receiver[J]. Journal of Guangxi

Normal University (Natural Science Edition), 2022, 40(2): 71-80.

基于動量因子 DD-LMS 算法在高速

相干接收機(jī)中的應(yīng)用

龔 闖1

, 劉志強(qiáng)1,2

, 陸 葉1

, 周 鵬1

, 武康康1

, 李傳起1,3?

(1. 廣西師范大學(xué) 電子工程學(xué)院, 廣西 桂林 541004; 2. 中國電子科技集團(tuán)公司 第三十四研究所, 廣西 桂林 541004;

3. 南寧師范大學(xué) 物理與電子學(xué)院, 廣西 南寧 530001)

摘 要: 光纖中的色散是引起傳輸信號碼間串?dāng)_( ISI)的直接原因, 傳統(tǒng)的用于均衡 ISI 的自適應(yīng)盲均衡算法收斂速度

慢、 誤差大, 不適用于高速相干接收機(jī)。 為解決該問題, 本文引入動量因子, 改進(jìn)基于判決引導(dǎo)的最小均方(DD-LMS)

算法用于優(yōu)化光纖信道色散影響, 理論推導(dǎo)并論證動量因子對盲均衡算法的收斂性能及誤差函數(shù)的影響, 同時探究不同

函數(shù)的動量因子對算法的優(yōu)化性能。 本文在 OptiSystem 光仿真軟件上搭建單載波傳輸速率 224 Gib / s 相干光傳輸系統(tǒng)。

結(jié)果表明, 相較于傳統(tǒng)時域均衡器(TDE), 在其后端添加此自適應(yīng)濾波器, 系統(tǒng)平均誤碼率能下降約 2.5 dB。 在光信噪

比為 15 dB、 傳輸距離為 500~ 1 000 km 的情況下, 色散補(bǔ)償模塊誤碼率能穩(wěn)定在 10

-2左右, 在色散信道中具有較強(qiáng)魯

棒性。

關(guān)鍵詞: 相干光接收機(jī); 色散補(bǔ)償; 盲均衡; DD-LMS 算法; 動量因子

中圖分類號: TN929.1 文獻(xiàn)標(biāo)志碼: A 文章編號: 1001-6600(2022)02-0071-10

在單模光纖中,基模的群速度與頻率相關(guān),脈沖不同的頻譜分量以略微不同的群速度傳輸,導(dǎo)致光脈

沖在傳輸過程中展寬從而引起碼間串?dāng)_(intersymbol interference,ISI),影響信號的傳輸距離和傳輸質(zhì)量。

實(shí)際光通信系統(tǒng)中,受外界因素影響,色散信道模型并不是恒定的,一般會在接收機(jī)數(shù)字信號處理

(digital signal processing, DSP)模塊中加入采用自適應(yīng)的思想設(shè)計的均衡濾波器用于估計變化參數(shù)。 重

疊-保留法采用光纖色散理想期望傳輸函數(shù)[1] 對色度色散(chromatic dispersion,CD)進(jìn)行補(bǔ)償,將信號分

塊,變換到頻域上,截斷分塊后的兩端部分序列,對殘余色散進(jìn)行補(bǔ)償,計算復(fù)雜度大,同時無法完全消除

其他因素對信號的擾動。 恒模算法(constant modulus algorithm,CMA)及其改進(jìn)類算法在信道變化劇烈時,

穩(wěn)態(tài)誤差較大,收斂速度較慢,一般迭代次數(shù)需大于 8 000 次[2-6]

,難以滿足實(shí)際傳輸系統(tǒng)的需求。 基于機(jī)

器學(xué)習(xí)的色散補(bǔ)償模塊,利用神經(jīng)網(wǎng)絡(luò)[7-9]

、支持向量機(jī)[10-13]

(support vector machine,SVM)等技術(shù)訓(xùn)練相

應(yīng)的映射網(wǎng)絡(luò),在一定程度上能估計出信道模型,但訓(xùn)練計算量大、系統(tǒng)延時高,一般需對數(shù)據(jù)樣本遍歷

150 000 次左右,無法適應(yīng)高速光系統(tǒng)。

本文構(gòu)建基于動量因子的判決引導(dǎo)的最小均方(momentum decision-directed least means-square,MDDLMS)算法,從理論上論證了動量因子對此算法收斂性的影響,推導(dǎo)了動量因子與迭代步長之間的關(guān)系。

結(jié)果表明,在基于 OptiSystem 的 56 Gbaud 雙偏振非歸零正交相移鍵控( non return zero-quadrature phase

shift keying,NRZ-QPSK)相干光傳輸系統(tǒng)中,相比于其他盲均衡算法,MDD-LMS 收斂速度明顯加快;在面

對色散常數(shù)變化時,此算法具有良好的均衡性能。

收稿日期: 2021-06-08 修回日期: 2021-07-10

基金項(xiàng)目: 廣西科技計劃項(xiàng)目重點(diǎn)研發(fā)計劃課題(桂 AB17292082)

通信作者: 李傳起(1964—), 男, 安徽六安人, 南寧師范大學(xué)教授, 博士。 E-mail: lcq@mailbox.gxnu.edu.cn

第76頁

廣西師范大學(xué)學(xué)報(自然科學(xué)版),2022,40(2)

1 算法結(jié)構(gòu)

在采用 QPSK 調(diào)制格式的光纖傳輸系統(tǒng)中,通過相干接收機(jī)前端完成光電轉(zhuǎn)換、模數(shù)轉(zhuǎn)換、正交歸一

化、時鐘恢復(fù)等步驟后,在用于補(bǔ)償光纖線性損傷的接收機(jī)中進(jìn)行數(shù)字信號處理(流程如圖 1 所示)。

L7

= 7= 7E



,

K ?-

7

=

7E

=

7E

=

7

=

D\"

M

,



D\"

M

,



?-?-

A4@

X-X

Y-X

X-Y

Y-Y

Ix

Iy

Qy

Qx

j

j

圖 1 數(shù)字相干光接收機(jī)中 DSP 流程

Fig. 1 DSP flow chart in digital coherent optical receiver

在數(shù)字相干光接收機(jī)中,CD 對光纖通信系統(tǒng)的影響被建模[12]為

H(ω,z)= exp[-jK(ωT)

2

], (1)

K =

2

z

4πcT

2

。 (2)

式(1)和式(2)中:ω 為等效基帶信號的角頻率,T 為信號采樣周期,D 為光纖色度色散常數(shù), 為傳輸波

長,z 為傳輸距離,c 為光速。

1.1 時域色散補(bǔ)償均衡器

高速光通信系統(tǒng)一般采用有限長單位沖激響應(yīng)(finite impulse response,FIR)的濾波器結(jié)構(gòu)進(jìn)行補(bǔ)償。

補(bǔ)償可在頻域或時域進(jìn)行。 將式(1)進(jìn)行傅里葉反變換,可得時域均衡器(time domain equalizer,TDE)的

沖激響應(yīng)為

hCD

=

ic

DLλ

2

exp -i

πc

DLλ

2

t

2

( ) 。 (3)

考慮到對信號的采樣頻率需滿足奈奎斯特抽樣定理,可得 FIR 濾波器抽頭系數(shù)為

ak

=

i

4πK

exp -i

n

2

4K

( ) ,-

N

2

≤n≤

N

2

, (4)

N= 2[2πK]+1。

式(4)中

N

2

為不大于 N/ 2 的最大正整數(shù)。 根據(jù)式(2)和式(4)可以計算時域均衡器的抽頭權(quán)重,在光纖

長度為 100 km、色散常數(shù) D= 16 ps/ (nm·km

-1

)、抽樣頻率為 4 per/ symbol 的情況下,截取 TDE 中間部分

抽頭權(quán)重,如圖 2 所示。

對于色散常數(shù)恒定光纖模型,時域色散均衡器的抽頭權(quán)重模值恒定,其實(shí)部和虛部呈周期性變化。 實(shí)

際應(yīng)用中,FIR 濾波器由于截斷效應(yīng),導(dǎo)致經(jīng)過 TDE 后的信號中依然會存在一定值的殘余色散,一般通過

后續(xù)自適應(yīng)均衡算法去除。

1.2 MDD-LMS 算法理論與實(shí)現(xiàn)

DSP 處理模塊中的均衡算法通過對接收信號 x(n)抽樣后的數(shù)據(jù)點(diǎn)進(jìn)行“迫零”處理,從而消除 ISI 影

72

第77頁

http:∥xuebao.gxnu.edu.cn

圖 2 TDE 抽頭權(quán)值

Fig. 2 TDE tap weights

響,下面推導(dǎo)其原理。

設(shè)發(fā)射信號 s(n),經(jīng)過長度為 L 的離散信道傳輸后的接收信號可表示為

u(n) = ∑

L

l = 0

hl

s(n - l) + v(n)。 (5)

式中:hl 為 FIR 離散信道單位沖激響應(yīng);v( n)為加性高斯白噪聲( additive white gaussian noise,AWGN)。

考慮到抽頭數(shù)為 2M+1 的均衡濾波器單位沖激響應(yīng)為

w(n) = ∑

M

k = -M

w

?

k

δ(n - k)。 (6)

考慮到通過均衡器后接收信號s(n)

^為

s(n)

^

= ∑

M

k = -M

w

?

k u(n - k)。 (7)

將式(5) 代入式(7) 得

s(n)

^

= ∑

M

k = -M ∑

L

i = 0

w

?

k hi

s(n - k - i) + ∑

M

k = -M

w

?

k

v(n - k)。 (8)

經(jīng)過變量代換 l = k + i,得

s(n)

^

= f(0)s(n) + ∑

M+L

l = -M,l≠0

s(n - l)f(l) + ∑

M

k = -M

w

?

k

v(n - k)。 (9)

式中 f(n)為 h(n)與 w(n)線性卷積和;式中第一項(xiàng)與發(fā)射信號成比例,第二項(xiàng)為碼間串?dāng)_值,第三項(xiàng)為噪

聲影響。 為消除 ISI, f(n)應(yīng)滿足

f(n)=

1, n = 0,

0, n≠0。 { (10)

基于靜態(tài)色散補(bǔ)償?shù)?MDD-LMS 算法流程如圖 3 所示。

利用信道盲均衡原理,構(gòu)建代價函數(shù)

J(n)= E{ g[s(n)

^

]-s(n)

^ 2

}。 (11)

式中:s(n)

^為橫向 FIR 濾波器輸出; g ( ·) 為一種無記憶非線性運(yùn)算,在判決引導(dǎo)算法中, g ( n) =

dec[s(n)

^

]。 在調(diào)制格式為 QPSK 的信號中,g(n)= sgn[ s(n)

^

],添加動量因子的判決引導(dǎo)最小均方算法

73

第78頁

廣西師范大學(xué)學(xué)報(自然科學(xué)版),2022,40(2)

E

x(n)

P+ 

v(n)

TDE

LMS0\"

FIR$\"

w(n) 3E



u(n) L3@

e(n)

d(n)

s(n)

s(n)

g(n)=sgn[s(n)]

@

^



圖 3 MDD-LMS 算法原理

Fig. 3 Schematic diagram of MDD-LMS algorithm

(MDD-LMS)代價函數(shù)為

JM(n)= J[w(n)]+αJ[w(n-1)]。 (12)

式(12)可化為

JM(n)= e(n)

2+α [w(n)-w(n-1)] 。 (13)

根據(jù)經(jīng)典維納濾波器理論,可求得橫向?yàn)V波器迭代公式為

w(n+1)= w(n)-

μ

2

{ J[w(n)]+α J[w(n-1)]}, (14)

w(n+1)= w(n)+μu(n)e

?

(n)+α[w(n)-w(n-1)]。 (15)

式(15)中 e(n)= sgn[s(n)

^

]-w

H

^

(n)u(n)。 MDD-LMS 算法引入動量項(xiàng) α[w(n)-w(n-1)],使得每次迭代

過程中利用已迭代完成的抽頭權(quán)重,在沒有增加算法計算量的基礎(chǔ)上,能夠有效提升盲均衡算法的收斂

能力。

考慮到 MDD-LMS 算法性能以及動量因子 α 的選取,設(shè) ξwi

=w(n+1)-w(n),式(15)可表示為ξwi

(n)=

μe(n)u(n)+αξwi

(n-1),設(shè) γ(n)= e(n)u(n),可得

ξ wi

(n) = μγ(n) + α

n

ξ wi

(0) + μ ∑

n-1

j

α

j

γ(n - j)。 (16)

式中引入 α 的冪次累加項(xiàng),MDD-LMS 算法初期收斂速度加快,追蹤能力加強(qiáng);迭代近穩(wěn)態(tài)時,動量的引入

可以幫助穩(wěn)定誤差曲線。 由于存在非線性項(xiàng),前向累加誤差難免會對收斂穩(wěn)態(tài)值產(chǎn)生一定波動。

本文在 MATLAB 中搭建 224 Gbps NRZ-QPSK 光纖傳輸信道,設(shè)置色散常數(shù)為 16 ps/ (nm·km

-1

),傳

輸距離為 100 km,在 OSNR 為 10 dB 的情況下,比較傳統(tǒng)定步長 DD-LMS 算法與 MDD-LMS 算法的誤差曲

線,如圖 4 和圖 5 所示。

圖 4 MDD-LMS 誤差曲線

Fig. 4 MDD-LMS error curves

圖 5 DD-LMS 誤差曲線

Fig. 5 DD-LMS error curves

74

第79頁

http:∥xuebao.gxnu.edu.cn

可以看出,MDD-LMS 算法收斂性優(yōu)于 DD-LMS 算法,然而穩(wěn)態(tài)誤差稍大一些。 綜合來說,引入動量項(xiàng)

的 DD-LMS 算法性能優(yōu)于傳統(tǒng)的 DD-LMS 算法。

增加動量項(xiàng)后,當(dāng) n→∞ 時,設(shè)理想抽頭權(quán)重為 w0 ,定義權(quán)向量誤差為

ε(n)= wi(n)-w0 。 (17)

由 MDD-LMS 算法迭代公式

E{ε(n + 1)} = E{ε(n)} + μE{∑

n-1

j

α

j

γ wi(n - j)} + E{α

n

ε wi(0)}。 (18)

考慮到高次動量項(xiàng)對收斂性能影響不大,保留一次動量項(xiàng)后可得

E{ε(n+1)} =E{ε(n)}-(μ+α)RE{ε(n)}。 (19)

即 E{ε(n+1)} = [I-(μ+α)R]E{ε(n)},其中 I 為單位矩陣,R 為輸入向量 u(n)的自相關(guān)矩陣。 可得步

長 μ 和 α 的關(guān)系為

0<μ<

1+α

λmax

。 (20)

式中 λmax為 R 的最大特征值。

考慮到動量因子 α 決定 MDD-LMS 算法收斂速度和穩(wěn)態(tài)誤差,迭代初期收斂速度是首要因素,待算法

趨近穩(wěn)定后,使用動量因子幫助穩(wěn)定誤差。 因此不同類型的動量因子對算法的優(yōu)化性能不盡相同,本文探

究指數(shù)動量因子( exponential momentum factor)、線性動量因子( line momentum factor)、乘冪動量因子

(power momentum factor)和有理函數(shù)動量因子( rational momentum factor)對 DD-LMS 算法收斂性的提升。

不同類型的動量因子模型如圖 6 所示。

圖 6 不同函數(shù)模型的動量因子

Fig. 6 Momentum factors of different functional models

本文通過中心抽頭的收斂性,比較了 MDD-LMS 算法、傳統(tǒng) DD-LMS 算法以及變步長 DD-LMS 算法

(variable step-decision-directed least mean-square,VS-DD-LMS)。 設(shè)置橫向?yàn)V波器抽頭數(shù)為 13,迭代步長 μ

為 0.000 1,α 區(qū)間為[2×10

-7

,2×10

-5

],仿真結(jié)果如圖 7 所示。 由圖 7 可以看出,指數(shù)因子 MDD-LMS 算法

迭代次數(shù)在 4 000 左右即可達(dá)到穩(wěn)態(tài),而其他類型動量因子的 DD-LMS 需迭代近 30 000 次才趨近收斂。

引入動量項(xiàng)對盲均衡算法收斂性的改善顯而易見。 在高速光接收機(jī)中,盲均衡算法需在迭代前期快速收

斂,動量項(xiàng)的引入提升了盲均衡算法的追蹤能力,動量因子 α 取值越大,收斂速度和追蹤性能提升越大,

但這種優(yōu)化并非沒有代價,算法趨近穩(wěn)態(tài)后,系統(tǒng)中會引入一定量的殘余誤差,此時可以通過迭代步長 μ

和動量加權(quán)因子 α 來改善穩(wěn)態(tài)性能,因此盲均衡算法迭代初期采用較大的 α 用于提升算法跟蹤速度;待

系統(tǒng)達(dá)到穩(wěn)態(tài)后,通過動量因子 α 的衰減來控制穩(wěn)態(tài)誤差。 由圖 5 和圖 6 可得,對比不同類型的動量因

75

第80頁

廣西師范大學(xué)學(xué)報(自然科學(xué)版),2022,40(2)

子,無論是在收斂速度還是在穩(wěn)態(tài)誤差控制方面,指數(shù)動量因子衰減模型相較于其他類型動量因子模型更

加契合盲均衡算法。

圖 7 動量因子對自適應(yīng)均衡器中心抽頭收斂性影響

Fig. 7 Influence of momentum factor on center tap convergence of adaptive equalizer

2 實(shí)驗(yàn)結(jié)果

2.1 誤碼率分析

本文數(shù)字相干光接收機(jī)采用單載波 224 Gib / s 的傳輸方案。 仿真實(shí)驗(yàn)基于 Matlab 和 OptiSystem 光學(xué)

仿真軟件,考慮到實(shí)際相干光系統(tǒng),采用標(biāo)準(zhǔn)單模光纖( single mode fiber, SMF),使其工作波長位于

1 550 nm處,SMF 中一般色度色散常數(shù)為 16 ps/ (nm·km

-1

),考慮到傳輸距離增大時,二階色散對傳輸信

號影響加劇,設(shè)置二階色散常數(shù)為 0.075 ps/ (nm

2·km

-1

)。 由光纖 Kerr 效應(yīng)引起的非線性損傷[14-18]

,在

傳輸光功率較小時忽略不計,其他仿真參數(shù)如表 1 所示。

表 1 相干傳輸系統(tǒng)仿真參數(shù)

Tab. 1 Simulation parameters of coherent transmission system

參數(shù) 值

載波波長/ nm 1 550

波特率/ Gbaud 56

調(diào)制格式 QPSK

傳輸碼型 NRZ

采樣率/ (per·symbol

-1

) 4

傳輸損耗/ (dB·km

-1

) 0.22

有效截面積/ ?m

2

80

一階色散/ (ps·nm

-1·km

-1

) 16

二階色散/ (ps·km·nm

-2

) 0.075

非線性折射率/ (m

2·W

-1

) 2.6×10

-20

信號功率/ dBm 0

噪聲類型 AWGN

76

第81頁

http:∥xuebao.gxnu.edu.cn

在未添加前向糾錯碼[19-22]

( forward error correction,FEC) 的情況下,設(shè)置光纖長度為 500 km,MDDLMS 算法迭代步長為 0.000 1,動量因子為指數(shù)模型,忽略偏振模色散(polarization mode dispersion,PMD)

的影響,測試所得光信噪比與誤碼率如圖 8 所示。

圖 8 光信噪比與 BER 的關(guān)系

Fig. 8 Relation diagram of OSNR ratio and BER

圖 8 分別對比了時域色散補(bǔ)償 FIR 濾波器性能和添加 DD-LMS 或 MDD-LMS 自適應(yīng)濾波器后色散均

衡器的性能,同時對比參考了背靠背(back-to-back,BTB)情況下系統(tǒng)的誤碼率。 可以看出,在低 OSNR 情

況下,各類算法差距不大,而 TDE 模塊由于其本身 FIR 濾波器特性限制,無法完全均衡靜態(tài)色散影響,在

OSNR 為 10 dB 之后性能逐漸下降,20 dB 情況下誤碼率達(dá)到 4.57×10

-3

。 在 TDE 后端增加 MDD-LMS 算法

模塊后,隨著 OSNR 增大,系統(tǒng)的誤碼率下降較為明顯,在 20 dB 時,BER 降低到 3.707×10

-5

,相比傳統(tǒng)

TDE 模塊,系統(tǒng)誤碼率下降了約 2 dB。 結(jié)果證明添加 MDD-LMS 算法后的均衡方案對光纖信道中的靜態(tài)

色散損傷具有較好的補(bǔ)償作用。 圖 8 同時對比了 DD-LMS 算法和 MDD-LMS 算法的 BER 性能。 由于本身

的盲均衡特性,MDD-LMS 的 BER 浮動在-0.354 8 dB左右,與 DD-LMS 算法類似,2 種算法的 BER 曲線圖

存在一定的波動,但總體差異不大。 從實(shí)際工程角度而言,指數(shù)因子 MDD-LMS 算法由于在收斂速度和追

蹤性能上的優(yōu)勢,更適用于實(shí)際高速光傳輸系統(tǒng)。

圖 9 光信噪比為 15 dB 情況下光纖長度與誤碼率的關(guān)系

Fig. 9 Relation diagram of fiber length and bit error rate at optical signal-to-noise ratio of 15 dB

77

第82頁

廣西師范大學(xué)學(xué)報(自然科學(xué)版),2022,40(2)

考慮到單模光纖中色散參數(shù) D 與光纖長度有關(guān),本文同時測試了傳輸距離對 MDD-LMS 算法的影響,

結(jié)果如圖 9 所示。 圖 9 對比了在光信噪比為 15 dB 的情況下,添加 MDD-LMS 算法模塊對 TDE 的影響。

TDE 模塊隨著傳輸距離逐漸增大,誤碼率有一定的上升趨勢。 而 MDD-LMS 由于其本身具有較強(qiáng)的抗干

擾能力,總體誤碼率處在一定范圍之內(nèi),在色散信道中具有較好的魯棒性。 在傳輸距離為 1 000 km 時,其

誤碼率可達(dá)到 10

-2

。

2.2 計算復(fù)雜度比較

本文從各類算法的均衡過程來分析 TDE、DD-LMS、MDD-LMS 算法實(shí)現(xiàn)的計算復(fù)雜度,設(shè)輸入信號長

度為 M,自適應(yīng)橫向?yàn)V波器長度為 L,分析結(jié)果如表 2 所示。

表 2 各類均衡算法計算復(fù)雜度

Tab. 2 Computational complexity of various equalization algorithms

算法 計算量

TDE M 次卷積運(yùn)算

ML 次乘法,M(L-1)次加法計算橫向?yàn)V波器輸出

DD-LMS

M 次加法運(yùn)算計算誤差函數(shù)

ML 次乘法運(yùn)算,M(L-1)次加法更新均衡器抽頭權(quán)重

M 次卷積計算自適應(yīng)橫向均衡器輸出

ML 次乘法,M(L-1)次加法計算橫向?yàn)V波器輸出

M 次加法運(yùn)算計算誤差函數(shù)

MDD-LMS ML 次乘法,ML 次減法計算動量項(xiàng)

ML 次乘法運(yùn)算,M(L-1)次加法更新均衡器抽頭權(quán)重

M 次卷積計算自適應(yīng)橫向均衡器輸出

本文所搭建的單載波 56 Gbaud PM-QPSK 系統(tǒng)中,在傳輸距離為 1 000 km 的情況下,由式(4)計算出

TDE 所需抽頭數(shù)為 N= 1 683 個,其均衡靜態(tài)色散所需計算量為 N 與信號長度 M 的卷積運(yùn)算。 后續(xù)添加

的 DD-LMS 算法所設(shè)置的抽頭數(shù)為 L = 13,根據(jù)經(jīng)典盲均衡算法迭代過程,單次迭代所需計算量僅為 2L 次

乘法運(yùn)算和 2L-1 次加法運(yùn)算。 MDD-LMS 算法引入動量因子后在原有 DD-LMS 算法的基礎(chǔ)上僅增加了

2L 次加法運(yùn)算和 L 次乘法運(yùn)算,增加后的計算總量約為 TDE 的 1.5%。 在幾乎沒有提升接收機(jī)計算復(fù)雜

度的條件下,MDD-LMS 算法有效地抑制了殘余色散的影響,證明本算法在實(shí)際系統(tǒng)中的可行性。

3 結(jié)語

本文采用動量因子改進(jìn)了盲信號處理理論中的判決引導(dǎo)算法,通過仿真實(shí)現(xiàn)了 MDD-LMS 算法模塊

在單載波傳輸速率為 224 Gib / s 的高速光接收機(jī)色度色散補(bǔ)償中的應(yīng)用。 指數(shù)因子 MDD-LMS 算法與傳

統(tǒng) DD-LMS 算法在色散均衡方面性能相近,能有效地降低光纖中色度色散的影響;但指數(shù)因子 MDD-LMS

算法的收斂速度僅約為 DD-LMS 算法的 1 / 10,其跟蹤能力方面遠(yuǎn)優(yōu)于 VS-DD-LMS 和其他類型 MDD-LMS

算法,更適合高速光接收機(jī)。 由于實(shí)際光纖通信系統(tǒng)信道的復(fù)雜度和當(dāng)前電子器件工作頻率限制,后續(xù)改

進(jìn)算法還需針對系統(tǒng)的穩(wěn)定性加以研究。

78

第83頁

http:∥xuebao.gxnu.edu.cn

參 考 文 獻(xiàn)

[1] KUDO R, KOBAYASHI T, ISHIHARA K, et al. Coherent optical single carrier transmission using overlap frequency

domain equalization for long-haul optical systems[J]. Journal of Lightwave Technology, 2009, 27(16): 3721-3728. DOI:

10.1109 / JLT.2009.2024091.

[2] 阮秀凱, 蔣嘯, 李昌.一種適用于高階 QAM 系統(tǒng) Bussgang 類盲均衡新方法[ J]. 電子與信息學(xué)報, 2012, 34(8):

2018-2022.

[3] 鐘昆, 楊懷棟. 超高速 PM-QPSK 相干光通信系統(tǒng)恒模算法解調(diào)性能分析[J]. 光通信技術(shù), 2019, 43(4): 1-7.

[4] 吳曉杰. 高階 QAM 信號解調(diào)并行均衡低復(fù)雜度算法研究與實(shí)現(xiàn)[D]. 成都: 電子科技大學(xué), 2020.

[5] DONG Y, WANG L Q, ZHANG Z G, et al. Parallel and pipelined CMA for high-speed and real-time optical coherent

receivers[C]∥ 2019 18th International Conference on Optical Communications and Networks ( ICOCN). Piscataway, NJ:

IEEE, 2019. DOI: 10.1109 / ICOCN.2019.8934049.

[6] KAMRAN R, THAKER N B, ANGHAN M, et al. Demonstration of a polarization diversity based SH-QPSK system with

CMA-DFE equalizer[C]∥ 2017 26th Wireless and Optical Communication Conference (WOCC). Piscataway, NJ: IEEE,

2017. DOI: 10.1109 / WOCC.2017.7928980.

[7] 張?zhí)祢U, 范聰聰, 葛宛營, 等. 基于 ICA 和特征提取的 MIMO 信號調(diào)制識別算法[ J]. 電子與信息學(xué)報, 2020, 42

(9): 2208-2215.

[8] KYONO T, OTSUKA Y, FUKUMOTO Y, et al. Computational-complexity comparison of artificial neural network and

Volterra series transfer function for optical nonlinearity compensation with time-and frequency-domain dispersion equalization

[C]∥ 2018 European Conference on Optical Communication (ECOC). Piscataway, NJ: IEEE, 2018. DOI: 10. 1109 /

ECOC.2018.8535153.

[9] RANZINI S M, ROS F D, ZIBAR D. Joint low-complexity opto-electronic chromatic dispersion compensation for short-reach

transmission[ C]∥ 2019 IEEE Photonics Conference ( IPC). Piscataway, NJ: IEEE, 2019. DOI: 10. 1109 / IPCon.

2019.8908278.

[10] 李曉記, 杜衛(wèi)海, 李燕龍, 等. 基于 SVM 的水下 LED 可見光通信信號檢測方法[J]. 光通信技術(shù), 2021, 45(5): 50-

54. DOI: 10.13921 / j.cnki.issn1002-5561.2021.05.011.

[11] 遲楠, 牛文清, 賈俊連, 等. 基于抗非線性 SVM 的幾何整形可見光通信系統(tǒng)[ J]. 應(yīng)用科學(xué)學(xué)報, 2020, 38(4):

647-658.

[12] CHEN G Y, SUN L, XU K, et al. Machine learning of SVM classification utilizing complete binary tree structure for PAM4/ 8 optical interconnection[C]∥ 2017 IEEE Optical Interconnects Conference (OI). Piscataway, NJ: IEEE, 2017: 47-

48, DOI: 10.1109 / OIC.2017.7965524.

[13] 吳曦. 基于深度學(xué)習(xí)的可見光通信系統(tǒng)中信道估計與信道非線性研究[D]. 北京: 北京郵電大學(xué), 2020. DOI: 10.

26969 / d.cnki.gbydu.2020.002724.

[14] SAVORY S J. Digital filters for coherent optical receivers[ J]. Optics Express, 2008, 16 (2): 804-817. DOI: 10.1364 /

OE.16.000804.

[15] KHAFAJI M, GUSTAT H, ELLINGER F, et al. General time-domain represention of chromatic dispersion in single-mode

fibers[J]. IEEE Photonics Technology Letters, 2010, 22(5): 314-316. DOI: 10.1109 / LPT.2009.2038355.

[16] ZHOU Z, TANG Z X. Quantitatively predicting third harmonic generation for Gaussian pulses propagating in Kerr nonlinear

media[C]∥ 2017 4th International Conference on Information Science and Control Engineering (ICISCE). Piscataway, NJ:

IEEE, 2017: 1608-1611. DOI: 10.1109 / ICISCE.2017.335.

[17] 王瑜浩. 少模光纖傳輸系統(tǒng)的非線性補(bǔ)償與再生技術(shù)研究[D]. 成都: 電子科技大學(xué), 2020. DOI: 10.27005 / d.cnki.

gdzku.2020.002137.

[18] XU J, ZHENG Y, SUN X H. Analysis for transmission performance of ultra-long haul optical fiber link considering quintic

79

第84頁

廣西師范大學(xué)學(xué)報(自然科學(xué)版),2022,40(2)

nonlinear effect[C]∥ 2017 16th International Conference on Optical Communications and Networks (ICOCN). Piscataway,

NJ: IEEE, 2017. DOI: 10.1109 / ICOCN.2017.8121484.

[19] 梅艷, 張躍進(jìn), 展愛云. 基于 FEC 的 LDPC 編碼在遠(yuǎn)距離光通信系統(tǒng)中的研究[J]. 光通信技術(shù), 2012, 36(8): 32-

34. DOI: 10.13921 / j.cnki.issn1002-5561.2012.08.011.

[20] 葉文偉. 光通信系統(tǒng)中一種新穎 FEC 碼的仿真分析[ J]. 半導(dǎo)體光電, 2012, 33(4): 561-565. DOI: 10.16818 / j.

issn1001-5868.2012.04.027.

[21] 覃江毅. 前向糾錯編碼類型盲識別關(guān)鍵技術(shù)研究[D]. 長沙: 國防科技大學(xué), 2018. DOI: 10.27052 / d. cnki. gzjgu.

2018.000026.

[22] LIGA G, CHEN B, VAN DER HEIDE S, et al. 30% reach increase via low-complexity hybrid HD/ SD FEC and improved

4D modulation[J]. IEEE Photonics Technology Letters, 2020, 32(13): 827-830. DOI: 10.1109 / LPT.2020.2995636.

Application of Momentum Factor DD-LMS Algorithm in High Speed

Coherent Receiver

GONG Chuang

1

, LIU Zhiqiang

1,2

, LU Ye

1

, ZHOU Peng

1

, WU Kangkang

1

, LI Chuanqi

1,3?

(1. College of Electronic Engineering, Guangxi Normal University, Guilin Guangxi 541004, China;

2. The No.34 Research Institute of CETC, Guilin Guangxi 541004, China;

3. College of Physics and Electronic, Nanning Normal University, Nanning Guangxi 530001, China)

Abstract: The chromatic dispersion in the optical fiber is the direct cause of the inter-symbol interference (ISI)

of the transmission signal, and the signal degradation is particularly serious when the transmission environment

fluctuates. Traditional adaptive blind equalization algorithms have slow convergence speed and large errors, which

are not suitable for high-speed coherent receivers. In order to solve this problem, the momentum factor is

introduced to improve the decision-directed least means square (DD-LMS) algorithm to optimize the effect of

fiber channel dispersion. Theoretically, the momentum factor is derived and demonstrated on the convergence

performance and error function of the blind equalization algorithm. At the same time, the momentum factor of

different functions is explored on the optimization performance of the algorithm.A coherent optical transmission

system with a single carrier transmission rate of 224 Gib / s is built on the OptiSystem optical simulation software.

The results show that, compared with the traditional time domain equalizer (TDE ), adding this adaptive filter at

the back end of the system can reduce the average bit error rate of the system by about 2.5 dB. When the optical

signal-to-noise ratio is 15 dB and the transmission distance is 500-1 000 km, the error rate of the dispersion

compensation module can be stabilized at about 10

-2

, and it has strong robustness in the dispersion channel.

Keywords: coherent optical receiver; dispersion compensation; blind equalization; DD-LMS algorithm;

momentum factor

(責(zé)任編輯 蘇凱敏)

80

第85頁

第 40 卷 第 2 期

2022 年 3 月

廣西師范大學(xué)學(xué)報(自然科學(xué)版)

Journal of Guangxi Normal University (Natural Science Edition)

Vol. 40 No. 2

Mar. 2022

DOI: 10.16088 / j.issn.1001-6600.2020121505 http: xuebao.gxnu.edu.cn

馬鋮旭, 曾上游, 趙俊博, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的逆光圖像增強(qiáng)研究[J]. 廣西師范大學(xué)學(xué)報(自然科學(xué)版), 2022, 40(2): 81-90. MA C

X, ZENG S Y, ZHAO J B, et al. Research on backlight image enhancement based on convolutional neural network [J]. Journal of Guangxi Normal

University (Natural Science Edition), 2022, 40(2): 81-90.

基于卷積神經(jīng)網(wǎng)絡(luò)的逆光圖像增強(qiáng)研究

馬鋮旭, 曾上游?

, 趙俊博, 陳紅陽

(廣西師范大學(xué) 電子工程學(xué)院, 廣西 桂林 541004)

摘 要: 現(xiàn)有的大部分算法只能針對特定照度的逆光圖像有出色的增強(qiáng)效果, 不能高效率地解決各類照度的逆光圖像。

因此, 本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的圖像增強(qiáng)算法, 并構(gòu)建一種集分解、 恢復(fù)、 調(diào)節(jié)為一體的新型網(wǎng)絡(luò)架構(gòu)。 利用

Retinex 理論設(shè)計一個分解網(wǎng)絡(luò), 將逆光圖像與其對應(yīng)的高光圖像都分解為反射圖和光照圖。 采用高光圖反射分量作為去

噪?yún)⒖? 修復(fù)暗光缺陷, 并添加顏色飽和度模塊, 最大程度地保留圖像恢復(fù)過程中的顏色等細(xì)節(jié)。 逆光圖像的光照圖可

依據(jù)用戶喜好自適應(yīng)調(diào)節(jié)亮度, 設(shè)置增強(qiáng)比率(目標(biāo)光源與圖像光源間的比值)作為調(diào)節(jié)指標(biāo), 將逆光圖像增強(qiáng)至高光圖

像時, 增強(qiáng)比率要大于 1。 在多個公開數(shù)據(jù)集(LOL、 DICM、 NPE)上驗(yàn)證, 研究表明本文方法可有效增強(qiáng)逆光圖像亮度,

改善圖像質(zhì)量, 保證圖像細(xì)節(jié)不丟失, 避免顏色失真。 在不同照度的逆光圖像上均有較好的效果, 主觀和客觀評價指標(biāo)

上的結(jié)果優(yōu)于對比算法, 對智慧城市的安防以及人工智能的發(fā)展有應(yīng)用價值。

關(guān)鍵詞: 逆光圖像增強(qiáng); 卷積神經(jīng)網(wǎng)絡(luò); Retinex; 色彩飽和度; 人工智能

中圖分類號: TP391.41; TP183 文獻(xiàn)標(biāo)志碼: A 文章編號: 1001-6600(2022)02-0081-10

圖像增強(qiáng)在藝術(shù)片的拍攝、監(jiān)控系統(tǒng)、衛(wèi)星圖像處理、醫(yī)學(xué)等領(lǐng)域應(yīng)用極為廣泛。 逆光圖像一般指在

極低照度、低照度、微暗照度等各類照度下產(chǎn)生的低亮度、低對比度的圖像。 在極低照度下產(chǎn)生的圖像基

本全是暗色區(qū)域,目前有許多針對該類逆光圖像增強(qiáng)的算法,但是常常因?yàn)閲?yán)重的噪聲和圖像失真隱藏在

圖像暗部而導(dǎo)致增強(qiáng)出來的圖像細(xì)節(jié)嚴(yán)重丟失。 除了要滿足視覺需求還要保證最大程度地恢復(fù)圖像原有

的細(xì)節(jié),甚至在顏色飽和度、去噪等方面設(shè)置要求,這樣的圖像增強(qiáng)任務(wù)給人類帶來很大挑戰(zhàn)與強(qiáng)大的算

法硬核。 目前,國內(nèi)外對于逆光圖像增強(qiáng)技術(shù)逐步驗(yàn)證:將傳統(tǒng)的圖像增強(qiáng)算法思想與現(xiàn)今研究熱點(diǎn)的卷

積神經(jīng)網(wǎng)絡(luò)相結(jié)合,能在逆光圖像增強(qiáng)領(lǐng)域達(dá)到質(zhì)的飛躍。

傳統(tǒng)的圖像增強(qiáng)算法 Retinex

[1]不同于直方圖均衡化[2-3]

,Retinex 專注于局部增強(qiáng),這在一定程度上

解決了全局增強(qiáng)算法對圖像局部區(qū)域亮度增強(qiáng)不足的問題,可以在動態(tài)范圍壓縮、邊緣增強(qiáng)和顏色恒常 3

個方面達(dá)到平衡,因此能對不同類型的圖像進(jìn)行自適應(yīng)增強(qiáng)。 而直方圖均衡化利用灰度的統(tǒng)計特征,將原

圖像的灰度分布從較為集中的區(qū)間映射到整個灰度區(qū)域均勻分布,從而達(dá)到圖像增強(qiáng)的效果[4-5]

,往往容

易導(dǎo)致圖像非逆光區(qū)域過度增強(qiáng)而出現(xiàn)顏色、細(xì)節(jié)丟失。 多尺度 Retinex

[6]算法在增強(qiáng)過程中可以保持圖

像的本質(zhì)特征,但受限于產(chǎn)生最終結(jié)果的方式, 增強(qiáng)出來的圖像會在某些區(qū)域過度增強(qiáng),會出現(xiàn)圖像紋理

不清晰、高頻區(qū)域突出不明顯等情況,基于 Retinex 理論改進(jìn)的逆光圖像增強(qiáng)算法[7-11] 應(yīng)運(yùn)而生。 文獻(xiàn)

[12]基于 Retinex 理論,只估計光照分量,這樣做可以縮小解空間和減少計算量。 但正因其依賴于光照分

量,對極低照度圖像增強(qiáng)會因光照照度不夠?qū)е略鰪?qiáng)結(jié)果過暗,對于低照度圖像的亮度過大的背景區(qū)域又

會出現(xiàn)過度增強(qiáng)的現(xiàn)象。

近年來,學(xué)者們陸續(xù)提出了許多基于卷積神經(jīng)網(wǎng)絡(luò)的方法。 文獻(xiàn)[13]提出了一個全局照明感知和細(xì)

節(jié)保持網(wǎng)絡(luò)(GLADNet),通過將輸入的低光照圖像與估計出的光照圖連接后輸入到三層網(wǎng)絡(luò)里重建,但

該方法在低照度圖像增強(qiáng)中容易出現(xiàn)顏色和背景等失真問題。 文獻(xiàn)[14]提出 Retinex-Net 網(wǎng)絡(luò),作者受到

收稿日期: 2020-12-15 修回日期: 2021-02-08

基金項(xiàng)目: 國家自然科學(xué)基金(61976063)

通信作者: 曾上游(1974—), 男, 湖南雙峰人, 廣西師范大學(xué)教授, 博士。 E-mail: zsy@mailbox.gxnu.edu.cn

第86頁

廣西師范大學(xué)學(xué)報(自然科學(xué)版),2022,40(2)

傳統(tǒng) Retinex 算法的啟發(fā),將圖像先分解成光照分量和反射分量,而后對得到的光照圖進(jìn)行增強(qiáng)處理,最后

將增強(qiáng)后的光照圖與分解出來的反射圖進(jìn)行相乘操作得到增強(qiáng)圖像, 從該方法可以看出圖像分解在某種

意義上是可以達(dá)到增強(qiáng)圖像亮度的效果,但在去噪方面有待提升。 文獻(xiàn)[15]的 KinD 是目前低照度圖像

增強(qiáng)領(lǐng)域先進(jìn)的算法之一,在去噪和圖像增強(qiáng)方面相比較 Retinex-Net 有了質(zhì)的飛躍,但增強(qiáng)后的圖像會

出現(xiàn)顏色飽和度不足等情況,并且其僅在極低照度圖像上處理完美,對于低照度逆光圖像的增強(qiáng)還有提升

空間。

因此,為保證增強(qiáng)后的圖像質(zhì)量(包括在圖像顏色飽和度、去噪等細(xì)節(jié))的同時旨在擴(kuò)大適用范圍,本

文設(shè)計一種基于卷積神經(jīng)網(wǎng)絡(luò)的逆光圖像增強(qiáng)算法,并結(jié)合傳統(tǒng)的 Retinex 思想,構(gòu)建一種集分解、恢復(fù)、

調(diào)節(jié)的新型網(wǎng)絡(luò)架構(gòu)( a new network architecture which integrates decomposition, recovery and adjustment

inspired by Retinex), 簡稱 RDRAnet。

1 RDRAnet 總體設(shè)計

RDRAnet 分為圖像分解、反射率恢復(fù)及光照調(diào)節(jié) 3 部分。 Retinex 的基本思想是從原始圖像中去除或

者降低光照圖帶來的影響,盡可能保留物體本質(zhì)的反射屬性。 受 Retinex 理論啟發(fā),本文將圖像中反映物

體本身特性的那一部分分解出來,稱之為反射圖,并對反射圖進(jìn)行去噪、增強(qiáng)、紋理顏色保持等操作,對分

解出的光照部分進(jìn)行自適應(yīng)調(diào)節(jié),將分解出來的圖像稱之為光照圖,最終將操作所得的光照圖和反射圖相

乘得到增強(qiáng)圖像。 本文恢復(fù)網(wǎng)絡(luò)中,考慮到逆光圖像的反射圖存在退化效應(yīng)且分布復(fù)雜,所以使用處于良

好光照下的反射圖作為參考,這需要依賴于光照分布。 引入光照分量,與圖像的反射分量連接后一起輸入

到恢復(fù)網(wǎng)絡(luò)中。 在恢復(fù)網(wǎng)絡(luò)中結(jié)合 U-Net

[16]思想并引入深度可分離卷積代替部分傳統(tǒng)卷積來實(shí)現(xiàn)圖像增

強(qiáng),與此同時加入顏色飽和度模塊,使得圖像增強(qiáng)過程中盡可能保留圖像原有的色彩飽和度。 在調(diào)節(jié)網(wǎng)絡(luò)

中,通過多次卷積運(yùn)算提取圖像特征,并將增強(qiáng)比率作為特征圖與低光光照圖合并后作為調(diào)節(jié)網(wǎng)絡(luò)的輸

入,從而實(shí)現(xiàn)能夠連續(xù)調(diào)節(jié)光照強(qiáng)度的機(jī)制。 RDRAnet 總體設(shè)計框架如圖 1 所示。

圖 1 RDRAnet 總體設(shè)計框架

Fig. 1 Overall design block diagram of RDRAnet

82

第87頁

http:∥xuebao.gxnu.edu.cn

2 本文算法

2.1 圖像分解

Retinex 理論的基本假設(shè)是人眼觀察到的圖像 S(x,y)由入射光 L(x,y)與反射圖像 R(x,y)決定,數(shù)學(xué)

表達(dá)式為

S(x,y)= L(x,y)R(x,y)。 (1)

式中:L(x,y)指物體表面入射光,直接決定了圖像中像素所處的動態(tài)范圍;R(x,y)由物體表面的反射性質(zhì)

所決定,能直接反映圖像的內(nèi)在屬性,且不易受到入射光的影響。 受 Retinex 理論的啟發(fā),本文將逆光圖像

分解為反射圖和光照圖。

由圖 1 可知,分解網(wǎng)絡(luò)將逆光圖像與其相對應(yīng)的高光圖像作為輸入。 具體的分解網(wǎng)絡(luò)細(xì)節(jié)如圖 2

所示。

圖 2 分解網(wǎng)絡(luò)細(xì)節(jié)

Fig. 2 Detail of decomposition net

采用典型的 5 層 U-Net, 緊跟一個 1×1 卷積從特征空間投影出反射分量,最后使用 Sigmoid 函數(shù)將反

射率約束在[0,1]范圍內(nèi)得到逆光圖像與高光圖像的反射圖。 而光照圖由 2 個以 ReLU 作為激活函數(shù)的

3×3 卷積和一個 3×3 卷積連接到反射率分支的特征映射上,緊跟一個 1×1 卷積,便于信息融合,最后使用

Sigmoid 函數(shù)將光照分量約束在[0,1]范圍內(nèi)。

將原始空間解耦成 2 個類似的子空間,可以更好地正則化。 實(shí)驗(yàn)數(shù)據(jù)集中包含逆光圖像及其對應(yīng)的

高光圖像。 每次都獲取成對的逆光/ 高光圖像,并在逆光圖像和高光圖像的指導(dǎo)下學(xué)習(xí)逆光圖像及其對應(yīng)

的高光圖像分解。 因?yàn)槲矬w反射率是固有屬性,不因光照變化而變化,所以假設(shè)圖像無退化,對于某個場

景獲得的反射率應(yīng)該相同。 光照有很多不確定因素,但結(jié)構(gòu)簡單且相互一致。 為了更好地估計反射率和

光照,本文為分解網(wǎng)絡(luò)設(shè)置了 2 個約束條件:1)逆光圖像與高光圖像共享反射率。 2)光照映射平滑且相

互一致。 將以上 2 個約束條件作為損失函數(shù)嵌入到網(wǎng)絡(luò)中,采用數(shù)據(jù)驅(qū)動[14]方式提取各種照明圖像之間

的反射率。

圖像分解部分的損失函數(shù) L 由重建損失 Lrec、不變反射率損失 Lr、平滑度損失 Ls 和相互一致性損失

Lm 共 4 部分構(gòu)成,其表達(dá)式為

L = Lrec

+λrLr

+λsLs

+λm Lm 。 (2)

式中 λr、λs、λm 分別為不變反射率損失、平滑度損失、相互一致性損失的系數(shù)。 為了保證分解網(wǎng)絡(luò)的正確

性,理論上分解出來的反射圖和光照圖相乘后得到的圖像要與原輸入的圖像相近。 用 Rlow 、Ilow表示經(jīng)過分

解網(wǎng)絡(luò)得到的逆光圖對應(yīng)的反射分量和光照分量,Rhigh 、Ihigh表示經(jīng)過分解網(wǎng)絡(luò)得到的高光圖對應(yīng)的反射

分量和光照分量,Slow 、Shigh分別表示輸入的逆光圖像和高光圖像。 基于 Rlow與 Rhigh都能使用相對應(yīng)的照明

83

第88頁

廣西師范大學(xué)學(xué)報(自然科學(xué)版),2022,40(2)

圖重構(gòu)圖像的假設(shè),重建損失Lrec數(shù)學(xué)表達(dá)式為

Lrec

=‖Shigh

-Rhigh

Ihigh‖1

+‖Slow

-Rlow

Ilow‖1 。 (3)

使用不變反射率損失 Lr 來保證反射率盡可能一致,其數(shù)學(xué)表達(dá)式為

Lr

=‖Rlow

-Rhigh‖1 。 (4)

通常情況下,在輸入圖像強(qiáng)邊緣區(qū)光照會發(fā)生較大變化,而在弱邊緣區(qū),光照分布應(yīng)平滑。 本文的平

滑度損失 Ls 數(shù)學(xué)表達(dá)式為

Ls

=

Ilow

max( | Slow

| ,c) 1

+

Ihigh

max( | Shigh

| ,c) 1

。 (5)

式中 是一階導(dǎo)數(shù)算子,分為水平和垂直方向;c 是一個特別小的常數(shù),本文設(shè)置 c 為 0.01。 相互一致性損

失 Lm

[15]數(shù)學(xué)表達(dá)式為

Lm

= ( | Ilow

| + | Ihigh

| )exp[-10( | Ilow

| + | Ihigh

| )]。 (6)

2.2 圖像恢復(fù)

圖像恢復(fù)包括圖像去模糊[17]

、圖像超分辨率重建[18]

、圖像去噪[19] 等。 對于逆光圖像,其噪聲分布往

往是不均勻的,噪聲大多分布在逆光區(qū)域,采用高光圖反射分量作為去噪?yún)⒖?使用 U-Net 網(wǎng)絡(luò)對圖像進(jìn)

行增強(qiáng),修復(fù)暗光缺陷。 深度可分離網(wǎng)絡(luò)可以在既定感受野的情況下有限提高網(wǎng)絡(luò)深度進(jìn)而提高非線性,

使用深度可分離卷積代替 U-Net 中部分傳統(tǒng)卷積層來提取特征,可使得計算成本顯著降低的同時不降低

算法性能,還能實(shí)現(xiàn)效率提升。

退化在反射上的分布相對復(fù)雜且強(qiáng)烈依賴于照明分布,本文將光照分量與退化的反射分量連接后一

起輸入到恢復(fù)網(wǎng)絡(luò)中。 使用 3×3 卷積層從圖像中提取特征,并使用 ReLU 作為激活函數(shù),最大池化層的卷

積核大小均為 2×2。 恢復(fù)網(wǎng)絡(luò)沿用 U-Net 思想,網(wǎng)絡(luò)前半部分對圖像進(jìn)行特征提取,后半部分進(jìn)行上采樣

操作,將特征在通道維度上拼接在一起,有利于形成更深層次的特征。 上采樣進(jìn)行 4 次,將深層與淺層的

特征圖進(jìn)行結(jié)合,最后得到的恢復(fù)圖像既具有豐富的全局信息,又不丟失局部細(xì)節(jié),并且圖像邊緣等信息

更加精細(xì)。 深度可分離卷積由一個深度卷積和一個逐點(diǎn) 1×1 卷積結(jié)合,深度卷積用來降低空間維度,1×1

卷積可以很好地擴(kuò)展深度。 具體的恢復(fù)網(wǎng)絡(luò)細(xì)節(jié)如圖 3 所示。

圖 3 恢復(fù)網(wǎng)絡(luò)細(xì)節(jié)

Fig. 3 Detail of restoration net

圖 3 中用不同顏色的箭頭代表卷積、池化、上采樣等操作,用不同顏色的片狀框代表經(jīng)過相應(yīng)卷積等

操作所得到的對應(yīng)特征圖。

逆光圖像的反射圖有相對多的降質(zhì)成分,本文恢復(fù)網(wǎng)絡(luò)將高光圖分解出來的反射圖作為去噪標(biāo)簽,圖

像恢復(fù)部分損失函數(shù) Lre由 4 部分組成,如式(7)所示,

Lre

= L2

+Lssim

+Lgrad

+λrgb Lrgb 。 (7)

Lssim是一種結(jié)構(gòu)相似性損失函數(shù),考慮了亮度、對比度和結(jié)構(gòu)指標(biāo),更有助于接近人類視覺感知,通常

情況下會比 L1 、L2 損失函數(shù)產(chǎn)生的結(jié)果更具有細(xì)節(jié),不會使得圖像過于平滑。 本文將通過恢復(fù)網(wǎng)絡(luò)輸出

的反射圖用 Rout來表示。 Lssim 、L2 、Lgrad的表達(dá)式為:

Lssim

= SSIM(Rout,Rhigh ), (8)

L2

=‖Rout

-Rhigh‖2

2 , (9)

84

第89頁

http:∥xuebao.gxnu.edu.cn

Lgrad

=‖ Rout

- Rhigh‖2

2 。 (10)

將原始圖像從 RGB 顏色空間變換到 HSI 顏色空間, 然后構(gòu)建網(wǎng)絡(luò)模型去增強(qiáng)亮度分量,最后從 HSI

顏色空間變換到 RGB 顏色空間得到增強(qiáng)圖像[20] 的做法可以在一定程度上避免圖像顏色失真,但其過程

繁瑣,本文在損失函數(shù)設(shè)計部分設(shè)計一個顏色飽和度損失函數(shù) Lrgb專門針對圖像在恢復(fù)過程中易出現(xiàn)顏

色黯淡與圖像失真的問題。 顏色飽和度不僅在視覺上扮演很重要的角色,在實(shí)際應(yīng)用中也相當(dāng)重要,以監(jiān)

控設(shè)備為例:若要對監(jiān)控系統(tǒng)中逆光圖像進(jìn)行恢復(fù)增強(qiáng),由于增強(qiáng)過度導(dǎo)致顏色出現(xiàn)偽影失真等,會導(dǎo)致

判斷出現(xiàn)偏差。 Lrgb的數(shù)學(xué)表達(dá)式為

Lrgb

=‖R

max

out

-R

max

high‖2

2

+‖R

min

out

-R

min

high‖2

2

+‖

R

max

out

-R

min

out

R

max

out

+c

-

R

max

high

-R

min

high

R

max

high

+c

‖2

2 。 (11)

式中 c = 0.1。

2.3 圖像調(diào)節(jié)

對分解網(wǎng)絡(luò)得到的逆光圖像的光照圖進(jìn)行調(diào)節(jié),并且將增強(qiáng)比率(目標(biāo)光源與圖像光源間的比值)一

起作為圖像調(diào)節(jié)網(wǎng)絡(luò)的輸入[15]

。 將增強(qiáng)比率記作 α,其數(shù)學(xué)表達(dá)式為

α= Lt

/ Ls。 (12)

增強(qiáng)比率可根據(jù)用戶需要彈性設(shè)定,這也是本文算法適用性廣的優(yōu)勢之一。 當(dāng)逆光圖像(圖像光源)

調(diào)節(jié)成高光圖像(目標(biāo)光源),增強(qiáng)比率大于 1,曝光圖像(圖像光源)調(diào)節(jié)成高光圖像(目標(biāo)光源),增強(qiáng)比

率小于等于 1,本文實(shí)驗(yàn)將其設(shè)置為 2。 α 的設(shè)計使得調(diào)節(jié)網(wǎng)絡(luò)可以自適應(yīng)將一種光照條件轉(zhuǎn)換成另一種

光照條件,這樣設(shè)計的好處是使得最終通過調(diào)節(jié)網(wǎng)絡(luò)輸出的光照分量不至于過亮或過暗,可以最大限度避

免圖像失真。 調(diào)節(jié)網(wǎng)絡(luò)部分通過多次重復(fù)使用 3×3 大小的卷積核進(jìn)行卷積操作來加深網(wǎng)絡(luò)的同時減少

參數(shù)數(shù)量,擴(kuò)大感受野,通過疊加層將 ReLU 激活函數(shù)夾在卷積層之間,進(jìn)一步提升網(wǎng)絡(luò)表現(xiàn)力。 通過加

深層,可以分層次傳遞信息,能夠高效地學(xué)習(xí)更高效的模式。 最后一層卷積層使用 1×1 卷積核,便于圖像

特征圖之間的信息融合。 具體的調(diào)節(jié)網(wǎng)絡(luò)細(xì)節(jié)如圖 4 所示。

圖 4 調(diào)節(jié)網(wǎng)絡(luò)細(xì)節(jié)

Fig. 4 Detail of adjustment net

調(diào)節(jié)部分的損失函數(shù) Ladj的數(shù)學(xué)表達(dá)式為

Ladj

= L2

+L 。 (13)

調(diào)整網(wǎng)絡(luò)輸出的光照分量記作 Iout, L2 和 L 具體表達(dá)式為:

L2

=‖Iout

-Ihigh‖2

2 , (14)

L =‖| Iout

| - | Ihigh

|‖2

2 。 (15)

3 實(shí)驗(yàn)分析

3.1 數(shù)據(jù)集

LOL

[14]數(shù)據(jù)集包含 500 張低照度圖像及 500 張與其一一對應(yīng)的高光圖像。 LOL 數(shù)據(jù)集是第一個包含

從真實(shí)場景中獲取的用于低照度圖像增強(qiáng)的圖像對數(shù)據(jù)集[14]

,該數(shù)據(jù)集從各種各樣的場景中捕捉圖像,

例如:建筑物、校園、俱樂部、街道等,圖像分辨率為 600 × 400,且其中大部分圖像為極低照度圖像。

85

第90頁

廣西師范大學(xué)學(xué)報(自然科學(xué)版),2022,40(2)

DICM

[21]數(shù)據(jù)集與 NPE

[22]數(shù)據(jù)集中大多數(shù)圖像屬于低照度圖像或微暗照度圖像,且這 2 個數(shù)據(jù)集中的圖

像均沒有相對應(yīng)的高光圖像作為參考。 本文算法在 LOL 數(shù)據(jù)集上訓(xùn)練,為了驗(yàn)證本文算法的普適性,在

LOL (極低照度)、DICM、NPE(低照度或微暗照度)這些不同照度的數(shù)據(jù)集中選取圖像進(jìn)行測試實(shí)驗(yàn)。 數(shù)

據(jù)集示例如圖 5 所示。

圖 5 LOL、DICM、NPE 數(shù)據(jù)集示例

Fig. 5 Demonstrations of LOL,DICM,NPE datasets

3.2 實(shí)驗(yàn)平臺及參數(shù)設(shè)置

整個網(wǎng)絡(luò)在 NVIDIA Geforce GTX1070 GPU 和 AMD Ryzen R9 3900X 12-Core Processor 3.8 GHz CPU

上,搭載 64 GiB 內(nèi)存,使用 Tensorflow 框架進(jìn)行訓(xùn)練。 訓(xùn)練階段,在 LOL 數(shù)據(jù)集數(shù)據(jù)集上選取 485 對圖像

作訓(xùn)練,15 對圖像作為測試。 在分解網(wǎng)絡(luò)中,批處理大小為 10,圖像塊大小設(shè)置為 48×48,迭代 2 000 次,

損失函數(shù)系數(shù) λr

= 0.01, λs

= 0.15, λm

= 0.2。 在恢復(fù)網(wǎng)絡(luò)中,批處理大小設(shè)置為 4,圖像塊大小設(shè)置為 384×

384,迭代 1 000 次,顏色飽和度損失函數(shù)系數(shù) λrgb

= 3.3。 在調(diào)節(jié)網(wǎng)絡(luò)中,批處理大小設(shè)置為 10,圖像塊大

小設(shè)置為 48×48,迭代 2 000 次。

3.3 主觀對比

為了評估本文算法的性能,將本文算法與 LIME

[12]

、GLAD

[13]

、Retinex-Net

[14]

、KinD

[15]

4 種算法在視覺

上進(jìn)行主觀對比。 出于本文算法在不同照度逆光圖像上的效果考慮,在以下不同照度數(shù)據(jù)集中選取大量

圖像進(jìn)行測試,包括 LOL 數(shù)據(jù)集、DICM 數(shù)據(jù)集、NPE 數(shù)據(jù)集。 部分效果如圖 6~8 所示。

圖 6(a)是 LOL 數(shù)據(jù)集中的一張極低照度圖像。 增強(qiáng)效果看, LIME 在亮度上有欠缺,GLAD、RetinexNet 噪聲過大。 圖中橘色看臺區(qū)域,KinD 在顏色飽和度上范圍為 47% ~ 72%,RDRAnet 在色彩飽和度上范

圍為 50% ~76%,數(shù)據(jù)集中高光原圖的色彩飽和度范圍為 60% ~ 81%,依據(jù)色彩飽和度越高色彩越鮮艷原

則,本文 RDRAnet 處理的橘色看臺顏色更接近于高光圖像。 在圖像左上角座椅上,RDRAnet 細(xì)節(jié)也更突

出。 圖 7(a)是 NPE 數(shù)據(jù)集上的一張低照度圖。 從天空紋理與顏色分析,根據(jù)逆光圖像增強(qiáng)原則:圖像逆

光區(qū)域亮度增強(qiáng)的同時,非逆光區(qū)域的亮度、細(xì)節(jié)、顏色要與輸入圖像的非逆光區(qū)域保持一致。 從對比效

果圖上可以看出,LIME 與 RDRAnet 在天空紋理和顏色上最接近輸入原圖,LIME 在天空的色彩飽和度范

圍為 28% ~59%,RDRAnet 在天空色彩飽和度上范圍為 50% ~76%,色彩飽和度數(shù)據(jù)顯示 RDRAnet 在色彩

飽和度上優(yōu)于 LIME。 其他對比方法增強(qiáng)出來的天空顏色受亮度的影響泛白、泛紫,出現(xiàn)明顯失真。 而在

地面紋理方面,RDRAnet 較為清晰,LIME 略微欠缺。

86

第91頁

http:∥xuebao.gxnu.edu.cn

圖 6 與先進(jìn)方法在視覺上的對比一

Fig. 6 First visual comparison with advanced methods

圖 7 與先進(jìn)方法在視覺上的對比二

Fig. 7 Second visual comparison with advanced methods

圖 8 ( a) 是 DICM 數(shù)據(jù)集上的一張微暗照度圖像。 其中 LIME-DETAIL、 KinD-DETAIL、 RDRAnetDETAIL 分別對應(yīng)于其方法所得到的增強(qiáng)效果圖的細(xì)節(jié)圖。 GLAD 在逆光區(qū)域增強(qiáng)亮度不夠,而在非逆光

區(qū)域的亮度又過大導(dǎo)致天空失真。 Retinex-Net 色彩飽和度范圍在 21% ~ 89%,在顏色處理方面是所有方

法中最優(yōu)的,但衡量增強(qiáng)效果的還有噪聲、紋理細(xì)節(jié)清晰度等指標(biāo),Retinex-Net 在噪聲處理上有很大的提

升空間。 從圖中建筑物的柱子以及屋檐上的綠色花紋角度分析,RDRAnet 的色彩飽和度范圍在 16% ~

57%,KinD 范圍在 5% ~26%,無論從色彩飽和度數(shù)據(jù)上還是視覺對比(通過放大細(xì)節(jié)圖可觀察),RDRAnet

在保證增強(qiáng)后的圖像不出現(xiàn)背景等失真的前提下,色彩飽和度也是較好的。

圖 6~8 分別來自 3 個不同的數(shù)據(jù)集,從主觀對比的效果圖可以看出,LIME 算法在極低照度圖像上,

對于遮擋部分亮度增強(qiáng)效果不好。 GLAD 算法整體亮度提高的同時會降低顏色飽和度以及在紋理等細(xì)節(jié)

會丟失。 Retinex-Net 算法對于顏色的保留效果相當(dāng)出色,但不能很好地解決噪聲問題。 KinD 算法是在極

低照度圖像增強(qiáng)領(lǐng)域較先進(jìn)的算法,但是其在圖像色彩飽和度等細(xì)節(jié)方面還有提升空間。 而本文方法在

反射圖上進(jìn)行去噪、深度可分離卷積代替 U-Net 中部分傳統(tǒng)卷積等操作,可以最大程度地保留物體本身屬

性在圖像增強(qiáng)過程中不丟失且保證去噪效果好。 光照圖的自適應(yīng)調(diào)節(jié)可彈性選擇亮度,避免圖像亮度過

暗或過亮導(dǎo)致的圖像失真問題。 實(shí)驗(yàn)表明,本文方法在極低照度、低照度、微暗照度的逆光圖像上均表現(xiàn)

出色,并且在顏色飽和度上與較先進(jìn)的方法對比有很大的提升,這離不開顏色飽和度損失函數(shù)的設(shè)計。

87

第92頁

廣西師范大學(xué)學(xué)報(自然科學(xué)版),2022,40(2)

圖 8 與先進(jìn)方法在視覺上的對比三

Fig. 8 Third visual comparison with advanced methods

3.4 客觀對比

主觀上的評價不夠充分,并且可能會因?yàn)樵O(shè)備顯示器差異、用戶本身喜好等產(chǎn)生偏頗。 為了進(jìn)一步驗(yàn)

證本文算法的可行性,使用結(jié)構(gòu)相似度指數(shù)( SSIM

[23]

)、峰值信噪比(PSNR

[24]

)、非參考圖像質(zhì)量評價方

法(NIQE

[25]

)對圖像質(zhì)量進(jìn)行評估。 由于 SSIM 和 PSNR 2 種評估方法適用于成對圖像數(shù)據(jù)集,所以在

LOL 數(shù)據(jù)集上選取 15 張圖像進(jìn)行測試,為了保證對比的公正性,排除測試圖像中 SSIM、PSNR 極高或極低

的情況, SSIM、PSNR 的測試值均取 15 張測試圖像的平均值。 用 SSIM、PSNR 對 LOL 數(shù)據(jù)集進(jìn)行定量比

較的結(jié)果見表 1。 考慮到 DICM 和 NPE 數(shù)據(jù)集上的圖像均是無參照,本文分別在 LOL、DICM 和 NPE 3 個

數(shù)據(jù)集中選取部分圖像進(jìn)行 NIQE 評估,其結(jié)果如表 2 所示。

表 1 用 SSIM、PSNR 對 LOL 數(shù)據(jù)集進(jìn)行定量比較

Tab. 1 Quantitative comparison on LOL dataset in terms of SSIM, PSNR

Metrics LIME

[12] GLAD

[13] Retinex-Net

[14] KinD

[15] RDRAnet

SSIM 0.687 0.734 0.539 0.877 0.882

PSNR 14.912 21.059 18.062 21.282 22.262

表 2 用 NIQE 對 LOL、DICM、NPE 數(shù)據(jù)集進(jìn)行定量比較

Tab. 2 Quantitative comparison on LOL, DICM, NPE datasets in terms of NIQE

算法

NIQE

LOL-dataset DICM-dataset NPE-dataset

LIME

[12]

7.515 3.520 3.336

GLAD

[13]

6.475 3.331 3.431

Retinex-Net

[14]

8.879 4.645 3.857

KinD

[15]

5.354 3.941 3.761

RDRAnet 4.938 3.196 3.197

88

第93頁

http:∥xuebao.gxnu.edu.cn

SSIM 與 PSNR 的值越高代表增強(qiáng)的圖像越接近于真實(shí)的高光圖像, 相反地,NIQE 值越低則圖像質(zhì)量

越好。 由表 1 和表 2 可以看出,本文方法 RDRAnet 在極低照度圖像、低照度圖像、微暗照度圖像上,增強(qiáng)

效果均強(qiáng)于其余算法。 從主觀視覺以及客觀定量比較可以看出,本文算法具有可行性、普適性。

4 結(jié)語

本文將傳統(tǒng)的 Retinex 思想與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,將逆光圖像分解成光照圖和反射圖。 在反射圖上

進(jìn)行去噪操作,光照圖上自適應(yīng)調(diào)節(jié)亮度。 反射圖上進(jìn)行增強(qiáng)操作,可以最大程度地保留圖像的顏色等細(xì)

節(jié),使得逆光圖像不會因?yàn)榱炼冗^大而出現(xiàn)顏色失真、紋理丟失、銳化等現(xiàn)象,或因?yàn)榱炼冗^暗而出現(xiàn)增強(qiáng)

亮度不夠的現(xiàn)象。 光照圖上的自適應(yīng)亮度調(diào)整可以依據(jù)用戶喜好,特定場景需要而自行設(shè)定其增強(qiáng)比率,

更注重用戶感受,符合人工智能所遵循的理念。 視覺效果和客觀數(shù)據(jù)均顯示本文算法在不同照度的逆光

圖像上增強(qiáng)效果強(qiáng),細(xì)節(jié)紋理有很大的提升,顏色更接近于事物本真。 可見本文基于卷積神經(jīng)網(wǎng)絡(luò)的逆光

圖像增強(qiáng)算法適用范圍廣泛,增強(qiáng)性能優(yōu)異,在人工智能領(lǐng)域有較好的應(yīng)用潛力。 對于圖像細(xì)節(jié)紋理的處

理,未來工作考慮加入注意力機(jī)制以及更深層次的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)一步提取圖像特征。 此外,還打算輕量

化該方法或增加時序處理,以便本文方法能用于視頻后期處理。

參 考 文 獻(xiàn)

[1] RAHMAN Z U, JOBSON D J, WOODELL G A, et al. Retinex processing for automatic image enhancement[J]. Journal of

Electronic Imaging, 2004, 13(1): 100-110. DOI: 10.1117 / 1.1636183.

[2] TSAI C M, YEH Z M. Contrast enhancement by automatic and parameter-free piecewise linear transformation for color

images[J]. IEEE Transactions on Consumer Electronics, 2008, 54(2): 213-219. DOI: 10.1109 / TCE.2008.4560077.

[3] 龐小龍, 賀志華, 王玄, 等. 基于直方圖均衡算法的低照度巡檢圖像增強(qiáng)方法[J]. 設(shè)備管理與維修, 2020(18): 76-

77. DOI: 10.16621 / j.cnki.issn1001-0599.2020.09D.43.

[4] 郭倩, 朱振峰, 常冬霞, 等. 融合全局與局部區(qū)域亮度的逆光圖像增強(qiáng)算法[J]. 信號處理, 2018, 34(2): 140-147.

DOI: 10.16798 / j.issn.1003-0530.2018.02.003.

[5] 瑪利亞木古麗·麥麥提, 吐爾洪江·陳布都克力木, 阿卜杜如蘇力·奧斯曼, 等. 結(jié)合小波變換和同態(tài)濾波的醫(yī)學(xué)

圖像增強(qiáng)算法[J]. 電子設(shè)計工程, 2020, 28(24): 1-5. DOI: 10.14022 / j.issn1674-6236.2020.24.001.

[6] JOBSON D J, RAHMAN Z, WOODELL G A. A multiscale retinex for bridging the gap between color images and the human

observation of scenes[J]. IEEE Transactions on Image Processing, 1997, 6(7): 965-976. DOI: 10.1109 / 83.597272.

[7] 張紅穎, 趙晉東. HSV 空間的 RetinexNet 低照度圖像增強(qiáng)算法[J]. 激光與光電子學(xué)進(jìn)展, 2020, 57(20): 294-301.

[8] 劉佳敏, 何寧, 尹曉杰. 基于 Retinex-UNet 算法的低照度圖像增強(qiáng)[J]. 計算機(jī)工程與應(yīng)用, 2020, 56(22): 211-216.

[9] 楊微, 姚冰瑩, 朱曉鳳. 基于 Retinex 理論的低照度圖像增強(qiáng)技術(shù)研究[J]. 現(xiàn)代計算機(jī), 2020(29): 48-54.

[10] 閆保中, 韓旭東, 何偉. 基于 Retinex 理論改進(jìn)的低照度圖像增強(qiáng)算法[J]. 應(yīng)用科技, 2020, 47(5): 74-78.

[11] 韓夢妍, 李良榮, 蔣凱. 基于光照圖估計的 Retinex 低照度圖像增強(qiáng)算法研究[ J]. 計算機(jī)工程, 2021, 47( 10):

201-206.

[12] GUO X J, LI Y, LING H B. LIME: Low-light image enhancement via illumination map estimation[J]. IEEE Transactions

on Image Processing, 2017, 26(2): 982-993. DOI: 10.1109 / TIP.2016.2639450.

[13] WANG W J, WEI C, YANG W H, et al. GLADNet: Low-light enhancement network with global awareness[C]∥ 2018

13th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2018). Piscataway, NJ: IEEE, 2018:

751-755. DOI: 10.1109 / FG.2018.00118.

[14] WEI C, WANG W J, YANG W H, et al. Deep retinex decomposition for low-light enhancement[EB/ OL]. (2018-08-14)

[2021-02-08]. https:∥arxiv.org / pdf / 1808.04560.pdf.

[15] ZHANG Y H, ZHANG J W, GUO X J. Kindling the darkness: A practical low-light image enhancer[C]∥ Proceedings of

the 27th ACM International Conference on Multimedia. New York, NY: Association for Computing Machinery, 2019: 1632-

1640. DOI: 10.1145 / 3343031.3350926.

89

第94頁

廣西師范大學(xué)學(xué)報(自然科學(xué)版),2022,40(2)

[16] RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional networks for biomedical image segmentation [ C]∥

Medical Image Computing and Computer-Assisted Intervention -MICCAI 2015. Berlin: Springer, 2015: 234-241. DOI: 10.

1007 / 978-3-319-24574-4_28.

[17] 梁曉萍, 羅曉曙. 基于遺傳自適應(yīng)的維納濾波圖像去模糊算法[ J]. 廣西師范大學(xué)學(xué)報(自然科學(xué)版), 2017, 35

(4): 17-23. DOI: 10.16088 / j.issn.1001-6600.2017.04.003.

[18] 薛洋, 曾慶科, 夏海英, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)超分辨率重建的遙感圖像融合[ J]. 廣西師范大學(xué)學(xué)報(自然科學(xué)

版), 2018, 36(2): 33-41. DOI: 10.16088 / j.issn.1001-6600.2018.02.005.

[19] 孫妤喆, 盧磊, 羅曉曙, 等. 結(jié)合非局部均值濾波的雙邊濾波圖像去噪方法[J]. 廣西師范大學(xué)學(xué)報(自然科學(xué)版),

2017, 35(2): 32-38. DOI: 10.16088 / j.issn.1001-6600.2017.02.005.

[20] 吳若有, 王德興, 袁紅春. 基于注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)的低照度圖像增強(qiáng)[J]. 激光與光電子學(xué)進(jìn)展, 2020, 57

(20): 214-221.

[21] LEE C, LEE C, KIM C S. Contrast enhancement based on layered difference representation [ C]∥ 2012 19th IEEE

International Conference on Image Processing. Piscataway, NJ: IEEE, 2012: 965-968. DOI: 10.1109 / ICIP.2012.6467022.

[22] WANG S H, ZHENG J, HU H M, et al. Naturalness preserved enhancement algorithm for non-uniform illumination images

[J]. IEEE Transactions on Image Processing, 2013, 22(9): 3538-3548. DOI: 10.1109 / TIP.2013.2261309.

[23] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: From error visibility to structural similarity[ J].

IEEE Transactions on Image Processing, 2004, 13 (4): 600-612. DOI: 10.1109 / TIP.2003.819861.

[24] YAO S S, LIN W S, ONG E P, et al. Contrast signal-to-noise ratio for image quality assessment[C]∥ IEEE International

Conference on Image Processing 2005. Piscataway, NJ: IEEE, 2005. DOI: 10.1109 / ICIP.2005.1529771.

[25] MITTAL A, SOUNDARARAJAN R, BOVIK A C. Making a “ completely blind” image quality analyzer[ J]. IEEE Signal

Processing Letters, 2013, 20(3): 209-212. DOI: 10.1109 / LSP.2012.2227726.

Research on Backlight Image Enhancement Based on

Convolutional Neural Network

MA Chengxu, ZENG Shangyou

?

, ZHAO Junbo, CHEN Hongyang

(College of Electronic Engineering, Guangxi Normal University, Guilin Guangxi 541004, China)

Abstract: Most of the existing algorithms can only enhance the backlight images with specific illumination, but

cannot solve the backlight images with various illuminations efficiently. Therefore, an image enhancement

algorithm based on convolutional neural network is proposed in this paper, and a new network architecture that

integrates decomposition, recovery and adjustment is built at the same time. Using Retinex theory, a

decomposition network is designed to decompose the backlight image and its corresponding highlight image into

reflectance map and illumination map. The reflectance component of highlight image is used as the denoising

reference to repair the dark light defect, and the color saturation module is added to retain the color and other

details in the image restoration process. The brightness of the backlight images can be adjusted adaptively

according to the user’ s preference. The enhancement ratio ( the ratio between the target light source and the

image light source) is set as the adjustment index. When the backlight images are enhanced to the high-light

images, the enhancement ratio should be greater than 1. Validated on multiple public datasets ( LOL, DICM,

NPE), the research shows that this method can effectively enhance the brightness of backlight images, improve

image quality, ensure that image details are not lost, and avoid color distortion. It has good effects on backlight

images with different illuminations, and the results of subjective and objective evaluation indicators are better

than the existing algorithms, which has application value for the development of smart city security and artificial

intelligence.

Keywords: backlight image enhancement; convolutional neural network; Retinex; color saturation; artificial

intelligence

(責(zé)任編輯 蘇凱敏)

90

第95頁

第 40 卷 第 2 期

2022 年 3 月

廣西師范大學(xué)學(xué)報(自然科學(xué)版)

Journal of Guangxi Normal University (Natural Science Edition)

Vol. 40 No. 2

Mar. 2022

DOI: 10.16088 / j.issn.1001-6600.2021072301 http: xuebao.gxnu.edu.cn

譚凱, 李永杰, 潘海明, 等. 基于多信息集成的藥物靶標(biāo)預(yù)測方法研究[J]. 廣西師范大學(xué)學(xué)報(自然科學(xué)版), 2022, 40(2): 91-102. TAN

K, LI Y J, PAN H M, et al. Study on multi-information integration for drug target prediction[ J]. Journal of Guangxi Normal University (Natural

Science Edition), 2022, 40(2): 91-102.

基于多信息集成的藥物靶標(biāo)預(yù)測方法研究

譚 凱1

, 李永杰1

, 潘海明1

, 黃可馨2

, 邱 杰3

, 陳慶鋒1?

(1. 廣西大學(xué) 計算機(jī)與電子信息學(xué)院, 廣西 南寧 530004; 2. 廣西醫(yī)科大學(xué), 廣西 南寧 530021;

3. 玉林師范學(xué)院 計算機(jī)科學(xué)與工程學(xué)院, 廣西 玉林 537000)

摘 要: 準(zhǔn)確的藥物-靶標(biāo)相互作用預(yù)測在藥物發(fā)現(xiàn)和重新定位中有重要作用。 傳統(tǒng)的方法要么費(fèi)時(基于模擬的方法),

要么嚴(yán)重依賴領(lǐng)域?qū)I(yè)知識(基于相似性和基于特征的方法), 而且現(xiàn)有的使用單一數(shù)據(jù)信息或稀疏數(shù)據(jù)的計算方法普遍

準(zhǔn)確性不高。 盡管多個異構(gòu)網(wǎng)絡(luò)整合已被廣泛用于預(yù)測藥物靶標(biāo), 但如何盡可能多的保留網(wǎng)絡(luò)結(jié)構(gòu)信息仍然是一個巨大

的挑戰(zhàn)。 本文提出一種新穎的框架 NGDTI, 不僅從網(wǎng)絡(luò)中提取相關(guān)的生物學(xué)特性和關(guān)聯(lián)信息, 而且保留重要的網(wǎng)絡(luò)拓?fù)?/p>

信息。 其利用圖神經(jīng)網(wǎng)絡(luò)更新提取的特征信息, 所發(fā)現(xiàn)的藥物和靶標(biāo)的拓?fù)涮卣魇顾幬?靶標(biāo)相互作用預(yù)測更加準(zhǔn)確。

與最新的基準(zhǔn)方法相比, 本文模型的 AUPR 值提高了 0.01。 實(shí)驗(yàn)結(jié)果表明, NGDTI 在藥物開發(fā)和重新定位方面有良好的

應(yīng)用前景。

關(guān)鍵詞: 藥物-靶標(biāo)預(yù)測; 網(wǎng)絡(luò)嵌入; 網(wǎng)絡(luò)集成; 矩陣分解; 圖神經(jīng)網(wǎng)絡(luò)

中圖分類號: TP183; R918 文獻(xiàn)標(biāo)志碼: A 文章編號: 1001-6600(2022)02-0091-12

通過計算方法識別藥物-靶標(biāo)相互作用(drug-target interaction,DTI)可縮小用于后續(xù)生物實(shí)驗(yàn)的候選

藥物的巨大搜索空間,從而顯著降低開發(fā)新藥的成本和時間。 藥物-靶標(biāo)相互作用的計算預(yù)測已成為藥理

學(xué)發(fā)展的重要組成部分,其可以發(fā)現(xiàn)和解釋當(dāng)前的藥物作用機(jī)理及潛在的未知靶標(biāo)活性[1-3]

。 盡管傳統(tǒng)

的生物學(xué)實(shí)驗(yàn)可以有效地檢測藥物與靶標(biāo)之間的相互作用,但需要消耗大量時間和成本[4-5]

,因此越來越

多的計算方法被用來預(yù)測藥物-靶標(biāo)關(guān)系。 隨著各種藥物、靶標(biāo)和相互作用數(shù)據(jù)的增長[6]

,計算方法不僅

可以為預(yù)測可能的藥物靶標(biāo)相互作用提供一種經(jīng)濟(jì)有效的替代方法,而且可以確保進(jìn)一步實(shí)驗(yàn)的可靠性。

當(dāng)前的藥物篩選輔助方法主要有基于分子對接[7]

、配體相似性[8] 和機(jī)器學(xué)習(xí)的方法[9]

。 基于分子對

接的方法需要已知靶蛋白的 3D 結(jié)構(gòu),因?yàn)檫@種結(jié)構(gòu)很少且通常不泛用,故該方法受限于已知蛋白配體的

復(fù)雜結(jié)構(gòu)。 基于配體相似性的方法利用已知配體相互作用的知識進(jìn)行預(yù)測,但是當(dāng)目標(biāo)只有少量配體時,

可能會導(dǎo)致較差的預(yù)測結(jié)果。 基于機(jī)器學(xué)習(xí)的方法是目前最流行且最有效的預(yù)測方法,這類方法可以充

分探究藥物的相關(guān)特征以及藥物與靶標(biāo)之間的潛在相關(guān)性。 近年來,研究人員提出了多種預(yù)測潛在 DTI

的計算方法,大致可分為核方法、矩陣分解和多源信息集成等。

Yamanishi 等[10]最先提出基于化學(xué)和基因組信息的二分局部模型(BLM),使用核函數(shù)回歸方法來預(yù)

測藥物靶標(biāo)。 之后,為了克服二分局部模型對計算能力高要求的局限性,Bleakley 等[11]開發(fā)了二部圖局部

模型,這種模型在訓(xùn)練過程中使用局部訓(xùn)練而不是全局訓(xùn)練。 Mei 等[12] 進(jìn)一步改進(jìn)了該模型,在預(yù)測過

程中通過鄰居交互來考慮新的候選藥物。 此外還有一些其他的基于核的方法,如 van Laarhoven 等[13]基于

藥物-靶標(biāo)網(wǎng)絡(luò)鄰接矩陣的拓?fù)湫畔?使用內(nèi)核正則化最小二乘(KRLS)算法來預(yù)測 DTI。 這種方法通過

拓?fù)湫畔矶x一個高斯交互式核,這種核函數(shù)在實(shí)驗(yàn)中能取得好的預(yù)測效果。 內(nèi)核正則化最小二乘

(KRLS)算法也被 Pahikkala 等[14] 使用在基于 2D 復(fù)合相似度和目標(biāo)物的史密斯-沃特曼相似度的藥物表

征中。 這些基于內(nèi)核的方法僅使用簡單的線性組合技術(shù),依賴幾個單獨(dú)的內(nèi)核來形成最終的內(nèi)核矩陣,若

收稿日期: 2021-07-23 修回日期: 2021-10-09

基金項(xiàng)目: 國家自然科學(xué)基金(61963004); 廣西自然科學(xué)基金重點(diǎn)項(xiàng)目(2017GXNSFDA198033)

通信作者: 陳慶鋒(1972—), 男, 廣西鹿寨人, 廣西大學(xué)教授, 博士。 E-mail: qingfeng@gxu.edu.cn

第96頁

廣西師范大學(xué)學(xué)報(自然科學(xué)版),2022,40(2)

內(nèi)核之間的線性不明顯時,這種簡單的線性設(shè)置可能不合適。 因此,Hao 等[15] 使用非線性擴(kuò)散技術(shù),根據(jù)

擴(kuò)散核和用于藥物靶標(biāo)預(yù)測的 KRLS 來組合不同的核。 現(xiàn)有結(jié)果表明,擴(kuò)散核模型的性能優(yōu)于線性組合

核模型[16]

。

除基于核的方法外,矩陣分解也被用于預(yù)測藥物靶標(biāo)。 Liu 等[17]提出一種新穎的藥物-靶標(biāo)相互作用

預(yù)測算法,即鄰域正則化邏輯矩陣分解(NRLMF)。 這種方法使用藥物特異性和靶標(biāo)特異性潛伏向量來表

示藥物和靶標(biāo)的特性,通過邏輯矩陣分解對藥物-靶標(biāo)相互作用進(jìn)行模擬。 G?nen 等[18]提出的雙核貝葉斯

矩陣分解(KBMF2K)也是一種典型的基于矩陣分解的方法,該方法通過使用相似性并估計子空間中的相

互作用網(wǎng)絡(luò),將藥物化合物和目標(biāo)蛋白投射到統(tǒng)一的聯(lián)合貝葉斯公式的子空間中。 Zheng 等[19] 在此基礎(chǔ)

上建立了相似度共矩陣分解(MSCMF)模型,對多個數(shù)據(jù)源的藥物靶標(biāo)相似度矩陣進(jìn)行加權(quán)和平均,然后

將藥物和靶標(biāo)投影到低維特征空間,這個空間與藥物和靶標(biāo)的加權(quán)相似度矩陣是一致的。 Hao 等[20] 建立

了雙向網(wǎng)絡(luò)集成邏輯矩陣分解(DNILMF)算法來預(yù)測 DTI,通過構(gòu)建核矩陣,該方法將藥物概況核矩陣與

藥物結(jié)構(gòu)核矩陣進(jìn)行擴(kuò)散,并將靶標(biāo)概況核矩陣與靶標(biāo)序列核矩陣進(jìn)行擴(kuò)散,以基于相鄰區(qū)域?qū)λ幬锬繕?biāo)

進(jìn)行預(yù)測。

根據(jù)藥物靶標(biāo)數(shù)據(jù)(例如藥物和靶標(biāo)的化學(xué)結(jié)構(gòu)、蛋白質(zhì)序列信息等)的特征,藥物-靶標(biāo)關(guān)系還可以

通過其他生物系統(tǒng)中的各種功能表征來預(yù)測,例如藥物-疾病關(guān)聯(lián)和藥物-副作用關(guān)聯(lián)表征。 許多現(xiàn)有方

法集成了來自異構(gòu)數(shù)據(jù)源的各種信息,以進(jìn)一步提高藥物靶標(biāo)預(yù)測的準(zhǔn)確性。 例如:Mizutani 等[21]結(jié)合藥

物的副作用和蛋白質(zhì)功能來預(yù)測藥物-靶標(biāo)相互作用;Luo 等[22]使用無監(jiān)督方法從異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)中自動學(xué)

習(xí)藥物和靶標(biāo)的低維特征表示,然后基于這些特征表示應(yīng)用歸納矩陣補(bǔ)全[23] 來預(yù)測新的藥物-靶標(biāo)。 此

外,深度學(xué)習(xí)對復(fù)雜數(shù)據(jù)的表示能力越來越強(qiáng)[24-29]

,一些基于深度學(xué)習(xí)的方法已經(jīng)被用來預(yù)測藥物-靶標(biāo)

相互作用[30]

。 Wan 等[31]通過組合來自多個異構(gòu)網(wǎng)絡(luò)的數(shù)據(jù)構(gòu)建了一個大型異構(gòu)網(wǎng)絡(luò),使用鄰域聚合技

術(shù)[32]來學(xué)習(xí)整個網(wǎng)絡(luò)的結(jié)構(gòu),并重構(gòu)所有關(guān)系矩陣的拓?fù)浔硎緛眍A(yù)測藥物-靶標(biāo)關(guān)系。 隨著圖神經(jīng)網(wǎng)絡(luò)

的快速發(fā)展,使用圖卷積技術(shù)處理大規(guī)模圖數(shù)據(jù)的網(wǎng)絡(luò)預(yù)測任務(wù)的性能已得到顯著提高[33]

。 近些年,圖

卷積神經(jīng)網(wǎng)絡(luò)也被用于藥物靶標(biāo)預(yù)測領(lǐng)域[34]

。 現(xiàn)有整合多源數(shù)據(jù)的方法在整合多網(wǎng)絡(luò)特征的過程中只

使用簡單的特征串聯(lián),這種方式無法對多數(shù)據(jù)源的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行綜合分析,所以還需要使用額外的特征模

塊來生成用作下一步應(yīng)用的特征表示。

隨著深度學(xué)習(xí)在復(fù)雜數(shù)據(jù)表示中的發(fā)展[35]

,研究者們提出了一些基于深度自編碼器的方法來預(yù)測藥

物-靶標(biāo)相互作用。 例如:Sun 等[36]提出一種基于自動編碼器的特征選擇方法(AEFS)來預(yù)測藥物-靶標(biāo)相

互作用。 為了保持藥物化學(xué)性質(zhì)和功能之間的一致性,AEFS 方法使用多層編碼器將原始藥物特征投影

到嵌入(蛋白質(zhì))空間,并通過解碼器進(jìn)一步投影到標(biāo)簽(疾病) 空間。 同時,在藥物靶標(biāo)預(yù)測過程中,

AEFS 方法通過引入藥物的臨床信息來提高預(yù)測效果。 此外,在基于異構(gòu)網(wǎng)絡(luò)的藥物-靶標(biāo)相互作用預(yù)測

中,深度自編碼也被用于異構(gòu)網(wǎng)絡(luò)的節(jié)點(diǎn)特征表示學(xué)習(xí)中。 Xuan 等[37] 提出一種藥物-靶標(biāo)相互作用預(yù)測

方法 DTIP,使用全連接自編碼器的學(xué)習(xí)框架來學(xué)習(xí)異構(gòu)網(wǎng)絡(luò)中節(jié)點(diǎn)的低維特征表示,并應(yīng)用多層 CNN 整

合相鄰?fù)負(fù)浣Y(jié)構(gòu)的相似性和特征屬性來獲得預(yù)測結(jié)果。 Gao 等[38] 提出一個端到端的深度學(xué)習(xí)框架,該框

架通過 LSTM 遞歸神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)氨基酸序列組成的蛋白質(zhì)表征,并使用圖卷積來獲得藥物分子結(jié)構(gòu)表示。

這個框架使用注意力權(quán)重將原子聚合為分子表示(藥物),將氨基酸聚合為蛋白質(zhì)(靶標(biāo))表示,最后,將基

于注意力的表示輸入到分類器中進(jìn)行預(yù)測。 越來越多的研究表明,深度學(xué)習(xí)可有效應(yīng)用于藥物靶標(biāo)預(yù)測

中的表示學(xué)習(xí)和分類。

本文提出 NGDTI 模型來預(yù)測藥物-靶標(biāo)關(guān)系,該模型可以整合來自異類數(shù)據(jù)源的各種信息(例如:藥

物、疾病、蛋白質(zhì)和副作用),從異類網(wǎng)絡(luò)中提取藥物和靶標(biāo)的結(jié)構(gòu)信息,并將藥物和靶標(biāo)的特征信息簡化

為低維特征表示。 由于大規(guī)模生物數(shù)據(jù)的不完整性和噪聲,NGDTI 模型使用基于頻譜圖的圖卷積神經(jīng)網(wǎng)

絡(luò)(graph convolutional network,GCN)對這些低維特征表示進(jìn)行平滑和降噪處理。 在已有的標(biāo)準(zhǔn)數(shù)據(jù)集上

測試 NGDTI 的預(yù)測效果,與其他最新的基準(zhǔn)方法相比,NGDTI 具有顯著的性能改進(jìn)。 此外,本文也對模型

參數(shù)的影響進(jìn)行實(shí)驗(yàn),與現(xiàn)有方法相比,AUPR 值提升了 0.01,且 NGDTI 能很好地整合多數(shù)據(jù)源信息用于

藥物靶標(biāo)預(yù)測。

92

第97頁

http:∥xuebao.gxnu.edu.cn

1 模型設(shè)計

大規(guī)?;蚪M、化學(xué)和藥理學(xué)數(shù)據(jù)的出現(xiàn)為藥物發(fā)現(xiàn)和重新定位提供了新的機(jī)會。 基于網(wǎng)絡(luò)集成的

藥物靶標(biāo)預(yù)測方法就是通過聯(lián)合利用不同的網(wǎng)絡(luò)視圖互補(bǔ)來進(jìn)行預(yù)測任務(wù)。 近年來,產(chǎn)生了多種基于多

個網(wǎng)絡(luò)的異構(gòu)信息集成方法,這些方法大致分為以下 2 類:1)聚集多個網(wǎng)絡(luò)以建立一個大型集成網(wǎng)絡(luò)來

提取信息進(jìn)行預(yù)測;2)從每個網(wǎng)絡(luò)中提取特征信息,然后將其融合以進(jìn)行相似性或相關(guān)性預(yù)測。 第一種

方法在構(gòu)建大型集成網(wǎng)絡(luò)時,很難考慮不同網(wǎng)絡(luò)之間的差異,如果集成網(wǎng)絡(luò)的數(shù)量太大,隨著網(wǎng)絡(luò)復(fù)雜性

的增加,在這樣的網(wǎng)絡(luò)上進(jìn)行計算將變得非常困難。 所以,從每個網(wǎng)絡(luò)中提取信息并進(jìn)行融合是多網(wǎng)絡(luò)集

成的主要方法。 該過程從每個網(wǎng)絡(luò)中提取藥物或蛋白質(zhì)信息,然后進(jìn)行特征融合和降維,最后根據(jù)提取的

特征信息進(jìn)行相關(guān)預(yù)測或藥物重新定位預(yù)測。 單個網(wǎng)絡(luò)上的信息提取是網(wǎng)絡(luò)融合的重要步驟,網(wǎng)絡(luò)特征

提取的簡單方法包括矩陣分解和帶重啟的隨機(jī)游走(RWR)方法。 矩陣分解通常將輸入的矩陣分解為 2

個特征向量,并使向量重構(gòu)的損失最小化。 但是,此策略可能會導(dǎo)致大量信息丟失,并且無法捕獲相關(guān)網(wǎng)

絡(luò)的全局特征。

圖 1 為本文 NGDTI 模型的完整流程。 NGDTI 首先通過在每個輸入網(wǎng)絡(luò)上執(zhí)行 RWR 來計算每個節(jié)點(diǎn)

的擴(kuò)散狀態(tài),并通過擴(kuò)散狀態(tài)的有效矩陣分解 clusDCA 方法獲得每種藥物和蛋白質(zhì)的低維向量表示。 通

過此過程,可以捕獲每種藥物或蛋白質(zhì)的全局拓?fù)湫畔ⅰ?NGDTI 的重點(diǎn)是對藥物和靶標(biāo)特征的更新,這

一步用圖卷積編碼來更新藥物和蛋白質(zhì)的特征(詳細(xì)介紹見 1.3 節(jié))。 在最后一步中,模型重建藥物靶標(biāo)

矩陣以預(yù)測未知的藥物-靶標(biāo)相互作用。 本文將在下面詳細(xì)描述該模型。

8',44

;+B,44

;+B4'

8'4'

× ×

8''-K -K ;+B'-K

'

VGAE

8',-K

;+B,-K

M\"8'L,*

8'L-K

RWR+clusDCA

RWR+clusDCA

圖 1 NGDTI 模型的流程

Fig. 1 Flowchart of NGDTI model

對于多數(shù)據(jù)源產(chǎn)生的同質(zhì)相互作用網(wǎng)絡(luò)(例如,藥物-藥物相互作用網(wǎng)絡(luò)),NGDTI 直接在每個網(wǎng)絡(luò)上

運(yùn)行 RWR 算法以計算每種藥物或靶標(biāo)的擴(kuò)散狀態(tài)。 對于其他異質(zhì)網(wǎng)絡(luò)(如藥物副作用、藥物-疾病和蛋

白質(zhì)-疾病關(guān)聯(lián)網(wǎng)絡(luò)),需要基于杰卡爾德(Jaccard)相似系數(shù)構(gòu)造相應(yīng)的相似網(wǎng)絡(luò),然后在這些相似網(wǎng)絡(luò)

上執(zhí)行 RWR 算法。 以藥物-疾病為例,給定 2 個節(jié)點(diǎn) i 和 j,將它們在異構(gòu)網(wǎng)絡(luò)中的相似性定義為

Sim(i,j)=

S

ET

i ∩S

ET

j

S

ET

i ∪S

ET

j

。 (1)

式中 S

ET

i 表示藥物 i 的一組副作用。 之后,為了得到藥物和蛋白質(zhì)的網(wǎng)絡(luò)結(jié)構(gòu)信息,需要使用重啟隨機(jī)游

走來獲取每個節(jié)點(diǎn)的擴(kuò)散狀態(tài)。

93

第98頁

廣西師范大學(xué)學(xué)報(自然科學(xué)版),2022,40(2)

1.1 獲取節(jié)點(diǎn)擴(kuò)散狀態(tài)

重啟的隨機(jī)游走(RWR)是一種網(wǎng)絡(luò)擴(kuò)散算法,已廣泛用于分析復(fù)雜的生物網(wǎng)絡(luò)數(shù)據(jù)。 該方法在每次

迭代中,都會在初始節(jié)點(diǎn)處引入預(yù)定義的重新啟動概率,可以充分利用潛在節(jié)點(diǎn)之間的直接或間接關(guān)系,

同時考慮網(wǎng)絡(luò)內(nèi)的本地和全局拓?fù)溥B接模式。 給定鄰接矩陣 A,可以定義另一個矩陣 B 來表示從節(jié)點(diǎn) i

到節(jié)點(diǎn) j 的轉(zhuǎn)移概率,轉(zhuǎn)移概率定義為

Bi,j

=

Ai,j

j′

Ai,j′

。 (2)

接下來,令 s

t

i 為 n 維分布向量,其每個元素為在隨機(jī)游走過程中經(jīng)過 t 迭代后,從節(jié)點(diǎn) i 訪問其他節(jié)

點(diǎn)的概率。 同樣,RWR 中的節(jié)點(diǎn) i 可定義為

s

t+1

i

= (1-p)s

t

iB+pei, (3)

式中 ei 表示 n 維標(biāo)準(zhǔn)基向量,p 表示預(yù)定義的重啟概率。 局部和全局拓?fù)湫畔⒃跀U(kuò)散過程中的相對影響

可以通過調(diào)整 p 值來控制。 通常,更大的 p 值意味著更多地關(guān)注局部結(jié)構(gòu)。 通過迭代執(zhí)行上述過程,可以

獲得節(jié)點(diǎn)的擴(kuò)散狀態(tài) si,這些擴(kuò)散狀態(tài)的節(jié)點(diǎn)表示捕獲了網(wǎng)絡(luò)節(jié)點(diǎn)的高階鄰近度。 如果 2 個節(jié)點(diǎn)的擴(kuò)散

狀態(tài)相似,則往往意味著它們相對于網(wǎng)絡(luò)中其他節(jié)點(diǎn)具有相似的結(jié)構(gòu)特征,因此可能共享相似的功能[39]

。

1.2 ClusDCA 獲取藥物和蛋白質(zhì)的低維向量表示

由于多個網(wǎng)絡(luò)的集成,直接利用高維度的擴(kuò)散狀態(tài)作為拓?fù)涮卣魍ǔ黾幽P偷膹?fù)雜度,而原始的

擴(kuò)散狀態(tài)是稀疏的且高維度的,不能很好地用于之后的預(yù)測。 為了解決這些問題,本文使用擴(kuò)散成分分析

的新變體(clusDCA)

[22]來減少特征空間的維數(shù)并從擴(kuò)散狀態(tài)捕獲重要的拓?fù)涮卣餍畔ⅰ?這種方法改進(jìn)

了原有方法中的擴(kuò)散成分分析方法,使用了一種基于矩陣分解的方法來分解擴(kuò)散狀態(tài)。 具體來說,將在節(jié)

點(diǎn) i 的擴(kuò)散狀態(tài)下分配給節(jié)點(diǎn) j 的概率建模為

log

^sij

= x

T

i wj

- log∑

j′

exp(w

T

i

xj′), (4)

式中?i,xi,wi∈R

d 且 d?n。 這里將 wi 作為上下文特征,將 xi 作為節(jié)點(diǎn) i 的節(jié)點(diǎn)特征,它們都描述了網(wǎng)絡(luò)

的拓?fù)鋵傩浴?式(4)第一項(xiàng)是低維近似,第二項(xiàng)是歸一化因子。 通過去除第二項(xiàng),本文放寬了 ^si 中的項(xiàng)總

和為 1 的約束。 則 ^si 可以簡化為

log

^sij

= x

T

i wj。 (5)

ClusDCA 沒有使用最小化原始擴(kuò)散狀態(tài)和近似擴(kuò)散狀態(tài)之間的相對熵,而是使用平方誤差之和作為

目標(biāo)函數(shù),

minC(s,

^s) = ∑

n

i = 1∑

n

j = 1

(x

T

i wj

- log

^sij)

2

, (6)

可以通過奇異值分解(SVD)來優(yōu)化這個目標(biāo)函數(shù)。 為避免取零的對數(shù),實(shí)際將在 sij中添加一個小的正常

數(shù)

1

n

,對數(shù)擴(kuò)散狀態(tài)矩陣 L 可以計算為

L = ln(S+Q)-lnQ。 (7)

式中:Q∈R

n×n

,對?i,j,有 Qij

=

1

n

;S∈R

n×n是多個節(jié)點(diǎn)擴(kuò)散狀態(tài) s1 ,…,sn 的串聯(lián)。 根據(jù) SVD,此過程將 L

分解成 3 個矩陣,

L =UΣV

T

。 (8)

要獲得 d 維的低維向量 wj 和 xi,只需選擇 Ud 、Vd 中的第一個 d 奇異向量和 Σd 中的第一個 d 奇異值。

令 X= {x1, x2 ,…,xn }表示一個矩陣,其中每一行代表網(wǎng)絡(luò)中每個節(jié)點(diǎn)的對應(yīng)低維特征向量表示,則

X=UdΣ

1

2

d 。 (9)

為集成異構(gòu)網(wǎng)絡(luò)數(shù)據(jù),需將上述單個網(wǎng)絡(luò)的 DCA 擴(kuò)展為多網(wǎng)絡(luò)情況。 更具體地說,讓 L = {L

1

,…,

L

K

}表示通過 K 個網(wǎng)絡(luò)擴(kuò)散狀態(tài)集合 S = {S

1

,…,S

K

}得到的對數(shù)擴(kuò)散狀態(tài)矩陣集。 然后,優(yōu)化目標(biāo)函數(shù)

94

第99頁

http:∥xuebao.gxnu.edu.cn

minC(S,S^ ) = ∑

n

i = 1∑

n

j = 1 ∑

K

r = 1

(x

T

i w

r

j

- log

^s

r

ij)

2

。 (10)

式中 w

r

i 表示網(wǎng)絡(luò) r 中每個節(jié)點(diǎn) i 分配的網(wǎng)絡(luò)特定特征,節(jié)點(diǎn)的特征表示 xi 在所有 K 個網(wǎng)絡(luò)中是共享的。

上述目標(biāo)函數(shù)也可以通過 SVD 進(jìn)行優(yōu)化。 通過優(yōu)化就可以得到藥物或蛋白質(zhì)的低維向量{xi}。

1.3 圖卷積自編碼器更新節(jié)點(diǎn)特征

盡管經(jīng)過上述過程已經(jīng)獲得藥物靶點(diǎn)的低維向量表示,但是存在嘈雜和不確定的多數(shù)據(jù)源生物學(xué)信

息,節(jié)點(diǎn)特征需要進(jìn)一步平滑和降噪。 本文核心是通過可變分圖自編碼器(variational graph auto-encoders,

VGAE)

[40]

,根據(jù)蛋白質(zhì)和藥物相似性網(wǎng)絡(luò)結(jié)構(gòu)和節(jié)點(diǎn)特征生成潛在表示,VGAE 的結(jié)構(gòu)如圖 2 所示。

VGAE 由編碼器和解碼器 2 部分組成,通過同時訓(xùn)練編碼器和解碼器來學(xué)習(xí)每個藥物和蛋白質(zhì)的可解釋

性嵌入。 例如,將藥物特征 Xdrug和藥物相似性鄰接矩陣輸入到自編碼器中,通過訓(xùn)練之后的編碼器可以得

到藥物潛在表示 Z。

X

A

GCN

Encoder

Z ? Decoder A

VGAE

σ(Z×Z )

T

圖 2 變分圖自編碼器(VGAE)的結(jié)構(gòu)

Fig. 2 Structure of variational graph autoencoder (VGAE)

假設(shè)藥物或蛋白質(zhì)的綜合特征為 X,網(wǎng)絡(luò)編碼器是一個圖卷積網(wǎng)絡(luò)(GCN)編碼器,它主要是通過藥物

或蛋白質(zhì)相似性網(wǎng)絡(luò)的鄰接矩陣 A 將原始特征 X 映射到潛在空間 Z。 這個過程是一個概率建模的過程,

需要學(xué)習(xí)一個概率模型 q。 這里的編碼器使用 GCN 來建模概率函數(shù):

[μ;logσ] =GCN(X,A;ω), (10)

q(Z |X,A)= N(Z;μ,σ

2

I)。 (11)

式中:q(·)是根據(jù)網(wǎng)絡(luò)信息 A 和節(jié)點(diǎn)屬性 X 將蛋白質(zhì)或藥物編碼為潛在變量 Z 的函數(shù);ω 為 GCN 的參

數(shù);I 為單位矩陣;μ 和 σ 分別是潛在變量 Z 對應(yīng)的高斯分布的均值和方差,并利用 GCN 網(wǎng)絡(luò)直接從數(shù)據(jù)

中估計。 那么 Z 可以從 q(Z |X,A)中采樣得到,根據(jù)重新參數(shù)化的技巧,zi 通過式(12)獲得。

zi

= μ+σ?εi, (12)

式中:?表示逐元素相乘的乘法;εi 屬于正態(tài)分布的元素。 通過上述編碼器可以得到包含節(jié)點(diǎn)屬性和結(jié)

構(gòu)信息的蛋白質(zhì)和藥物的節(jié)點(diǎn)潛在嵌入。 在這里解碼器是一個簡單的內(nèi)積解碼器,目的是利用學(xué)習(xí)到的

潛在嵌入 zi 來重構(gòu)鄰接矩陣 A:

p(A | Z) = ∏

N

i = 1 ∏

N

j = 1

p(Aij

| zi,zj), (13)

p(Aij

= 1 |zi,zj)= σ(z

T

i

zj)。 (14)

式中 σ(·)是一個邏輯計算函數(shù)。 本文使用等式(14)右側(cè)所示的 zi 和 zj 的邏輯函數(shù)轉(zhuǎn)換后的內(nèi)積,作為

這兩種蛋白質(zhì)發(fā)生相互作用的概率。 如圖 2 所示,解碼器的輸出 A^ 是鄰接矩陣 A 的近似值,本文對模型

進(jìn)行了優(yōu)化,使它們盡可能接近。

和變分自編碼器的一樣,該模型的損失函數(shù)是帶正則項(xiàng)的重構(gòu)誤差,

L =Eq(Z| X,A) [log p(A| Z)]-KL[q(Z |X,A)‖p(Z)], (15)

95

第100頁

廣西師范大學(xué)學(xué)報(自然科學(xué)版),2022,40(2)

式中 KL[q(·)‖p(·)]是 q(·)和 p(·)之間的 KL 散度。 式(15)中的第一項(xiàng)是為了最小化鄰接矩陣

A 的重構(gòu)誤差,第二項(xiàng)是為了最小化 q(Z |X,A)和 p(Z)之間的差別。 這個損失函數(shù)用來衡量重構(gòu)網(wǎng)絡(luò)鄰

接矩陣的準(zhǔn)確性和潛在嵌入與 p(Z)的近似性。 如 VGAE 中所假設(shè)的 p(Z) ~ N(0,1),表示潛在嵌入服從

正態(tài)分布。 使用隨機(jī)梯度下降對 VGAE 進(jìn)行訓(xùn)練,以更新編碼器的參數(shù)來優(yōu)化損失函數(shù)。 最后,在自編

碼器訓(xùn)練擬合后,可以通過編碼器得到蛋白質(zhì)或藥物的潛在表示

H=Z =GCN(X,A)。 (16)

1.4 重構(gòu)藥物靶標(biāo)矩陣

在獲得更新的藥物特征 Hdrug和靶標(biāo)特征 Htarget之后,還需要重建藥物靶標(biāo)矩陣以進(jìn)行預(yù)測。 給定 n 個

藥物節(jié)點(diǎn)和 m 個蛋白質(zhì)節(jié)點(diǎn),重構(gòu)的藥物靶點(diǎn)矩陣可以表示為

WDTI_reconstruct

=HdrugFrG

T

r H

T

target。 (17)

式中 Fr∈R

d×n

,Gr∈R

d×n是特定的映射矩陣,r 表示藥物-蛋白質(zhì)相互作用。

式(17)表示,在分別進(jìn)行 Fr、Gr 的邊特定映射之后,2 個映射向量的內(nèi)積應(yīng)盡可能重構(gòu)原始邊權(quán)重。

因此,給定邊權(quán)重 W,重構(gòu)的預(yù)測損失定義為

min L = (W - WDTI_reconstruct)

2 = ∑

n

i ∑

n

j

(wij

- hiFriG

T

rjx

T

j )。 (18)

公式中的所有數(shù)學(xué)運(yùn)算都是可微的或亞可微的,因此可以端對端進(jìn)行梯度下降訓(xùn)練,最大程度地優(yōu)化最終

目標(biāo)函數(shù)。

1.5 算法流程

算法 1 NGDTI 模型算法。

輸入:藥物相關(guān)和靶標(biāo)相關(guān)的相似網(wǎng)絡(luò)鄰接矩陣 Ai,已知藥物靶標(biāo)數(shù)據(jù);

輸出:重構(gòu)的藥物靶標(biāo)矩陣 WDTI_reconstruct;

1)在每個相似性網(wǎng)絡(luò)上運(yùn)行帶有重啟的隨機(jī)游走(RWR),獲取每個網(wǎng)絡(luò)的擴(kuò)散狀態(tài) si;

2)將藥物和靶標(biāo)的擴(kuò)散狀態(tài)集合 S 作為輸入,使用擴(kuò)散成分分析( clusDCA)降低特征空間的維數(shù)并

從擴(kuò)散狀態(tài)中捕獲重要的拓?fù)涮卣?X;

3)訓(xùn)練圖卷積自編碼器,然后根據(jù)公式(16)使用基于頻譜圖的卷積神經(jīng)網(wǎng)絡(luò)更新藥物和靶標(biāo)的特

征,生成藥物更新特征 Hdrug和靶標(biāo)的更新特征 Htarget;

4)在獲得更新的特征 Hdrug和 Htarget之后,根據(jù)公式(17)、(18)訓(xùn)練并重構(gòu)藥物靶標(biāo)矩陣 WDTI_reconstruct。

2 實(shí)驗(yàn)

本章通過實(shí)驗(yàn)來分析和驗(yàn)證 NGDTI 模型的有效性,模型用 python 語言實(shí)現(xiàn)。 實(shí)驗(yàn)平臺:1)軟件環(huán)境

為 PyCharm 和 Anaconda;2)硬件環(huán)境為包含 5 臺曙光服務(wù)器的云計算平臺,Intel 8837 8 核 CPU,1 TiB 內(nèi)

存,本地 GTX1060(6 GiB) GPU。

2.1 數(shù)據(jù)集

在整個訓(xùn)練過程中,使用 Luo 等[22]進(jìn)行研究的數(shù)據(jù)集。 該數(shù)據(jù)集包括 4 種類型的節(jié)點(diǎn)、8 種類型的關(guān)

聯(lián)網(wǎng)絡(luò)和 2 種相似性網(wǎng)絡(luò)。 該數(shù)據(jù)集中的藥物節(jié)點(diǎn)從 DrugBank 數(shù)據(jù)庫(版本 3.0)

[41]中提取得到,蛋白質(zhì)

節(jié)點(diǎn)從 HPRD 數(shù)據(jù)庫(版本 9)

[42]獲取。 疾病節(jié)點(diǎn)來自基因組學(xué)數(shù)據(jù)庫[43]

,副作用節(jié)點(diǎn)來自 SIDER 數(shù)據(jù)

庫(版本 2)

[44]

。 另外,孤立的節(jié)點(diǎn)被排除在外,即網(wǎng)絡(luò)中的節(jié)點(diǎn)至少有一個鄰居。 數(shù)據(jù)集中有 8 種關(guān)聯(lián)

網(wǎng)絡(luò),主要來源如下:

① 藥物-蛋白質(zhì)相互作用和藥物-藥物相互作用網(wǎng)絡(luò)(相互作用源自 Drugbank 版本 3.0);

② 蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)(相互作用源自 HPRD 數(shù)據(jù)庫);

③ 藥物-疾病關(guān)聯(lián)和蛋白質(zhì)-疾病關(guān)聯(lián)網(wǎng)絡(luò)(相互作用源自基因組學(xué)數(shù)據(jù)庫);

④ 藥物副作用關(guān)聯(lián)網(wǎng)絡(luò)(相互作用源自 SIDER 數(shù)據(jù)庫版本 2);

⑤ 藥物相似性網(wǎng)絡(luò)(藥物相似性網(wǎng)絡(luò)是根據(jù)藥物的化學(xué)結(jié)構(gòu)構(gòu)建的,其中 2 個藥物之間的相似性分

96

百萬用戶使用云展網(wǎng)進(jìn)行電子書本制作,只要您有文檔,即可一鍵上傳,自動生成鏈接和二維碼(獨(dú)立電子書),支持分享到微信和網(wǎng)站!
收藏
轉(zhuǎn)發(fā)
下載
免費(fèi)制作
其他案例
更多案例
免費(fèi)制作
x
{{item.desc}}
下載
{{item.title}}
{{toast}}