์ฐ๊ตฌ์ค์์ AI๋ณด์ ์ชฝ ๊ณต๋ถํ ๋ ๊ณต๊ฒฉ์ ๋ํด์๋ง ๊ณต๋ถํ๋ ๊ฑฐ ๊ฐ์์ ๋ฐฉ์ด ๊ธฐ๋ฒ์ ๋ํด ๊ถ๊ธํด์ก๋ค. ์ด๋ฒ ์ฃผ ๋ ผ๋ฌธ์ผ๋ก ๋น์ฒจ ๐
๐ฌ ๋ ผ๋ฌธ ๋ด์ฉ๊ณผ ์ด ๊ธ์ ๋ํ ์๊ฒฌ ๊ณต์ , ์คํ์ ์ง์ ํ์ํฉ๋๋ค. ํธํ๊ฒ ๋๊ธ ๋จ๊ฒจ์ฃผ์ธ์ !
์๋ฌธ : https://arxiv.org/pdf/1704.01155.pdf
Abstract
์ด์ ์ฐ๊ตฌ๋ค์ adversarial example์ ๋ฐฉ์ดํ๊ธฐ ์ํด DNN(Deep Neural Network) ๋ชจ๋ธ์ ๊ฐ์ (๋ชจ๋ธ ์์ฒด๋ฅผ ์์ ํด์ผ ํจ)ํ๋ ๊ฒ์ ์ด์ ์ ๋ง์ท์ง๋ง ์ฑ๊ณต์ด ์ ํ์ ์ด๊ณ ๊ณ์ฐ ๋น์ฉ์ด ๋๋ค๋ ๋จ์ ์กด์ฌ
→ adversarial examples๋ฅผ ํ์งํจ์ผ๋ก์จ DNN ๋ชจ๋ธ์ ๊ฐํํ ์ ์๋ Feature Squeezing ๋ฐฉ์ ์ ์
Introduction
- ๋ถ๋ฅ๊ธฐ๊ฐ adversarial inputs์ ํ์งํ๋ค๋ฉด ์ฌ์ฉ์์๊ฒ ๊ฒฝ๊ณ ๋ฅผ ๋ณด๋ด๊ฑฐ๋ fail-safe action์ ์ทจํ ์ ์๊ธฐ ๋๋ฌธ์ ๊ณต๊ฒฉ ์๋๋ฅผ ํ์งํ๋ ๊ฒ์ ์ ํํ ๊ฒฐ๊ณผ ์์ธก๋งํผ ์ค์ํ๋ค.
- ์ฐ๋ฆฌ ์ฐ๊ตฌ๋ ์ ๋ ฅ ์ํ์ ๋ณ๊ฒฝํ๋ ๋ชจ๋ธ ์์ฒด๋ ๋ณ๊ฒฝํ์ง ์๋๋ค๋ ์ ์์ ์ด์ ์ฐ๊ตฌ๋ค๊ณผ ์ฐจ์ด๊ฐ ์๋ค.
- Feature squeezing ๋ฐฉ์์ ๋ถํ์ํ ์ ๋ ฅ ๊ณต๊ฐ์ ์ ๊ฑฐํ์ฌ ๊ณต๊ฒฉ์๊ฐ adversarial example์ ์์ฑํ ๊ธฐํ๋ฅผ ์ค์ธ๋ค.
- Feature squeezing์ ํต์ฌ ์์ด๋์ด๋ ์๋ ์ํ์ ๋ํ ๋ชจ๋ธ์ ์์ธก ๊ฒฐ๊ณผ์ squeezing์ ๊ฑฐ์น ์ํ์ ๋ํ ๋ชจ๋ธ์ ์์ธก์ ๋น๊ตํ๋ ๊ฒ์ด๋ค.
Background
Defensive Techniques
1) Adversarial Training : ๋ฐ๊ฒฌ๋ adversarial input๊ณผ adversarial input์ ๋์๋๋ ground truth ๋ ์ด๋ธ์ ํ์ต์ ์ฌ์ฉํ๋ค. ๊ณต๊ฒฉ์๊ฐ ๋ฏธ๋ฆฌ ํ๋ จ๋ ๊ณต๊ฒฉ ๋ฐฉ์(= ๋ชจ๋ธ์ด ์๊ณ ์๋ ๊ณต๊ฒฉ ๋ฐฉ์)๋ง์ ์ฌ์ฉํ ๊ฒ์ด๋ผ๊ณ ๋ณด์ฅํ ์ ์๊ณ ํ์ต ๋น์ฉ์ด ์ฆ๊ฐํ๋ค๋ ๋จ์ ์ด ์๋ค.
2) Gradient Masking : ** cleverhans blog์ ์ ๋ฆฌ๋ ๊ฒ ์๋๋ฐ ๋ญ๋ง์ธ์ง ๋ชจ๋ฅด๊ฒ ์ด์ ๋์ค์ ๋ค์ ์ ๋ฆฌํด์ผ๊ฒ ๋ค.
3) Input Transformation : ์ ๋ ฅ์ ๋ณํํ์ฌ ๋ชจ๋ธ์ด ์ ๋ ฅ์ ์์ ๋ณํ์ ๋ฏผ๊ฐํ์ง ์๋๋ก ๋ชจ๋ธ์ ๊ฐํํ๋ ๋ฐฉ๋ฒ์ด๋ค.
** ๋ด์ฉ ์ถ๊ฐ ํ์
Feature Squeezing Methods
A. Color Depth
๋ ผ๋ฌธ ์ ์๋ค์ ๋นํธ ๊น์ด๋ฅผ ์ค์ด๋ฉด ๋ถ๋ฅ๊ธฐ ์ ํ๋๋ฅผ ์์์ํค์ง ์๊ณ ์ ๋์ ๊ธฐํ๋ฅผ ์ค์ผ ์ ์๋ค๊ณ ๊ฐ์ ํ๊ณ ์ด์ ์ ๋ง์ถ ๋ ๊ฐ์ง ํํ์ 8๋นํธ ๊ทธ๋ ์ด์ค์ผ์ผ, 24๋นํธ ์์์ผ๋ก ํ ์คํธ ๋ฐ์ดํฐ์ ์์ ์ฌ์ฉํ๋ค. ๊ทธ๋ ์ด์ค์ผ์ผ ์์์ ๊ฐ ํฝ์ ์ ๋ํด 256(0~255)๊ฐ์ ์์ ๊ฐ์ ์ ๊ณตํ๋ค. 8๋นํธ ์ค์ผ์ผ์ ํ์ฅํ์ฌ RGB ์ฑ๋๋ก ์ปฌ๋ฌ ์์์ ํํํ ์ ์๋ค.
1) Squeezing Color Bits : ์ฌ๋๋ค์ ํ์๋ ์ด๋ฏธ์ง๋ฅผ natural image์ ๊ฐ๊น๊ฒ ๋ํ๋ผ ์ ์๋ค๋ ์ ์์ larger bit depth๋ฅผ ์ ํธํ์ง๋ง, ์ฌ์ค ์ด๋ฏธ์ง ํด์์ ์์ด large color depth๊ฐ ํ์ํ์ง ์์ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค(ํ๋ฐฑ ์ด๋ฏธ์ง ์ธ์์ ๋ฌธ์ ๊ฐ ์๊ธฐ ๋๋ฌธ). MNIST, CIFAR-10, ImageNet ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ bit depth squeezing์ ๊ด์ฐฐํ๋ค.
โป Greyscale Images(MNIST) : ์ ์ฌ์ง์์ ๊ฐ์ฅ ์ผ์ชฝ์ ์๋ ์ด๋ฏธ์ง๋ ์๋ณธ(8๋นํธ) ์ด๋ฏธ์ง๊ณ ๊ฐ์ฅ ์ค๋ฅธ์ชฝ์ 1๋นํธ monochrome ์ด๋ฏธ์ง๋ค. 1๋นํธ ์ด๋ฏธ์ง feature space๋ 8๋นํธ ์ด๋ฏธ์ง์ 1/128์ด์ง๋ง ์ด๋ฏธ์ง๋ฅผ ๋ถ๊ฐํ๋ ๋ฐ์๋ ์ง์ฅ์ด ์๋ค.
โป Color Images(CIFAR-10, ImageNet) : ์ปฌ๋ฌ ์ด๋ฏธ์ง๋ MNIST์ ๋น์ทํ๊ฒ ๋นํธ ๊น์ด๊ฐ ๊ฐ์ํ๋๋ผ๋ ์ด๋ฏธ์ง๋ฅผ ๊ตฌ๋ณํ ์๋ ์์ง๋ง ๊ทธ๋ ์ด์ค์ผ์ผ ์ด๋ฏธ์ง์ ๋ค๋ฅด๊ฒ 4 ๋ฏธ๋ง์ ๋นํธ ๊น์ด๋ก ์ค์ผ ๊ฒฝ์ฐ ์ด๋ฏธ์ง์์ ์ผ๋ถ ์์ค์ด ๋ฐ์ํ๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
2) Implementation : ์ด๋ค ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ผ๋์ง, ์ด๋ค ์์ผ๋ก ๊ตฌํํ๋์ง์ ๋ํ ๋ด์ฉ์ด๋ผ ํด์์ ํจ์ค!
B. Spatial Smoothing(=blur)
1) Local Smoothing : ๊ทผ์ฒ ํฝ์ ์ ์ฌ์ฉํ์ฌ ๊ฐ ํฝ์ ์ smoothํ๋ ๋ฐฉ๋ฒ์ด๋ค. Gaussian smooting, mean smoothing, median smoothing์ ์ฌ์ฉํ์ฌ ์ธ์ ํฝ์ ์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ ์ ์๊ณ median smoothing์ L0 attack์ ์ํด ์์ฑ๋ adversarial example๋ฅผ ์ํํ ๋ ํนํ ํจ๊ณผ์ ์ด๋ค.
2) Non-local Smoothing : Local Smoothing๋ณด๋ค ๋ ๋์ ์์ญ์ ์ฌ์ฉํ๋ค. **์ข ๋ ์์ธํ ์์๋ณผ ํ์๊ฐ ์๋ค. ์ ๋ชจ๋ฆ ๐ต
C. Other Squeezing Methods
๋ ผ๋ฌธ์์ ์ฌ์ฉํ ๋ฐฉ์์ ์๋์ง๋ง lossy compression, dimension reduction์ผ๋ก๋ Feature squeezing์ด ๊ฐ๋ฅํ๋ค.
Robustness
Feature squeezing์ด adversarial examples๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์งํ๋ ค๋ฉด ๋ ๊ฐ์ง ํน์ง(์๋)์ ์ถฉ์กฑํด์ผ ํ๋ค. ์ด ํํธ์์๋ ์ฌ๋ฌ ๋ฐฉ์์ feature squeezing์ด ์ด ํน์ง๋ค์ ์ด๋ป๊ฒ ๋ง์กฑํ๋์ง ํ์ธํ๋ค.
โ adversarial examples์ ๋ํ squeezing
โก **on legitimate examples, ๋ถ๋ฅ๊ธฐ์ ์์ธก์ ํฐ ์ํฅ์ ๋ฏธ์น์ง ์๋ squeezing
โป Threat Model
- Robustness๋ฅผ ํ๊ฐํ๊ธฐ ์ํด ํ์ต๋ target model์ ์๋ฒฝํ๊ฒ ์ ๊ทผํ ์ ์์ง๋ง ์ํฅ์ ๋ชป ๋ฏธ์น๋ powerful adversary๋ฅผ ๊ฐ์ ํ๋ค. ๋ํ adversary๋ feature squeezing์ ์ธ์งํ์ง ๋ชปํ๋ฉฐ white-box attack ๊ธฐ์ ์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ์ค๋ถ๋ฅ๋ฅผ ์ ๋ํ ์ ์๋ ์ ๋ ฅ์ ์ฐพ๊ณ ์ ํ๋ค๊ณ ๊ฐ์ ํ๋ค.
- Standalone feature squeezer์ robustness๋ฅผ ๋ถ์ํ๊ธด ํ์ง๋ง, ๊ณต๊ฒฉ์๊ฐ DNN ๋ชจ๋ธ ๊ณต๊ฒฉ ์ feature squeezing์ ์ด์ฉํ ์ ์๊ธฐ ๋๋ฌธ์ ๋ฐฉ์ด๋ฅผ ์ํด standalone squeezer์ ์ฌ์ฉ์ ์ ์ํ์ง๋ ์๋๋ค(๊ถ์ฅํ์ง ์๋๋ค ์ด๋ฐ ๋๋).
โป Target Models : MNIST, CIFAR-10 ๋ฐ ImageNet ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๋ฉฐ ๊ฐ ๋ฐ์ดํฐ์ ์ ๋ํด ์ต๊ณ ์ฑ๋ฅ์ ๊ฐ๋ pre-trained model์ ์ค์ ํ๋ค.
โป Attacks : ์ด 11๊ฐ ๊ณต๊ฒฉ ๋ฐฉ์์ ๋ํด feature squeezing์ ํ๊ฐํ๊ณ ๊ฐ targeted attack์ ๋ํด ๋ ๊ฐ์ง ๋์(t=L+1 mod #classes์ธ Next class, t=min(y hat)์ธ least-likely class)์ ์ฌ์ฉํ๋ค.
- t : target class
- L : ground-truth class์ index
- y hat : ์ ๋ ฅ ์ด๋ฏธ์ง์ prediction vector
Detecting Adversarial Inputs
Robustness ํํธ์์ feature squeezing์ด legitimate examples์ ๋ํด ์ ํ๋ ๊ฐ์ ์์ด ์ ํํ ๋ชจ๋ธ ์์ธก์ ์ป์ ์ ์์์ ํ์ธํ๋ค. Feature squeezing ํ๋ ์์ํฌ์ ๊ธฐ๋ณธ ์์ด๋์ด๋ ์๋ ์ํ์ ๋ํ ๋ชจ๋ธ ์์ธก๊ณผ squeezing ํ ์ํ์ ๋ํ ๋์ผํ ๋ชจ๋ธ์ ์์ธก์ ๋น๊ตํ๋ ๊ฒ์ด๋ค. ๋ ์์ธก์ ์ ์ฌํด์ผ ํ๋ฉฐ ๋์ผํ ๋ชจ๋ธ์ด ๋ ์ํ์ ๋ํด ๋์ ๋๊ฒ ๋ค๋ฅธ ์์ธก์ ๋ธ๋ค๋ฉด ์ ๋ ฅ ์ํ์ adversarial์ผ ํ๋ฅ ์ด ๋๋ค.
A. Detection Method
DNN ๋ถ๋ฅ๊ธฐ์ ์ํด ์์ฑ๋ prediction vector๋ ์ ๋ ฅ ์ํ์ด ๊ฐ๋ฅํ ํด๋์ค์ ์ํ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ํ๋ธ๋ค. ๋ชจ๋ธ์ ์๋ณธ ์์ธก๊ณผ squeezed sample์ ์์ธก์ ๋น๊ตํ๋ ๊ฒ์ ๋ ํ๋ฅ ๋ถํฌ ๋ฒกํฐ๋ฅผ ๋น๊ตํ๋ ๊ฒ์ผ๋ก ํ๋ฅ ๋ถํฌ ๋น๊ต ๋ฐฉ๋ฒ์ L1 norm, L2 norm, K-L divergence ๋ฑ์ด ์๋ค.
์์์ ์ธ ๋ด์ฉ์ ํ๊ธฐ๊ฐ ์ด์ง ๊ท์ฐฎ์์ ์๋ต
B. Experimental Setup
โป Datasets : MNIST ๋ฐ์ดํฐ์ ์์ 2,000๊ฐ(legitimate example 1000๊ฐ, adversarial example 1000๊ฐ)+CIFAR10 ๋ฐ์ดํฐ์ ์์ 2,200๊ฐ+ImageNet ๋ฐ์ดํฐ์ ์์ 1,800๊ฐ
- ๊ฐ ํ์ง ๋ฐ์ดํฐ์ ์ ๋๋คํ ๋ ๊ทธ๋ฃน์ผ๋ก ๋ถํ ํ๊ณ ํ๋๋ detector ํ๋ จ์ ์ํด, ํ๋๋ validation์ ์ํด ์ฌ์ฉํ์๋ค.
โป Squeezers : ๋จผ์ ๊ฐ squeezing ๊ตฌ์ฑ์ด ๊ฐ ๊ณต๊ฒฉ ๋ฐฉ๋ฒ์ ์ํด ์์ฑ๋ adversarial example์ ์ผ๋ง์ ์ ์ ์ฉ๋๋์ง ํ๊ฐํ ํ defender๊ฐ ๊ณต๊ฒฉ์์ ๊ณต๊ฒฉ ๋ฐฉ๋ฒ์ ์์ง ๋ชปํ ๋ ๊ณต๊ฒฉ ๋ถํฌ์ ๋ํด ์ ์๋ํ ์ ์๋ ๊ตฌ์ฑ์ ์ ํํด์ผ ํ๋ ์๋๋ฆฌ์ค๋ฅผ ๊ณ ๋ คํ๋ค.
'Artificial Intelligence > Paper' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks (0) | 2022.11.07 |
---|---|
BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding (0) | 2022.09.21 |
Sequence to Sequence Learning with Neural Networks (0) | 2022.03.21 |
Attention Is All You Need (0) | 2022.02.23 |
Adversarial Examples in the Physical World (0) | 2022.01.27 |