์ฌ์ค ๋ถ์๋ณด๋ค ์ง์ญ์ ๊ฐ๊น์ง๋ง ๋ด์ฉ ์ ๋ฆฌ ๋ฐ ์ง๋จ ์ง์ฑ์ ํ์ ๋น๋ ค ๋ด๊ฐ ์ ๋ชฐ๋๋ ๋ถ๋ถ์ ์ดํดํ๊ธฐ ์ํ ๋ชฉ์ ์ผ๋ก ์ ๋๋ค.
๐ฌ ๋ ผ๋ฌธ ๋ด์ฉ๊ณผ ์ด ๊ธ์ ๋ํ ์๊ฒฌ ๊ณต์ , ์คํ์ ์ง์ ํ์ํฉ๋๋ค. ํธํ๊ฒ ๋๊ธ ๋จ๊ฒจ์ฃผ์ธ์ !
์๋ฌธ : https://arxiv.org/abs/1607.02533
Abstract
โพ ์ด ๋ ผ๋ฌธ์ ๋ฌผ๋ฆฌ์ ์ธ๊ณ์์๋ ๋จธ์ ๋ฌ๋ ์์คํ ์ด adversarial example์ ์ทจ์ฝํ๋ค๋ ๊ฒ์ ๋ณด์
Introduction
โพ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ์ค๋ถ๋ฅ๋ฅผ ์ผ์ผํค๊ธฐ ์ํ ๋ชฉ์ ์ผ๋ก ๋ง๋ค์ด์ง adversarial manipulation input์ ์ทจ์ฝํ๋ฉฐ ํนํ ํ ์คํธ ์ ๋ชจ๋ธ์ด ๋ฏธ์ธํ๊ฒ ๋ณ๊ฒฝ๋ ์ ๋ ฅ์ ๋ฐ๋ ๊ฒ์ ๋ํด ๋งค์ฐ ์ทจ์ฝํจ
โพ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ M, ์ ๋ ฅ ์ํ C(๋ณ๊ฒฝ๋์ง ์์ ๊นจ๋ํ ์ํ์ ์ํ)๊ฐ ์๋ค๊ณ ํ ๋ C์ ๊ตฌ๋ณ๋์ง ์์ง๋ง ๋ชจ๋ธ์ด ์ ๋๋ก ๋ถ๋ฅํ์ง ๋ชปํ๋ adversarial example A ์์ฑ ๊ฐ๋ฅ
โพ adverisarial example์ Transferbility property๋ ๊ณต๊ฒฉํ๊ณ ์ ํ๋ ๋ชจ๋ธ์ accessํ์ง ์์๋ ๊ณต๊ฒฉ์ด ๊ฐ๋ฅํจ์ ์๋ฏธ
๐ Transferbility property
M1 ๋ชจ๋ธ์ ์ค๋ถ๋ฅ๋ฅผ ์ ๋ํ๊ธฐ ์ํด ์ ์๋ adversarial example์ด M2 ๋ชจ๋ธ์์๋ ์ค๋ถ๋ฅ๋ฅผ ์ผ์ผํค๋ ๊ฒ
(**ํ๋์ adversarial example๋ก ์ฌ๋ฌ ๋ชจ๋ธ์ ๊ณต๊ฒฉํ ์ ์๋ค๋ ๊ฑธ๋ก ์ดํดํ๋ค.)
โพ adversarial example์ด ์ค์ธ๊ณ์์ ์นด๋ฉ๋ผ๋ฅผ ํตํด ์์ฑ๋ ๊ฒฝ์ฐ ์ฌ์ ํ ์๋ชป ๋ถ๋ฅ๋ ๊ฒ์ธ์ง๋ (๋ ผ๋ฌธ ๋์จ ์์ ๊ธฐ์ค) ์ด์ ์ฐ๊ตฌ๋ค๋ก๋ถํฐ ๋ฐํ์ง์ง ์์
โช ๋ ผ๋ฌธ ์ ์๋ค์ ๋ฌผ๋ฆฌ์ ์ธ๊ณ&๋ค์ํ ์ผ์๋ฅผ ํตํด ๋ฐ์ดํฐ๋ฅผ ์ธ์ํ๋ ๊ธฐ๊ณ ํ์ต ์์คํ ์ ๋ํด adversarial example์ ๋ง๋ค๊ณ adversarial attack์ ์ํํ ์ ์๋๊ฐ? ํ๋ ์๋ฌธ ์ ๊ธฐ
โพ ๋ฌผ๋ฆฌ์ ์ธ๊ณ์์ adversarial example์ ํน์ฑ์ด ์ผ๋ง๋ ์ ์ ์ง๋๋์ง ์์๋ณด๊ธฐ ์ํด pre-trained ImageNet classifier๋ก ์คํ ์งํ ํ ํด๋ํฐ ์นด๋ฉ๋ผ๋ก ์ธ์ํ adversarial example์ classifier์ ๋ฃ๊ณ ๋ถ๋ฅ ์ ํ๋ ์ธก์
โช ์นด๋ฉ๋ผ๋ฅผ ํตํด ์ธ์๋ adversarial example๋ ๋ชจ๋ธ์ด ์๋ชป ๋ถ๋ฅํ๋ ๊ฒ์ ํ์ธํจ
Method of Generating Adversarial Images
Notation
โพ Cliping equation
Comparison of Methods of Generating Adversarial Examples
โพ adversarial example์ด ์ค์ ๋ก ์๋ชป ๋ถ๋ฅ๋๋ค๊ณ ๋ณด์ฅํ ์ ์๊ธฐ ๋๋ฌธ์ ์์ฑ๋ ์ด๋ฏธ์ง์ ์ค์ ๋ถ๋ฅ ์ ํ๋์ ๊ฐ ๋ฐฉ๋ฒ(fast method, basic iterative, iterative least-likely class method)์ผ๋ก ์์ฑ๋ perturbation ์ ํ์ ์ดํดํ๊ธฐ ์ํด ์คํ์ ๋น๊ต ์ํ
โช pre-trained Inception v3 classifier, ImageNet ๋ฐ์ดํฐ์ ์ validation sample 5๋ง ๊ฐ ์ฌ์ฉ
Photos of Adversarial Examples
Destruction Rate of Adversarial Images
โพ ์์์ ๋ณํ์ด adversarial image์ ์ด๋ค ์ํฅ์ ์ฃผ๋์ง ์์๋ณด๊ธฐ ์ํด destruction rate ๊ฐ๋ ๋์
๐ Destruction rate
๋ณํ ํ ๋ ์ด์ ์๋ชป ๋ถ๋ฅ๋์ง ์๋ adversarial image์ fraction
Experimental Setup
โพ Clean image, adversarial image๋ฅผ ์ธ์ํ๊ณ ์ธ์๋ ํ์ด์ง๋ฅผ ์ฌ์ง์ผ๋ก ์ฐ์ ํ ์ฌ์ง์ผ๋ก๋ถํฐ ์ด๋ฏธ์ง๋ฅผ ์๋ผ๋
โช photo transformation์ด๋ผ๋ ์ฉ์ด๋ก ์ ์(black box transformation์ผ๋ก ์๊ฐํ ์ ์์)
โพ Photo transformation ์ ํ clean image, advesarial image์ ๋ํ ์ ํ๋์ photo transformation์ ๋์์ธ adversarial image์ destruction rate ๊ณ์ฐ
Demonstration of Black Box Adversarial Attack in the Physical World
โพ ์์์ ์งํํ ์คํ์ adversary๊ฐ ๋ชจ๋ธ์ ์ ๊ทผ ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ์ ์ ๋ก ํ์ง๋ง ์ค์ ์ธ๊ณ์์๋ ๋ธ๋๋ฐ์ค ์๋๋ฆฌ์ค๊ฐ ํ์ค์
โช transferbility property๋ก ์ธํด adversarial example์ ๋ธ๋๋ฐ์ค ๊ณต๊ฒฉ์ ์ฌ์ฉ๋ ์ ์์ผ๋ฉฐ ์ธ์๋ advesarial example๋ ์คํ ์์ค TensorFlow ์นด๋ฉ๋ผ ๋ฐ๋ชจ๋ฅผ ์์ด๋ ๊ฒ์ ํ์ธ
Artificial Image Transformations
โพ ์ธ์์ ์ธ ์ด๋ฏธ์ง ๋ณํ์ ๋ํ destruction rate๋ฅผ ์ดํดํ๊ธฐ ์ํด ๋๋น/๋ฐ๊ธฐ ๋ณํ, ๊ฐ์ฐ์์ ๋ธ๋ฌ, ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ, JPEG ์ธ์ฝ๋ฉ ์ ์ฉ
(**์ด๋ฏธ์ง ์ธ์, ์ฌ์ง ์ฐ๊ธฐ, ์ด๋ฏธ์ง ์๋ผ๋ด๊ธฐ๋ ๋จ์ํ ๋ณํ์ด๋ผ๊ณ ๋ณผ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋น/๋ฐ๊ธฐ ๋ณํ+a ์ ์ฉํ๋ค๋ ์๋ฏธ์ธ ๋ฏ)
Conclusion
์ ํจ์ค!
์ ๋ฆฌํ๊ณ ๋ณด๋๊น ์์ฒญ ์กฐ์กํ๋ค. ๋ค์ ๋ฒ์ ๋ค๋ฅธ ๋ ผ๋ฌธ ์ ๋ฆฌํ ๋๋ ๋ ๊น๋ํ๊ฒ ์ ์ ์ ์๊ธฐ๋ฅผ ๋ฐ๋ผ๋ฉด์ ๐ค