꼼짝마! 흐릿한 화면에서도 얼굴을 식별할 수 있다! CCTV

CCTV, 우리 주변 대부분의 장소에서 쉽게 찾아볼 수 있는데요. 어떤 건물에 가더라도 범죄 예방 등의 목적을 위해 천장에 달려 있는 CCTV를 볼 수 있습니다. CCTV는 범죄나 어떤 사건이 일어났을 때 그 사건에 대한 정보를 얻는 데에도 중요한 역할을 합니다. 예를 들어 어떤 상점에서 도난 사건이 일어났다고 가정해볼까요? 그 당시에 상점이 매우 붐벼 누가 무엇을 훔쳐 가는지, 누가 범인인지 보지 못했다면 어떻게 해야 할까요? 모두가 생각하듯이 해당 장면이 담긴 ‘CCTV’를 보면서 범인을 찾아낼 것 입니다.

하지만 화질이 낮아 CCTV에 잡힌 용의자의 얼굴이 너무 흐릿해서 인식할 수 없다면 어떻게 해야 할까요? 조금이라도 화질을 좋게, 얼굴을 인식할 수 있도록 하는 방법은 없을까요? 이러한 문제를 해결하기 위해 지금까지 수많은 대안들이 제시되었습니다. CCTV의 목적 달성을 위해 프레임 레이트 대신 상대적으로 중요한 해상도를 늘리는 방향으로 발전하기도 하였고, 다양한 영상처리 기술들도 개발되어 왔습니다. 오늘은 이러한 영상 처리 관련된 원리와 최근에 개발된 얼굴 인식 기술에 대해 소개하겠습니다.

주기함수를 이용한

푸리에 변환

영상처리 기술과 관련된 매우 중요한 원리로 ‘푸리에 변환’의 개념이 있습니다. 푸리에 변환이란 쉽게 말해 어떤 함수를 사인함수, 코사인함수 등 삼각함수들의 합으로 표현하는 것을 말합니다. 프랑스의 수학자 푸리에가 발견하여 그의 이름을 따서 붙여졌고, 전기통신공학의 기초 이론으로 자리 잡았습니다. 이것에는 ‘주기성’이 매우 크게 작용하는데요. 사인함수, 코사인함수, 탄젠트함수 등 삼각함수들의 중요한 성질이기도 합니다. 아래 그래프 모양에서 볼 수 있듯이 일정한 모양이 계속 반복되는 것을 볼 수 있는데, 이것을 ‘주기’가 있다 라고 부릅니다. 이러한 삼각함수들의 주기성이 정보통신 기술에서 파동을 표현하는 데 중요한 역할을 합니다.

푸리에 변환을 설명하는 그림 예시

앞서 푸리에 변환이 함수를 사인함수와 코사인함수로 바꾸어주는 것이라고 했는데요. 다시 말하면 어떤 현상에 관한 함수를 주파수에 관한 함수로 변환시키는 과정입니다. 사람들은 이를 다양한 기술에 적용했습니다. 예를 들어, 영상 속 화소의 밝기를 파동의 형태로 변환시켜, 진폭을 명암의 세기와 연관 지으면 영상의 명암을 파동으로 표현하는 것이 가능해집니다. 이를 푸리에 급수로 정리해서 불필요한 주기함수를 제거하는 등의 방법을 이용해 노이즈를 제거할 수 있는 것이죠. 이러한 방식으로 선명한 영상을 추출해 CCTV 속 흐릿한 얼굴을 인식해내는 것이 가능하게 됩니다. 수학이 이렇게 공학에 적용되어 우리 생활에 이토록 자연스럽게 녹아들어 있다는 사실이 신기하지 않나요?

사인함수, 코사인함수

얼굴을 인식하는 새로운 기술,

어텐션 맵

인공지능을 이용해 흐릿한 얼굴을 식별할 수 있는 기술이 개발되었습니다. GIST(광주과학기술원)의 융합기술학제학부 연구팀이 유럽컴퓨터비전학술대회 2022(ECCV 2022)에서 ‘어디를 봐야 하는지 가르치기: 저해상도 얼굴 인식을 위한 주의 유사성 지식 증류(Teaching Where to Look: Attention Similarity Knowledge Distillation for Low Resolution Face Recognition)’이라는 제목의 논문을 발표했는데요. 딥러닝 기술을 이용해 저해상도 이미지에서 얼굴 특징을 인식할 수 있는 기술이라고 합니다.

어텐션 맵 ⓒGIST 보도자료

지스트 융합기술학제학부 이규빈 교수 연구팀은 ‘어텐션 맵’이라는 기술을 이용해 접근했습니다. 어텐션 맵이란 딥러닝 네트워크가 어떤 것을 인식할 때, 이미지의 특정한 부분이 결과에 얼마큼의 영향을 미쳤는지를 나타낸 그림을 말합니다. 0~1사이의 값을 가지고, 1에 가까울수록 결과 도출에 중요했다는 것을 의미합니다. 기존의 딥러닝 기술은 화질이 좋지 않을 때 이목구비보다는 피부 등에 집중하는 문제점이 있었는데, 고해상도 이미지를 바탕으로 학습한 정보를 적용해 문제를 해결했습니다. 저해상도의 어텐션 맵을 고해상도 어텐션 맵과 유

사하게 변환하는 과정에서 손실 함수를 추가함으로써, 얼굴 인식의 주요 영역이 인식에 미치는 영향이 커지도록 한 것입니다.

이번 연구의 기술 설명 ⓒGIST 보도자료

데이터셋으로 훈련을 마친 후 TinyFace 공인 벤치마크에서 저해상도 이미지를 가지고 얼굴 인식 성능을 평가한 결과 47.91%의 정확도를 얻었는데, 이는 세계 최고 수준의 성능이라고 합니다. 이 기술은 물체를 분류하는 등의 일도 수행할 수 있다는 것을 확인했는데요. 이처럼 다양한 컴퓨터 비전 관련 기술에 적용될 가능성이 있다고 합니다.

이규빈 교수는 “범죄 해결의 중요 단서를 제공하는 CCTV로 멀리서 촬영된 사람의 얼굴 특징을 정확하게 인식할 수 있게 됐다”고 연구의 의의를 밝혔습니다. 이 ‘어텐션 맵 전이 기법’은 물체 영역 검출, 종류 분류 등 컴퓨터가 다양한 일을 수행하는 데 핵심적인 기술이 될 것으로 기대하고 있습니다. 나아가 이 연구에서 활용된 코드는 오픈소스로 공개된다고 합니다.

이처럼 오늘은 영상에서 얼굴 인식을 위한 기본적인 원리와 신기술 ‘어텐션 맵’을 이용한 방법을 알아보았는데요. 여전히 이 주제는 정보통신기술에서 활발하게 연구되고 개발되고 있습니다. 최근에는 이러한 얼굴 인식 기술을 증강현실이나 가상현실에도 적용하려는 시도들도 진행되고 있다고 합니다. 앞으로 더욱 발전할 기술들에 많은 관심 부탁드립니다!

함께 보면 좋은 콘텐츠