이미지 인식이란 무엇인가요?

운송 컨테이너의 공중 사진

작성자

Tim Mucci

IBM Writer

Gather

이미지 인식이란 무엇인가요?

이미지 인식은 머신 러닝(ML)(또는 머신 러닝 기술)의 응용 분야으로, 소프트웨어 및 디바이스가 디지털 이미지나 비디오에서 사물, 장소, 사람, 글씨, 동작을 식별할 수 있도록 합니다.

이 기술은 컴퓨터가 제품 결함을 식별하고 의료 전문가가 이상 징후를 발견하는 데 도움을 주며 자율 주행 차량 개발에 필수적인 기술입니다.

이미지 인식은 소프트웨어와 기계가 시각적 데이터를 이해하고 반응할 수 있도록 하는 인공 지능(AI) 기술의 광범위한 분야인 컴퓨터 비전의 핵심 작업입니다.

엔지니어는 이미지 인식에 기존의 머신 러닝 과 딥 러닝 모델을 사용합니다. 이러한 접근 방식은 일반적으로 별개이며, 이를 결합할지, 독립적으로 사용할지 여부는 특정 문제 및 리소스 요구 사항에 따라 달라집니다.

기존 머신 러닝을 통한 이미지 인식

머신 러닝은 인간 엔지니어가 수동으로 추출한 기능을 기반으로 이미지를 분류하는 알고리즘을 사용합니다. 엔지니어는 이미지 인식을 통해 해결하려는 특정 목표나 문제에 따라 이미지를 전처리하고 분석합니다.

얼굴을 식별하거나 물체를 감지하거나 텍스처를 분류할 수도 있습니다. 각각의 경우에서 엔지니어는 자신의 도메인 지식을 사용하여 이미지를 전처리하고 알고리즘을 학습합니다.

정규화

엔지니어는 일반적으로 0–1 또는 -1–1 사이의 표준 범위로 픽셀 값을 조정하는 정규화 작업을 통해 이미지를 분석할 이미지를 준비하므로 데이터가 일관되고 머신러닝 모델이 처리하기 쉽도록 관리할 수 있습니다.

전처리에는 이미지 크기 조정, 계산 복잡성을 줄이기 위해 회색조로 변환, 가우시안 필터링 기술을 사용하여 노이즈를 제거하는 작업도 포함됩니다. 이미지 인식에서 '노이즈'는 픽셀 단위에서 얼룩덜룩하거나 거칠거나 흐릿하거나 왜곡된 이미지와 같이 원치 않는 또는 무작위적인 변화를 의미합니다.

특징 추출

다음으로 엔지니어는 가장 의미 있는 정보를 제공하는 특성을 선택해야 합니다. 결과가 색조로 물체를 구별하는 것인 경우에는 모양이나 색상 강도를 감지할 때 가장자리일 수 있습니다. 머신 러닝 모델은 수동으로 추출된 기능에 의존하기 때문에 데이터 주석은 필수 정보에 레이블을 지정합니다.

이미지 내에서 관심 있는 개체에 주석을 달면 모델은 '고양이'나 '개'와 같은 특정 개체를 더 쉽게 인식하고 분류할 수 있습니다. 머신 러닝 알고리즘은 정확하게 주석이 달린 데이터를 통해 각 카테고리의 시각적 특성을 정확하게 학습할 수 있습니다.

머신 러닝을 위한 인코딩

엔지니어는 이러한 특성을 추출하고 숫자 벡터로 포맷하여 머신 러닝 모델이 이미지를 더 쉽게 처리하고 비교할 수 있도록 합니다. 엔지니어는 각 이미지를 고정 길이의 특징 벡터, 즉 이미지의 중요성을 요약한 숫자 목록으로 변환합니다.

딥 러닝을 통한 이미지 인식

반대로 딥 러닝 모델은 이미지에서 직접 학습할 수 있습니다. 머신 러닝의 하위 집합인 딥 러닝은 계층화된 신경망을 사용하여 복잡한 이미지 전처리 및 인식 작업을 수행하지만, 더 높은 계산 및 데이터 요구 사항을 감수해야 합니다.

콘벌루션 신경망(CNN)은 이미지 데이터의 구조적 특성을 분석하고 학습하는 콘벌루션 계층을 포함하는 딥 러닝 아키텍처입니다.

입력 계층

CNN의 신경망은 이미지의 원시 픽셀 값을 자동으로 감지합니다. CNN은 해당 정보를 딥 네트워크 계층을 통해 전달하여 패턴을 추출하고 궁극적으로 이미지에 대한 예측을 내립니다.

네트워크의 계층은 입력 계층부터 시작합니다. 입력 계층은 이미지의 원시 픽셀 값을 처리하여 숫자 강도의 그리드로 처리하고 패턴 추출을 위해 후속 계층으로 전달합니다.

특징 추출

다음으로, 콘볼루션 계층은 영상에 작은 필터 또는 커널을 적용하여 가장자리나 질감과 같은 로컬 패턴을 감지합니다. 콘볼루션은 네트워크가 데이터에서 직접 패턴을 학습할 수 있기 때문에 수동 특성 추출의 필요성을 줄여줍니다.

각 콘볼루션 후에 활성화 함수는 모델에 비선형성을 도입하여 네트워크가 여러 계층을 적층하여 복잡한 패턴, 모양 및 객체를 학습할 수 있도록 합니다.

풀링 및 플랫화

풀링 계층은 이미지의 크기를 줄이면서도 중요한 특징을 유지하고 약간의 회전이나 이동과 같은 변동을 처리할 때 모델이 계산 효율적이도록 하기 위해 이미지를 다운샘플링합니다.

네트워크가 특성을 추출한 후 데이터를 1차원 벡터로 평탄화하고 완전 연결 계층을 통과시킵니다. 이러한 계층은 이전 단계에서 학습 패턴을 통합하여 복잡한 관계를 식별하고 분류 프로세스를 구체화합니다.

아웃풋 계층

마지막으로, 데이터는 아웃풋 계층에 도달하며, 아웃풋 계층은 추출된 특성을 통합하고 최종 예측을 생성합니다. 이 예측은 주석이 달린 학습 데이터 세트와 비교하여 오류를 계산하고 네트워크의 가중치를 조정하여 정확도를 높입니다.

예를 들어 고양이 이미지를 인식하도록 모델을 학습시키기 위해 엔지니어는 지도 학습을 사용하여 수천 개의 이미지에 '고양이' 또는 '고양이 아님'과 같은 태그를 지정하여 모델이 털 질감, 수염, 귀 모양과 같은 주요 특징을 학습할 수 있도록 할 수 있습니다.

반면, 비지도 학습에서 모델은 레이블이 지정되지 않은 데이터를 사용하여 패턴을 독립적으로 발견합니다. 이 모델은 공유된 특성(예: 유사한 모양 또는 질감)을 기반으로 이미지를 클러스터링하여 사전 정의된 카테고리 없이 관계를 식별합니다.

이 접근 방식은 레이블이 지정된 데이터를 사용할 수 없는 경우 사기 탐지, 품질 관리 및 패턴 분석과 같은 작업에 유용합니다. 비지도 학습에서 모델은 공유 패턴을 기반으로 이미지를 독립적으로 클러스터링하여 고양이라는 사실을 명시적으로 알지 못한 채 모든 고양이 이미지를 그룹화합니다.

세 번째 접근 방식인 자기 지도 학습은 레이블이 지정되지 않은 데이터로 시작하여, 데이터의 고유 구조에서 유사 레이블을 생성함으로써 비지도 학습의 측면을 결합합니다. 이를 통해 모델이 기존 레이블 없이도 의미 있는 표현을 학습할 수 있으므로 레이블이 지정된 데이터 세트가 제한된 작업에 효과적입니다.

이 모델은 자기 지도 학습을 통해 일부가 가려진 고양이 얼굴을 재구성하는 등 이미지의 일부를 분석하여 패턴과 특징을 식별할 수 있습니다. 궁극적으로 머신 러닝을 사용하든 딥 러닝을 사용하든 학습된 모델은 보이지 않는 새로운 고양이 이미지를 정확하게 식별하고 분류하여 다른 동물이나 사물과 구별할 수 있습니다.

이미지 인식의 과제

이미지 인식 기술이 발전했지만 여전히 정확성과 신뢰성에 영향을 미치는 문제에 직면해 있습니다. 엔지니어는 개선된 모델 아키텍처, 다양한 학습 데이터 세트, 전처리 기술을 결합하여 이러한 문제를 완화합니다.

분산되거나 가려진 이미지

지도 학습은 레이블이 지정된 데이터를 사용하고, 각 이미지에 올바른 카테고리를 태그하여 알고리즘이 명확한 예시를 찾을 수 있도록 안내합니다. 예를 들어, 자동차를 인식하도록 시스템을 훈련시키려면 '고양이'와 '고양이 아님'이라는 레이블이 지정된 데이터 세트가 필요합니다. 그런 다음 모델은 이러한 레이블이 지정된 예제 내의 시각적 패턴을 기반으로 구별하는 방법을 학습합니다.

각도 및 관점 변화

비지도 학습에서 알고리즘은 레이블이 지정되지 않은 데이터를 사용하여 패턴을 독립적으로 발견합니다. 이는 아이에게 장난감 상자를 주어 유사성에 따라 분류하게 하는 것과 비슷합니다. 비지도 알고리즘은 명시적인 카테고리를 모른 채 공유된 특성(예: 수염, 털, 네 개의 다리 및 꼬리)을 기반으로 이미지를 클러스터링합니다.

조명 조건

그림자, 밝기 변화 또는 저조도 환경과 같은 조명의 변화는 이미지 인식 시스템의 성능에 영향을 미칠 수 있습니다. 밝은 부분은 디테일을 흐리게 하고 그림자는 중요한 특징을 가려서 모델이 물체의 모양이나 색상을 잘못 해석할 수 있습니다.

적응형 히스토그램 이퀄라이제이션 또는 다양한 조명 조건과 학습 데이터의 통합과 같은 고급 방법은 모델이 다양한 조명 시나리오에서 더 나은 성능을 발휘하는 데 도움이 됩니다.

학습 데이터의 한계

이미지 인식 모델의 성능은 학습 데이터의 다양성과 품질에 따라 달라집니다. 주로 고해상도의 이상적인 이미지를 특징으로 하는 데이터 세트에서 학습된 모델은 품질이 낮거나 실제 버전을 만나면 때 어려움을 겪을 수 있습니다.

이를 완화하기 위해 엔지니어는 실제 상황을 나타내는 다양한 데이터 세트를 선별합니다. 모델은 전이 학습과 같은 기술을 통해 대규모의 강력한 데이터 세트에서 사전 학습된 지식을 사용하여 제한된 데이터로도 성능을 개선할 수 있습니다.

물체 크기 및 근접성

카메라와의 근접성에 의해 영향을 받는 이미지 내 객체 크기는 모델이 객체를 정확하게 식별하는 능력에 영향을 줄 수 있습니다. 작은 객체는 인식하기에 충분한 세부 정보가 없을 수 있으며, 지나치게 가까운 객체는 왜곡되거나 너무 커서 모델이 올바르게 분류하지 못할 수 있습니다.

엔지니어는 이를 처리하기 위해 다양한 크기와 거리의 객체를 포함하는 데이터 세트에서 모델을 학습시킵니다. 다중 스케일 이미지 처리 기술과 기능 피라미드도 사용되어 모델이 다양한 크기의 객체를 처리할 수 있도록 합니다.

이미지 인식 및 객체 감지

객체 감지는 이미지 내에서 객체를 식별하고 객체의 위치를 정확히 파악하여 이미지 인식 기능을 확장합니다. 이 기술을 통해 시스템은 '이 사진에서 고양이는 어디에 있습니까?' 또는 '장면에 고양이가 몇 마리 있습니까?'와 같은 질문에 답할 수 있습니다. 객체 감지는 프레임 내에서 객체와 객체의 위치, 크기 및 방향을 인식하므로 더 많은 컨텍스트를 제공합니다.

예를 들어, 컴퓨터는 객체 감지를 통해 사진에서 '고양이'를 식별하는 대신 '사진의 왼쪽 모서리에 있는 소파에 고양이가 앉아 있습니다'라고 지정하여 장면과 물체 간의 관계에 대한 공간적 이해를 제공할 수 있습니다.

이미지 인식 작업도 복잡도가 다를 수 있습니다. 이미지 카테고리화 또는 이미지 분류는 콘텐츠를 기반으로 전체 이미지에 단일 레이블을 할당하여 '이 이미지에 무엇이 포함되어 있나요?'라는 질문에 답합니다.

예를 들어, 고양이와 개에 대한 데이터 세트를 사용하여 학습된 모델은 고유한 특징을 식별하여 두 종을 구별하는 방법을 학습합니다. 새로운 이미지가 제시되면 모델은 이러한 특징을 분석하여 고양이인지 개인지 예측합니다.

모델은 바운딩 박스를 사용하여 이러한 개별 객체의 윤곽을 그리고, 배경과 분리하며, 각 개체가 시작하고 끝나는 위치를 표시합니다. 이러한 정밀도는 차량, 보행자 및 도로 표지판과 같은 물체를 정확하게 감지하는 것이 안전을 위해 필수적인 자율 주행과 같은 응용 분야에 매우 중요합니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스+인사이트


주간 Think 뉴스레터에서 전문가들이 선별한 AI, 클라우드 등에 관한 인사이트와 소식을 살펴보세요. 

이미지 인식 활용의 발전

이미지 인식은 빠르게 발전하여 수많은 산업 및 사용 사례에서 보다 정교한 애플리케이션을 위한 길을 닦고 있습니다. 다음은 이미지 인식의 몇 가지 주요 실제 응용 분야입니다.

자율주행 차량

많은 스마트폰에는 사용자가 화면을 보고 디바이스의 잠금을 해제할 수 있는 얼굴 인식 기술이 장착되어 있습니다. 이러한 이미지 인식 애플리케이션은 시스템이 개인의 얼굴 특징을 인식하여 신원을 확인하는 방식으로 보편화되었습니다.

얼굴 인식

얼굴 인식은 보안 및 감시 분야에서도 널리 사용되어 비디오 피드에서 개인을 식별하는 데 사용됩니다. 이 기술은 법 집행 기관이 공공장소에서 용의자를 추적하는 데 도움이 되며, 기업은 건물 보안에 이 기술을 사용하여 액세스를 제어합니다.

소셜 미디어 관리 및 검토

소셜 미디어 플랫폼은 이미지 인식을 사용하여 사진의 태그를 제안하고 친구와 가족의 얼굴을 식별하고 인식합니다. 또한 소셜 미디어는 얼굴 랜드마크를 감지하는 AR 필터를 사용하여 안경이나 동물 귀와 같은 가상 요소를 얼굴 움직임에 맞게 배치합니다.

또한 이러한 플랫폼은 이미지 인식을 사용하여 부적절한 이미지를 필터링하여 콘텐츠를 조정하고 플랫폼의 안전을 유지하며 사용자 경험을 향상합니다.

스마트 글래스 및 실시간 정보

모바일 디바이스의 최신 증강 현실(AR) 애플리케이션을 기반으로 하는 이미지 인식 소프트웨어가 탑재된 스마트 글래스는 사용자에게 물체와 위치에 대한 실시간 정보를 오버레이하여 주변 환경을 증강된 시야를 제공할 수 있습니다.

AR 기술은 랜드마크 식별부터 매장의 제품 세부 정보 검색에 이르기까지 사용자가 보는 모든 것에 대한 컨텍스트 데이터를 제공합니다.

가전제품

가전제품의 이미지 인식은 스마트 냉장고의 재고 추적, 로봇 청소기의 장애물 감지, 보안 카메라의 사람 또는 사물 인식과 같은 기능을 가능하게 합니다.

또한 세탁기의 옷감 종류 감지, 스마트 오븐의 음식 인식, 스마트 거울이나 베이비 모니터의 얼굴 분석과 같은 기능을 지원합니다.

배송 로봇은 이미지 인식을 사용하여 환경을 탐색하고, 장애물을 감지하고, 배송 위치를 식별하여 정확하고 효율적인 자율 배송을 수행합니다.

이와는 대조적으로, 창고 및 산업 현장의 로봇은 동일한 기술을 품목 스캔 및 회수, 품질 검사 수행, 부품 조립 및 자재 분류에 사용합니다.

의료 영상

의료 영상 분석은 의료 전문가가 X선, MRI, CT 스캔을 분석하는 데 도움이 됩니다. 이러한 시스템은 폐암, 뇌졸중, 종양 등의 초기 징후와 같이 육안으로 놓칠 수 있는 이상 징후를 감지하여 더 적시에 적절한 진단을 내릴 수 있습니다.

Merative(이전 IBM Watson Health)는 이미지 인식을 적용하여 복잡한 영상 데이터를 분석하여 방사선 전문의가 중요한 결과를 식별할 수 있도록 지원합니다.

의료 이미지 인식은 AI 기반 진단과 함께 발전하고 있으므로 이미지 인식 시스템은 초기 단계의 질병을 더 정확하게 감지하는 데 도움이 될 수 있습니다.

이미 종양 탐지와 같은 분야를 개선하고 있는 이 기술은 특히 미세한 세부 사항이 중요한 분야에서 고도로 훈련된 '두 번째 눈으로 전문가를 지원하여 고급 진단을 내릴 수 있도록 지원합니다.

광학 문자 인식(OCR)

OCR 기술은 문서, 서적, 영수증을 스캔하여 인쇄된 텍스트를 디지털화합니다. 앱은 OCR을 사용하여 인쇄된 텍스트를 인식하고 사용자가 편집하거나 검색할 수 있는 디지털 형식으로 변환합니다. OCR은 이미지 인식의 중요한 초기 사용 사례로, 모든 산업에서 광범위한 디지털화의 기반을 마련하는 데 도움이 되었습니다.

문서 처리

은행과 금융 기관은 이미지 인식을 사용하여 수표, 신분증, 기타 문서의 검증을 자동화하여 사기를 줄이고 고객 온보딩을 간소화합니다. 이 기술은 문서 이미지를 스캔하여 중요한 세부 정보를 확인하고, 이상 징후가 있으면 검토할 수 있도록 플래그를 지정합니다.

Think 뉴스레터

 

Think의 최신 AI 및 기술 인사이트

지금 가입하기

리소스

IBM AI Academy
AI 교육
전문가들의 조합
팟캐스트
전처리를 사용하여 Watson Visual Recognition 결과를 선명하게 하는 방법
블로그
지도 학습과 비지도 학습 비교: 차이점은 무엇인가요?
블로그
다음 단계 안내

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI 파운데이션 모델 및 머신 러닝 기능을 학습시키고 검증, 조정 및 배포하세요. 소량의 데이터로 짧은 시간 내에 AI 애플리케이션을 구축할 수 있습니다.

watsonx.ai 살펴보기 라이브 데모 예약하기