Nova-Vision은 어떻게 개발했을까?: 3D Depth camera 개발

Project/Proj-Nova Vision

Nova-Vision은 어떻게 개발했을까?: 3D Depth camera 개발

dohyeon2 2023. 10. 27. 17:04

이번 글에서는 "가축 체중측정 시스템 시제품" 제작과정에서 마주했던 문제들과 해결방법에 대해 정리하였습니다.

(전북대학교 시제품 제작 지원사업, 2023.05~2023.09)

개발과정

[1] Nova-Vision은 어떻게 개발했을까?: 3D Depth Camera 개발

[2] Nova-Vision은 어떻게 개발했을까?: AI 가축 체중측정 알고리즘

[3] Nova-Vision은 어떻게 개발했을까?: 모델 경량화 및 코드 최적화

Github

[1] https://github.com/dohyeonYoon/Nova-Vision

[2] https://github.com/dohyeonYoon/BRODY

프로젝트 개요

2023년 1월 아래 그림 1과 같이 휴대형(3D카메라 + Edge Computer)으로 동작하는 Nova-Vision MVP 제품을 제작하였습니다. 기존 시제품의 체중측정 방식은 3D 깊이 카메라에서 촬영한 이미지를 Edge Device에 저장하고 깊이 데이터를 계산한 뒤, 서버에 전송하여 체중을 추론하는 방식이었습니다. 그러나 제품을 이와같이 구성할 경우, 한 대의 디바이스마다 카메라(stereolabs Zed2i) + 컴퓨터(jetson nano)가 필요해서 제품 단가가 100만원에 달하는 문제점이 있었습니다. 규모가 큰 농장의 경우, 많게는 30대의 카메라가 설치되는데 이런 경우 설치비가 3,000만원 가량 발생하였습니다. 저희팀의 비즈니스 모델은 카메라 장비는 무상으로 제공하고, 월 구독료를 통해 수익을 창출하는 방식이기 때문에 장비의 단가를 낮추는 것은 수익창출을 위해 매우 중요하였습니다. 결론적으로 3D Depth 카메라와 임베디드보드를 자체개발하여 제품 단가를 낮추고자 프로젝트를 시작하게 되었습니다.

프로젝트 기획

앞서 설명드린대로 이번 프로젝트의 목표는 기존 제품과 동일한 기능을 하면서 제품의 단가를 낮추는 것입니다. 많은 회의끝에 기존 제품에 탑재되는 3D 카메라와 임베디드보드를 자체개발하고, 모든 데이터 저장 및 추론작업은 클라우드 서버에서 진행되도록 구조를 변경하기로 하였습니다. 새롭게 개발된 시제품의 서비스 개략도는 그림 2와 같습니다.

[Service overview]

저희 서비스는 3D depth camera로 촬영된 영상을 클라우드 서버에 전송하여 깊이추론, 체중추론 과정을 거쳐 사용자에게 현재 가축의 체중이 몇 kg인지, 가축이 잘 성장하고 있는지 모니터링하는 통합 솔루션입니다. 이번 글에서는 서비스의 전체적인 개발과정에 대해 정리해보겠습니다.

(이번 글에서는 ① 3D Depth camera 개발과정을 다룹니다)

3D 카메라 제어 S/W 개발

3D 카메라는 실시간으로 영상을 스트리밍 하면서, 일정시간(1시간)마다 클라우드 서버로 이미지를 전송해야 했습니다.

1. 카메라 설정 파일 다운로드 기능 - HTTP 서버

배포된 카메라의 설정(촬영주기, 밝기, 대비 등)을 변경하기 위해 개별 카메라에 접속하여 수작업으로 설정값을 변경하는 것은 매우 비효율적입니다. 그래서 저는 배포된 모든 카메라를 클라우드 서버에서 제어하기 위해 HTTP 서버를 하나 만들었습니다. 카메라가 연결된 임베디드보드는 부팅시 HTTP 서버로부터 본인의 카메라 시리얼번호에 맞는 카메라 설정파일을 다운받아 덮어쓰기 합니다. 이렇게하면 클라우드 서버에서 카메라 설정값을 변경하면 배포된 모든 카메라에 자동으로 적용됩니다!

저는 AWS EC2 인스턴스 위에 Docker를 이용하여 HTTP 서버를 구성했습니다.

디렉토리 구조를 다음과 같이 구성합니다.

프로젝트 디렉토리 구조
nova-vision/
├── docker-compose.yml
├── http/
│   ├── Dockerfile
│   ├── camera_conf/
│       ├── 0001.json
│       ├── 0002.json
│       └── 0003.json
│   
├── streaming/
│   ├── Dockerfile
│   └── # 필요한 파일들
│
├── api/
│   ├── Dockerfile
│   └── # 필요한 파일들
│
└── db/
    ├── Dockerfile
    └── # 필요한 파일들

camera config json file이 저장된 디렉토리에 Dockerfile을 작성합니다.

도커파일
# 베이스 이미지로 python:3.9-slim을 사용
FROM python:3.9-slim

# 작업 디렉토리를 /app으로 설정
WORKDIR /app

# camera_conf 디렉토리를 컨테이너의 /app/camera_conf로 복사
COPY camera_conf /app/camera_conf

# HTTP 서버 실행 명령
CMD ["python", "-m", "http.server", "8000", "--directory", "/app/camera_conf"]

이후 docker-compose.yml 파일을 작성하고 yml 파일이 있는 디렉토리로 이동하여 docker-compose를 실행합니다.
AWS에서 8000번 port를 인바운드 규칙에 추가합니다.

카메라 임베디드보드에서 HTTP 서버로부터 카메라 시리얼번호에 맞는 config 파일을 다운받는 쉘스크립트를 작성합니다.

#!/bin/bash

# 다운로드 명령어
curl -o /home/user/downloads/0001.json http://${B_PC_IP}:8000/0001.json

# 다운로드 성공 여부 확인
if [ $? -eq 0 ]; then
    echo "JSON 파일 다운로드 성공"
else
    echo "JSON 파일 다운로드 실패"
fi

# 사용방법
# 1. download_json.sh 파일을 /usr/local/bin/ 폴더로 옮겨주세요.
# 2. 터미널에서 $ sudo chmod +x /usr/local/bin/download_json.sh 명령어를 실행하여 스크립트 실행권한을 부여해주세요.
# 3. 터미널에서 $ update-rc.d download_json.sh defaults 명령어를 실행하여 부팅 시 자동 실행되도록 설정해주세요.
# 4. export B_PC_IP=xxx.xxx.x.xxx 명령어를 실행하여 B_PC IP주소를 환경변수에 추가합니다.

이렇게 카메라가 연결된 임베디드보드가 부팅될 때 마다 HTTP 서버로부터 카메라 config 파일을 다운받아 덮어쓰기하는 기능을 개발하였습니다.

2. 실시간 영상 스트리밍 기능 - 스트리밍 중개서버

일반적으로 실시간으로 영상을 스트리밍하는 과정은 다음과 같습니다.

카메라로 stream을 캡처
비디오 및 오디오 데이터를 인코딩
인코딩된 데이터를 스트리밍 중개 서버에 전송
스트리밍 중개 서버에서 특정 도메인에 프레임 스트리밍
사용자가 영상을 재생

그렇다면 우리가 해야할 일은 적합한 스트리밍 프로토콜과 스트리밍 중개서버를 설정하는 겁니다!

2.1 스트리밍 프로토콜 결정

제 경우는 유동IP를 사용하는 임베디드보드에서 프레임을 스트리밍해야 했기 때문에 이 프레임을 중개해주는 스트리밍 중개서버가 필요했습니다. 그래서 임베디드보드에서 스트리밍 중개서버로 프레임을 전송하는 프로토콜을 결정하였습니다.

프로토콜을 설정하는 고려사항은 다음과 같습니다.

1. 리소스가 매우 한정적인 임베디드보드에서 스트리밍 중개서버로 프레임을 전송해야했기 때문에 리소스를 적게 사용해야 함

2. ~10초까지 딜레이가 생겨도 수용할 수 있지만, 가능한 지연시간이 짧아야 함

3. 농장마다 최소 20~30대의 임베디드보드가 설치되므로 네트워크 설정이 단순할 것

RTSP는 초기 연결에 TCP 554를 사용하지만 실제 스트림은 RTP/RTCP 동적으로 할당되는 포트를 통해 전송됩니다. 임베디드보드가 1대라면 모르겠지만 농장마다 최소 20~30대의 카메라가 설치되는 것을 고려한다면, 네트워크 설정이 매우 복잡해질 것 같아서 배제하였습니다.
HLS는 스트림을 세그먼트로 나누고, 각 세그먼트를 인코딩하여 저장한 뒤 .m3u8 파일을 생성해서 서버에 전송해야 합니다. 이 과정은 CPU와 메모리 자원을 많이 소비하기 때문에 임베디드보드에는 적합하지 않다고 판단했습니다.
WebRTC를 사용하려면 NAT traversal 및 STUN/TURN 서버 설정을 임베디드보드에 해줘야했기 때문에 리소스 측면에서 불가능했습니다.
TCP는 연결설정, 확인 응답, 재전송 등 여러 오버헤드가 존재했기 때문에, 실시간 스트리밍보다는 파일 전송이나 보다 신뢰성이 중요한 데이터 전송에 적합한 프로토콜이라고 판단되어서 배제하였습니다.
UDP는 패킷 손실이 발생해도 재전송해줄 수 없고, 패킷의 순서를 보장하지 않기 때문에 실시간 스트리밍 작업에는 적합하지 않다고 판단했습니다.
RTMP는 HLS와 달리 세그먼트 파일 생성이 필요없이 프레임을 메모리에서 직접 전송합니다. 따라서 리소스 측면에서 매우 유리합니다. 또한 서버와 지속적인 연결을 유지해서 지연시간이 매우 짧게 설계되었습니다. 게다가 단일 포트(TCP 1935)를 사용하므로 여러대의 임베디드 보드가 동시에 스트리밍하더라도 포트 하나만 열어두면 모든 임베디드보드가 동일한 포트를 사용하여 연결할 수 있으므로 네트워크 설정이 간단했습니다.

결과적으로 세그먼트 파일 생성이 필요없어서 리소스 측면에서 유리하고, 서버와 지속적인 연결을 유지해서 지연시간이 짧고, 임베디드보드를 여러대로 확장하더라도 네트워크 설정이 단순한 RTMP로 결정하였습니다.

2.2 스트리밍 중개서버 개발

처음 임베디드보드로부터 전달받은 RTMP 스트림을 곧바로 스트리밍하고 주소를 프론트엔드 개발자분께 전달하였으나 "웹 브라우저에서 RTMP 스트림을 재생할 수 없으니 HLS 스트림으로 변환해서 전달해주세요!" 라고 요청받았습니다. 알고보니 RTMP 스트림을 웹 브라우저에서 직접 재생하기 위해 옛날에는 Flash Player라는 소프트웨어를 설치해왔지만 현재는 사용하지 않는 방법이었습니다. 그래서 요청대로 RTMP 스트림을 HLS 스트림으로 변환하고 스트리밍하는 일종의 스트리밍 중개서버를 개발하였습니다.

저는 스트리밍 중개서버를 개발하기 위해 Nginx와 Apache 두 웹 서버를 비교하였습니다.

우선 저희 상황은 농장마다 최소 20대의 카메라 24시간 스트리밍+ 1시간에 한번 AI 모델 Inference를 해야했기 때문에 동시에 매우 큰 트래픽이 예상되었습니다.

	아키텍처	OS 지원	프로토콜 지원
Nginx	하나의 스레드에서 여러 요청을 비동기로 처리하는 구조이기 때문에 적은 리소스로 많은 트레픽 처리하는데 유리함	- 거의 모든 Unix 계열 OS 지원 - Windows는 부분적으로 지원	RTMP 및 HLS를 내장 모듈로 지원
Apache	하나의 스레드에서 하나의 요청을 처리하는 구조이기 때문에 많은 트래픽 처리하는데 상대적으로 불리함	- Linux 및 BSD를 포함한 모든 Unix 계열 OS 지원 - Windows 모두 지원	RTMP 및 HLS를 지원하지 않아서 서드파티 모듈이나 별도의 서버 소프트웨어 필요

아키텍처 측면에서 비교하면, 요청이 들어올 때마다 새로운 프로세스/스레드를 생성하는 Apache는 하나의 스레드에서 여러 요청을 비동기 처리하는 Nginx보다 메모리와 CPU를 많이 소비합니다. 따라서 저희 상황과 같이 많은 카메라가 동시에 연결되면, Apache의 경우 많은 리소스가 필요하고 성능저하가 예상되었습니다.
OS 지원 측면에서 비교하면, 리눅스(ubuntu)에서 개발하기 때문에 둘 다 상관없었습니다.
프로토콜 지원 측면에서 비교하면, RTMP와 HLS를 내장 모듈로 간단하게 지원하는 Nginx가 더 적합했습니다.

위와 같은 총 3가지 이유로 Nginx로 스트리밍 중개서버를 개발하기로 결정하였습니다.

개발 과정

Nginx 및 nginx-rtmp-module 설치

sudo apt update
sudo apt install -y nginx libnginx-mod-rtmp

2. RAM 디스크 설정

일반적으로 HLS 프로토콜은 .m3u8 파일과 .ts 세크먼트 파일을 디스크에 저장해야 합니다. 아무리 주기적으로 덮어쓰도록 설정하더라도 디스크 I/O 작업에서 오버헤드가 발생할 수 밖에 없습니다. 이는 스트리밍 지연시간에 주된 원인이므로 저는 디스크에 파일을 저장하지 않고 RAM에 임시저장하도록 설정했습니다. 이렇게 하면 디스크 I/O 작업을 피할 수 있습니다!!

# RAM 디스크 생성
sudo mount -t tmpfs -o size=100M tmpfs /tmp/hls

# 자동 마운트 설정
sudo nano /etc/fstab

# /etc/fstab 파일 마지막줄에 tmpfs 항목 추가
tmpfs /mnt/ramdisk tmpfs defaults,size=100M 0 0

3. Nginx 설정파일 수정(RTMP to HLS)

worker_processes auto;
events {
    worker_connections 1024;
}

rtmp {
    server {
        listen 1935;
        chunk_size 4096;

        application live {
            live on;
            record off;

            hls on;
            hls_path /mnt/ramdisk; # RAM 디스크 경로
            hls_fragment 5s;
            hls_playlist_length 30s;
            hls_cleanup on; # 자동으로 오래된 세그먼트 삭제
        }
    }
}

http {
    server {
        listen 8080;
        server_name localhost;

        location /hls {
            types {
                application/vnd.apple.mpegurl m3u8;
                video/mp2t ts;
            }
            root /mnt/ramdisk; # RAM 디스크 경로
            add_header Cache-Control no-cache;
            add_header Access-Control-Allow-Origin *; # 모든 출처에서의 접근 허용
        }
    }
}

4. Dockerfile 작성

# Nginx와 RTMP 모듈을 포함한 Dockerfile

FROM alfg/nginx-rtmp:latest

# Nginx 설정 파일을 복사합니다
COPY nginx.conf /etc/nginx/nginx.conf

# 추가로 필요한 파일이나 디렉토리를 복사합니다 (예: SSL 인증서 등)

EXPOSE 1935 8080

CMD ["nginx", "-g", "daemon off;"]

3. 일정시간(1시간)마다 클라우드 서버로 이미지 전송 기능

아래와 같이 클라우드 서버로 이미지를 전송할 때, 고려해볼만한 다양한 프로토콜이 존재했습니다.

FTP
SFTP
HTTP
HTTPS
SCP
rsync

저는 전송받은 이미지를 디렉토리 형태로 관리해야했기 때문에 HTTP 방식을 배제하였고,

파일 수신에 실패할 경우 재전송 요청이 필요했기 때문에 SCP 방식을 배제하였으며,
로컬에 이미지를 따로 저장하지 않고 클라우드 서버에만 저장할 예정이므로 rsync 방식을 배제하였습니다.

또한 전송하는 이미지가 가축을 촬영한 이미지였기 때문에 따로 데이터 암호화의 필요성을 느끼지 못해서 SFTP방식을 배제했습니다.

결론적으로 전송받은 이미지를 디렉토리 형태로 관리할 수 있고, 재전송 요청이 가능하며, 암호화 과정이 필요없는 FTP 방식을 선택하였습니다.

3.1 스트리밍+이미지 캡처 전송 비동기 처리 기능

실시간으로 영상을 스트리밍하면서 일정시간마다 클라우드 서버로 이미지를 전송하는 작업은 주로 네트워크를 통해 데이터를 전송하는 작업이기 때문에 네트워크 I/O가 주요 병목 지점입니다. 물론 영상을 인코딩하는 과정에서 cpu가 어느정도 사용되지만 전체 작업에서 네트워크 I/O가 차지하는 비중이 더 크기때문에 cpu 바운드 작업이 아닌 I/O 바운드 작업입니다.

그래서 저는 Multi-threading과 Multi-processing중에 I/O 바운드 작업에서 어떤 방식이 더 유리할지 고민해봤는데요.

효율적인 자원관리: 시스템 메모리를 공유하여 자원을 절약할 수 있기 때문에 자원이 매우 한정적인 임베디드보드에 적합함
빠른 컨텍스트 전환: 스레드 간의 전환이 프로세스 간의 전환보다 빠르므로 비교적 대기시간이 적음

위와 같은 이유로 Multi-threading 방식으로 비동기 프로그래밍을 구현하였습니다.

[고려사항- 동시성 이슈처리]

Multi-threading 방식은 스레드 간 자원을 공유하기 때문에 동시성 이슈가 발생할 수 있습니다. 이러한 문제는 스레드들이 공유자원에 접근하는 것은 한번에 한 스레드만 가능하게 함으로써 간단하게 해결할 수 있습니다(한번에 한 스레드만 공유자원에 엑세스 한다면 동시성 이슈가 발생하지 않겠죠?). 공유자원에 한번에 한 스레드만 접근할 수 있도록 하는 대표적인 방법은 락(lock)입니다. 그러나 사실 파이썬은 이미 thread-safety를 위해 GIL(Global Interpreter Lock) 이라는 메커니즘을 사용하고 있는데요. 이 때문에 파이썬 인터프리터는 프로세스당 GIL 이라 불리는 Lock 을 하나 만들고, 이 Lock 을 얻은 쓰레드만 파이썬 코드를 실행할 수 있도록 설계 되어있습니다. 각 쓰레드는 GIL 을 얻은 후에 일정 시간 동안 파이썬 코드를 실행한 후 Lock 을 반납합니다.

그렇다면 이미 GIL이 있으니까 락을 사용할 필요가 없을까요? 그건 아닙니다. 왜냐하면 GIL은 네트워크 I/O 작업에서는 해제되기 때문에 이러한 작업을 진행할 때는 꼭! 추가적인 락이 필요합니다. 저는 락을 크게 두곳에서 사용했습니다.

카메라 접근 시점: 카메라에서 이미지를 읽는 작업이 다른 스레드에 의해 방해받지 않도록 락을 사용하여 원자성을 보장하였습니다.
파일전송 시점: 이미지 파일을 FTP로 전송하는 작업이 다른 스레드에 의해 중단되지 않도록 락을 사용하여 원자성을 보장하였습니다.

[고려사항- 왼쪽 오른쪽 카메라 동기화]

우리는 왼쪽,오른쪽 렌즈에서 촬영한 2D 이미지를 바탕으로 삼각측량법을 사용하여 3D Depth Map을 재구성합니다. 이때 정말 중요한 포인트가 왼쪽 렌즈 촬영시점과 오른쪽 카메라 촬영시점이 정확히 동기화 되어야한다는 점입니다.

(만약 왼쪽 오른쪽 촬영시점이 동기화 되지 않으면 3D로 재구성 시 정말 엉뚱한 Depth값을 얻게 됩니다 ㅠㅠ)
이를 구현하기 위해 저는 openCV grab(), retrieve() 매서드를 사용하였습니다.

카메라로부터 frame을 가져오는 시점과 frame 데이터를 디코딩하는 시점을 분리해주는 역할을 하는데요.

grab() 매서드로 카메라 스트림에서 프레임을 읽고 buffer에 저장
: frame을 실제로 처리하거나 디코딩하는 데 필요한 시간을 절약
retrieve() 매서드: grab() 매서드로 가져온 프레임을 디코딩하고 실제 프레임 데이터를 반환

이렇게 grab() 매서드로 왼쪽,오른쪽 카메라 frame을 buffer에 저장하고 디코딩은 이후에 retrieve() 매서드를 이용하여 진행하면 두 프레임의 시간 차이를 최소화할 수 있습니다.

The primary use of the function is in multi-camera environments, especially when the cameras do not have hardware synchronization. That is, you call VideoCapture::grab() for each camera and after that call the slower method VideoCapture::retrieve() to decode and get frame from each camera. This way the overhead on demosaicing or motion jpeg decompression etc. is eliminated and the retrieved frames from different cameras will be closer in time. Also, when a connected camera is multi-head (for example, a stereo camera or a Kinect device), the correct way of retrieving data from it is to call VideoCapture::grab() first and then call VideoCapture::retrieve() one or more times with different values of the channel parameter.

reference: openCV docs grab() method

[고려사항- 왼쪽 오른쪽 카메라 해상도 조절]

Nova-vision 3D 카메라는 스테레오(왼쪽,오른쪽 2개 렌즈)카메라를 사용하고 있습니다.

실시간 스트리밍은 카메라 왼쪽 렌즈에서 640x480 해상도로 영상을 전송하고,

이미지 캡처는 카메라 왼쪽,오른쪽 렌즈에서 1920x1080 해상도로 영상을 전송합니다.

이는 ffmpeg video_size() 속성과 openCV VideoCapture 객체의 cv2.CAP_PROP_FRAME_WIDTH와 cv2.CAP_PROP_FRAME_HEIGHT 속성으로 간단하게 구현하였습니다.

(이렇게 하면 카메라 왼쪽 렌즈에서 640x480해상도로 스트리밍하다가 이미지 캡처시에만 카메라 왼쪽,오른쪽 렌즈에서 1920x1080 해상도로 캡처 및 전송할 수 있습니다!)

Depth Estimation S/W 개발

스테레오방식 3D Depth 카메라의 내부동작 코드 개발의 목표는 왼쪽,오른쪽 렌즈에서 촬영한 2장의 이미지만으로 각 픽셀까지의 실제 거리 정보를 획득하는것 입니다.

[Final goal]

스테레오 카메라를 이용하여 촬영된 2장의 이미지로 실제 거리 정보를 획득하는 방법은 다음과 같이 진행됩니다.

1. 카메라 캘리브레이션

2. 이미지 Rectification

3. Disparity Map 생성

4. Depth Estimation

5. Point cloud 생성

1. 카메라 Calibration

카메라 캘리브레이션 과정은 스테레오 카메라 캘리브레이션을 기준으로 설명합니다

1.1 Camera Calibration이란?

영상 왜곡보정에 사용되는 카메라의 내부 파라미터를 계산하는 과정을 말하며, 이중 Stereo camera calibration 과정은 카메라의 내부 파라미터뿐만 아니라 Image rectification 과정에 사용되는 카메라 외부 파라미터까지 계산하는 과정을 뜻합니다.

Intrinsic parameter(내부파라메터)

Focal length(fx, fy) - 초점거리
Principal point(cx, cy) - 광학중심
Distortion(K1, K2, P1, P2, K3) - 일반켈리브레이션에 적합,
Distortion_Ext(K1, K2, P1, P2, K3, K4, K5, K6) - 광각이나 일반켈이브레이션보다 정밀도를 원하는 경우에 적합
Distortion_Fisheye(K1, K2, K3, K4) - 초광각의 경우에 적합

Extrinsic parameter(외부파라메터)

Rotation matrix(R) - 두 카메라간의 회전 매트릭스
Translation matrix(T) - 두 카메라간의 변환 매트릭스

1.2 Camera calibration 방법

Step 1. 캘리브레이션 데이터셋(스테레오 카메라의 왼쪽 오른쪽 렌즈에서 체스보드판을 촬영한 이미지) 준비

: 데이터셋은 정확한 카메라 파라미터 도출을 위해 다음과 같은 조건을 만족해야합니다.

카메라는 고정되있는 상태에서 체크보드판을 다양한 거리, 상하좌우 각도, 회전 각도에서 촬영
각 카메라 당 50장 이상의 이미지 촬영(본인은 각 75장 사용)
햇빛이나 형광등에 의한 흰색 빛번짐이 없는 환경에서 촬영(야간에 실내에서 하는 것을 추천)

Step 2. 개별 카메라 캘리브레이션(opencv library)

: 카메라 캘리브레이션 과정은 일반적으로 이미 사이즈를 알고있는 chess board의 샘플이미지를 입력받습니다.

예를들어 10x7 grid, 18mm 정사각형 크기 체스보드판을 이용하여 캘리브레이션을 진행한다면, 체스보드판 내 정사각형 코너의 3차원 월드좌표와 2차원 픽셀좌표만 알아내면 캘리브레이션을 진행할 수 있습니다. 이때, 우리는 이미 체스보드의 3차원 월드좌표를 알고있습니다. 그러면 2차원 픽셀좌표만 알아내면 되는데 이는 opencv findChessboard() 함수를 이용하여 입력받은 샘플이미지에서 직접 찾을 수 있습니다! opencv calibration code를 기반으로 순서대로 설명하겠습니다.

캘리브레이션 데이터셋 불러오기

for i in tqdm(range(0,75)):
	imgL = cv2.imread(pathL+f"left_{i}.png")
	imgR = cv2.imread(pathR+f"right_{i}.png")
	imgL_gray = cv2.imread(pathL+f"left_{i}.png",0)
	imgR_gray = cv2.imread(pathR+f"right_{i}.png",0)

체스보드판 내 정사각형 코너의 3차원 월드좌표 정의
:체스보드판의 실제 크기는 우리가 이미 알고있기 때문에 이를 objP라는 변수에 저장합니다. objP를 출력해보면 아래와 같이 체스보드판 내 사각형 코너의 실제 3차원 좌표를 출력합니다. (원래 (0,0,0), (1,0,0) ...(9,0,0) ....(9,6,0)와 같이 단위가 없는 값이 저장되었지만 chessboard 정사각형의 실제크기를 곱해줌으로서 아래와 같이 출력됩니다).

objp[:,:2] = np.mgrid[0:10,0:7].T.reshape(-1,2) * 18 # chessboard의 정사각형 크기(mm단위) 곱해줄 것
print(objp)

촬영에 쓰인 체스보드판 크기(10x7 grid,18mm 정사각형)
objP =[[  0.   0.   0.],
[ 18.   0.   0.],
[ 36.   0.   0.],
...
[162. 108.   0.]] # 총 70개의 object Point(월드좌표계)

체스보드판 이미지 내 정사각형의 코너감지

	retR, cornersR =  cv2.findChessboardCorners(outputR,(10,7),None)
	retL, cornersL = cv2.findChessboardCorners(outputL,(10,7),None)

감지된 코너의 정확도 향상을 위한 sub pixel 수준에서 코너 재감지

    if retR and retL:
        obj_pts.append(objp)
        cornersR2 = cv2.cornerSubPix(imgR_gray,cornersR,(11,11),(-1,-1),criteria)
        cornersL2 = cv2.cornerSubPix(imgL_gray,cornersL,(11,11),(-1,-1),criteria)

findChessboard() 함수로 그려진 정사각형 코너의 2차원 픽셀좌표

코너를 감지한 결과를 출력해보면 다음과 같이 2차원 픽셀좌표를 출력합니다.

CornerR2 = [[368.      346.     ]]
[[405., 342.5    ]]
[[441.5     339.5    ]]
[[546.5     330.5    ]]

....

[[379.5 415.5 ]]

카메라 내부 파라미터 계산

# Calibrating left camera
rmsL, camera_mtxL, distL, rvecsL, tvecsL = cv2.calibrateCamera(obj_pts,img_ptsL,imgL_gray.shape[::-1],None,None)
hL,wL= imgL_gray.shape[:2]
new_mtxL, roiL= cv2.getOptimalNewCameraMatrix(mtxL,distL,(wL,hL),0,(wL,hL))
print('왼쪽 카메라 메트릭트', new_mtxL)

# Calibrating right camera
rmsR, camera_mtxR, distR, rvecsR, tvecsR = cv2.calibrateCamera(obj_pts,img_ptsR,imgR_gray.shape[::-1],None,None)
hR,wR= imgR_gray.shape[:2]
new_mtxR, roiR= cv2.getOptimalNewCameraMatrix(mtxR,distR,(wR,hR),0,(wR,hR))
print('오른쪽 카메라 메트릭트', new_mtxR)

이때, camera_mtxL, distL은 각각 왼쪽 카메라의 camera matrix, distortion coefficients를 말하며, 이를 통해 각 카메라의 내부 파라미터를 계산할 수 있습니다.

Step 3. 스테레오 카메라 캘리브레이션(opencv library)

이 과정을 통해 카메라의 외부 파라미터를 계산할 수 있습니다.

회전, 변환 매트릭스 계산

# This step is performed to transformation between the two cameras and calculate Essential and Fundamenatl matrix
rmsS, new_mtxL, distL, new_mtxR, distR, Rot, Trns, Emat, Fmat = cv2.stereoCalibrate(obj_pts,img_ptsL,img_ptsR,new_mtxL,distL,new_mtxR,distR,imgL_gray.shape[::-1],criteria_stereo,flags)

Step 4. 캘리브레이션 오차(재투영 오차) 확인

: 카메라의 캘리브레이션 오차는 Reprojection RMSE(Root Mean Square Error)라는 지표로 평가합니다. Reprojection RMSE란 투영된 3D 포인트가 주어진 2D 이미지 포인트와 몇 픽셀만큼 차이나는지를 의미하는 재투영 오류를 말합니다. 왼쪽, 오른쪽, 스테레오 캘리브레이션 각 과정에서 RMSE를 평가하며, RMSE값은 작으면 작을수록 좋지만, 0.1~1.0 픽셀 사이의 값으로 수렴하면 충분합니다. 개별 카메라의 RMSE값은 cv2.calibrateCamera 함수의 output 첫번째 인자 rmsL, rmsR이며 스테레오 카메라의 RMSE값은 cv2.stereoCalibrate 함수의 output 첫번째 인자 rmsS를 출력하면 확인하실 수 있습니다.

문제해결 1

재투영 오차 확인과정에서 개별 카메라의 RMSE값은 0.251, 0.313으로 수렴하였지만 스테레오 RMSE값이 20.31로 매우 크게 나타났습니다. 결론적으로 이는 왼쪽 이미지와 오른쪽 이미지에 표기되는 패턴의 순서가 달라서 발생하는 문제였습니다.

이렇게 되면 포인트는 서로 일치하지 않기 때문에 stereoCalibrate RMSE값이 매우 높게 나오게됩니다.

Left 이미지의 패턴은 오른쪽에서 왼쪽으로, Right 이미지의 패턴은 왼쪽에서 오른쪽으로

이를 해결하기 위해 캘리브레이션 데이터셋에서 패턴의 순서가 다른 이미지는 데이터셋에서 제외하였습니다. 그 결과 stereoCalibrate RMSE값은 0.293으로 수렴하였습니다.

reference: https://stackoverflow.com/questions/23826541/opencv-stereocalibrate-returns-high-rms-error

문제해결 2

마지막에 생성되는 point cloud의 (x,y,z)값을 확인하였을 때 실제 거리와 완전히 다른 값을 얻게되었습니다. 결론적으로 이는 카메라 캘리브레이션 단계에서 단위를 설정하지 않아서 발생한 문제였습니다. 저는 생성되는 point cloud의 단위를 실제 월드좌표계의 mm단위를 얻고자 하였습니다.

objp = np.zeros((10*7,3), np.float32)
objp[:,:2] = np.mgrid[0:10,0:7].T.reshape(-1,2) * 18 # chessboard의 정사각형 크기(mm단위) 곱해줄 것

이를 해결하기 위해 체스보드 직사각형 코너의 실제 3차원 위치를 저장하는 objp 변수에 체스보드판 직사각형의 실제 사이즈를 곱해주었습니다. 그 결과 마지막에 생성되는 point cloud (x,y,z)값을 mm단위로 얻을 수 있었습니다.

reference: https://stackoverflow.com/questions/41708833/python-opencv-stereo-calibrate-object-points

2. 이미지 Rectification

카메라 캘리브레이션 과정을 통해 얻은 내부 파라미터를 이용하여 이미지의 왜곡을 보정하고, 외부 파라미터를 이용하여 Epipolar line을 정렬하는 것을 Image rectification이라고 합니다. 이렇게 설명하면 이해가 쉽지 않을 것 같은데요. 이미지 Rectification을 이해하기 위해서는 이에앞서 Epipolar 제한조건에 대해서 알아보겠습니다.

2.1 에피폴라 제한조건(Epipolar Constraint)

기존에 우리는 왼쪽 이미지상의 한점에 대응되는 점을 찾기 위해서 오른쪽 이미지의 모든 픽셀을 뒤져야 했습니다. 제가 입력으로 사용하는 FHD(1920x1080) 이미지를 예로들면 다음과 같이 엄청난 연산이 필요합니다.

왼쪽 이미지에서 한 점을 선택
해당 점에 대응하는 점을 오른쪽 이미지에서 1920x1080번 반복하여 탐색
다시 왼쪽 이미지에서 한점을 선택하고 (2)를 반복
(이러한 반복은 1920x1080번 반복됩니다)

실시간성을 필요로하지 않는 서비스의 경우 위 연산과정을 수행하더라도 문제가 없겠지만, 실시간성을 요하는 서비스의 경우 분명히 문제가 발생할 것입니다. 그렇다면 위와 같은 반복적인 연산과정을 좀더 단순화 할 수 있는 방법이 궁금할텐데 이 방법이 바로 에피폴라 제한조건입니다. 에피폴라 제한조건을 적용하면 2D Serching 문제를 1D Searching 문제로 바꿔 연산속도를 증가시킬 수 있습니다. 이 글에서는 에피폴라 제한조건을 그림을 통해 설명해보겠습니다.

출처: https://computervision.tistory.com/4

그림과 같이 3차원 공간상에 X 라는 점이 있습니다. 이 점은 왼쪽 카메라에서는 이미지센서 O와 연결하는 선상에 놓이게 되므로 x로 투영됩니다. 왼쪽 카메라의 이미지평면 상에서 본 x라는 점은 3차원 공간 상에 위치한 X이기도 하지만 xX 선분 상에 있는 어떠한 점도 왼쪽 카메라의 이미지 평면 상에서는 x로 투영됩니다. 따라서 왼쪽 카메라 이미지 상에서 x라는 점은 3차원 공간 상에서는 xX 선분에 있는 어떠한 점도 x가 될 수 있기때문에, x에 대응되는 오른쪽 카메라 이미지평면 상에서의 후보군은 여러개의 점으로 이루어진 선분 형태로 나타납니다. 이 때 이 선분이 하나로 만나는 점이 생깁니다. 바로 왼쪽 카메라와 오른쪽 카메라의 원점(OO')을 연결한 직선이 이미지를 관통하는 점 e와 e'입니다. 이때 원점을 연결한 직선이 이미지를 관통하는 점 e를 에피폴(epipole)이라고 부르고 에피폴을 지나는 후보군 선분을 에피폴라 라인(epipolar line)이라고 합니다. 그리고 이러한 일련의 조건들을 에피폴라 제한조건이라고 합니다.

위 내용을 요약하자면 다음과 같습니다.

카메라로부터 물체까지 실제 거리를 알기위해 Disparity를 알아야 함
Disparity를 알기 위해서 블록 매칭을 해야 하는데, 매칭은 매우 큰 연산량이 필요함
왼쪽 이미지에서 한점은 3차원 공간 상에서 후보군이 한 직선으로 나타나고, 이는 오른족 카메라에서 특정한 라인으로 표시되는데 그 라인은 항상 에피폴을 지나감
이제 왼쪽 이미지상의 한점에 대응되는 점을 찾기 위해 오른쪽 이미지의 모든 픽셀을 뒤질 필요없이 에피폴 라인에 위치하는 픽셀만 뒤지면 됨
에피폴은 카메라 배치에 따라 정해지는 것이므로 카메라 캘리브레이션 과정을 통해 에피폴을 알아낼 수 있음

2.2 Image Rectification 이란?

앞선 글에서 카메라 캘리브레이션을 마쳤기 때문에 우리는 epipole의 위치를 알 수 있고, 왼쪽 이미지 한 점에 대응되는 오른쪽 이미지의 epipolar line을 알 수 있습니다. Image rectification 전 이미지를 살펴보면 아래 그림처럼 epipolar line이 사선으로 나타나는 것을 볼 수 있습니다. Epipolar line만 뒤지면 대응되는 점을 찾을 수 있다고 했지만, Epipolar line이 x축으로 평행선상에 위치하지 않기 때문에 block maching하는데 있어서 여전히 계산상으로 매우 큰 cost가 발생합니다.

이 문제를 단순화하기 위해 epipolar line이 평행하도록 이미지를 변환하는 과정을 Image rectification이라고 합니다. 위 이미지에서 카메라 캘리브레이션 파라미터를 이용하여 rectification한 결과는 아래 그림과 같습니다.

이렇게 epipolar line이 평행선상에 위치하게되면, 왼쪽 이미지의 한점은 오른쪽 이미지에서 평행한 line에 위치한 한줄만 검색하면 되기때문에 계산상으로 매우 큰 이득이 생깁니다. 또한, block maching 정확도 측면에서도 이점이 발생하는데 아래는 실제 rectification을 적용하기 전과 후 disparity map 생성 정확도를 비교한 그림입니다.

위와 같이 Image rectification을 하고 안하고 disparity map의 정확도 차이는 분명하기 때문에 stereo camera를 구성할 때 rectification 과정은 필수입니다.

2.3 Image rectification process

Image rectification 과정은 아래 그림과 같이 진행됩니다.

a. 원본 이미지 입력

b. 캘리브레이션 파라미터를 이용한 이미지 왜곡보정

c. 캘리브레이션 파라미터를 이용하여 epipolar line이 평행하도록 이미지 변환

d. 변환과정에서 0(검은색)으로 패딩된 픽셀영역을 제외하고 유효한 픽셀영역만을 crop

앞선 글에서 스테레오 캘리브레이션 작업까지 완료되었다는 가정하에 code로 설명드리겠습니다.

사실 코드상에서는 b,c과정이 동시에 진행됩니다.

보정된 스테레오 카메라의 각 렌즈에 대한 정류변환 계산

# Once we know the transformation between the two cameras we can perform stereo rectification
rectify_scale= 0.0 # if 0 image croped, if 1 image not croped
rect_l, rect_r, proj_mat_l, proj_mat_r, Q, roiL, roiR= cv2.stereoRectify(new_mtxL, distL, new_mtxR, distR,
									  imgL_gray.shape[::-1], Rot, Trns, alpha=rectify_scale)

왜곡보정 및 정류변환 맵 계산

# Use the rotation matrixes for stereo rectification and camera intrinsics for undistorting the image
# Compute the rectification map (mapping between the original image pixels and
# their transformed values after applying rectification and undistortion) for left and right camera frames

Left_Stereo_Map= cv2.initUndistortRectifyMap(new_mtxL, distL, rect_l, proj_mat_l,imgL_gray.shape[::-1], cv2.CV_16SC2
Right_Stereo_Map= cv2.initUndistortRectifyMap(new_mtxR, distR, rect_r, proj_mat_r,imgR_gray.shape[::-1], cv2.CV_16SC2)

왜곡보정 및 정류(rectification)

Left_Stereo_Map_x = Left_Stereo_Map[0]
Left_Stereo_Map_y = Left_Stereo_Map[1]
Right_Stereo_Map_x = Right_Stereo_Map[0]
Right_Stereo_Map_y = Right_Stereo_Map[1]

Left_nice= cv2.remap(imgL_gray,
					Left_Stereo_Map_x,
					Left_Stereo_Map_y,
					cv2.INTER_LANCZOS4,
					cv2.BORDER_CONSTANT,
					0)

# Applying stereo image rectification on the right image
Right_nice= cv2.remap(imgR_gray,
					Right_Stereo_Map_x,
					Right_Stereo_Map_y,
					cv2.INTER_LANCZOS4,
					cv2.BORDER_CONSTANT,
					0)

이렇게 되면 아래 그림과 같이 원본이미지를 왜곡보정하고 정류한 이미지를 얻을 수 있습니다.

[문제해결]

왜곡보정 및 정류 과정을 통해 얻게되는 왜곡보정된 이미지는 위 그림의 초록색 box로 표시된 영역이었으나, 실제로 얻어진 이미지는 검정색 dead pixel이 포함된 이상한 이미지를 얻게되었습니다. 처음 저는 카메라 내부파라미터값에 문제가 있어서 왜곡보정이 잘못된줄 알고 캘리브레이션과정을 수차례 재검토하였지만 문제가 없었습니다. 결론적으로 opencv document를 살펴본 결과 아래 border mode가 BORDER_TRANSPARENT(1값 입력)인 경우 dead pixel까지 포함하여 이미지를 정류한다는 사실을 확인하였습니다. 따라서 border mode를 BORDER_CONSTANT로 변경(0값 입력)하여 문제를 해결하였습니다.

결과적으로 앞서 기대했던 정류(왜곡보정 및 ROI Crop)된 이미지를 획득할 수 있었습니다.

reference: openCV documentation remap()

3. Disparity map 계산

앞서 스테레오 블록매칭 과정에서 발생하는 계산상의 Cost를 낮추기 위한 이미지 Rectification에 대해서 알아보았습니다. 이번에는 이미지 Rectification(Distortion 및 Epipolar line 보정) 과정을 마친 2장의 이미지를 입력으로 받아 Disparity Map을 생성하고, 생성된 disparity Map을 이용하여 실제 거리를 계산하는 방법을 설명합니다.

보정을 마친 두 장의 이미지로 Depth map을 생성하는 과정은 다음과 같습니다.

1. openCV block matching algorithm을 이용하여 Disparity map(각 픽셀의 disparity value) 계산

2. 계산된 Disparity map과 카메라 파라미터를 이용하여 각 픽셀의 depth map(각 픽셀의 depth value) 계산

(이때, depth value는 카메라 원점(카메라 이미지센서 중심)으로부터 해당 물체의 위치까지 떨어진 z방향 실제거리를 뜻합니다.)

3.1 물체거리와 Disparity 사이의 관계

우리는 두장의 이미지만으로 어떻게 물체까지 거리를 알 수 있을까요? 구글에 "스테레오 카메라 원리"를 검색해보면 가장 많이 나와있는 설명은 "삼각측량법을 사용한다" 입니다. 하지만 저는 수학적인 내용은 최대한 배제하고 좀더 직관적으로 설명해보겠습니다. 우리가 구하고자 하는 Disparity(시차)는 스테레오 카메라로 촬영한 왼쪽, 오른쪽 이미지에서 두 대응 지점 사이의 픽셀거리를 말합니다.

먼저 물체가 카메라와 가까이 있을 때, 3차원상의 물체가 왼쪽 카메라의 이미지 평면상에 투영된 지점은 A이고 오른쪽 카메라의 이미지 평면상에 투영된 지점은 B라고 하겠습니다. 왼쪽 그림과 같이 물체가 가까이 있을 때, A와 B 사이의 픽셀거리는 커집니다.

반면에 물체가 카메라와 멀리 있을때, 3차원상의 물체가 왼쪽 카메라의 이미지 평면상에 투영된 지점은 A'이고 오른쪽 카메라의 이미지 평면상에 투영된 지점은 B'입니다. 오른쪽 그림과 같이 물체가 멀리 있을 때 , A'와 B' 사이의 픽셀거리는 작아집니다.

이렇게 물체가 카메라와 가까우면 Disparity value가 커지고, 물체가 카메라와 멀면 Disparity value가 작아지는 원리와 카메라의 파라미터 정보를 이용하면 우리는 카메라로부터 물체까지 떨어진 실제 거리를 계산할 수 있습니다.

3.2 Disparity map 계산

openCV에서 제공하는 block matching algorithm은 크게 2가지가 존재합니다. stereoBM 알고리즘과 stereoSGBM 알고리즘입니다. 간략하게 그려본 stereoSGBM의 동작원리는 아래 그림과 같습니다.

- stereoSGBM 알고리즘의 동작원리

1개의 픽셀을 총 256(16x16)개의 subpixel로 나눈다.
가로, 세로, 대각선 각각 2개씩 총 8개의 방향에서 왼쪽 픽셀과 매칭되는 픽셀을 찾는 block matching 과정을 거친다.(opencv stereoSGBM 함수의 HH mode 사용)
disparity value 계산 (이때, 매칭에 실패한 무효픽셀: -16, 매칭에 성공한 유효픽셀: 0~ 16 x numDisparity, 자료형: int16)
자료형 변환 및 깊이정보 계산을 위해 측정된 disparity value를 16으로 나누기(이때, 매칭에 실패한 무효픽셀: -1.0, 매칭에 성공한 유효픽셀: 0~ numDisparity, 변경된 자료형: float32)

- Block matching 알고리즘 성능 비교

stereoBM과 stereoSGBM 알고리즘을 통해 생성된 Disparity map을 살펴보면 위 그림과 같이 파라미터튜닝 전/후 stereoSGBM 알고리즘이 더 정확한 Disparity map을 생성한 것을 볼 수 있었습니다. 두대의 카메라로 촬영한 이미지를 통해 실시간으로 생성되는 Disparity map의 FPS는 stereoBM이 10.9, stereoSGBM이 3.1이었습니다. 이와같이 속도 측면에서는 stereoBM이 우수했지만, 저의 경우 실시간성을 보장하지 않아도 되었기 때문에 정확도가 더 높은 stereoSGBM 알고리즘을 선택하였습니다.

- Disparity map 후처리(filtering)

openCV StereoSGBM을 통해 생성된 Disparity map도 꽤 훌륭하지만 중간중간 검정색으로 나타난 dead pixel이 존재하였습니다. 이는 block maching 과정에서 매칭에 실패한 무효픽셀로서 정확한 거리계산을 위해 꼭 해결해야 할 문제점입니다. 저는 이러한 dead pixel 문제를 해결하기 위해 Disparity map 후처리 과정에서 주로 쓰이는 WLS filtering, Bilateral filtering을 적용해보고 confidence map을 그려 각 픽셀의 신뢰도를 분석해봤습니다.

원본 Disparity map에 WLS filter, Bilateral filter를 적용한 결과 위 그림과 같이 WLS filter가 가장 RGB 이미지와 boundary가 유사하고, dead pixel 문제도 대부분 해결된 것을 확인하였습니다. 그 다음 openCV getConfidence() 함수를 사용하여 계산된 각 픽셀의 disaprity value 신뢰도를 계산하였습니다. 신뢰도는 0~255 범위의 1채널 CV32F 자료형으로 나타나는데, 간단하게 설명하면 어두운 부분이 신뢰도가 낮은픽셀, 밝은 부분이 신뢰도가 높은 픽셀이라고 생각하면 됩니다. 결과적으로 대부분의 영역에서 높은 신뢰도로 Disparity가 계산된 것을 확인하였습니다.

4. Depth map 계산

후처리까지 마친 Disparity map을 이용하여 Depth map을 생성할 수 있습니다. 앞서 생성된 각 픽셀의 Disparity value는 float32 자료형의 -1~numDisparity 범위의 값입니다(이때, 유효한 픽셀값 범위는 0~numDisparity). 이 값을 이용해 Depth map을 계산하는 방법은 다음과 같습니다.

4.1 각 픽셀의 Depth 계산방법

왼쪽 카메라 렌즈 기준 각 픽셀의 disparity value를 array 형태로 변환
array에서 값이 0보다 작은(매칭에 실패한 무효픽셀) 픽셀의 disparity값을 None으로 변경
아래 공식에 의해 각 픽셀이 카메라로부터 떨어진 거리를 계산

Depth = Baseline x Focal_length_L / Disparity

Depth = 카메라 원점으로부터 해당 픽셀에 투영된 물체까지 떨어진 z방향 실제거리

Baseline = 왼쪽과 오른쪽 카메라 렌즈 중심점 사이의 거리

Focal_length_L = 왼쪽 카메라 렌즈의 초점거리

Disparity = 각 픽셀의 disparity value

4.2 Depth 정확도 측정 실험

앞서 설명한 방법대로 개발한 코드의 거리측정 정확도를 실험을 통해 분석해보았습니다.

실험을 통해 측정된 카메라로부터 박스까지의 거리는 위 그림과 같이 1m 까지는 5% 범위의 오차율을 보였지만 1m가 넘어가면서 꽤 큰 측정오차를 보였습니다.

4.3 RGB, Depth frame 1:1 정렬

최종 목표인 RGB 이미지에서 segmentation된 특정 픽셀까지의 z축 거리를 계산하기 위해서는 RGB frame과 Depth frame이 1:1 정렬되어야 했습니다. 그래서 저는 아래 그림과 같이 왼쪽 카메라 센서에서 촬영된 RGB 이미지에서 numDisparity값만큼 픽셀을 Crop하여 RGB frame과 Depth frame을 1:1 mapping시켰습니다. 이를 통해 RGB 이미지에서 segmentation된 특정 픽셀들까지의 실제 Z축 거리를 계산할 수 있었습니다.

5. Point Cloud 생성

앞서 측정한 Depth 정확도 결과를 정성적으로 확인하고자 Depth 정보와 Camera Matrix(초점거리, 주점 등)를 이용하여 3D point cloud 형태의 데이터를 생성하였습니다.

Depth 정보와 Camera Matrix로 3D point cloud를 생성하는 공식은 다음과 같습니다.

Z = depth value of the pixel (u,v) from the depth map
X = (( u - c_x) * Z) / (f_x)
Y = (( v - c_y) * Z) / (f_y)

u: 2D 픽셀좌표계에서 x방향 픽셀좌표

v: 2D 픽셀좌표계에서 y방향 픽셀좌표

f_x: x방향 초점거리(픽셀단위)

f_y: y방향 초점거리(픽셀단위)

c_x: x방향 주점

c_y: y방향 주점

Nova Vision 카메라로 생성된 3D point cloud 데이터 예시

위 공식에 의해 재구성된 3D point cloud입니다. 전통적인 삼각측량 방식으로도 꽤 깔끔한 3D point cloud 데이터를 생성할 수 있었습니다.

5.1 Future work

논문 및 구글링을 통해 찾아본 결과, 스테레오 방식 Depth Estimation 기술의 정확도 개선을 위해 실험해볼 수 있는 몇가지 방법이 있었습니다.

Raw data 입력: 일반적으로 카메라로 촬영되어 저장되는 이미지 file은 jpg(손실압축), png(무손실 압축) 방법 등이 있지만 카메라 capture 단계에서 Raw data format(YUV2)으로 저장하면 이미지 인코딩 과정에서 왜곡되는 RGB값 문제를 해결하여 더 정확한 거리측정이 가능하다는 글을 보았습니다. 앞으로 기능 구현 및 실험 예정입니다.
컬러/흑백 이미지 입력: 앞서 Disparity map 생성과정에서 입력되는 이미지를 컬러로 입력했을때보다 흑백으로 입력했을때 더 정확한 Disparity map이 생성되었습니다. stackoverflow에서 찾아본 결과 컬러 이미지는 block maching과정에서 3개 채널(RGB)에서 각각 block maching을 진행한 뒤 이를 평균내어 Disparity map을 생성하고, 흑백 이미지는 1개 채널에서 block maching을 진행하기 때문에 상황에 따라 컬러/흑백으로 만들어진 Disparity map의 결과가 달라질 수 있다고 확인하였습니다. 따라서 위 두가지 경우중에 어떤 방식이 우리 카메라에 더 적합할 지 실험을 통해 비교해볼 예정입니다.
Deep-Learning 측정방식: 딥러닝 방식으로 각각의 카메라로 촬영된 여러 이미지를 학습하고 이를 바탕으로 Depth map을 생성하는 방식이 최근 많이 사용되는 것을 확인하였습니다. 기존에 사용하던 stereolabs ZED2i camera 역시 neural depth mode라는 기능을 제공하는데 전통적인 방식보다 매우 정확한 측정결과를 제공하였기 때문에 이를 직접 기능구현 해보고 실험을 통해 전통적인 방식과 비교해볼 예정입니다.

3D 카메라 H/W 개발 - 임베디드보드

1. 필요기능 정의

: 초기 기획한 임베디드보드에 필요한 기능은 다음과 같습니다.

- 카메라 연결 : 카메라와 보드가 연결되는 방식은 USB 2.0 혹은 FFC 케이블 방식 둘중 하나를 지원 필요

- 촬영 데이터 송신: 일정시간마다 촬영된 데이터를 보드에서 중앙서버로 FTP or SFTP 방식으로 송신해야 하므로 이를 위한 칩셋 필요

- 네트워크 연결: 네트워크는 농장 상황에 따라 달라지므로 이더넷 연결방식과 Wifi 방식 모두를 지원 필요

- 장치 동작상태 알림: 장치 동작상태를 외부에서 확인할 수 있도록 보드에 LED 모듈 탑재 필요

- 카메라 제어: FTP 방식으로 카메라의 해상도, 밝기, 명도 등 카메라를 외부에서 제어할 수 있는 기능 필요

2. 카메라 센서 테스트 및 성능평가

제가 카메라 모듈을 선정할 때 고려한 사항은 다음과 같습니다.

카메라 해상도: stereo depth estimation 방식은 좌우 카메라에서 촬영한 이미지를 block matching 알고리즘을 통해 disparity를 계산하고 이를 통해 해당 픽셀까지의 실제 거리를 계산합니다. 이러한 방식은 해상도가 높을수록 더 정확한 block matching이 가능하기 때문에 가능한 높은 해상도를 지원해야 했습니다. 이때 최대 2K 이상의 해상도를 지원하는 칩셋은 대부분 Aplication Processor(라즈베리파이 등 고성능 칩셋)에 속했고, 최대 FHD급의 해상도를 지원하는 칩셋은 Micro Processor unit에 속했습니다. 이번 프로젝트의 목표는 카메라 및 임베디드보드의 생산단가가 10만원이라는 제한조건이 있었기 때문에 MCU를 선택하였고, 결과적으로 카메라 해상도를 FHD(1920x1080)로 결정하였습니다.
칩셋 호환성: 초기에 업체측에서 제안해주신 칩셋은 JENO 사의 "ESP 32"라는 칩셋이었습니다. 하지만 해당 칩셋이 지원하는 최대 해상도는 1600x1200 이어서 구글링을 통해 OO사의 "OO" 이라는 MCU 칩셋이 최대 FHD 해상도를 지원하여 해당 칩셋을 선택하게 되었습니다.
카메라 화각(Field of View): 한대의 카메라로 가능한 넓은 범위의 농장을 촬영해야 했기 때문에 화각이 넓은 카메라 모듈이 필요했습니다. 단순히 광각렌즈로 화각을 넓힌 카메라 모듈이 아닌 왜곡되지 않는 선에서 가능한 화각이 넓은 카메라 렌즈를 탑재한 카메라 모듈을 찾아보았습니다.

위 첨부한 다양한 카메라 모듈과 기존 보유하고 있던 카메라 모듈을 테스트해본 결과 화각 95도를 갖는 카메라 모듈이 왜곡이 발생하지 않는 선에서 가장 큰 화각을 보유한 카메라였습니다.

카메라 선명도: 카메라의 선명도는 이미지 센서의 성능에 의해 결정됩니다. 예를들어 동일한 해상도를 지원하는 카메라라고 하더라도 이미지 센서의 성능에 따라 아래 그림과 같이 선명도의 차이가 발생합니다. 예산과 이미지 센서의 성능을 고려하여 적당한 카메라 모듈을 선택하였습니다.

4. 임베디드 보드 설계

개발될 스테레오 카메라는 다양한 농장 천장에 설치되기 때문에 낮게는 3m 높게는 7m 농장 천장에 설치됩니다. 이에따라 최소 0.4m~최대 10m 범위 내에서 카메라가 동작하도록 설계를 진행하였습니다.

위 공식은 수학적으로 스테레오 카메라의 측정 범위를 계산하는 방법입니다. 스테레오 카메라의 깊이측정 범위는 카메라 렌즈 사이 거리, 카메라 화각, 카메라 해상도 3가지에 의해 결정됩니다. 예를들어 저희와 같이 1920x1080 해상도에 카메라 가로방향 해상도가 82.7996도일 때 0.4m의 최소 동작범위를 설정하기 위해서는 카메라 렌즈 사이 거리가 80mm가 필요합니다. 이에따라 임베디드보드에 탑재될 두 개의 카메라 렌즈 사이의 거리는 80mm로 결정하였습니다.

Issue 1 - 네트워크 연결문제

: 초기 테스트용(설계 변경 전) 샘플보드를 받아보고 천안에 위치한 협업농가에 설치 및 테스트를 진행하였습니다.

테스트 과정에서 공유기와 거리가 먼 몇몇 카메라에서 네트워크 연결 문제가 발생하였는데 결론적으로 wifi 모듈이 최대 20m 거리까지 연결될 것으로 예상하였으나 농장 천장에 설치된 철제 H빔이 wifi 신호를 차단한다는 사실을 알게되었습니다.

단지 해당 농가만 문제가 된다면 이더넷 연결로 대체하면 되겠지만, 지금까지 방문해본 5개의 농가 천장은 위 사진과 같이 대부분 H빔(철제 구조물)이 천장을 받치는 구조로 되어있었습니다. 따라서 임베디드보드에서 wifi 기능없이 이더넷 연결방식만으로 네트워크를 지원하도록 설계를 변경하였습니다.

Issue 2 - 전원 연결문제

농장 내부에 카메라를 설치하고 개별 카메라마다 전원, 이더넷 2개의 케이블이 필요로해서 생각보다 설치과정이 번거로웠습니다.

이에대한 해결책으로 POE 방식을 통해 하나의 랜 케이블로 전원, 네트워크 둘다 커버할 수 있도록 하고자 하였습니다.

임베디드보드 개발업체와 미팅한 결과 카메라 및 칩셋의 동작을 위해 5V 가량의 전압이 필요하다고 하였고 POE 방식으로 전원을 공급할 수 있다고 확인받아 위 방식대로 설계를 변경하기로 결정했습니다.

3D 카메라 H/W 개발 - 제품 하우징

제품 하우징 설계 및 샘플 제작을 위해 다음과 같은 순서로 작업을 진행하였습니다.

1. 필요기능 정의

초기 기획한 하우징에 필요한 기능은 다음과 같습니다.

케이블 배선: 임베디드보드에 필요한 전원 케이블, 이더넷 케이블 2개 port 필요
방진 및 방수 설계: 개발될 하우징은 축산농장과 같이 분진 및 습기가 매우 많은 환경에서 사용해야 하므로 IP55(분진 및 분사되는 물로부터 보호) 등급을 충족해야 함
카메라 마운트: 카메라는 바닥을 바라보는 방향으로 설치되므로 하우징 후면부가 천장과 마운트될 수 있도록 마운트 홀 위치 고려해야 함
디자인: 디자인적인 요소를 고려해야함(레퍼런스 제공예정)
카메라 전면부 설계: 카메라 전면부는 유리나 투명한 플라스틱 재질로 제작하고 카메라 렌즈 위치를 제외한 나머지 부분은 불투명 필름처리 해야함

2. 하우징 개발 업체선정

: 제품 하우징 개발을 위해 업체 선정을 진행하였습니다. 업체 선정은 크몽이라는 아웃소싱 플랫폼을 통해 진행하였고 3개업체 미팅 후 최종적으로 "OO" 이라는 업체를 선정하였습니다. 해당업체를 선택한 이유는 업체가 중국에 위치해있어서 현지 협력업체를 통해 샘플 가공을 저렴하게 진행할 수 있었고, 해외박람회 출품 경험을 다수 보유하고 있었습니다.

3. 디자인 레퍼런스 제공

: 하우징 제작을 시작할 당시 아직 임베디드보드 설계를 끝마치지 못한 상황이었습니다. 그러나 일정 때문에 임베디드보드 설계가 끝날때까지 기다릴 수 없었기 때문에 우선적으로 임베디드보드 제작을 위한 최소한의 보드 사이즈를 정한 뒤 이에 맞춰 하우징 디자인부터 진행하였습니다. 저희가 원한 디자인의 키워드는 다음과 같았습니다.

compact: 기존 산업용 카메라들처럼 거대하고 돔형이나 박스같이 투박한 모양보다는 최대한 작고 단순한 디자인을 원했습니다. 디자이너님께 원하는 느낌을 설명하기 위해 애플의 아이맥 제품을 레퍼런스로 설명드렸습니다.
fancy: AI 기술이 접목된 첨단 카메라라는 것을 보여주고 싶었습니다. 그래서 제품이 조금 무겁더라도 알류미늄과 같은 재질에 검정색 도장을 입힌 우주선에 쓰일 것 같은 재질을 원했습니다. 디자이너님께 원하는 느낌을 설명하기 위해 Intel realsense D455, stereolabs ZED X 제품을 레퍼런스로 설명드렸습니다.

4. 디자인 시안 확인 및 피드백 전달

2023년 6월 12일 디자이너님으로부터 디자인 시안 2개를 전달받았습니다. A안은 Intel realsense 제품의 라운드한 디자인을 오마주하였고 B안은 차량 블랙박스에서 인사이트를 얻어서 디자인해보았다고 하였습니다.

디자인 시안

피드백

: 교수님과 회의를 통해 디자이너님이 보내주신 시안중 A안으로 결정하였습니다. 추가적으로 기능적인 측면에서 수정사항이 있어 디자이너님께 정리하여 전달드렸습니다.

카메라 마운트: 카메라 마운트 홀은 1/4인치 홀 규격을 따르며 하우징 뒷면 정가운데 or 아랫면 정가운데 위치해야함

케이블 배선1: 전원 및 이더넷 케이블은 제품과 일체형이 아닌 외부에서 탈부착이 가능해야 함.

케이블 배선2: 전원 및 이더넷 케이블은 양쪽 사이드에 각각 위치한 방식이 아닌 한곳에 붙어있어야 함

5. 제품 설계

: 2023년 6월 26일 기준 임베디드보드 설계가 완료되어 보드 설계도를 기반으로 제품 설계를 진행하였습니다.

하우징 재료 선정: 하우징은 초기 알류미늄 재질에 무광블랙 도장을 진행하려고 하였으나, 알류미늄 재질의 특성상 공유기로부터 임베디드보드로 전달되는 대부분의 wifi 신호가 차단된다는 업체측 의견에 따라 방염 ABS(플라스틱) 재질에 무광블랙 도장을 진행하기로 하였습니다. 또한 실제 축산농가에서는 가축이 출하된 뒤, 매우 강력한 고압수로 농장 전체를 청소하기 때문에 파손 위험이 있는 유리보다는 투명 PC 판을 사용하기로 하였습니다.
방진 및 방수 설계: 탈부착이 가능하면서 IP55 등급의 방진 ㆍ방수 기능을 구현하기 위해 아래와 같이 모듈형 암수 케이블을 알리익스프레스에서 찾아서 선정하였습니다.

카메라 마운트: 카메라 마운트는 알리익스프레스에서 적당한 가격의 1/4인치 마운트 및 인서트 너트를 찾아서 업체측에 확인요청드렸고 설치 가능하다는 답변을 받았습니다.

6. 하우징 목업 제작

: 완성된 하우징 설계도를 토대로 업체측에서 목업제작을 진행하였습니다. 목업 제작은 약 2주정도 소요되었고 결과적으로 7월 22일경 택배로 제품 목업 20개를 받아볼 수 있었습니다.

이렇게 Nova-Vision 제품에 들어가는 3D Depth Camera S/W, H/W를 개발하였습니다.

다음글은 AI 가축 체중측정 알고리즘 개발과정입니다.