논문리뷰: IntentNet: Learning to Predict Intentionfrom Raw Sensor Data

수업/자율이동체시스템

논문리뷰: IntentNet: Learning to Predict Intentionfrom Raw Sensor Data

coldtruthk 2024. 6. 3. 15:06

1. Introduction

자율주행의 어려운점 : 사람이 운전하는 차와 도로를 공유하기 때문에 예측하기 힘들다.
바운딩 박스로 모션과 위치를 추출하여 이를 해결하고자 함. -> 추정치만 발생할 뿐, 최적이 아님.
최근에 FAF 는 LiDAR 센서 데이어를 궤도를 예측하는데 활용하였지만, 1초만 예측되고 그 이후는 예측되지 않음
이 논문에서는한단계 더 발전시켜 새로운 심층신경망을 제시한다. 높은 수준의 행동과 장기 궤적에 관한 것.
IntentNet: 세가지 유형의 변수를 출력하는 완전 컨볼루션 신경망
1. 차량 및 배경 클래스에 대한 감지 점수
2. 이산적 의도에 맟는 높은 수준의 action
3. 현재와 미래단계를 표현하기 위한 의도적 궤적에서의 bounding box regressions
=> 모든 task를 공동으로 최적화(distribution mismatch 문제를 해결함)
=> 다른 components들로 불확실성을 전파시킨다.
=> heavy neural network feature computation을 공유하기에 계산 효율적이다.
최첨단 탐지기를 능가하는 동시에 연속 및 이산 의도 예측 접근 방식 모두에서 이전 의도 예측 접근 방식을 능가

이전 모델들이 단기 궤적을 예측하는 것과 달리, IntentNet은 장기 궤적과 고수준 행동을 예측합니다.

요약하자면

단일 단계 감지 및 예측: IntentNet은 감지와 의도 예측을 단일 모델로 통합하여 계산 효율성을 향상시킵니다.
LiDAR 및 지도 데이터 통합: 이 모델은 3D LiDAR 포인트 클라우드와 동적 지도를 사용하여 차선 및 신호등과 같은 의미적 요소를 포함합니다.
공동 최적화: 모델은 차량 감지, 고수준 행동 확률, 미래 궤적을 공동 최적화하여 분포 불일치 문제를 해결합니다.
계산 효율성: 신경망 특징 계산을 공유함으로써 IntentNet은 실시간 자율 주행에 중요한 시간을 절약합니다.

2. Related Work

객체 감지: YOLO와 SSD 같은 단일 단계 감지기를 검토하며, 이는 RCNN과 같은 두 단계 감지기보다 계산 효율성이 높습니다.
이동 예측: 현재 및 과거 데이터를 사용하여 미래 위치를 예측하는 방법을 다룹니다.
의도 예측: 운전자의 고수준 행동을 예측하기 위한 확률 모델과 딥러닝 기술을 탐구합니다.

Figure 1: Voxelized LiDAR in BEV (Bird’s Eye View)

LiDAR데이터를 Bird's Eye View로 변환한 것
BEV는 주로 자율주행 차량에서 주변 환경을 2D평면으로 표현하는데 사용된다.
LiDAR 포인트 클라우드는 고도 정보와 거리 정보를 포함하며, 이를 객체의 3D위치를 파악할 수 있다.

Figure 2: Rasterized Map

레스토화된 동적 지도 데이터
자율주행 환경을 나타내며, 도로의 차선, 교차로, 신호등 등 다양한 정보를 포함한다.
시각화를 위해 RGB로 표시되고 있으며, 이는 각 색상이 서로 다른 요소를 나타내도록 설계됨.

=> IntentNet모델은 이 두가지 데이터를 통합하여 사용한다. LiDAR 데이터로 얻은 공간 정보를 동적 지도 데이터와 결합하여 차량 주변의 동적 상황을 보다 정확하게 예측하고 이해

3. Learning to Predict Intention

차량의 의도를 직접 예측하는 접근 방식을 제시

3.1 Input parametrization

3D point cloud

-기존의 CNN격자 구조의 입력을 가정하고 이산적인 합성곱 연산을 수행한다.

-하지만, 3D 포인트 클라우드는 격자 구조가 아니므로 BEV로 변환하여 3D텐서로 표현한다. 여기서 높이는 채널 차원으로 사용된다.

장점

계산효율성: 차원이 축소되어 계산량이 줄어든다. 차량은 지면 위를 주행하므로 높이 정보가 중요하지 않은 경우가 많다.
비중첩 타겟: 카메라 뷰와 달리 객체가 중첩되지 않는다. 이는 객체 간 간섭을 줄이고 감지 성능을 향상시킨다.
메트릭 공간 보존: 왜곡되지 않은 시야를 유지하여 차량 크기와 같은 사전정보를 쉽게 생성할 수 있다.
LiDAR 지도 데이터의 융합: 두 데이터 모두 BEV로 정의되므로 융합이 용이하다.

시간 정보 융합:

여러개를 사용하여 시간에 따라 변하는 데이터를 캡처한다.-> 과거 데이터를 사용하여 의도와 운동 예측을 정확히 할 수 있도록 한다.

기존의 3D 합성곱 대신 2D합성곱을 사용하여 시간 정보 융합 ( L, W, H, T: LiDAR 스윕 수)크기를 가지고 있는 텐서 생성

동적 맵

맵의 BEV 표현

지도 데이터는 래스터화 과정을 거쳐 BEV로 표현된다.

도로, 차선 교차로, 횡단보도 및 신호등과 같은 동적 정보가 포함된다.

지도 요소의 표현

이진 맵: 지도에서 의미론적 요소는 이진 맵으로 표현됩니다.
- 도로 및 교차로: 주행 가능한 모든 표면을 덮는 다각형으로 표현된다.
- 차선 경계: 직진, 좌회전, 우회전과 같은 정보를 구분
- 자전거 도로 및 서비스 버스 전용 차선: 비주행 가능 지역을 나타내는 이진 마스크 사용한다.
- 교통 신호등: 상태(초록, 노랑, 빨강) 에 따라 차선 표면을 구분한다.
- 교통 표지판: 양보(yield)및 정지(stop)를 나타내는 이진 마스크로 표현된다.

17개의 이진 마스크

래스터화는 벡터 데이터를 2D 픽셀 이미지로 변환하는 과정입니다.
복셀화는 3D 포인트 클라우드 데이터를 3D 격자 형태로 변환하는 과정입니다
1. 백본 네트워크: 이 네트워크는 두 가지 다른 3D 텐서를 입력으로 사용합니다 - BEV LiDAR의 보셀화된 표현과 동적 맵의 래스터화입니다. 이 네트워크는 두 개의 서로 다른 2D CNN이 각 데이터 스트림을 개별적으로 처리하고 얻은 특징 맵을 깊이(dimension) 차원을 따라 연결(concatenate)하여 퓨전 서브네트워크(fusion subnetwork)로 전달합니다. 네트워크는 과거의 풍부한 모션 정보와 장면의 기하학적 세부 정보와 교통 규칙 정보를 추출하기 위해 충분히 큰 유효 수용 영역(effective receptive field)을 가져야 합니다. 또한, 네트워크는 거친 특징과 세밀한 특징을 모두 유지하기 위해 잔여 연결(residual connections)을 활용합니다.
2. 헤더 네트워크: 헤더 네트워크는 백본 네트워크에서 공유된 특징을 입력으로 사용하는 세 가지 작업별 브랜치로 구성됩니다. 감지 브랜치는 각 특징 맵 위치의 각 앵커 상자(anchor box)에 대해 차량과 배경에 대한 두 가지 점수를 출력합니다. 의도 네트워크는 차량의 의도를 예측하는 데 사용됩니다.
이러한 구성 요소들은 IntentNet의 전체 아키텍처를 형성하며, 이를 통해 차량의 의도를 예측하는 데 필요한 다양한 정보를 효과적으로 추출하고 처리할 수 있습니다.

Figure 2a

이 그림은 예측된 요소들(경로 점, 탐지 위치, 의도 점수)이 실제 값과 얼마나 일치하는지를 시각적으로 보여주며, 이는 시스템의 정확한 모델링과 의사결정을 보장하는 데 중요합니다.

Figure 2b