End-to-End Аутономна Навигација
Возила
Приступ дубоког учења коришћењем конволуционих неуронских
мрежа
Студент: Огњен Јовановић СИ 82/23
Ментор: Проф. др Драган Солаша
Универзитет Привредна Академија у Новом Саду
Факултет за економију и инжењерски менаџмент

Јануар 2026.

Преглед презентације
01

Увод и мотивација

02

Хардверска архитектура

03

Софтверска архитектура

04

CNN модел и тренинг

05

Имплементација

06

Резултати и закључак

Циљеви истраживања

Компоненте система

Серверски и клијентски слој

Behavioral cloning приступ

Детаљи развоја система

Евалуација и будући рад

Мотивација и дефиниција проблема
Мотивација
•
•
•
•

Истраживачка питања

Комерцијални системи рачунарски
интензивни
Финансијски недоступни за образовне
институције
Потреба за јефтиним експерименталним
платформама
Edge AI омогућава перцепцију у реалном
времену

•
•
•

Да ли behavioral cloning може ефикасно
научити управљање?
Како оптимизовати CNN за уградбени
хардвер?
Компромиси: комплексност vs латенција?

Циљеви пројекта
1. Дизајн функционалне платформе

2. End-to-end CNN framework

3. Интеграција ултразвучних сензора

4. Оптимизација за Raspberry Pi

5. Мобилна контролна апликација

6. Евалуација у реалним условима

Архитектура система - преглед
1
Прикупљање
података

2
→

3
→

Тренинг
модела

Оптимизација
модела

4
→

5

Примена на
Raspberry Pi

→

Безбедносни
слој

Кључне компоненте система
Уградбена платформа

•
•
•
•
•

Raspberry Pi 4 (4GB RAM)
Camera Module 3
L298N Motor Driver
4× HC-SR04 сензори
LiPo батеријски пакет

Pipeline за тренинг

•
•
•
•
•

PyTorch framework
NVIDIA GPU акцелерација
Albumentations аугментација
TorchScript експорт
Динамичка квантизација

Мобилна апликација

•
•
•
•
•

Flutter framework
Dual joystick контрола
MJPEG video stream
Sensor HUD
Аутономни/ручни режим

Хардверска архитектура
Raspberry Pi 4 Model B

Сензорски подсистем

•
•
•
•

•
•
•
•

Quad-core ARM Cortex-A72 @ 1.5 GHz
4 GB LPDDR4 RAM
CSI Camera Interface
802.11ac WiFi + Bluetooth 5.0

Camera Module 3 (Sony IMX708)
640×480 за streaming, 224×224 за CNN
4× HC-SR04 ултразвучни сензори
Домет: 2-400 cm

Актуаторски систем

Систем напајања

•
•
•
•

•
•
•
•

L298N dual H-bridge motor driver
4× DC мотора
PWM контрола брзине
Диференцијално управљање

LiPo 2S2P (7.4V, 6800mAh)
XL4015: 7.4V → 5.15V (Pi)
LC1807: 7.4V → 12V (мотори)
Аутономија: 1-2 сата

Диференцијално управљање: Left Speed = throttle × (1 - steering), Right Speed = throttle × (1 +
steering)

Софтверска архитектура
Уградбени контролни слој

•
•
•
•

PWM контрола мотора
Аквизиција сензора
Watchdog надзор
Контролна петља ~20 Hz

Слој перцепције/инференције

•
•
•
•

Обрада camera frameова
TorchScript модел
Предикција управљања
Синхрона инференција

Безбедносни слој

•
•
•
•

Детекција препрека
Хитно кочење
Маневри опоравка
Timeout детекција

Комуникациони слој

•
•
•
•

Port 5005: Control (TCP)
Port 5006: Telemetry
Port 8080: MJPEG
JSON формат порука

Вишенитна архитектура сервера (drive_server.py)
Control Socket Thread

Telemetry Socket Thread

MJPEG Stream Thread

Main Control Loop

5005

5006

8080

~20Hz

Пријем команди

Слање статуса

Video streaming

Инференција + контрола

CNN архитектура модела
Инспирисано NVIDIA PilotNet архитектуром (Bojarski et al., 2016)
Конволуциона екстракција карактеристика
Conv1

→

3→24, 5×5, s=2

Conv2

Conv3

→

24→36, 5×5, s=2

→

36→48, 5×5, s=2

Conv4

→

48→64, 5×5, s=2

Conv5
64→64, 3×3, s=1

Потпуно повезана регресија
Flatten
28224

→

FC1
→100 + Dropout(0.5)

→

FC2
→50 + Dropout(0.5)

→

Output
→2 (steer, throttle)

Улаз: 224×224×3 RGB слика | Активација: ReLU | Излаз: [steering, throttle] | Параметри: ~850K

Behavioral Cloning и тренинг
Behavioral Cloning

Скуп података

•
•
•
•
•

•
•
•
•
•

Учење политике из експертских демонстрација
Надгледано учење (supervised learning)
Директно мапирање: слика → команде
Без потребе за симулатором или RL
Изазови: distribution shift, error accumulation

20,118 лабелираних узорака
Подела: 80% тренинг, 20% валидација
Обрасци: осмице, ходници, кривине
Филтрирање стационарних frame-ова
Прикупљање: ~20 Hz синхронизација

Конфигурација тренинга
Губитак:

Optimizer:

Batch size:

MSE Loss

Adam (lr=1e-4)

64

LR Scheduler:

Early Stopping:

Max epochs:

ReduceLROnPlateau

patience=7

100

Аугментација података
Albumentations библиотека - примењује се само током тренинга
Brightness/Contrast

Hue/Saturation/Value

Gaussian Noise

Horizontal Flip

±20% варијација

H±10, S±20, V±20

Додавање шума

Хоризонтално окретање

p=0.5

p=0.3

p=0.2

p=0.5

Стратегије регуларизације
Dropout (p=0.5) у потпуно повезаним слојевима • Аугментација података током тренинга • Early stopping на
основу губитка валидације

Pipeline препроцесирања
Resize 224×224

→

BGR → RGB

→

Normalize [0,1]

→

ImageNet Standardization

Оптимизација модела за уградбену
примену
Динамичка квантизација

TorchScript компилација

•
•
•
•
•

•
•
•
•
•

Post-training квантизација линеарних слојева
FP32 → INT8 конверзија
Смањење меморијског отиска
Убрзање: ~1.2x
Занемарљива деградација тачности

Tracing-базирана компилација
Уклањање Python interpreter overhead-а
Ефикасно уградбено извршење
Серијализација у .pt формат
Величина модела: ~3.3 MB

Поређење перформанси
Метрика

FP32 модел

INT8 квантизовани

Побољшање

Латенција инференције

45-55 ms

35-45 ms

~1.2x брже

Frame rate

~18-22 Hz

~22-28 Hz

↑ ~25%

Тачност (MSE)

~0.015

~0.016

~занемарљиво

Безбедносни систем
Кључни безбедносни механизми
Watchdog тајмер

Детекција препрека

Ограничење брзине

Грациозна деградација

500ms timeout без команди →
STOP

Ултразвучни сензори
независни од CNN-а

Софтверски наметнути
лимити

Сигурне транзиције при отказу

Прагови детекције препрека
Предњи сензор

Бочни сензор

Задњи сензор

< 25 cm

< 15 cm

< 30 cm

STOP + избегавање

Упозорење при скретању

Простор за вожњу уназад

Секвенца хитног избегавања
1
STOP мотора

→

2
Провера
позади

→

3
Вожња уназад

→

4
Поређење
бочних

→

5
Скретање

→

6
Наставак

Мобилна апликација
Flutter framework + Dart • Cross-platform (Android/iOS) • Јединствена база кода

Ручна контрола

•
•
•
•

Dual joystick интерфејс
Леви: управљање
Десни: гас
50ms интервал слања

Video Streaming

•
•
•
•

MJPEG парсирање
640×480 резолуција
Start/End marker
детекција
Robust reconnect

Sensor HUD

•
•
•
•

Визуализација дистанци
Color-coded зоне
Зелена/Жута/Црвена
Top-view приказ

Режими рада

•
•
•
•

Manual / Collect Drive
Autonomous mode
Toggle прекидач
Instant takeover

Мрежна робусност
Аутоматско поновно повезивање са експоненцијалним backoff-ом • Баферовано JSON парсирање за телеметрију •
Stream recovery за MJPEG конекцију

Експериментални резултати
Статистика скупа података

Перформансе тренинга

Метрика

Управљање

Гас

Средња вредност

-0.048

0.903

Варијанса

0.267

0.020

Асиметрија

0.171

-1.538

MSE управљање: ~0.015
MSE гас: ~0.008
Конвергенција: 20-30 епоха

Перформансе инференције на Raspberry Pi 4
FP32 латенција

INT8 латенција

Убрзање

Frame rate

45-55 ms

35-45 ms

~1.2x

~20-25 Hz

per frame

per frame

квантизација

контролна петља

Квалитативна запажања током тестирања
✓ Глатко праћење путање • ✓ Стабилан излаз управљања • ✓ Успешна детекција препрека • ✓ Висока стопа
успешности избегавања

Ограничења и будући рад
Уочена ограничења
Случајеви неуспеха

•
•
•
•

Ограничења модела

Оштре кривине (недовољно
података)
Транзиције осветљења
Површине без текстуре
Замућење при брзом кретању

•
•
•

Нема темпоралног моделирања
Реактивна (не предиктивна)
контрола
Осетљивост на окружење

Хардверска ограничења

•
•
•

Рачунарска ограничења Pi 4
Фиксни гас због нестабилности
Монокуларна визија без дубине

Правци будућег рада
Темпорални модели

Побољшан dataset

Фузија сензора

Адаптивна брзина

Тренинг у симулацији

RNN, TCN, Transformers

DAgger, domain
randomization

IMU, одометрија, depth

Научена контрола гаса

CARLA, Gazebo

Закључак
Остварени циљеви
✓

Комплетан end-to-end pipeline од прикупљања података до примене

✓

Успешан тренинг политике управљања коришћењем behavioral cloning-a

✓

Уградбена инференција у реалном времену са динамичком квантизацијом

✓

Интеграција ултразвучних безбедносних механизама

✓

Експериментална валидација у реалним навигационим условима

Напредне способности аутономне навигације могу се постићи на јефтином, широко доступном
хардверу кроз пажљив дизајн архитектуре, модерне методологије дубоког учења и интеграцију
комплементарних сензорских модалитета.

Хвала на пажњи!
Питања?

Огњен Јовановић СИ 82/23
Факултет за економију и инжењерски менаџмент
Јануар 2026.