Pose Prediction for Autonomous Navigation: A Comparison of Raw, Semantic, and Hybrid Segmented inputs
2025 (English)Independent thesis Basic level (degree of Bachelor), 14 HE credits
Student thesis
Abstract [en]
Accurate and reliable localization is a critical requirement for autonomous driving systems. This thesis investigates whether using segmented images instead of raw RGB inputs can improve the robustness and training stability of deep learning-based visual odometry models. Specifically, the study compares three input configurations: raw RGB images, semantic segmentation using PP-LiteSeg, and a hybrid method combining semantic maps from PP-LiteSeg with precise object boundaries from the Segment Anything Model (SAM).
The goal is to evaluate how these input types affect training dynamics using a shared visual odometry model architecture (TSformer-VO). The KITTI Odometry Dataset is used for training and validation, with all experiments conducted under controlled and consistent conditions.
Results show that while the RGB-based model achieved the lowest validation loss overall, the hybrid segmentation model produced significantly more stable and smooth training dynamics, with fewer spikes and better convergence behavior. Manual segmentation quality grading further supports the superiority of the hybrid input method over PP-LiteSeg alone. These findings suggest that integrating semantic and structural image features can improve reliability of pose prediction model training, especially in challenging or variable environments.
Abstract [sv]
Noggrann och tillförlitlig lokalisering är avgörande för autonoma körsystem. Denna uppsats undersöker huruvida användningen av segmenterade bilder istället för RGB-bilder kan förbättra robustheten och träningstabiliteten hos djupinlärningsbaserade visuella odometri-modeller. Studien jämför tre olika inmatningskonfigurationer: RGB-bilder, semanstiskt segmentering med PP-LiteSeg samt en hyrbridmetod som kombinerar semantiska kartor från PP-LiteSeg med exakta objektgränser med hjälp av Segment Anything Model (SAM).
Syftet är att utvärdera hur dessa inmatningstyper påverkar träningsdynamiken hos en gemensam modellarkitektur för visuell odometri (TSformer-VO). KITTI Odometry-dataset användes för träning och validering, med samtliga experiment utförda under kontrollerade och konsekventa förhållanden.
Resultaten visar på att modellen baserad på RGB-bilder uppnådde den lägsta valideringsförlusten, men att hybridmodellen med segmentering gav betydligt mer stabila och jämna träningsförlopp, med färre spikar och bättre konvergensbeteende. Manuell kvalitetsbedömning av segmenteringen stöder ytterligare hybridmetodens överlägsenhet jämfört med enbart PP-LiteSeg. Dessa resultat tyder på att integrering av semantiska och strukturella bildegenskaper kan förbättra tillförlitligheten i träningen av positionsprediktionsmodeller, särskilt i utmanande eller varierande miljöer
Place, publisher, year, edition, pages
2025. , p. 35
Keywords [en]
Pose Prediction
National Category
Robotics and automation
Identifiers
URN: urn:nbn:se:mau:diva-78530OAI: oai:DiVA.org:mau-78530DiVA, id: diva2:1981346
Educational program
TS Systemutvecklare
Presentation
2025-06-02, OR:C402, Nordenskiöldsgatan 10, Malmö, 12:15 (English)
Supervisors
Examiners
2025-07-042025-07-032025-07-04Bibliographically approved