Malmö University Publications
1617181920212219 of 988
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Pose Prediction for Autonomous Navigation: A Comparison of Raw, Semantic, and Hybrid Segmented inputs
Malmö University, Faculty of Technology and Society (TS).
Malmö University, Faculty of Technology and Society (TS).
2025 (English)Independent thesis Basic level (degree of Bachelor), 14 HE creditsStudent thesis
Abstract [en]

Accurate and reliable localization is a critical requirement for autonomous driving systems. This thesis investigates whether using segmented images instead of raw RGB inputs can improve the robustness and training stability of deep learning-based visual odometry models. Specifically, the study compares three input configurations: raw RGB images, semantic segmentation using PP-LiteSeg, and a hybrid method combining semantic maps from PP-LiteSeg with precise object boundaries from the Segment Anything Model (SAM). 

The goal is to evaluate how these input types affect training dynamics using a shared visual odometry model architecture (TSformer-VO). The KITTI Odometry Dataset is used for training and validation, with all experiments conducted under controlled and consistent conditions. 

Results show that while the RGB-based model achieved the lowest validation loss overall, the hybrid segmentation model produced significantly more stable and smooth training dynamics, with fewer spikes and better convergence behavior. Manual segmentation quality grading further supports the superiority of the hybrid input method over PP-LiteSeg alone. These findings suggest that integrating semantic and structural image features can improve reliability of pose prediction model training, especially in challenging or variable environments.

Abstract [sv]

Noggrann och tillförlitlig lokalisering är avgörande för autonoma körsystem. Denna uppsats undersöker huruvida användningen av segmenterade bilder istället för RGB-bilder kan förbättra robustheten och träningstabiliteten hos djupinlärningsbaserade visuella odometri-modeller. Studien jämför tre olika inmatningskonfigurationer: RGB-bilder, semanstiskt segmentering med PP-LiteSeg samt en hyrbridmetod som kombinerar semantiska kartor från PP-LiteSeg med exakta objektgränser med hjälp av Segment Anything Model (SAM).

Syftet är att utvärdera hur dessa inmatningstyper påverkar träningsdynamiken hos en gemensam modellarkitektur för visuell odometri (TSformer-VO). KITTI Odometry-dataset användes för träning och validering, med samtliga experiment utförda under kontrollerade och konsekventa förhållanden.

Resultaten visar på att modellen baserad på RGB-bilder uppnådde den lägsta valideringsförlusten, men att hybridmodellen med segmentering gav betydligt mer stabila och jämna träningsförlopp, med färre spikar och bättre konvergensbeteende. Manuell kvalitetsbedömning av segmenteringen stöder ytterligare hybridmetodens överlägsenhet jämfört med enbart PP-LiteSeg. Dessa resultat tyder på att integrering av semantiska och strukturella bildegenskaper kan förbättra tillförlitligheten i träningen av positionsprediktionsmodeller, särskilt i utmanande eller varierande miljöer

Place, publisher, year, edition, pages
2025. , p. 35
Keywords [en]
Pose Prediction
National Category
Robotics and automation
Identifiers
URN: urn:nbn:se:mau:diva-78530OAI: oai:DiVA.org:mau-78530DiVA, id: diva2:1981346
Educational program
TS Systemutvecklare
Presentation
2025-06-02, OR:C402, Nordenskiöldsgatan 10, Malmö, 12:15 (English)
Supervisors
Examiners
Available from: 2025-07-04 Created: 2025-07-03 Last updated: 2025-07-04Bibliographically approved

Open Access in DiVA

fulltext(10081 kB)3 downloads
File information
File name FULLTEXT02.pdfFile size 10081 kBChecksum SHA-512
9f795b61f8eac1c6b743313e97f11aa7804e0668e087b42ce7d89cf488c0678af089a7172ab373d9f0b77fa99d24874b57a126759b245471e1b5bb1a1cbc84a5
Type fulltextMimetype application/pdf

Search in DiVA

By author/editor
Pirojoc, VictorKjellberg, Fabian
By organisation
Faculty of Technology and Society (TS)
Robotics and automation

Search outside of DiVA

GoogleGoogle Scholar
Total: 3 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 21 hits
1617181920212219 of 988
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf