Repository logo
 
Loading...
Thumbnail Image
Publication

Waste Container Detection System using Computer Vision

Use this identifier to reference this record.
Name:Description:Size:Format: 
11267_27998.pdf26.13 MBAdobe PDF Download

Abstract(s)

We propose a computer vision system for the automatic detection and counting of urban waste containers in video streams captured by garbage collection vehicles. Designed to support smart city infrastructure, the system enables geolocated container mapping and route optimization. Our approach is validated on a two-phase dataset comprising 144 videos ( 49 minutes) with over 35,000 annotated instances spanning 379 unique containers. We benchmark two detection models—YOLOv11 (image-based) and DiffusionVID (video-based)—across both dataset phases. YOLOv11 consistently outperforms DiffusionVID, particularly on the augmented dataset, achieving a mAP@0.5 of 0.938, despite the latter’s strengths in detecting small-scale objects. For counting, YOLOv11 is integrated with ByteTrack and enhanced using three domain-specific heuristics: (H1) short track filtering, (H2) identity merging, and (H3) spatial consistency. This configuration yields substantial improvements in accuracy, reducing the Mean Absolute Error (MAE) and Sum of Absolute Differences (SAD) by up to 77% on the augmented dataset. System robustness is further validated on real-world deployment videos ( 2 hours each), demonstrating that the effectiveness of heuristics varies from video to video. Nonetheless, the H1+H2+H3 combination demonstrates the best generalization and is recommended for practical deployment. Our contributions include: (i) a novel annotated dataset for urban waste container detection, (ii) a detection–tracking pipeline, and (iii) tailored heuristics for improving counting accuracy. Future work will address class imbalance, conduct failure case analysis, and evaluate scalability on continuous, long-duration video streams representing full waste collection routes.
Esta dissertação propõe um sistema baseado em visão computacional para a deteção e contagem automática de contentores de resíduos urbanos, utilizando vídeos captados por veículos de recolha de lixo. A solução visa apoiar cidades inteligentes, permitindo o mapeamento geolocalizado de contentores e a otimização de rotas. O sistema é suportado por um dataset dividido em duas fases: uma fase base e uma fase aumentada, na qual foram adicionados mais vídeos à fase inicial. A versão final (fase aumentada) contém 144 vídeos (cerca de 49 minutos), com aproximadamente 35,000 instâncias anotadas de 379 contentores únicos. Foram comparadas as performances de dois métodos de deteção: o YOLOv11 (baseado em imagem) e o DiffusionVID (baseado em vídeo), tanto na fase base como na fase aumentada do dataset. Em ambas as fases, o YOLOv11 apresentou melhor desempenho global, com destaque para a fase aumentada, na qual obteve um mAP@0.5 de 0,938. Apesar da capacidade do DiffusionVID em detetar contentores de pequenas dimensões, o YOLOv11 demonstrou superioridade consistente. Para a contagem de contentores, o YOLOv11 foi integrado com o ByteTrack e melhorado com três heurísticas: (H1) filtragem de trajetórias curtas, (H2) fusão de identidades e (H3) consistência espacial. A combinação H1 + H2 + H3 resultou em melhorias significativas no erro médio absoluto (MAE, até -77%) e na soma das diferenças absolutas (SAD, até -77%), no conjunto expandido. A robustez do sistema foi validada em vídeos reais (cerca de 2 horas cada), revelando que a eficácia das heurísticas varia de acordo com o vídeo. Ainda assim, a configuração H1 + H2 + H3 mostrou o melhor equilíbrio e generalização, sendo a recomendada para implementação prática. Este trabalho contribui com um dataset, uma pipeline de deteção e seguimento de contentores, e heurísticas específicas para melhorar a fiabilidade do sistema. Como trabalho futuro, será avaliado o impacto do desequilíbrio entre classes no desempenho do sistema e investigada a escalabilidade das heurísticas em vídeos de maior duração.

Description

Keywords

Análise Temporo- Espacial Cidades Inteligentes. Contagem de Contentores de Resíduos Deteção de Objetos em Vídeo Heurísticas de Pós-Processamento Otimização da Recolha de Resíduos Visão Computacional em Ambientes Urbanos

Pedagogical Context

Citation

Research Projects

Organizational Units

Journal Issue