| Name: | Description: | Size: | Format: | |
|---|---|---|---|---|
| 54.98 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
Light field technology represents a powerful imaging technology that captures the intensity and direction of light rays in a scene, allowing for the reconstruction of 3D information and the ability to perform unique tasks like refocusing images after capture. However, the vast amount of data generated by light field imaging poses significant challenges for storage and transmission, making efficient compression schemes crucial. Compression techniques that incorporate view synthesis during different stages of the compression process have emerged as a promising solution, reducing the amount of data that needs to be transmitted or stored by reconstructing or predicting new views from a limited set of captured data. In this thesis a version of this method will be evaluated. The main goal of this thesis is to study the potential of using view synthesis to improve light field compression while reducing complexity, and focusing on maintaining high image quality while reducing data storage and transmission requirements. In addition to this main goal, there are some secondary objectives related to the tools used in this process. A comparison between the used codecs is done to analyze how the choise of codec impacts the final reconstruction quality when coupled with the view synthesis technique. By focusing on a single, state-of-the-art view synthesis method, its ability to reconstruct high-quality images from compressed data is tested. Additionally, four light fields are used: two from the EPFL dataset, which consists of light fields captured by lenslet cameras, and two from the HCI Light Field Database, consisting of synthetically created light fields. This diversity aims to better understand the variability in performance and the generalization capability of the process. To achieve this, a sparsely sampled light field is created from the original light field by “dropping” views. Both light fields, complete and sampled, are compressed using the following codecs/configurations: JPEG Pleno, VVC LowDelay and VVC Random Access. A learning-based view synthesis method, SepConv++, is applied to the decoded views from the sampled light field, obtaining a reconstructed light field with the same views as the original. Both the fully compressed light field and the sparsely sampled light field, which undergoes compression and view synthesis, are compared to the original light field. This comparison is done using the objective metrics PSNR-HVS-M, MS-SSIM and FSIMc. The results obtained were presented in the format of four tables, one for each light field, with each table containing six plots that illustrate the performance metrics PSNR-HVS-M, MS-SSIM, and FSIMc for every codec/configuration used. This plots also include information regarding the view synthesis, by presenting reference lines regarding its perfomance on non compressed light fields. Additionally, the view synthesis process creates three types of views, the views that were part of the sparsely sampled light field and underwent compression, the first-generation views created during the first view synthesis stage, and the second-generation views generated in a subsequent stage of view synthesis. The metrics regarding these different view types, for all codecs/configurations are also depicted in these plots. Additional results are presented through Bjontegaard metrics, a visual comparison where different view types are presented for selected bitrates, and a table containing the compression times. The analysis across the different codecs, demonstrated that SepConv++ can effectively generate denser light fields from compressed views without significant quality loss. Although sparse light fields require lower bitrates for storage and transmission, achieving comparable image quality levels after view synthesis requires a bitrate similar to the ones used for the fully compressed light fields. The results highlighted that VVC (in either configuration) outperformed JPEG Pleno in quality retention, although the latter is significantly faster. The proposed approach, which utilizes compressed views for synthesis, proved advantageous by significantly reducing computational complexity and resource demands, particularly evident in the VVC codec. However, the initial premise that view synthesis would allow for a reduced bitrate while maintaining the same quality was not fully supported by the results.
A tecnologia light field representa uma tecnologia de imagem poderosa que capta a intensidade e direção dos raios de luz num cenário, permitindo a reconstrução de informação 3D e a realização de tarefas exclusivas, como a refocagem de imagens após a captura. No entanto, a grande quantidade de dados gerada por esta tecnologia apresenta desafios significativos em termos de armazenamento e transmissão, sendo necessário o desenvolvimento de esquemas de compressão eficientes para lidar com estas exigências. As técnicas de compressão que incorporam síntese de vistas durante diferentes fases do processo de compressão surgiram como uma solução promissora, reduzindo a quantidade de dados que precisam ser transmitidos ou armazenados ao permitir a reconstrução de novas vistas a partir de um conjunto limitado de dados capturados. Nesta tese será avaliada uma versão deste método. O principal objetivo desta tese é estudar o potencial da utilização de síntese de vistas para melhorar a compressão de light fields, reduzindo a complexidade, e com foco em manter uma qualidade de imagem alta ao reduzir os requisitos de armazenamento e transmissão de dados. Para além deste objetivo principal, existem alguns objetivos secundários relacionados com as ferramentas utilizadas neste processo. É efetuada uma comparação entre os codecs utilizados para analisar o impacto que a escolha de codec tem na qualidade da reconstrução final quando lhe é adicionado a técnica de síntese de vistas. Ao focar num único método de síntese de vistas de última geração, a sua capacidade para reconstruir imagens de alta qualidade a partir de dados comprimidos vai ser testada. Além disso, são utilizados quatro light fields: dois do conjunto de dados da EPFL, que consiste em light fields capturados por câmaras lenslet, e dois da base de dados de light fields HCI, que consiste em light fields criados sinteticamente. Esta diversidade tem como objetivo compreender melhor a variabilidade do desempenho e a capacidade de generalização do processo. Para alcançar isto, um light field esparsamente amostrado é criado a partir do light field original ao descartar algumas das vistas. Ambos os light fields, completo e amostrado, são comprimidos usando os seguintes codecs/configurações: JPEG Pleno, VVC LowDelay e VVC Random Access. Um método de síntese de vistas learning-based, SepConv++, é aplicado às vistas descodificadas do light field amostrado, obtendo um light field reconstruído com as mesmas vistas do original. Tanto o light field que foi totalmente comprimido quanto o light field esparsamente amostrado, que passa por compressão e síntese de vistas, são comparados ao light field original. Esta comparação é feita utilizando as métricas objetivas PSNR-HVS-M, MS-SSIM e FSIMc Os resultados obtidos foram apresentados sob a forma de quatro tabelas, onde cada uma correspondente a um light field específico. Cada tabela contém seis gráficos que ilustram as métricas objetivas PSNR-HVS-M, MS-SSIM e FSIMc para cada codec/configuração utilizada. Estes gráficos também incluem informações sobre a síntese de vistas, ao apresentar linhas de referência sobre o seu desempenho em light fields não comprimidos. Adicionalmente, o processo de síntese de vistas cria três tipos de vistas: as que faziam parte do light field esparsamente amostrado e sofreram compressão, as visualizações de primeira geração criadas durante a primeira fase de síntese de vistas e as vistas de segunda geração geradas numa fase subsequente de síntese de vistas. As métricas relativas a estes diferentes tipos de vistas também são retratadas nestes gráficos, para todos os codecs/- configurações. São apresentados resultados adicionais através da métrica de Bjontegaard, uma comparação visual em que são apresentados diferentes tipos de vistas para taxas de bits selecionadas e uma tabela com os tempos de compressão. A análise dos diferentes codecs demonstrou que o SepConv++ pode efetivamente gerar light fields mais densos a partir de vistas comprimidas sem perda significativa de qualidade. Embora os light fields amostrados exijam taxas de bits mais baixas para armazenamento e transmissão, para alcançar níveis de qualidade de imagem comparáveis aos dos light fields totalmente comprimidos, é necessário utilizar uma taxa de bits semelhante à empregue nos light fields totalmente comprimidos. Os resultados evidenciaram que o VVC (em qualquer configuração) supera o JPEG Pleno na preservação da qualidade, embora este último seja significativamente mais rápido. A abordagem proposta, que utiliza vistas amostradas comprimidas para síntese de vistas, mostrou-se vantajosa ao reduzir significativamente a complexidade computacional, especialmente no caso do codec VVC. No entanto, a premissa inicial de que a síntese de vistas permitiria uma redução da taxa de bits mantendo a mesma qualidade não foi totalmente confirmada pelos resultados.
A tecnologia light field representa uma tecnologia de imagem poderosa que capta a intensidade e direção dos raios de luz num cenário, permitindo a reconstrução de informação 3D e a realização de tarefas exclusivas, como a refocagem de imagens após a captura. No entanto, a grande quantidade de dados gerada por esta tecnologia apresenta desafios significativos em termos de armazenamento e transmissão, sendo necessário o desenvolvimento de esquemas de compressão eficientes para lidar com estas exigências. As técnicas de compressão que incorporam síntese de vistas durante diferentes fases do processo de compressão surgiram como uma solução promissora, reduzindo a quantidade de dados que precisam ser transmitidos ou armazenados ao permitir a reconstrução de novas vistas a partir de um conjunto limitado de dados capturados. Nesta tese será avaliada uma versão deste método. O principal objetivo desta tese é estudar o potencial da utilização de síntese de vistas para melhorar a compressão de light fields, reduzindo a complexidade, e com foco em manter uma qualidade de imagem alta ao reduzir os requisitos de armazenamento e transmissão de dados. Para além deste objetivo principal, existem alguns objetivos secundários relacionados com as ferramentas utilizadas neste processo. É efetuada uma comparação entre os codecs utilizados para analisar o impacto que a escolha de codec tem na qualidade da reconstrução final quando lhe é adicionado a técnica de síntese de vistas. Ao focar num único método de síntese de vistas de última geração, a sua capacidade para reconstruir imagens de alta qualidade a partir de dados comprimidos vai ser testada. Além disso, são utilizados quatro light fields: dois do conjunto de dados da EPFL, que consiste em light fields capturados por câmaras lenslet, e dois da base de dados de light fields HCI, que consiste em light fields criados sinteticamente. Esta diversidade tem como objetivo compreender melhor a variabilidade do desempenho e a capacidade de generalização do processo. Para alcançar isto, um light field esparsamente amostrado é criado a partir do light field original ao descartar algumas das vistas. Ambos os light fields, completo e amostrado, são comprimidos usando os seguintes codecs/configurações: JPEG Pleno, VVC LowDelay e VVC Random Access. Um método de síntese de vistas learning-based, SepConv++, é aplicado às vistas descodificadas do light field amostrado, obtendo um light field reconstruído com as mesmas vistas do original. Tanto o light field que foi totalmente comprimido quanto o light field esparsamente amostrado, que passa por compressão e síntese de vistas, são comparados ao light field original. Esta comparação é feita utilizando as métricas objetivas PSNR-HVS-M, MS-SSIM e FSIMc Os resultados obtidos foram apresentados sob a forma de quatro tabelas, onde cada uma correspondente a um light field específico. Cada tabela contém seis gráficos que ilustram as métricas objetivas PSNR-HVS-M, MS-SSIM e FSIMc para cada codec/configuração utilizada. Estes gráficos também incluem informações sobre a síntese de vistas, ao apresentar linhas de referência sobre o seu desempenho em light fields não comprimidos. Adicionalmente, o processo de síntese de vistas cria três tipos de vistas: as que faziam parte do light field esparsamente amostrado e sofreram compressão, as visualizações de primeira geração criadas durante a primeira fase de síntese de vistas e as vistas de segunda geração geradas numa fase subsequente de síntese de vistas. As métricas relativas a estes diferentes tipos de vistas também são retratadas nestes gráficos, para todos os codecs/- configurações. São apresentados resultados adicionais através da métrica de Bjontegaard, uma comparação visual em que são apresentados diferentes tipos de vistas para taxas de bits selecionadas e uma tabela com os tempos de compressão. A análise dos diferentes codecs demonstrou que o SepConv++ pode efetivamente gerar light fields mais densos a partir de vistas comprimidas sem perda significativa de qualidade. Embora os light fields amostrados exijam taxas de bits mais baixas para armazenamento e transmissão, para alcançar níveis de qualidade de imagem comparáveis aos dos light fields totalmente comprimidos, é necessário utilizar uma taxa de bits semelhante à empregue nos light fields totalmente comprimidos. Os resultados evidenciaram que o VVC (em qualquer configuração) supera o JPEG Pleno na preservação da qualidade, embora este último seja significativamente mais rápido. A abordagem proposta, que utiliza vistas amostradas comprimidas para síntese de vistas, mostrou-se vantajosa ao reduzir significativamente a complexidade computacional, especialmente no caso do codec VVC. No entanto, a premissa inicial de que a síntese de vistas permitiria uma redução da taxa de bits mantendo a mesma qualidade não foi totalmente confirmada pelos resultados.
Description
Keywords
3d Armazenamento Compressão Light Field Sintese de Vistas Transmissão
