Shifted Gradient Similarity: A perceptual video quality assessment index for adaptive streaming encoding

Submitted by Isaac Francisco de Souza Dias (isaac.souzadias@ufpe.br) on 2016-07-13T18:59:10Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Shifted Gradient Similarity - A perceptual video quality assessment index for adaptive streaming encoding.pdf...

Full description

Bibliographic Details
Main Author: MONTEIRO, Estêvão Chaves
Other Authors: FERRAZ, Carlos André Guimarães
Language:English
Published: Universidade Federal de Pernambuco 2016
Subjects:
Online Access:https://repositorio.ufpe.br/handle/123456789/17359
Description
Summary:Submitted by Isaac Francisco de Souza Dias (isaac.souzadias@ufpe.br) on 2016-07-13T18:59:10Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Shifted Gradient Similarity - A perceptual video quality assessment index for adaptive streaming encoding.pdf: 5625470 bytes, checksum: 8ec1d179ec4cca056eb66609ba5791a0 (MD5) === Made available in DSpace on 2016-07-13T18:59:10Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Shifted Gradient Similarity - A perceptual video quality assessment index for adaptive streaming encoding.pdf: 5625470 bytes, checksum: 8ec1d179ec4cca056eb66609ba5791a0 (MD5) Previous issue date: 2016-03-04 === Adaptive video streaming has become prominent due to the rising diversity of Web-enabled personal devices and the popularity of social networks. Common limitations in Internet bandwidth, decoding speed and battery power available in such devices challenge the efficiency of content encoders to preserve visual quality at reduced data rates over a wide range of display resolutions, typically compressing to lower than 1% of the massive raw data rate. Furthermore, the human visual system does not uniformly perceive losses of spatial and temporal information, so a simple physical objective model such as the mean squared error does not correlate well with perceptual quality. Objective assessment and prediction of perceptual quality of visual content has greatly improved in the past decade, but remains an open problem. Among the most relevant psychovisual quality metrics are the many versions of the Structural Similarity (SSIM) index. In this work, several of the most efficient SSIM-based metrics, such as the Multi-Scale Fast SSIM and the Gradient Magnitude Similarity Deviation (GMSD), are decomposed into their component techniques and reassembled in order to measure and understand the contribution of each technique and to develop improvements in quality and efficiency. The metrics are applied to the LIVE Mobile Video Quality and TID2008 databases and the results are correlated to the subjective data included in the databases in the form of mean opinion scores (MOS), so each metric’s degree of correlation indicates its ability to predict perceptual quality. Additionally, the metrics’ applicability to the recent, relevant psychovisal rate-distortion optimization (Psy-RDO) implementation in the x264 encoder, which currently lacks an ideal objective assessment metric, is investigated as well. The “Shifted Gradient Similarity” (SG-Sim) index is proposed with an improved feature enhancement by avoiding a common unintended loss of analysis information in SSIM-based indexes, and achieving considerably higher MOS correlation than the existing metrics investigated in this work. More efficient spatial pooling filters are proposed, as well: the decomposed 1-D integer Gaussian filter limited to two standard deviations, and the downsampling Box filter based on the integral image, which retain respectively 99% and 98% equivalence and achieve speed gains of respectively 68% and 382%. In addition, the downsampling filter also enables broader scalability, particularly for Ultra High Definition content, and defines the “Fast SG-Sim” index version. Furthermore, SG-Sim is found to improve correlation with Psy-RDO, as an ideal encoding quality metric for x264. Finally, the algorithms and experiments used in this work are implemented in the “Video Quality Assessment in Java” (jVQA) software, based on the AviSynth and FFmpeg platforms, and designed for customization and extensibility, supporting 4K Ultra-HD content and available as free, open source code. === Cada vez mais serviços de streaming de vídeo estão migrando para o modelo adaptativo, devido à crescente diversidade de dispositivos pessoais conectados à Web e à popularidade das redes sociais. Limitações comuns na largura de banda de Internet, velocidade de decodificação e potência de baterias disponíveis em tais dispositivos desafiam a eficiência dos codificadores de conteúdo para preservar a qualidade visual em taxas de dados reduzidas e abrangendo uma ampla gama de resoluções de tela, tipicamente comprimindo para menos de 1% da massiva taxa de dados bruta. Ademais, o sistema visual humano não percebe uniformemente as perdas de informação espacial e temporal, então um modelo objetivo físico simples como a média do erro quadrático não se correlaciona bem com qualidade perceptível. Técnicas de avaliação e predição objetiva de qualidade perceptível de conteúdo visual se aprimoraram amplamente na última década, mas o problema permanece em aberto. Dentre as métricas de qualidade psicovisual mais relevantes estão muitas versões do índice de similaridade estrutural (Structural Similarity — SSIM). No presente trabalho, várias das mais eficientes métricas baseadas em SSIM, como o Multi-Scale Fast SSIM e o Gradient Magnitude Similarity Deviation (GMSD), são decompostas em suas técnicas-componentes e recombinadas para se obter medidas e entendimento sobre a contribuição de cada técnica e se desenvolver aprimoramentos à sua qualidade e eficiência. Tais métricas são aplicadas às bases de dados LIVE Mobile Video Quality e TID2008 e os resultados são correlacionados aos dados subjetivos incluídos naquelas bases na forma de escores de opinião subjetiva (mean opinion score — MOS), de modo que o grau de correlação de cada métrica indique sua capacidade de predizer qualidade perceptível. Investiga-se, ainda, a aplicabilidade das métricas à recente e relevante implementação de otimização psicovisual de distorção por taxa (psychovisual rate-distortion optimization — Psy-RDO) do codificador x264, ao qual atualmente falta uma métrica de avaliação objetiva ideal. O índice “Shifted Gradient Similarity” (SG-Sim) é proposto com uma técnica aprimorada de realce de imagem que evita uma perda não-pretendida de informação de análise, comum em índices baseados em SSIM, assim alcançando correlação consideravelmente maior com MOS comparado às métricas existentes investigadas neste trabalho. Também são propostos filtros de consolidação espacial mais eficientes: o filtro gaussiano de inteiros 1-D decomposto e limitado a dois desvios padrão e o filtro “box” subamostrado baseado na imagem integral, os quais retém, respectivamente, 99% e 98% de equivalência e obtém ganhos de velocidade de, respectivamente, 68% e 382%. O filtro subamostrado também promove escalabilidade, especialmente para conteúdo de ultra-alta definição, e define a versão do índice “Fast SG-Sim”. Ademais, verifica-se que o SG-Sim aumenta a correlação com Psy-RDO, indicando-se uma métrica de qualidade de codificação ideal para o x264. Finalmente, os algoritmos e experimentos usados neste trabalho estão implementados no software “Video Quality Assessment in Java” (jVQA), baseado nas plataformas AviSynth e FFmpeg e que é projetado para personalização e extensibilidade, suportando conteúdo ultra-alta definição “4K” e disponibilizado como código-fonte aberto e livre.