Proposta e avaliação de mecanismos de combate à poluição em sistemas de compartilhamento de vídeos

=== Most online video sharing systems (OVSSs), such as YouTube and Yahoo! Video, have several mechanisms for supporting interactions among users. One such mechanism is the video-response feature in YouTube, which allows a user to post a video in response to another video. While increasingly popular...

Full description

Bibliographic Details
Main Author: Hendrickson Reiter Langbehn
Other Authors: Marcos Andre Goncalves
Format: Others
Language:English
Published: Universidade Federal de Minas Gerais 2011
Online Access:http://hdl.handle.net/1843/SLSS-8GQPFT
Description
Summary:=== Most online video sharing systems (OVSSs), such as YouTube and Yahoo! Video, have several mechanisms for supporting interactions among users. One such mechanism is the video-response feature in YouTube, which allows a user to post a video in response to another video. While increasingly popular, the video-response feature opens the opportunity for non-cooperative users to introduce 'content pollution' into the system, thus causing loss of service effectiveness and credibility as well as waste of system resources. For instance, non-cooperative users, to whom we refer as spammers, may post unrelated videos in response to another video (the responded video), typically a very popular one, aiming at gaining visibility towards their own videos. In addition, users referred to as content promoters post several unrelated videos in response to a single responded one with the intent of increasing the visibility of the latter. Previous work on detecting spammers and content promoters on YouTube has relied mostly on supervised classification methods. The drawback of applying supervised solutions to this specific problem is that, besides extremely costly (in some cases thousands of videos have to be watched and labeled), the learning process has to be continuously performed to cope with changes in the strategies adopted by non-cooperative users. In this work, we explore the use of multi-view semi-supervised strategies, which allows us to reduce significantly the amount of training, to detect non-cooperative users on YouTube, while keeping high levels of effectiveness. Our proposed method explores the fact that, in this problem, there is a natural partition of the feature space in sub-groups or views'', each being able to classify a given user when enough training data is available. Moreover, we propose to deal with the problem of view combination as a rank aggregation problem, where rankings based on confidence in the classification are combined to decide whether an unlabeled example should be included in the training set. Our results demonstrate that we are able to reduce the amount of training in about 80% without significant losses in classification effectiveness. Finally, we develop an analytical model to estimate the costs associated with the utilization of different methods to identify non-cooperative users in OVSSs. We here apply this model in different scenarios in order to compare our best proposed method (a hybrid method) with a supervised method which uses all the training data available (our baseline). The results of this analysis showed that our method has a lower cost when compared to the baseline for most of the analyzed scenarios. === A maioria dos sistemas de compartilhamento de vídeo online (SCVOs), como o YouTube e o Yahoo! Vídeo, possuem vários mecanismos para suportar interações entre os usuários. Um destes mecanismos é o recurso de vídeo-resposta no YouTube, que permite ao usuário postar um vídeo em resposta a um outro vídeo. Embora cada vez mais popular, o recurso de vídeo-resposta abre a oportunidade para que usuários não-cooperativos introduzam 'conteúdo poluído' no sistema, causando perda de eficácia e credibilidade do serviço, bem como desperdício de recursos do sistema. Por exemplo, os usuários não-cooperativos, a quem nos referimos como spammers, podem postar vídeos não relacionados em resposta a um outro vídeo (o vídeo respondido), tipicamente um vídeo muito popular, com o objetivo de ganhar visibilidade para seus próprios vídeos. Além disso, os usuários referidos como promotores de conteúdo postam diversos vídeos não relacionados em resposta a um único vídeo com a intenção de aumentar a visibilidade deste último. Trabalhos anteriores sobre a detecção de spammers e promotores de conteúdo no YouTube se basearam principalmente em métodos de classificação supervisionados. A desvantagem da aplicação de soluções supervisionadas para esse problema específico é que, além de extremamente caras (em alguns casos, milhares de vídeos tem que ser vistos e rotulados), o processo de aprendizagem tem de ser continuamente realizado para lidar com as mudanças nas estratégias adotadas pelos usuários não-cooperativos. Neste trabalho, exploramos o uso de estratégias semi-supervisionadas baseadas em múltiplas visões, o que nos permite reduzir significativamente a quantidade de treinamento para detectar usuários não-cooperativos no YouTube, mas mantendo uma eficácia similar àquela obtida utilizando todo o treinamento. Nosso método proposto explora o fato de que, neste problema, existe uma partição natural do espaço de atributos em sub-grupos ou 'visões', cada uma sendo capaz de classificar usuários, quando dados de treino suficientes estão disponíveis. Além disso, propomos lidar com o problema da combinação de visões como um problema de agregação de rankings, onde rankings baseados na confiança da classificação são combinados para decidir se um exemplo não rotulado deve ser incluído no conjunto de treino. Nossos resultados demonstram que somos capazes de reduzir a quantidade de treino em cerca de 80%, sem perdas significativas na efetividade da classificação. Por fim, desenvolvemos um modelo analítico para estimar os custos associados com a utilização de diferentes métodos para identificar usuários não-cooperativos em SCVOs. Aplicamos este modelo em diversos cenários com o intuito de comparar nosso melhor método proposto (um método híbrido) com um método supervisionado que utiliza todo o conjunto de treino disponível (nosso baseline). Os resultados desta análise mostraram que nosso método possui um custo menor de utilização do que o baseline para grande parte dos cenários analisados.