Summary: | === PSI-BLAST is one of the main tools for remote homology search. This kind of task is essential for molecular modeling, secondary structure prediction and hypothetical proteins functional annotation. Nevertheless literature reports high rates of false positives in PSI-BLAST search. That is mostly due to the unsupervised way PSI-BLAST calculates the PSSM weights. In this work we combine PSI-BLAST with supervised machine learn techniques that were able to predict probability of a result being correct. In order to do that 1200 PANTHERs queries were selected and split in two groups: one with 800 were used as training and another of 400 were tests. These queries were submitted to PSI-BLAST against a PANTHER-UniProt multi-fasta database. Then each subject found was evaluated as being from the same cluster as the query, from a di_erent cluster, or as not having a cluster, in which case the subject were discarded. Also 17 features were created based on the subject scores found in each iteration and query size. With these features an ensemble of neural networks and random forest were trained and achieved 0.94 AUC in test. The 1200 queries were also submitted to BLASTp and a neuronal network model was trained and achieved 0.78AUCin test. This model only takes 3 features and was proposed as a heuristic for the main model based on PSI-BLAST. These ML-BLAST (Machine Learn- BLAST) models were applied to 900 recent annotated proteins and subject and querys annotations similarity were compared. These tests happened to generate a model of weighted annotation relevance. And annotation suggestion based on annotation consensus. ML-BLAST models were also applied to four microorganisms hypothetical proteins and ware able to suggest annotation for about half of them. These models jointly with a set of other metrics were integrated in a new tool called Annothetic (Annotate Hypothetical). Despite of the name, this tool can be applied not only for proteins annotation but also for any task that require remote similarity search. === O PSI-BLAST é uma das principais ferramentas de busca de homólogos distantes. Este tipo de busca é importante para modelagem molecular, predição de estrutura secundária e anotação funcional de proteínas hipotéticas. No entanto a busca PSI-BLAST é reportada na literatura como tendo uma alta taxa de falsos positivos. Isso ocorre devido ao que é conhecido na literatura com corrupção da PSSM. Esta corrupção se deve em grade parte ao fato de que a PSSM é calculada de maneira não supervisionada. Neste trabalho nós combinamos PSI-BLAST com técnicas de aprendizado supervisionado que foram capazes de calcular a probabilidade de um resultado estar correto. Para isso nos utilizamos 1200 proteínas de PANTHER para treinar e testar os modelos. Nós selecionamos 800 destas proteínas para treino e 400 para teste. Para isso disparamos PSI-BLAST contra um banco de dados multi-fasta PANTHER-UniProt e monitoramos quais proteínas recuperadas pelo PSI-BLAST eram do mesmo cluster PANTHER da query, quais eram de cluster PANTHER diferente e desconsideramos aquelas que não pertenciam a nenhum cluster. Foram criadas neste trabalho diversos preditores (features) baseados nas pontuações dos subjects (query inclusa pois aparece nos resultados) em cada iteração e com isso foi treinado um ensemble de redes neurais e random forest que atingiu 0.94 de AUC nos 400 PSI-BLASTs de teste. Este modelo foi aplicado a 900 PSI-BLASTs com proteínas de anotação recente onde foram monitoradas a similaridade entre as anotações dos subjects e a anotação da query. Estes testes acabaram por gerar um modelo de ponderação de importância das anotações e sugestão de anotação baseado em consenso de anotações ao invés de anotação baseado em best-hit. Omodelo de PSI-BLAST-ML (PSI-BLAST-Machine Learning) que criamos foi aplicado a proteínas de função desconhecida de quatro micro-organismos e cerca de metade destas proteínas puderam receber alguma sugestão de anotação. Por fim estes modelos juntamente cum varias outras métricas foram integrados em uma ferramenta web chamada Annothetic (Annotate hypothetical). Esta ferramenta pode ser usada para sugerir função para proteínas hipotéticas de difícil anotação bem como outras aplicações que requeiram a busca de homólogos distantes.
|