Summary: | A cidade de São Paulo é o município mais populoso do Brasil, caracterizado por uma segregação urbana responsável por inúmeros problemas relacionados a mobilidade urbana. As ações atuais para resolver os problemas de mobilidade urbana têm pouco aprofundamento em questões tecnológicas e melhorias dos sistemas computacio- nais existentes como as necessárias ao Sistema Integrado de Monitoramento e Transporte (SIM), utilizado para gestão e monitoramento do transporte público por ônibus de São Paulo. Uma das possíveis melhorias é integrar o SIM às Redes Sociais. Com essa perspectiva de integração, esse trabalho tem como objetivo uti- lizar tweets e dados do SIM na caracterização de eventos de exceção e de seus respectivos impactos no sistema de transporte público por ônibus da cidade de São Paulo. Para alcançar tal objetivo, esse trabalho propõe utilizar tweets publicados por instituições governamentais responsáveis por reportar eventos de exceção, dados dos módulos AVL (Automatic Vehicle Location) do SIM, responsáveis por rastrear e localizar os ônibus do município e GTFS (General Transit Feed Specification) da SPTrans. Visando alcançar o objetivo proposto, classificamos manualmente 60.984 tweets e treinamos diferentes modelos por meio de algoritmos de aprendizado de máquina supervisionado para identificar eventos de exceção. Além disso, propomos uma nova metodologia para extrair e geolocalizar os endereços dos eventos de exceção, por meio de Processamento de Língua Natural e Expressão Regular. Com isso, demonstramos que é possível correlacionar os dados desses eventos com os dados históricos do SIM e da GTFS, para caracterizar como o transporte público por ônibus da cidade de São Paulo é impactado nesses cenários. Adicionalmente, propomos uma arquitetura distribuída para exploração e visualização de grandes volumes de dados relacionados a transporte público === The city of São Paulo is the most populous municipality in Brazil, characterized by an urban segregation responsible for numerous problems related to urban mobility. The current actions to solve the problems of urban mobility have little deepening in technological issues and improvements of existing computer systems such as those required for the Integrated Monitoring and Transport System (in the Portuguese acronym: SIM), used for the management and monitoring of public transport by buses of the city of São Paulo. One of the possible improvements is integrating the SIM with Social Networks. With this perspective of integration, this work aims to use tweets and data from SIM in the characterization of exception events and their respective impacts on the public transport system by buses of the city of São Paulo. In order to achieve this objective, this work proposes to use tweets published by governmental institutions responsible for reporting exception events, data from SIM Automatic Vehicle Location (AVL) modules, responsible for the tracking and locating of urban buses and data from SPTrans GTFS (General Transit Feed Specification). In order to reach the proposed goal, we manually classified 60,984 tweets and trained different models through supervised machine learning algorithms to identify exception events. In addition, we propose a new methodology to extract and geolocalize the addresses of the exception events, through Natural Language Processing and Regular Expression. Using that approaches, we show that it is possible to correlate the data of these events with the historical data of the SIM and GTFS, to characterize how the public transport by bus of the city of São Paulo is impacted in these scenarios. Additionally, we propose a distributed architecture for exploration and visualization of large volumes of data related to public transport
|