Summary: | This thesis evaluates and compares two different clustering strategies for clustering users in Sweden’s political Twittersphere: clustering based on tweet content and clustering based on social interactions data. Users were detected by filtering a stream of tweets filtered on a list of politically charged keywords. The top 10 % of the detected users with the most followers were selected and their social interactions data as well 2,000 of their latest tweets were downloaded. The gathered data was used to construct one similarity matrix for each of the strategies studied. Spectral clustering of the matrices was performed to form two separate sets of clusters, one based on tweet content and one based on social interactions. After analyzing the two cluster sets manually, we find that the content based clustering is biased towards topic based clusters while clustering based on social interactions is more effective in finding clusters centered around ideology and political partisanship. === Denna uppsats utvärderar och jämför två olika strategier för att klustra användare i Sveriges politiska twittersfär: klustring baserat på tweet-innehåll och klustring baserat på sociala interaktioner. Användare upptäcktes genom att filtrera en ström av tweets med hjälp av en lista med politiskt laddade nyckelord. De 10 % av användarna med högst antal följare valdes ut och information om deras sociala interaktioner samt deras 2 000 senaste tweets laddades ner. Denna data användes för att konstruera en likhetsmatris för varje studerad klustringsstrategi. Spektral klustring av matriserna utfördes för att bilda två uppsättningar kluster, en för varje strategi. Efter manuell analys av klustren drogs slutsatsen att innehållsbaserad klustring tenderar att ge genrebaserade kluster medan klustring baserat på sociala interaktioner tenderar att ge kluster som i högre utsträckning cirkulerar kring ideologisk inriktning och politisk partitillhörighet.
|