Evaluating supervised machine learning algorithms to predict recreational fishing success : A multiple species, multiple algorithms approach

This report examines three different machine learning algorithms and their effectiveness for predicting recreational fishing success. Recreational fishing is a huge pastime but reliable methods of predicting fishing success have largely been missing. This report compares random forest, linear regres...

Full description

Bibliographic Details
Main Author: Wikström, Johan
Format: Others
Language:English
Published: KTH, Skolan för datavetenskap och kommunikation (CSC) 2015
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-172995
id ndltd-UPSALLA1-oai-DiVA.org-kth-172995
record_format oai_dc
collection NDLTD
language English
format Others
sources NDLTD
topic sport fishing
recreational fishing
fishing
supervised machine learning
random forest
linear regression
artificial neural networks
sportfiske
fiske
Computer Sciences
Datavetenskap (datalogi)
spellingShingle sport fishing
recreational fishing
fishing
supervised machine learning
random forest
linear regression
artificial neural networks
sportfiske
fiske
Computer Sciences
Datavetenskap (datalogi)
Wikström, Johan
Evaluating supervised machine learning algorithms to predict recreational fishing success : A multiple species, multiple algorithms approach
description This report examines three different machine learning algorithms and their effectiveness for predicting recreational fishing success. Recreational fishing is a huge pastime but reliable methods of predicting fishing success have largely been missing. This report compares random forest, linear regression and multilayer perceptron to a reasonable baseline model for predicting fishing success. Fishing success is defined as the expected weight of the fish caught. Previous reports have mainly focused on commercial fishing or limited the research to examining the impact of a single variable. In this exploratory study, multiple attributes and multiple algorithms are examined to determine if supervised machine learning is a viable tool to predict recreational fishing success. Recreational fishing success can potentially be predicted by a large number of attributes, which may be different for different species. In this report, data is fetched from multiple sources and combined into a unified data format. The primary source of data is a database from the fishing app FishBrain, containing data of over 250000 logged catches. Another is the World Weather Online API which supplies weather data. The report focuses on the four most common species in the database, largemouth bass, Micropterus salmoides, northern pike, Esox lucius, rainbow trout, Oncorhynchus mykiss and European perch, Perca fluviatilis with a focus on largemouth bass since it has the most data available. Algorithms are evaluated using the Weka data mining software. Hyperparameters are found using cross-validation and some data is used as a test set to validate the results after cross-validation. Results are measured as the error compared to a baseline algorithm. Random forest is the most effective algorithm in the experiments, reducing error compared to the baseline for all the examined fish species. It is also found that no single variable affects the chosen metric of fishing success much, but rather a combination of most of the examined variables is needed to give optimal predictions. In conclusion, the random forest algorithm can be used to predict fishing success across multiple species. It performs significantly better than linear regression, multilayer perceptron and the baseline on crossvalidation and on the testing set. === I denna rapport evalueras tre olika maskininlärningsalgoritmer och deras effektivitet för att förutsäga framgång inom sportfiske. Sport- fiske är en mycket populär hobby, men pålitliga metoder att förutsäga framgångsrikt sportfiske saknas. Denna rapport jämför random forest, linjär regression och flerlagers neurala nätverk mot en rimlig baselinealgorithm för att förutsäga framgång inom sportfiske. Framgång defineras som fiskens förväntade vikt i kg. Tidigare undersökningar har huvudsakligen fokuserat på kommersiellt fiske eller begränsat undersökningen till påverkan av en enskild variabel. I denna studie undersöks flera attribut och algoritmer för att avgöra om övervakad maskininlärning är ett användbart verktyg för att förutsäga framgång inom sportfiske. Framgång inom sportfiske kan potentiellt påverkas av ett stort antal attribut som kan vara olika för olika arter. I denna studie hämtas data från ett flertal källor som kombineras i ett unifierat dataformat. Den primära datakällan är en databas tillhörande sportfiskeappen FishBrain som innehåller över 250000 loggade fångster. En annan källa är World Weather Online:s API som bidrar med väderdata. Rapporten fokuserar på de fyra vanligaste arterna i databasen, largemouth bass, Micropterus salmoides, gädda, Esox lucius, regnbågsöring, Oncorhynchus mykiss och europeisk abborre, Perca fluviatilis med ett särskilt fokus på largemouth bass eftersom den har mest data tillgängligt. Algoritmerna evalueras med hjälp av data mining-verktyget Weka. Hyperparametrar bestäms med hjälp av korsvalidering och en delmängd av datan separeras och används för att validera resultaten efter korsvalidering. Resultaten mäts relativt en baseline-algoritm. Random forest är den mest effektiva algoritmen i experimenten och reducerar felet jämfört med baseline-algoritmen för alla undersökta fiskarter. Inget enskilt attribut påverkar slutresultatet mycket utan det behövs en kombination av flera attribut för att ge optimala prediktioner. Slutsatsen blir att random forest kan användas för att förutsäga framgång inom sportfiske för flera olika fiskarter. Den presterar signifikant bättre än linjär regression, flerlagers neuralt nätverk och baselinealgoritmen på korsvalidering och på testdelmängden.
author Wikström, Johan
author_facet Wikström, Johan
author_sort Wikström, Johan
title Evaluating supervised machine learning algorithms to predict recreational fishing success : A multiple species, multiple algorithms approach
title_short Evaluating supervised machine learning algorithms to predict recreational fishing success : A multiple species, multiple algorithms approach
title_full Evaluating supervised machine learning algorithms to predict recreational fishing success : A multiple species, multiple algorithms approach
title_fullStr Evaluating supervised machine learning algorithms to predict recreational fishing success : A multiple species, multiple algorithms approach
title_full_unstemmed Evaluating supervised machine learning algorithms to predict recreational fishing success : A multiple species, multiple algorithms approach
title_sort evaluating supervised machine learning algorithms to predict recreational fishing success : a multiple species, multiple algorithms approach
publisher KTH, Skolan för datavetenskap och kommunikation (CSC)
publishDate 2015
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-172995
work_keys_str_mv AT wikstromjohan evaluatingsupervisedmachinelearningalgorithmstopredictrecreationalfishingsuccessamultiplespeciesmultiplealgorithmsapproach
AT wikstromjohan utvarderingavovervakademaskininlarningsalgoritmerforattforutsagaframganginomsportfiske
_version_ 1718604741695504384
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-1729952018-01-11T05:12:49ZEvaluating supervised machine learning algorithms to predict recreational fishing success : A multiple species, multiple algorithms approachengUtvärdering av övervakade maskininlärningsalgoritmer för att förutsäga framgång inom sportfiskeWikström, JohanKTH, Skolan för datavetenskap och kommunikation (CSC)2015sport fishingrecreational fishingfishingsupervised machine learningrandom forestlinear regressionartificial neural networkssportfiskefiskeComputer SciencesDatavetenskap (datalogi)This report examines three different machine learning algorithms and their effectiveness for predicting recreational fishing success. Recreational fishing is a huge pastime but reliable methods of predicting fishing success have largely been missing. This report compares random forest, linear regression and multilayer perceptron to a reasonable baseline model for predicting fishing success. Fishing success is defined as the expected weight of the fish caught. Previous reports have mainly focused on commercial fishing or limited the research to examining the impact of a single variable. In this exploratory study, multiple attributes and multiple algorithms are examined to determine if supervised machine learning is a viable tool to predict recreational fishing success. Recreational fishing success can potentially be predicted by a large number of attributes, which may be different for different species. In this report, data is fetched from multiple sources and combined into a unified data format. The primary source of data is a database from the fishing app FishBrain, containing data of over 250000 logged catches. Another is the World Weather Online API which supplies weather data. The report focuses on the four most common species in the database, largemouth bass, Micropterus salmoides, northern pike, Esox lucius, rainbow trout, Oncorhynchus mykiss and European perch, Perca fluviatilis with a focus on largemouth bass since it has the most data available. Algorithms are evaluated using the Weka data mining software. Hyperparameters are found using cross-validation and some data is used as a test set to validate the results after cross-validation. Results are measured as the error compared to a baseline algorithm. Random forest is the most effective algorithm in the experiments, reducing error compared to the baseline for all the examined fish species. It is also found that no single variable affects the chosen metric of fishing success much, but rather a combination of most of the examined variables is needed to give optimal predictions. In conclusion, the random forest algorithm can be used to predict fishing success across multiple species. It performs significantly better than linear regression, multilayer perceptron and the baseline on crossvalidation and on the testing set. I denna rapport evalueras tre olika maskininlärningsalgoritmer och deras effektivitet för att förutsäga framgång inom sportfiske. Sport- fiske är en mycket populär hobby, men pålitliga metoder att förutsäga framgångsrikt sportfiske saknas. Denna rapport jämför random forest, linjär regression och flerlagers neurala nätverk mot en rimlig baselinealgorithm för att förutsäga framgång inom sportfiske. Framgång defineras som fiskens förväntade vikt i kg. Tidigare undersökningar har huvudsakligen fokuserat på kommersiellt fiske eller begränsat undersökningen till påverkan av en enskild variabel. I denna studie undersöks flera attribut och algoritmer för att avgöra om övervakad maskininlärning är ett användbart verktyg för att förutsäga framgång inom sportfiske. Framgång inom sportfiske kan potentiellt påverkas av ett stort antal attribut som kan vara olika för olika arter. I denna studie hämtas data från ett flertal källor som kombineras i ett unifierat dataformat. Den primära datakällan är en databas tillhörande sportfiskeappen FishBrain som innehåller över 250000 loggade fångster. En annan källa är World Weather Online:s API som bidrar med väderdata. Rapporten fokuserar på de fyra vanligaste arterna i databasen, largemouth bass, Micropterus salmoides, gädda, Esox lucius, regnbågsöring, Oncorhynchus mykiss och europeisk abborre, Perca fluviatilis med ett särskilt fokus på largemouth bass eftersom den har mest data tillgängligt. Algoritmerna evalueras med hjälp av data mining-verktyget Weka. Hyperparametrar bestäms med hjälp av korsvalidering och en delmängd av datan separeras och används för att validera resultaten efter korsvalidering. Resultaten mäts relativt en baseline-algoritm. Random forest är den mest effektiva algoritmen i experimenten och reducerar felet jämfört med baseline-algoritmen för alla undersökta fiskarter. Inget enskilt attribut påverkar slutresultatet mycket utan det behövs en kombination av flera attribut för att ge optimala prediktioner. Slutsatsen blir att random forest kan användas för att förutsäga framgång inom sportfiske för flera olika fiskarter. Den presterar signifikant bättre än linjär regression, flerlagers neuralt nätverk och baselinealgoritmen på korsvalidering och på testdelmängden. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-172995application/pdfinfo:eu-repo/semantics/openAccess