Syftet med denna studien är att träna maskininlärningsmodeller med hjälp av ett dataset som innehåller data från över 800 hälsoundersökningar genomförda på svenska, 50-åriga män år 1963, för att undersöka vilken information som kan utvinnas gällande livslängd. Modellerna tränas som binära klassificerare and fyra olika målvariabler används. Variablerna som används begränsas till sådana som författaren, som inte är utbildad inom medicin, kan förstå och tyda. Modellerna graderas med hjälp av AUC och uppnår värden mellan 0.4 och 0.7 AUC. Resultaten pekar på att viktiga variabler för att förutspå livslängd i första hand är rökning och BMI och i andra hand alkoholkonsumption, fysisk aktivitet och kaffekonsumption.
The purpose of this study is to train machine learning models using a dataset containing data from over 800 medical examinations, performed on Swedish 50-year-old men in the year of 1963, in order to investigate what information can be learned regarding life expectancy. The models are trained as binary classifiers and four different target features are used. The features used are limited to features understandable to the author, who is not a medical professional. The models are graded using the performance metric AUC and attain scores between 0.4 and 0.7 AUC. Results point to significant features primarily being smoking and body mass index and secondarily alcohol consumption, physical activity and coffee consumption.