Kurset gennemgår best practices og løsninger indenfor machine learning og statistik i Python.
Python er hos mange udviklere og data scientists blevet det foretrukne sprog til at håndtere machine learning og Big Data. Det hænger i høj grad sammen med sprogets objektorienterede mekanismer, der gør det logisk og enkelt at håndtere store datamængder uden at skulle kode alt fra bunden.
På dette kursus får du øvelse med at normalisere og forme datasæt, så det kan bruges af Pythons forskellige beregningsmodeller. Det er nemlig centralt, at man sikrer, at det data man læser ind i Python overhovedet giver mening. Hertil anvender vi de grundlæggende moduler NumPy og Pandas, der giver hele det matematiske grundlag for machine learning.
Desuden giver kurset et forkromet overblik over machine learning moduler i Python, så du er bedre rustet til at vælge og skelne mellem de forskellige beregningsmodeller, der findes i Pythons store samling af machine learning moduler, som f.eks. scikit-learn og Keras.
På kurset får de de fundamentale beregningsmodeller som regressions- og gauss-modeller til at give brugbare resultater, og samtidig lærer du, hvordan de fungerer, og hvornår du skal vælge den ...
%%%
... ene model fremfor den anden.
Herudover får du hands-on erfaring med at udvikle fuldt trænede machine learning modeller, og vi simulerer, at de går i drift ved at loade ny data ind i systemet, hvilket svarer til, at de i praksis behandler en organisations store datamængder.
Til behandling af meget komplekse data kan neurale netværk være særligt velegnede til finde informationer i billedfiler og store tekstfiler. Du får erfaring med Keras modulet og prøver kræfter med at lave dit eget neurale netværk med backpropagation som læringsprincip.
Endelig bliver vi nødt til at vurdere, om den beregningsmodel (estimator) vi har valgt, faktisk er anvendelig når datamængden vokser helt op på Big Data niveau - modellen skal valideres! Dette gennemgår vi også på kurset.
Kurset er meget matematisk orienteret og det anbefales derfor, at du får læst lidt op på emner som elementær statistik, sandsynlighedsregning og lineær algebra. Vi genopfrisker dog de vigtigste emner på kurset.