Big data document migratie
Marijn, je werkt nu sinds mei voor Datamo en bent gelijk gestart op opdracht bij Mileway (Last-Mile Logistics Real Estate). Wat is jouw rol bij de klant?
“Ik ben ingehuurd als Data Analytics Engineer om Mileway te helpen met de implementatie van een nieuw Document Management Systeem (DMS). Iedereen binnen de organisatie zal na implementatie van het DMS op één uniforme manier werken wat betreft document management. Aangezien Mileway in maar liefst 9 Europese landen actief is betekent dat 9 migraties. Daarnaast is het ook de bedoeling dat externe bronnen worden gemigreerd naar het DMS. Al met al kun je spreken van een omvangrijk migratieproject waar naar schatting meer dan 4 miljoen documenten moeten worden geanalyseerd. Want voordat een document in het nieuwe DMS beland gaat er een uitvoerig data analyse en - engineering proces aan vooraf. De eerste 3 maanden was ik alleen verantwoordelijk voor dit proces, gezien de omvang van het project was dat een hele uitdaging. Inmiddels werk ik samen met meerdere collega’s aan dit onderdeel van het project. Kort gezegd is het is aan ons om, in samenspraak met de business, te bepalen of een document in scope is voor migratie. Als een document in scope is moeten wij aan de hand van metadata bepalen waar dit document thuishoort in het DMS. Daar gebruiken wij verschillende data analyse methodieken en algoritmen voor.”
Lorenz, jij bent een maand later bij het project gekomen om het team te versterken. Wat was de reden dat ze op zoek waren naar jou?
“Nadat er veel handwerk aan te pas kwam bij de voorgaande migraties had Mileway de ambitie om meer processen te automatiseren en generiek te maken om zo de komende migraties te versnellen en de kwaliteit van de migratie te waarborgen. Naast een migratieproject is dit eigenlijk ook een classificatie project. Het is geen simpele lift-and-shift waarbij de structuur van de documenten identiek blijft. Alle documenten worden verplaatst naar een nieuwe folder structuur, ook wel taxonomy genoemd. Hierbij moet voor elk document worden bepaald of het bij een specifiek portfolio, asset en/of klant hoort. Daarnaast moeten wij ook het type document identificeren. Voor de migratie van Groot-Brittanië zijn er ruim 750 assets, 1500 klanten en 100 documenttypes in scope. Hierbij komt het gebruik van generieke algoritmes enorm goed van pas. Marijn en ik hebben een enorm goede samenwerking waarbij hij exact weet waar het op aan komt bij het labellen van de documenten en ik een grote rol speel in het vertalen van zijn kennis naar generieke algoritmes die we bij alle komende migraties kunnen gebruiken.”
Marijn, wat zijn de ingrediënten voor een succesvolle document migratie?
“De afgelopen jaren heb ik verschillende migratieprojecten meegemaakt in verschillende rollen. De les die ik daaruit heb geleerd is dat het enorm belangrijk is om de business zo veel mogelijk te betrekken bij het project en duidelijk te communiceren. Uiteindelijk is dit de doelgroep die moet gaan werken met het nieuwe ‘product’. Als je hen erbij betrekt zullen ze het ook sneller adopteren. Vanuit een data perspectief is ook de betrokkenheid van de business cruciaal. Ik ben van mening dat de collega’s uit de business, kennisexperts in hun werkveld, belangrijk zijn voor de vertaling van ruwe data naar waardevolle informatie. Zonder de business context mis je als Data Analist relevante informatie om je werk goed uit te kunnen voeren.”
Je merkt dat iedereen enorm geïnteresseerd is in elkaar en het leuk vind om kennis te delen zodat we met elkaar kunnen groeien.
Lorenz, wat is er volgens jou nog meer nodig?
“Om deze migratie succesvol te maken is het belangrijk dat we sequentieel data bewerken middels een zogenaamde data pipeline en tussentijdse resultaten opslaan zodat we gemakkelijk kunnen zien wat er tijdens elke stap gebeurt. Zo houden we overzicht en kunnen we elke stap van het process gemakkelijk re-runnen. We gebruiken zogenaamde “fuzzy matching” techniek, waarbij we data aan elkaar kunnen koppelen die niet exact overeenkomt door bijvoorbeeld spellingsfouten of verschillende schrijfwijzen. Zonder deze techniek zouden we niet ver zijn gekomen met het herkennen van assets, klanten en documenttypes in de metadata. Bij het toekennen van de beste match aan de te migreren documenten berekenen wij een score. Deze score laat zien hoe groot de kans is dat de gevonden match correct is, dit noemen wij de confidence score. Het is daarbij belangrijk dat er hoge granulariteit zit in de confidence score, waardoor je gemakkelijk de juist gematchede documenten kan onderscheiden van de foutief gematchede.”
Marijn, je bent nu 4 maanden verder. Hoe heb je je start bij Mileway en Datamo ervaren?
“Ik heb het enorm naar mijn zin en geen moment spijt gehad van mijn overstap. In mei heb ik bewust de overstap naar Datamo gemaakt omdat ik als consultant de garantie wil dat ik op data gedreven opdrachten word ingezet. Daarnaast was ik op zoek naar een werkgever die de medewerker centraal stelt, investeert in de ontwikkeling van collega’s maar het vooral belangrijk vindt dat jij goed in je vel zit. Dat al mijn collega’s data specialisten zijn en ik daardoor ook veel van hen kan leren is een mooie bonus. Tenslotte ben ik blij dat ik via Datamo ervaring op kan doen in verschillende sectoren. De voorgaande jaren ben ik alleen actief geweest in de financiële dienstverlening, ondanks de leuke ervaringen wil ik graag kennis opdoen van andere sectoren en werkomgevingen. Bij Mileway heb ik dat gevonden, een organisatie die actief is in Last-Mile logistics real estate. Het is een dynamische werkomgeving waar alles in een behoorlijk tempo wordt uitgevoerd. Er worden snel beslissingen genomen en alle ingrediënten voor succes zijn aanwezig, denk bijvoorbeeld aan een IT landschap dat volledig in de Cloud draait."
Lorenz, na maanden lang pushen vanuit mijn kant, ben je me gevolgd naar beide organisaties. Heb je al spijt?
“Geen seconde! Bij Datamo werd ik warm ontvangen en heb ik collega’s gevonden die enorm goed zijn in hun werk en het plezier ervan graag delen met de rest. Je merkt dat iedereen enorm geïnteresseerd is in elkaar en het leuk vindt om kennis te delen zodat we met elkaar kunnen groeien. Daarnaast heb ik mij al in een korte tijd snel kunnen ontwikkelen, mede door code reviews met collega’s en hands-on workshops. Ook is het fijn dat bijna alle cursussen en opleidingen die je wilt doen worden betaald door Datamo, daardoor is het ontwikkelen van je skills enorm laagdrempelig. Bij Mileway was het aanvankelijk moeilijk om de juiste werkmethode te vinden en de rollen en verantwoordelijkheden duidelijk te krijgen binnen het team, maar we zijn de laatste maanden enorm gegroeid mede door mijn initiatief. Erg leuk om te zien waar we als team nu staan ten opzichte van een aantal weken geleden! Mileway is een erg fijne opdrachtgever die er voor zorgt dat je alles beschikbaar hebt wat je nodig hebt om je taken goed uit te voeren, dat gaat ook zeker lukken met dit project!”
Door Lorenz Kort en Marijn Nieboer