Davide I.

Berater – Forschungsleiter – NLP/GPT- und Ontologie-Ingenieur (Team von 4 – Remote EU, Asien)

Msida, Vereinigtes Königreich

Erfahrungen

Jan. 2023 - Bis heute
2 Jahren 8 Monaten
Vereinigtes Königreich
Remote

Berater – Forschungsleiter – NLP/GPT- und Ontologie-Ingenieur (Team von 4 – Remote EU, Asien)

Open University

  • Erkundung des Potenzials der neuartigen GPT-Sprachmodelle in Verbindung mit Graph-Datenbanken, Feinabstimmung von GPT-Prompts und PoC für automatisierte KI-gestützte Datenverknüpfung.
  • Details zum Projekt sind noch vertraulich.
  • Erstes Produkt für KI-gestützte Karriereberatung am 26. April 2023 veröffentlicht.
  • Technologien: Forschung, Jupyter Notebook, Python, Panda, Numpy, Scikit, FastApi, Flask, Django, Java, Jena, GIT, GitHub, CICD, CI/CD, Jira, TDD, DevOps, Terraform, Docker, Cloud Azure, Azure App, Azure OpenAI, DBT, API, sFTP, yarrml, RMLMapper, GraphDB, OntoRefine, SQL, SPARQL, Graph-Datenbank, OWL, RDF, Ontologien, GPT-3, GPT-3.5-turbo, GPT-4.0 (einschließlich programmatischer Interaktion mit den von OpenAI.io und Azure bereitgestellten APIs).
Juli 2022 - Dez. 2022
6 Monaten
London, Vereinigtes Königreich
Remote

Berater – Tech Lead – Data Engineer und Ingenieur für semantische Sprachen (vollständig remote UK, EU, Asien)

Astrazenaca

  • Neugestaltung, Neubau und Migration der Semantic Engine, die die Metadaten mehrerer Datenquellen unterstützt, von einem Drittanbieter-Tool zu einer Inhouse-Lösung.
  • Das Projekt erforderte es, die aktuelle Implementierung des Semantic Data Hub zu ersetzen. Die Lösung musste ein Produkt entwerfen, das ein Volumen an Metadaten, gesammelt aus mehreren Abteilungen, verarbeiten kann, einen Proof of Concept (PoC) entwickeln, diesen mit den Stakeholdern abstimmen und eine vollwertige Implementierung zur Produktionsreife liefern. Die Lösung bestand aus einer Reihe von Extraktoren, basierend auf Meltano, benutzerdefinierten API-Connectors und Ingestoren in Python, um die Metadaten aus verschiedenen Quellen zu sammeln. Die Metadaten wurden anschließend in Postgres abgelegt und mithilfe von DBT-Transformationen bereinigt. Die bereinigten Metadaten wurden mit RMLMapper den internen Ontologien zugeordnet, in Tripel und N-Quads umgewandelt und in Allegrograph geladen.
  • Einmal in Allegrograph haben wir SPARQL-Abfragen genutzt, um Daten über verschiedene Graphen hinweg anzureichern und Wissen aus der Fülle der Informationen zu extrahieren. Die Lösung ist so konzipiert, dass sie auf AWS bereitgestellt wird und eine Kombination aus nativen Diensten (Airflow, S3, RDS-Postgres, EKS) und Containern (Allegrograph, benutzerdefinierte Transformer, Extraktoren, Loader, Meltano, DBT, RMLMapper) verwendet. Der finale Workload lieferte Datensätze mit über 50 Millionen Tripeln.
  • Technologien: Stakeholder-Engagement, yarrml, RMLMapper, Allegrograph, SQL, SPARQL, Graph-Datenbank, OWL, RDF, Ontologien, Protege, Meltano, DBT, Postgres, Snowflake, SnowPipe, Matillion, Python, FastApi, Flask, Django, GIT, GitHub, GitActions, CICD, CI/CD, Jira, TDD, DevOps, AWS, Terraform, Docker, Docker Compose, Airflow, RDS-Postgres, Cloud, AWS, API, sFTP.
Nov. 2021 - Aug. 2022
10 Monaten
London, Vereinigtes Königreich
Remote

Berater – Tech Lead – Data Engineer und Machine Learning Engineer (vollständig remote EU)

Many Pets (Bought By Many)

  • Einbinden interner und externer Datensätze zur Unterstützung von Kundenservice und Marketing.
  • Unterstützte Projekte:
  • Automatisierung des Imports von Purecloud-Daten, Umformatierung gemäß Spezifikation, um eine fortschrittliche Callcenter-Überwachung zu ermöglichen, und Aufbau erweiterter Analysen und Überwachung der Aktivitäten. Das Projekt führte zu einer 15 %igen Leistungssteigerung des internen Callcenters und einer 42 %igen Verbesserung beim externen Callcenter.
  • Automatisierter Import von Mention-Me-Daten und Bereitstellung für die Marketingabteilung zur Analyse. Dieses erste Tool ermöglichte es der Marketingabteilung, Abonnements und Weiterempfehlungen mit automatisierten Werkzeugen statt manueller Verarbeitung zu analysieren und so viel Zeit zu sparen.
  • Einrichtung ihrer Airflow-Instanz, um Datenbankmanipulationen mit DBT und Analyse-Tools in einer containerisierten Umgebung auszuführen, die Leistung zu verbessern und die DBT-Abhängigkeiten von den Airflow-Abhängigkeiten zu entkoppeln.
  • Technologien: Stakeholder-Engagement, Python, Pandas, Scipy, FastApi, Flask, Django, GIT, GitHub, Jenkins, Jira, ClickMe, CI/CD, TDD, DevOps, Terraform, Docker, Fivetran, BigQuery, Snowflake, Composer-Airflow, Cloud GCP, DBT, API, sFTP, Vertex AI.
März 2021 - Nov. 2022
1 Jahr 9 Monaten
London, Vereinigtes Königreich
Remote

Berater – Tech Lead – Data Engineer und Machine Learning Engineer (vollständig remote EU, Asien)

Tesco Plc

  • Überführung von Data-Science-Modellen (R, Jupyter Notebook, Matlab) in produktionsreife Anwendungen in der Azure-Cloud und auf On-Premise Hadoop/Spark-Clustern.
  • Unterstütztes Projekt:
  • Rohstoffhandelsprojekt, das Einsparungen in Millionenhöhe beim Einkauf von Weizen und Mais ermöglichte. Hinweis: Wir operierten im Bullenmarkt kurz vor der Ukraine-Krise, daher könnte die Marktsituation einen Teil der Performance erklären.
  • Produktabgleich: Automatische Ermittlung der besten Übereinstimmung zwischen internen und Wettbewerbsprodukten, wodurch manuelle Eingriffe um das Vierfache reduziert wurden. Die durchschnittliche Abgleichzeit pro Artikel sank von etwa 3 Minuten auf unter eine Minute. Der vorgeschlagene Artikel wurde in 96 % der Fälle akzeptiert.
  • Frische: Modellierung von Preisreduzierungen für Produkte kurz vor Ablaufdatum; vorläufige Ergebnisse deuten auf eine Abfallreduzierung um etwa 20 % hin.
  • Technologien: Stakeholder-Engagement, Java (EE), Python, Pandas, NLTK, Scipy, Numpy, Hadoop, HIVE, Pyspark, FastApi, Flask, Django, GIT, GitHub, Jenkins, Jira, CI/CD, TDD, DevOps, Automated Testing, Load Testing, ETL, Pipelines, Data Preprocessing, Data Lake, Azure, AzureML, Kafka, Spark, Hadoop, Hive, SQL, PostgreSQL, Teradata, Refinitiv Point Connect, Bloomberg SAPI.
Apr. 2020 - Okt. 2020
7 Monaten
London, Vereinigtes Königreich
Remote

Berater – Core Data Engineering Lead – Neuron-Programm

Vodafone

  • Bereitstellung des Kerns der Migration von Vodafones Big-Data-Plattform zur Google Cloud (Team von 15 – vollständig remote, UK, Indien).
  • Die Plattform bedient alle europäischen Märkte und verarbeitet mehrere Terabyte Daten pro Tag (Datenaufbewahrung von etwa 2–3 Petabyte rollierender Daten).
  • Wiederaufbau der Fähigkeiten des Core Data Engineering Teams für die Migration der Big-Data-Plattform zur Google Cloud nach den Auswirkungen der IR35-Reform. Die Migration wurde trotz der ernsten Einschränkungen durch Covid-19 unter engen Zeit- und Budgetvorgaben mit nur geringfügiger Verzögerung abgeschlossen.
  • Anfängliche Herausforderungen: Das Team war von IR35-Policy-Änderungen betroffen. Das Projekt erlitt Wissensverlust, Verzögerungen, hohe technische Schulden und fehlende Dokumentation.
  • Vorteile: Das Team wurde verstärkt, die technische Schuld wurde bewertet und ihr Einfluss gemindert, eine Reduzierung des Umfangs wurde mit den Stakeholdern abgestimmt, um Zeitrahmen und Budget einzuhalten. Das Projekt wurde trotz ernster technischer, budgetärer und äußerer Einschränkungen mit nur geringfügiger Verzögerung geliefert.
  • Technologien: Stakeholder-Engagement, Java (EE), Scala, Python, Pyspark, GitHub, Jenkins, Jira, CI/CD, TDD/BDD, DevOps, Testautomatisierung, Last-/Stresstest, Kostenoptimierung, Google Cloud Platform (GCP), diverse Dienste wie DataFlow (Apache Beam), Composer (Airflow), DataProc, Cloud Storage, BigQuery, BigTable, Spanner, Pub/Sub, interne Microservice-Architektur basierend auf Kubernetes, Docker, Terraform.
Juli 2019 - Feb. 2020
8 Monaten
London, Vereinigtes Königreich

Berater – Quantitative Forschung/Maschinelles Lernen – Lead-Entwickler

Lloyds Banking Group

  • Überarbeitete die automatisierte Handelsüberwachungsplattform, um die Vorgaben des Auditors zu erfüllen (Team von 6 – vor Ort).
  • Vermittelte zwischen Stakeholdern, um einen einheitlichen Ansatz für verschiedene Asset-Klassen zu vereinbaren.
  • Vermittelte zwischen Stakeholdern und Entwicklern, um sicherzustellen, dass die Lieferungen den Anforderungen entsprechen.
  • Definierte Vorlagen für eine effiziente und standardisierte Umsetzung aller Analysen.
  • Implementierte eine Reihe wichtiger High-End-Analysen mit NLP, ML und fortgeschrittenen quantitativen Methoden.
  • Erste Herausforderungen: Ausstehende Prüfung durch den Regulator. Das Projekt litt unter einer Lücke zwischen Stakeholdern, Compliance-Anforderungen und Entwicklern. Die Plattform war veraltet. Das Entwicklungsteam hatte eine hohe Fluktuation, wodurch Wissen verloren ging. Die Dokumentation war unvollständig.
  • Nutzen: Bestehende Audits bestanden (erhebliche Kosteneinsparungen). Relevante Warnmeldungen geliefert (67% weniger Spam bei nachgelagerten Teams). Plattform wurde konsolidiert und erweiterbar gemacht.
  • Asset-Klassen: FX Spot/Optionen, Zins-Futures/Anleihen/Swaps, Repo, individuelle OTC-Produkte.
  • Technologien: Stakeholder-Engagement, Java (EE), Python, Pandas, NLTK, SciPy, NumPy, PySpark, Dask, Bitbucket, Jenkins, Jira, CI/CD, TDD, DevOps, Risiko-Szenarien, automatisierte Tests, Lasttests.
Apr. 2019 - Juni 2019
3 Monaten
London, Vereinigtes Königreich

Interim Produktdirektor

EMY Design

  • Leitete das Start-up von Grund auf bis zum ersten marktfähigen Produkt, mit besonderem Fokus auf E-Commerce-Präsenz und Optimierung der Klickraten.
Jan. 2019 - Apr. 2019
4 Monaten
Vereinigtes Königreich

Berater – Leitender Data Scientist

News Uk – The Times

  • Implementierte “Project James”, eine Reinforcement-Learning-KI zur Optimierung des Direktmarketings.
  • News UK gewann ein von Google gefördertes Innovationsstipendium, um eine fortschrittliche Lösung für echte Marketingprobleme zu liefern. Der Weggang des ursprünglichen Projektleiters machte eine Neuaufteilung der Aufgabe nötig. Die Intervention erforderte die Bewertung des teilweise umgesetzten Projekts, Festlegung des Basisansatzes, den Neuaufbau des Reinforcement-Learning-Kerns mit modernsten Werkzeugen sowie das Feintuning und die termingerechte Bereitstellung eines produktionsreifen Tools.
  • Herausforderungen: Zeitdruck bei der Lieferung. Teilweise implementierte Plattform mit unvollständiger Dokumentation. Umfassendes Forschungsprojekt ohne vorherige Fallstudie zum Vergleich.
  • Nutzen: JAMES hat die Kundenabwanderung weiter verringert, und Berater, die sich an den Interessen der Leser orientieren, bilden die Grundlage für ein preisgekröntes Callcenter.
  • Technologien: Python, pandas, SciPy, NumPy, TensorFlow, Django, Flask, GitHub, Jenkins, Jira, GitOps, CI/CD, DevOps, Kubernetes, Docker, Terraform, Microservice-Architektur.
Juli 2018 - Dez. 2018
6 Monaten
Vereinigtes Königreich

Berater – Leitender Data Scientist

News Uk – The Times

  • Lieferten das Propensity-Modell und die API (Team von 5 – vor Ort).
  • Der Kunde wollte die Conversion-Rate auf der digitalen Plattform verbessern und eine personalisierte Nutzererfahrung bieten. Daher testeten wir ein Online-Propensity-Modell. Das Modell verfolgt jeden Nutzer von The Times Digital in Echtzeit und sagt den besten Zeitpunkt für eine Handlungsaufforderung voraus, z. B. Abonnements, Cross-Selling, Upselling.
  • Herausforderungen: Das Modell sollte mit hoher Durchsatzrate (1000+ Vorhersagen/Sekunde) und geringer Latenz (<250 ms maximale Reaktionszeit) arbeiten.
  • Nutzen: Es steigerte Abonnements um 5 % und Cross-Sales um 9 %. Begleitete die Einführung von High-Throughput-APIs im brandneuen k8s-Cluster von NewsUK.
  • Technologien: Stakeholder-Management, Python, pandas, NLTK, SciPy, NumPy, API, Django, Nginx, Docker, Kubernetes (k8s), Terraform, Microservice-Architektur, TensorFlow, GitHub, Jenkins, Jira, CI/CD, DevOps, New Relic.
März 2017 - Aug. 2018
1 Jahr 6 Monaten
Vereinigtes Königreich

Vizepräsident

JP Morgan Chase

  • Leitete die Bereitstellung der Cloud-Logging- und Monitoring-Plattform (Team von 20 an 3 Standorten).
  • Im Rahmen der Einführung öffentlicher Cloud-Lösungen benötigte JPMC ein standardisiertes, großflächiges Logging- und Monitoring-System, um die Cybersicherheitsanforderungen aller Anwendungen in der Public Cloud zu erfüllen.
  • Davide stieg nach dem Proof of Concept der Plattform ins Team ein. Er prüfte Architektur und Implementierung und skalierte anschließend die Plattform, um 5 TB Daten pro Tag zu verarbeiten (ca. 5 Milliarden Nachrichten mit einem Spitzenwert von 1,3 Milliarden in der ersten Handelsstunde).
  • Herausforderungen: Sehr neues Projekt mit strengen Datenschutzauflagen und daher begrenzter Verfügbarkeit genehmigter Cloud-Dienste. Sehr anspruchsvolle Anforderungen hinsichtlich SLO/SLA, hoher Verfügbarkeit, Disaster Recovery und nachhaltiger Wiederherstellung.
  • Nutzen: Die Plattform ermöglichte die Überwachung eines ersten Sets von 5 geschäftskritischen Anwendungen in der Public Cloud (AWS). Sie setzte neue Technologien ein, brachte JPMC mehrere neue Architekturpatterns und bewies die Fähigkeit, auf Knopfdruck eine größere Anzahl von Anwendungen zu überwachen.
  • Technologien: Führung, AWS (API Gateway, Route53, S3, DynamoDB, Kinesis, Elastic Beanstalk, Lambda, ELB, IAM, CloudWatch, CloudTrail usw.), Boto, Terraform, FluentD, Kafka, Kafka Streams (nach SOC3 durch Kinesis ersetzt), Kinesis Firehose, NiFi, Elasticsearch, Logstash, Kibana, Java (EE), Python, Bitbucket, Jenkins, Jira, CI/CD, TDD, BDD, DevOps, Hera (JPMC Terraform-basierte API), automatisierte Tests, Lasttests, Microservice-Architektur, Docker, Kubernetes (k8s), Datadog. L1- und L3-Support während der Einführung bzw. Produktion.
März 2016 - Feb. 2017
1 Jahr
Vereinigtes Königreich

Vizepräsident

JP Morgan Chase

  • Grundstein für ein standardisiertes regulatorisches Reporting in allen Geschäftsbereichen gelegt (regulatorisch bedingt – Team aus 4).
  • Durch eine regulatorische Änderung musste das Unternehmen Berichte erstellen, die alle Geschäftsbereiche (LoB) zusammenfassten. Dafür war die Standardisierung von Tausenden Begriffen nötig (‘Kredit’ hat im Einzelhandel eine andere Bedeutung als im Derivatebereich). Wir haben kontrollierte Vokabulare erstellt, Verfahren für das Metadatenmanagement ausgearbeitet und automatisiert. Die Wörterbücher und Referenzdaten wurden über eine REST-API auf Basis einer Konstellation von Microservices bereitgestellt. Wir haben zahlreiche Schulungsmaßnahmen in der Organisation gefördert.
  • Herausforderungen: Hohe Regulatorexponierung. Eine riesige Menge nicht gelisteter Begriffe, die Aufmerksamkeit benötigten. Erforderte intensive Vermittlung zwischen verschiedenen ranghohen Stakeholdern (Senior Executives und Managing Directors).
  • Nutzen: Wir haben das regulatorische Risiko eingedämmt und Werkzeuge bereitgestellt, um Einblicke in die Unternehmensdynamik zu gewinnen.
  • Assetklassen: FX Spot/Optionen, Zins-Futures/Anleihen/Swaps, Derivate, OTC.
  • Technologien: Java (EE), Spring, Python, RDF, OWL, SPARQL, Semantic-Web-Standards, Ontologien, Semantic Wiki, Wissensgraphen, Graphdatenbank, Neo4j, BigQuery (Blazegraph), ISO20022, Bitbucket, Jenkins, Jira, CI/CD, TDD, BDD, DevOps, Docker, Microservices.
Nov. 2014 - Feb. 2016
1 Jahr 4 Monaten
Vereinigtes Königreich

Vizepräsident

JP Morgan Chase

  • Entwickelte die Meta-Analyse für den Corporate- und Investmentbereich (CIB) der Bank.
  • Im Rahmen der Digitalisierungsinitiative sollte JPMC alle Datenbestände und Softwareprodukte der Geschäftsbereiche kennzeichnen und bewerten. Wir haben Data-Quality-Metriken definiert, formale Ontologien zur Darstellung der logischen Datenmodelle (LDM) erstellt, Metadaten aller Datenbanken durchsucht, um das physische Datenmodell (PDM) abzuleiten, und diese mithilfe heuristischer Verfahren verknüpft. Die Ergebnisse wurden von Informationsarchitekten manuell verfeinert.
  • Herausforderungen: Sehr umfangreiche, heterogene Datensammlungen. Die Datenqualität war nicht immer ausreichend. Einige Data Stewards arbeiteten nur teilweise kooperativ.
  • Nutzen: Der halbautomatisierte Ansatz steigerte die Produktivität der Informationsarchitekten um den Faktor 4,7.
  • Technologien: Java, Spring, Python, RDF, OWL, Semantic-Web-Standards, Ontologien, Wissensgraphen, Graphdatenbank, BigQuery, ISO11179, Bitbucket, Jenkins, Jira, CI/CD, TDD, DevOps.

Zusammenfassung

Davide Imperatis Werdegang basiert auf zwei Jahrzehnten akademischer und beruflicher Erfahrung in quantitativer Forschung, Datenstrategie und groß angelegter Cloud-Migration. Seine technische Erfahrung wird ergänzt durch starke Soft Skills und ein tiefes Verständnis der Geschäftsbereiche Finanzen, Telekommunikation, Medien, Logistik und digitales Marketing. Er ist in den Anfangsphasen von Greenfield-Datenprojekten (PoC – Pilot) tätig. Außerdem verfügt er nachweislich über Erfahrung damit, in leistungsschwachen datenbezogenen Projekten einzugreifen und diese unter Kontrolle von Budget-, Zeit- und Ressourcenbeschränkungen erfolgreich abzuschließen.

  • Datenmodellierung und Datenbankdesign
  • Fortgeschrittene SQL-Abfragen und Optimierung
  • ETL (Extract, Transform, Load) Design und Implementierung
  • Daten-Warehousing
  • Big-Data-Technologien (Hadoop, Spark usw.)
  • Cloud-Computing-Plattformen (AWS, Azure, GCP)
  • Daten-Streaming-Technologien (Kafka, Flink usw.)
  • Daten-Governance und Sicherheit
  • Datenqualitätsmanagement
  • Fortgeschrittene Programmierkenntnisse (Python, Java usw.)
  • Datenvisualisierung und Berichterstattung
  • Machine-Learning- und KI-Technologien
  • NoSQL-Datenbanken (MongoDB, Cassandra usw.)
  • Datenintegration aus mehreren Quellen
  • Daten-Governance-Rahmenwerke (DSGVO, CCPA usw.)
  • Projektmanagementkenntnisse
  • Agile Methoden
  • Teamführung und Mentoring
  • Performance-Tuning und Optimierung
  • Datenanalyse und Data Mining
  • Analyse-Tools (Tableau, PowerBI usw.)
  • Verteilte Systeme und Parallelverarbeitung
  • Speichermanagement
  • Prinzipien der Datenarchitektur
  • Datenpipeline-Management
  • Änderungsmanagement
  • Risikobewertung und -minderung
  • Systemintegration und API-Entwicklung
  • DevOps-Praktiken
  • Softwareentwicklungsmethoden
  • Datenmigrationsstrategien
  • Best Practices der Datensicherheit
  • Technische Dokumentation und -erstellung
  • Cloud Data-Warehousing-Lösungen (Redshift, Snowflake usw.)
  • Data-Lake-Implementierung
  • Daten-Transformation und Normalisierung
  • Daten-Governance-Rahmenwerke (HIPAA, PCI usw.)
  • Versionskontrollsysteme (Git, SVN usw.)
  • Business-Intelligence-Reporting
  • Datenmodellierungssprachen (UML, ERD usw.)
  • Datenreplikation und Synchronisation
  • Change Data Capture (CDC)-Techniken
  • Datenkatalogisierung und -entdeckung
  • Datenprofilierung und -klassifizierung
  • Datenherkunft und Metadatenmanagement
  • Datenarchivierung und Aufbewahrungsrichtlinien
  • Backup- und Notfallwiederherstellungsplanung
  • Datenschutz-Compliance
  • Datenvirtualisierung und -föderation
  • Datenwissenschaftliche Konzepte und Techniken.

Sprachen

Italienisch
Muttersprache
Deutsch
Verhandlungssicher
Englisch
Verhandlungssicher

Ausbildung

Lorem ipsum dolor sit amet

PhD · Komputationale Statistik

Lorem ipsum dolor sit amet

MSc · Informatik

Max-Planck-Institut

PostDoc · Chennai, Indien

...und 1 Weitere

Zertifikate & Bescheinigungen

Zertifizierter AWS Cloud Practitioner

Amazon Web Services

Zertifizierter PADI Instructor

PADI

Zertifizierter Scrum Product Owner

Scrum Alliance

Sie suchen Freelancer?Passende Kandidaten in Sekunden!
FRATCH GPT testen
Weitere Aktionen