Davide I.

Berater – Forschungsleiter – NLP/GPT- und Ontologie-Ingenieur (Team aus 4 – Remote EU, Asien)

Msida, Vereinigtes Königreich

Erfahrungen

Jan. 2023 - Bis heute
2 Jahren 11 Monaten
Vereinigtes Königreich
Remote

Berater – Forschungsleiter – NLP/GPT- und Ontologie-Ingenieur (Team aus 4 – Remote EU, Asien)

Open University

  • Erforsche das Potenzial der sehr neuen GPT-Sprachmodelle in Verbindung mit Graph-Datenbanken, Feinabstimmung von GPT-Prompts und PoC zur automatisierten, KI-gesteuerten Datenverknüpfung.
  • Einzelheiten zum Projekt sind noch vertraulich.
  • Erstes Produkt zur KI-gestützten Berufsberatung am 26. April 2023 veröffentlicht.
  • Technologien: Forschung, Jupyter Notebook, Python, Panda, Numpy, Scikit, FastAPI, Flask, Django, Java, Jena, GIT, GitHub, CI/CD, Jira, TDD, DevOps, Terraform, Docker, Azure Cloud, Azure App, Azure OpenAI, DBT, API, sFTP, YARRML, RMLMapper, GraphDB, Ontorefine, SQL, SPARQL, Graph-Datenbank, OWL, RDF, Ontologien, GPT-3, GPT-3.5-turbo, GPT-4.0, (einschließlich programmatischer Interaktion mit den von OpenAI.io und Azure bereitgestellten APIs).
Juli 2022 - Dez. 2022
6 Monaten
London, Vereinigtes Königreich
Remote

Berater – Technischer Leiter – Dateningenieur und Ingenieur für semantische Sprachen (vollständig remote UK, EU, Asien)

Astrazenaca

  • Neugestaltung, Wiederaufbau und Migration der semantischen Engine, die die Metadaten mehrerer Datenquellen vom aktuellen Drittanbietertool auf eine interne Lösung unterstützt.
  • Das Projekt erforderte die Ablösung der aktuellen Implementierung des semantischen Datenhubs. Die Lösung musste ein Produkt sein, das ein Volumen an Metadaten aus verschiedenen Abteilungen verarbeiten kann, einen Proof of Concept (PoC) entwickeln, diesen mit den Stakeholdern absegnen und eine komplette Umsetzung für den Produktionseinsatz liefern. Die Lösung bestand aus einer Reihe von Extraktoren, basierend auf Meltano, sowie kundenspezifischen API-Connectors und Ingestoren in Python zum Sammeln der Metadaten aus unterschiedlichen Quellen. Die Metadaten wurden dann in Postgres abgelegt und mit DBT-Transformationen bereinigt. Die bereinigten Metadaten wurden mit rmlmapper auf interne Ontologien abgebildet, in Tripel und N-Quads umgewandelt und in AllegroGraph geladen.
  • Sobald sie in AllegroGraph waren, nutzten wir SPARQL-Abfragen, um Daten über verschiedene Graphen hinweg anzureichern und Wissen aus der Informationsmenge zu extrahieren. Die Lösung ist so konzipiert, dass sie auf AWS bereitgestellt wird, indem native Services (Airflow, S3, RDS-Postgres, EKS) und Container (AllegroGraph, eigene Transformer, Extraktoren, Loader, Meltano, DBT, RMLMapper) kombiniert werden. Das endgültige Datenvolumen umfasste über 50 Mio. Tripel.
  • Technologien: Stakeholder-Engagement, YARRML, RMLMapper, AllegroGraph, SQL, SPARQL, Graph-Datenbank, OWL, RDF, Ontologien, Protege, Meltano, DBT, Postgres, Snowflake, SnowPipe, Matillion, Python, FastAPI, Flask, Django, GIT, GitHub, GitActions, CI/CD, Jira, TDD, DevOps, AWS, Terraform, Docker, Docker Compose, Airflow, RDS-Postgres, Cloud, API, sFTP.
Nov. 2021 - Aug. 2022
10 Monaten
London, Vereinigtes Königreich
Remote

Berater – Technischer Leiter – Dateningenieur und Machine-Learning-Ingenieur (vollständig remote EU)

Many Pets (Bought By Many)

  • Interne und externe Datensätze integrieren, um den Kundenservice und das Marketing zu unterstützen.
  • Unterstützte Projekte:
  • Automatischer Import von PureCloud-Daten, Umformatierung nach den Vorgaben, um ein fortschrittliches Callcenter-Monitoring zu ermöglichen, sowie Aufbau fortschrittlicher Analysen und Überwachung der Aktivitäten. Das Projekt brachte eine 15%ige Leistungssteigerung des internen Callcenters und eine 42%ige Verbesserung der Leistung des externen Callcenters.
  • Automatisierter Import von Mention-Me-Daten und Bereitstellung für die Marketingabteilung zur Analyse. Diese initiale Umsetzung ermöglichte es der Marketingabteilung, Abonnements und Empfehlungen mit automatisierten Tools statt manueller Verarbeitung zu analysieren und sparte viel Zeit.
  • Einrichtung ihrer Airflow-Instanz zur Durchführung von Datenbankmanipulationen mit DBT und Analysewerkzeugen in einer containerisierten Umgebung, um die Performance zu verbessern und DBT-Abhängigkeiten von Airflow zu entkoppeln.
  • Technologien: Stakeholder-Engagement, Python, Pandas, SciPy, FastAPI, Flask, Django, GIT, GitHub, Jenkins, Jira, ClickMe, CI/CD, TDD, DevOps, Terraform, Docker, Fivetran, BigQuery, Snowflake, Composer-Airflow, Cloud GCP, DBT, API, sFTP, Vertex AI.
März 2021 - Nov. 2022
1 Jahr 9 Monaten
London, Vereinigtes Königreich
Remote

Berater – Technischer Leiter – Dateningenieur und Machine-Learning-Ingenieur (vollständig remote EU, Asien)

Tesco Plc

  • Data-Science-Modelle (R, Jupyter Notebook, MATLAB) in produktionsreife Anwendungen in der Azure Cloud und im On-Premise-Hadoop/Spark-Cluster überführen.
  • Unterstütztes Projekt:
  • Rohstoffhandel-Projekt: Es führte zu Einsparungen von mehreren Millionen beim Einkauf von Weizen und Mais. Hinweis: Wir handelten auf bullischem Markt vor der Ukraine-Krise, daher könnte die Marktlage einen Teil der Performance erklären.
  • Produktabgleich: Automatische Zuordnung der besten Übereinstimmung zwischen internen und Wettbewerbsprodukten, was den manuellen Aufwand um den Faktor 4 verringerte. Die durchschnittliche Abgleichszeit pro Artikel sank von etwa 3 Minuten auf unter eine Minute. Der vorgeschlagene Artikel wurde in 96 % der Fälle akzeptiert.
  • Frischwaren: Modellierung von Preisreduktionen für Produkte kurz vor dem Ablaufdatum; erste Ergebnisse deuten auf eine Abfallreduzierung von etwa 20 % hin.
  • Technologien: Stakeholder-Engagement, Java (EE), Python, Pandas, NLTK, SciPy, NumPy, Hadoop, Hive, PySpark, FastAPI, Flask, Django, GIT, GitHub, Jenkins, Jira, CI/CD, TDD, DevOps, automatisierte Tests, Lasttests, ETL, Pipelines, Datenvorverarbeitung, Data Lake, Azure, AzureML, Kafka, Spark, Hadoop, Hive, SQL, PostgreSQL, Teradata, Refinitiv Point Connect, Bloomberg SAPI.
Apr. 2020 - Okt. 2020
7 Monaten
London, Vereinigtes Königreich
Remote

Berater – Leiter Core Data Engineering – Neuron-Programm

Vodafone

  • Umsetzung des Kerns der Migration von Vodafones Big-Data-Plattform in die Google Cloud (Team aus 15 – vollständig remote, UK, Indien).
  • Die Plattform bedient alle europäischen Märkte und verarbeitet mehrere Terabyte Daten pro Tag (Datenvorhaltung von etwa 2–3 Petabyte rollierender Daten).
  • Wiederaufbau der Fähigkeiten des Core Data Engineering Squad für die Migration der Big-Data-Plattform in die Google Cloud nach den Auswirkungen der IR35-Reform. Die Migration wurde trotz enger Zeit- und Budgetvorgaben mit nur geringfügiger Verzögerung trotz erheblicher Covid-19-Einschränkungen geliefert.
  • Herausforderungen zu Beginn: Das Team war von den IR35-bedingten Richtlinienänderungen betroffen, das Projekt litt unter Wissensverlust, Verzögerungen, hoher technischer Verschuldung und fehlender Dokumentation.
  • Erfolge: Das Team wurde verstärkt, technische Schulden wurden analysiert und deren Auswirkungen gemildert, der Umfang wurde mit den Stakeholdern angepasst, um Zeit- und Budgetvorgaben zu entsprechen. Das Projekt wurde mit nur geringer Verzögerung trotz ernster technischer, budgetärer und umweltbedingter Einschränkungen abgeschlossen.
  • Technologien: Stakeholder-Engagement, Java (EE), Scala, Python, PySpark, GitHub, Jenkins, Jira, CI/CD, TDD/BDD, DevOps, Testautomatisierung, Last-/Stresstests, Kostenoptimierung, Google Cloud Platform (GCP), mehrere Dienste einschließlich Dataflow (Apache Beam), Composer (Airflow), Dataproc, Cloud Storage, BigQuery, Bigtable, Spanner, Pub/Sub, interne Microservice-Architektur basierend auf Kubernetes, Docker, Terraform.
Juli 2019 - Feb. 2020
8 Monaten
London, Vereinigtes Königreich

Berater – Quantitative Forschung / Maschinelles Lernen – Leitender Entwickler

Lloyds Banking Group

  • Überarbeitete die automatisierte Handelsüberwachungsplattform, um die vom Prüfer festgelegten Kriterien zu erfüllen (Team von 6 – am selben Standort).
  • Vermittelte zwischen Stakeholdern, um eine einheitliche Vorgehensweise über verschiedene Asset-Klassen hinweg zu vereinbaren.
  • Vermittelte zwischen Stakeholdern und Entwicklern, um sicherzustellen, dass die Lieferung den Anforderungen entsprach.
  • Definierte Vorlagen für eine effiziente und standardisierte Implementierung aller Analysen.
  • Implementierte eine Reihe kritischer High-End-Analysen unter Verwendung von NLP, ML und fortgeschrittenen quantitativen Methoden.
  • Anfängliche Herausforderungen: Ausstehende Prüfung durch die Aufsichtsbehörde. Das Projekt litt unter fehlender Abstimmung zwischen Stakeholdern, Compliance-Anforderungen und Entwicklern. Die Plattform war veraltet. Das Entwicklungsteam hatte eine hohe Fluktuation, wodurch Wissen verloren ging. Die Dokumentation war lückenhaft.
  • Vorteile: Bestehen der Prüfung (erhebliche Kostenreduktion). Bereitstellung aussagekräftiger Meldungen (67 % weniger Spam bei nachgelagerten Teams). Plattform wurde konsolidiert und erweiterbar gemacht.
  • Asset-Klassen: FX Spot/Optionen, Zins-Futures/Anleihen/Swaps, Repo, maßgeschneiderte OTC.
  • Technologien: Stakeholder-Engagement, Java (EE), Python, Pandas, NLTK, SciPy, NumPy, PySpark, Dask, Bitbucket, Jenkins, Jira, CI/CD, TDD, DevOps, Risiko-Szenarien, automatisierte Tests, Lasttests.
Apr. 2019 - Juni 2019
3 Monaten
London, Vereinigtes Königreich

Interims-Produktleiter

EMY Design

  • Leitete den Unternehmensaufbau von Grund auf bis zum ersten marktfähigen Produkt, mit besonderem Fokus auf E-Commerce-Präsenz und Optimierung der Klickrate.
Jan. 2019 - Apr. 2019
4 Monaten
Vereinigtes Königreich

Berater – Leitender Data Scientist

News Uk – The Times

  • Ließ „Projekt James“ entstehen, eine Reinforcement-Learning-KI zur Optimierung des Direktmarketings.
  • News UK erhielt ein von Google gesponsertes Innovationsstipendium zur Entwicklung einer fortschrittlichen Lösung für reale Marketingprobleme. Der Wegfall des ursprünglichen Projektleiters führte zur Neuzuweisung der Aufgabe. Der Eingriff erforderte die Bewertung des teilweise implementierten Projekts, die Grundlagendefinition des Ansatzes, den Neuaufbau des Reinforcement-Learning-Kerns mit modernen Tools sowie Feinabstimmung und Auslieferung eines produktionsreifen Werkzeugs im vorgegebenen Zeitrahmen.
  • Herausforderungen: Zeitdruck bei der Lieferung. Teilweise implementierte Plattform mit lückenhafter Dokumentation. Vollständiges Forschungsprojekt ohne vorherige Fallstudie zum Vergleich.
  • Vorteile: JAMES hat das Abwanderungsmanagement weiter revolutioniert, und Berater, die anhand der Leserinteressen informiert werden, bilden das Rückgrat eines preisgekrönten Kontaktzentrums.
  • Technologien: Python, Pandas, SciPy, NumPy, TensorFlow, Django, Flask, GitHub, Jenkins, Jira, GitOps, CI/CD, DevOps, Kubernetes, Docker, Terraform, Microservice-Architektur.
Juli 2018 - Dez. 2018
6 Monaten
Vereinigtes Königreich

Berater – Leitender Data Scientist

News Uk – The Times

  • Lieferte das Propensity-Modell und die API (Team von 5 – am selben Standort).
  • Der Kunde wollte die Conversion-Rate auf der digitalen Plattform verbessern und ein personalisiertes Nutzererlebnis bieten. Daher haben wir ein Online-Propensity-Modell pilotiert. Das Modell verfolgt jeden Nutzer von The Times Digital in Echtzeit und sagt den besten Zeitpunkt für Handlungsaufrufe voraus, z. B. Abonnements, Cross-Sales, Upselling.
  • Herausforderungen: Das Modell muss bei hohem Durchsatz (über 1000 Vorhersagen/Sekunde) und geringer Latenz (<250 ms maximale Reaktionszeit) arbeiten.
  • Vorteile: Es steigerte Abonnements um 5 % und Cross-Sales um 9 %. Wir pilotierten die Bereitstellung leistungsstarker APIs im brandneuen k8s-Cluster von News UK.
  • Technologien: Stakeholder-Management, Python, Pandas, NLTK, SciPy, NumPy, API, Django, Nginx, Docker, Kubernetes (k8s), Terraform, Microservice-Architektur, TensorFlow, GitHub, Jenkins, Jira, CI/CD, DevOps, New Relic.
März 2017 - Aug. 2018
1 Jahr 6 Monaten
Vereinigtes Königreich

Vizepräsident

JP Morgan Chase

  • Leitete die Auslieferung der Cloud-Logging- und Monitoring-Plattform (Team von 20 an 3 Standorten).
  • Im Rahmen der Einführung der Public Cloud benötigte JPMC ein standardisiertes, groß angelegtes Logging- und Monitoring-System, um die Anforderungen an die Cybersicherheit für alle Anwendungen in der Public Cloud zu erfüllen.
  • Davide kam nach dem Proof of Concept der Plattform ins Team. Er prüfte Architektur und Implementierung. Anschließend skalierte er die Plattform, um 5 TB Daten pro Tag zu verarbeiten (etwa 5 Milliarden Nachrichten mit einem Spitzenwert von 1,3 Milliarden in der ersten Handelsstunde).
  • Herausforderungen: Sehr neues Projekt unter strengen Vorgaben zum Datenschutz und somit eingeschränkter Verfügbarkeit zugelassener Cloud-Services. Sehr anspruchsvolle Anforderungen an SLO/SLA, hohe Verfügbarkeit, Disaster Recovery und nachhaltige Wiederherstellung.
  • Vorteile: Die Plattform ermöglichte die Überwachung einer ersten Reihe von fünf geschäftskritischen Anwendungen in der Public Cloud (AWS). Sie hat neue Technologien eingeführt, verschiedene Architektur-Patterns bei JPMC etabliert und bewiesen, dass sie per Knopfdruck auf eine größere Anzahl überwachter Anwendungen skalieren kann.
  • Technologien: Führung, AWS (API Gateway, Route53, S3, DynamoDB, Kinesis, Elastic Beanstalk, Lambda, ELB, IAM, CloudWatch, CloudTrail usw.), Boto, Terraform, FluentD, Kafka, Kafka Streams (nach SOC3 durch Kinesis ersetzt), Kinesis Firehose, NiFi, Elasticsearch, Logstash, Kibana, Java (EE), Python, Bitbucket, Jenkins, Jira, CI/CD, TDD, BDD, DevOps, Hera (JPMCs Terraform-basierte API), automatisierte Tests, Lasttests, Microservice-Architektur, Docker, Kubernetes (k8s), Datadog. L1- und L3-Support während Rollout bzw. Produktion.
März 2016 - Feb. 2017
1 Jahr
Vereinigtes Königreich

Vizepräsident

JP Morgan Chase

  • Legte die Grundlage für eine standardisierte aufsichtsrechtliche Berichterstattung über alle Geschäftsbereiche (regulatorisch getrieben - 4-köpfiges Team).
  • Durch eine regulatorische Änderung musste das Unternehmen Berichte erstellen, die alle Geschäftsbereiche (LoB) aggregieren. Das erforderte die Standardisierung von Tausenden von Begriffen für die Berichterstattung (‘Darlehen’ hat im Retail eine andere Bedeutung als bei Derivaten). Wir haben kontrollierte Vokabulare erstellt, die Verfahren fürs Metadaten-Management entwickelt und automatisiert. Die Wörterbücher und die Referenzdaten wurden über eine restAPI bereitgestellt, basierend auf einer Konstellation von Microservices. Wir förderten zahlreiche Schulungsmaßnahmen in der gesamten Organisation.
  • Herausforderungen: Hohe Aufmerksamkeit seitens der Aufsichtsbehörden. Riesige Menge nicht gelisteter Begriffe, die berücksichtigt werden mussten. Erheblicher Bedarf, zwischen verschiedenen hochrangigen Stakeholdern (Senior Executives und Managing Directors) zu vermitteln.
  • Nutzen: Wir haben das aufsichtsrechtliche Risiko verringert und Werkzeuge bereitgestellt, um Einblicke in die Unternehmensdynamik zu gewinnen.
  • Assetklassen: FX Spot/Optionen, Zins-Futures/Anleihen/Swaps, Derivate, OTC.
  • Technologien: Java (EE), Spring, Python, RDF, OWL, SparQL, Semantic web standards, Ontologies, Semantic Wiki, Knowledge graphs, Graph Database, Neo4j, BigQuery(Blazegraph), ISO20022, bitbucket, jenkins, jira, CI/CD, TDD, BDD, DevOps. Docker, Microservices.
Nov. 2014 - Feb. 2016
1 Jahr 4 Monaten
Vereinigtes Königreich

Vizepräsident

JP Morgan Chase

  • Entwickelte die Meta-Analyse für den Bereich Corporate und Investment Banking (CIB) der Bank.
  • Im Rahmen der Digitalisierungsinitiative wollte JPMC alle Daten-Repositorien und Softwareprodukte der Geschäftsbereiche kennzeichnen und bewerten. Wir definierten die Datenqualitätskennzahlen, formale Ontologien zur Datenrepräsentation logischer Datenmodelle (LDM), durchsuchten die Metadaten aller Datenbanken, um das physische Datenmodell (PDM) herzuleiten, und verknüpften sie mittels Heuristiken. Die Ergebnisse wurden von den Informationsarchitekten manuell verfeinert.
  • Herausforderungen: Sehr breit gefächerte, heterogene Datensammlungen. Die Datenqualität war nicht immer optimal. Einige Data Stewards kooperierten nur teilweise mit dem Prozess.
  • Nutzen: Der semi-automatisierte Ansatz steigerte die Produktivität der Informationsarchitekten um den Faktor 4,7.
  • Technologien: Java, Spring, Python, RDF, OWL, Semantic web standards, Ontologies,Knowledge graphs, Graph Database, BigQuery, ISO11179, bitbucket, jenkins, jira, CI/CD, TDD, DevOps.

Zusammenfassung

Davide Imperatis Werdegang basiert auf zwei Jahrzehnten akademischer und unternehmerischer Erfahrung in quantitativer Forschung, Datenstrategie und groß angelegter Cloud-Migration. Seine technische Erfahrung wird ergänzt durch ausgeprägte Soft Skills und tiefes Verständnis der Geschäftsbereiche Finanzen, Telekom, Medien, Logistik und digitales Marketing. Er arbeitet in den Anfangsphasen von Greenfield-, datengetriebenen Projekten (PoC – Pilot). Außerdem hat er nachweisliche Erfahrung darin, leistungsschwache datenbezogene Projekte zu übernehmen und sie unter Budget-, Zeit- und Ressourcenbeschränkungen zum Ziel zu führen.

  • Datenmodellierung und Datenbankdesign
  • Fortgeschrittene SQL-Abfragen und -Optimierung
  • ETL (Extract, Transform, Load) Design und Implementierung
  • Data Warehousing
  • Big-Data-Technologien (Hadoop, Spark usw.)
  • Cloud-Computing-Plattformen (AWS, Azure, GCP)
  • Data-Streaming-Technologien (Kafka, Flink usw.)
  • Data Governance und Sicherheit
  • Datenqualitätsmanagement
  • Fortgeschrittene Programmierkenntnisse (Python, Java usw.)
  • Datenvisualisierung und Reporting
  • Machine Learning und KI-Technologien
  • NoSQL-Datenbanken (MongoDB, Cassandra usw.)
  • Datenintegration aus mehreren Quellen
  • Data-Governance-Frameworks (GDPR, CCPA usw.)
  • Projektmanagement-Fähigkeiten
  • Agile Methoden
  • Teamführung und Mentoring
  • Performance-Tuning und Optimierung
  • Datenanalyse und Data Mining
  • Data-Analytics-Tools (Tableau, PowerBI usw.)
  • Verteilte Systeme und Parallelverarbeitung
  • Datenverwaltung
  • Datenarchitekturprinzipien
  • Datenpipeline-Management
  • Change Management
  • Risikoanalyse und -minderung
  • Systemintegration und API-Entwicklung
  • DevOps-Praktiken
  • Software-Entwicklungsmethoden
  • Datenmigrationsstrategien
  • Best Practices der Datensicherheit
  • Technisches Schreiben und Dokumentation
  • Cloud Data Warehousing-Lösungen (Redshift, Snowflake usw.)
  • Data Lake Implementierung
  • Datenumwandlung und -normalisierung
  • Data-Governance-Frameworks (HIPAA, PCI usw.)
  • Versionskontrollsysteme (Git, SVN usw.)
  • Business-Intelligence-Reporting
  • Datenmodellierungssprachen (UML, ERD usw.)
  • Datenreplikation und -synchronisierung
  • Change Data Capture (CDC)-Techniken
  • Datenkatalogisierung und -entdeckung
  • Datenprofiling und -klassifizierung
  • Data Lineage und Metadaten-Management
  • Datenarchivierung und Aufbewahrungsrichtlinien
  • Backup- und Disaster-Recovery-Planung
  • Datenschutz-Compliance
  • Datenvirtualisierung und -föderation
  • Data-Science-Konzepte und -Techniken.

Sprachen

Italienisch
Muttersprache
Deutsch
Verhandlungssicher
Englisch
Verhandlungssicher

Ausbildung

Lorem ipsum dolor sit amet

Promotion · Computergestützte Statistik

Lorem ipsum dolor sit amet

Master · Informatik

Max Plank Institute

Postdoc · Chennai, Indien

...und 1 Weitere

Zertifikate & Bescheinigungen

Zertifizierter AWS Cloud Practitioner

Amazon Web Services

Zertifizierter PADI Instructor

PADI

Zertifizierter Scrum Product Owner

Scrum Alliance

Sie suchen Freelancer?Passende Kandidaten in Sekunden!
FRATCH GPT testen
Weitere Aktionen