Intern AI Evaluation Engineering (f/m/d)
Assurance
IT / Informatique
Publiée depuis 1 jour
Allianz
Die Allianz Gruppe gehört zu den größten und renommiertesten Finanzdienstleistern der Welt und bietet ein internationales Netzwerk bekannter Marken mit erstklassigen Produkten. Vor allem streben wir nach Spitzenleistungen in unserem Alltag - das heißt, in den Beziehungen zu unseren Kunden, unseren Aktionären, unseren Mitarbeitern und zur Gesellschaft. Die Allianz Gruppe ist für über 76 Millionen Kunden in rund 70 Ländern tätig.
Als verlässlicher Partner verwaltet Allianz Global Investors Vermögen in allen wesentlichen Anlage-klassen und -regionen. Unsere Experten sind in 19 Märkten weltweit vertreten, mit umfassender Prä-senz in Europa, den USA und in Asien. Mit rund 650 Anlagespezialisten deckt unser Investment-Ma-nagement alle wichtigen Finanz- und Wachstumsmärkte der Welt ab. Erstklassiger Service vor Ort sorgt dafür, dass die globale Expertise beim Kunden ankommt.
Tasks
- Conduct a structured benchmark of GenAI evaluation frameworks, both open-source (Ragas, DeepEval, TruLens, Phoenix/Arize, ARES, promptfoo) and commercial SaaS platforms (LangSmith, Braintrust, Humanloop, Galileo, Azure AI Evaluation); Compare metrics coverage, ease of integration, cost, licensing, scalability, and enterprise readiness
- Curate a gold-standard evaluation dataset (queries, expected outputs, source documents, edge cases) across GenAI Hub's core features
- Implement evaluation pipelines using the top 2–3 frameworks, measuring faithfulness, answer relevance, context precision, context recall, hallucination rate, and task-specific quality metrics
- Produce a quality baseline report identifying strengths and weaknesses per feature and per search index, with cross-framework comparison of metric consistency
- Experiment with programmatic prompt optimization tools (DSPy, TextGrad, MIPRO) to automatically improve retrieval and generation quality against the established baseline
- Integrate Responsible AI considerations into the evaluation framework — assessing outputs for bias, toxicity, fairness, and content safety — and recommend guardrails and automated checks for production deployments
- Deliver a tool selection recommendation, a reusable evaluation harness, optimized prompt candidates, and a comparative benchmark report (before/after) with cost/quality/safety trade-off analysis.
Profile
- Currently pursuing M1/M2 in Data Science, Machine Learning, Computer Science, or a related field
- Solid Python programming skills (scripting, data manipulation, API integration)
- Foundational understanding of NLP/ML concepts (embeddings, language models, retrieval systems)
- Familiarity with evaluation methodology and metrics design
- Ability to synthesize findings from multiple tools and produce clear, structured written reports
- Curiosity for applied research, tooling evaluation, and emerging AI practices
- Working proficiency in English (French is a plus)
- No prior enterprise experience required.
Apply
Ces postes pourraient également vous intéresser :
OFAJ / DFJW 48028
Hachette Collections 48066
mobiklasse.de 42916
Emplois Recommandés
Data Scientist Intern F/H
Description Join Indefi , a leading strategy advisor, where we are redefining the boundaries of strategy consulting through data and innovation. We are looking for a talented Data Scientist Int…
Chargé.e des réseaux sociaux et du community management
Tu es passionné.e par les réseaux sociaux et les questions liées à l’écologie ? Tu as l’habitude de créer du contenu et TikTok comme Insta n’ont aucun secret pour toi ? Tu es attiré.e par le secte…
Ingénieur brevets mécanique et matériaux (H/F)
L'entreprise Actual Talent, est la division spécialisée d’Actual group, 5 acteur du travail et de l’emploi en France à la vision résolument humaniste. Nous déployons avec nos clients les solu…
Développeur Back-End Java — Moteurs de Notation Risque (IT) / Freelance
Descriptif de l'offre Dans le cadre d’un renfort d’équipe, nous recherchons un Développeur Backend Java pour intervenir au sein de la DSI Risques d’un grand groupe bancaire. La mission concerne …
Consultant - Nutrivigilance / Sécurité des ingrédients H/F
Vous avez un profil solide en nutrition, compléments alimentaires et agroalimentaire, une expertise confirmée en nutrivigilance & sécurité des ingrédients, et souhaitez intégrer une structure dynamiq…
Stage - Chef de projet communication et animation - H/F
Poste ouvert aux personnes en situation de handicap. Stage- Chef de projet Communication et animation - H/F AU QUOTIDIEN ÇA DONNE QUOI ? BNP Paribas Consulting & Transformation, l'alternat…
Comptable Recouvrement de créances H/F
En tant que COMPTABLE RECOUVREMENT DE CRÉANCES, vous aurez les responsabilités suivantes : * Assurer les relances auprès des client·e·s ainsi que des équipes internes. * Effectuer le contrôle mens…
Expert Middleware
Nous recherchons un profil Middleware pour réaliser les missions suivantes : Conception et Architecture - Participer à la définition des architectures techniques pour les plateformes middleware …
Apprenti Consultant Manufacturing and Operations F/H
Poste ouvert aux personnes en situation de handicap. Imaginez, transformez et impactez le monde positivement : venez vivre au cœur du changement en tant qu'Apprenti Consultant Manufacturing & Operati…
Product Manager - Oncology
Robeauté is redefining the future of brain therapies with the first microrobotic platform of its kind, designed to navigate the human brain with unprecedented precision. The new generation of microro…