Geschäftsstelle IDiS
idis@vde.com


IDiS Communitymanager

Bahram Salimi
bahram.salimi@vde.com

NLP Natürliche Sprachverarbeitung Neuronales Netzkonzept. Hand drückt Taste auf dem Bildschirm
Murrstock / stock.adobe.com
11.09.2023 Projekt

Optimierung von Rechercheprozessen im deutschen Normungswesen durch Methoden des Natural Language Processing

In diesem Piloten wurde die Effizienz der Recherche von Normendokumenten durch den Einsatz von Künstlicher Intelligenz adressiert. Aktuelle Tools ermöglichen keine kontextspezifische, natursprachliche Anfragen in Normen. Mit NLP-Methoden wurde ein domänenbasiertes Language Model entwickelt, das durch Training mit DIN- und VDE-Normen ein technisches Verständnis erlangte. Dieses Modell zeigt im Vergleich zu Standardmodellen ein verbessertes technisches Verständnis und führte zur Entwicklung einer prototypischen Rechercheanwendung.

Problemstellung

Anwendende von Normendokumenten müssen häufig viel Zeit bei der Recherche aufwenden, um relevante Informationen aus Normen zu extrahieren und verwenden zu können. Bestehende Recherchetools basieren auf der Identifikation von Stichworten, verhindern somit einen kontextspezifischen Bezug der Recherche und erschweren damit insbesondere das Finden von Anforderungen in Normen. Darüber hinaus können Suchanfragen nicht in natürlicher Sprache formuliert werden.

Methode der Künstlichen Intelligenz

Technologie-, und Innovationskonzept
peshkova / stock.adobe.com

Im deutschen Normungswesen sollen künftig kontextspezifische Rechercheanwendungen und automatisierte Auszeichnungsverfahren mithilfe von Methoden des Natural Language Processing (NLP) implementiert werden. Natural Language Processing ist eine Methode des Machine Learnings - einer Domäne der künstlichen Intelligenz (KI), die es Computern ermöglicht, die natürliche Sprache des Menschen zu verstehen. Aktuelle NLP-Methoden basieren häufig auf NLP-Modellen, auch Language Models genannt, die auf einer großen Menge an Text (z.B. Wikipedia-Einträge, Parlamentsreden, allgemeine Auszüge aus dem WWW) trainiert werden, sodass sie die Semantik von Wörtern, Zusammenhänge zwischen Begriffen und ein allgemeines Textverständnis erlernen. Nur ein geringer Teil dieser Trainingstexte hat technischen Inhalt. Durch die verfügbaren Modelle besteht im NLP ein allgemeines Textverständnis, jedoch wenig technisches Verständnis.

Nutzen für IDiS

Genau dieses technische Verständnis von Texten wird jedoch benötigt, um übergeordnete Ziele der Initiative Digitale Standards (IDiS) von DIN und DKE, wie beispielsweise die Verbesserung der Recherche-Tools und Verfahren von SMART Tools und Services (Erhöhung der Qualität) und Reduzierung der manuellen Aufwände bei der semantischen Anreicherung von Normen (SMART Content Generierung), mit den hier eingesetzten KI-Verfahren zu erreichen.

Projektziel

Nadel mit rotem Faden
peterschreiber.media / stock.adobe.com

Dieses Pilotprojekt hatte das Ziel, ein domänenbasiertes Language Model mit verbessertem technischen Verständnis zu entwickeln und gegen einen Use Case aus IDiS zu evaluieren.

Umsetzung

Details

Base Modell

Im Projekt wurden zunächst verschiedene öffentlich zugängliche State-of-the-Art Pretrained Language Models (PLMs), die auf einer großen Menge freiverfügbarer Texte basieren, miteinander verglichen. Als geeignete Basismodelle wurden German BERT base und German BERT large ausgewählt. Diese PLMs basieren auf einer Transformer Architektur, die für verschiedene Aufgaben wie Sprachanalyse und Klassifikation verwendet werden kann. Solche vortrainierten LM werden üblicherweise in einem weiteren Trainingsschritt auf eine spezifische Anwendung optimiert, wie auch in diesem Projekt.

Normenbasiertes Modell

Das normenbasierte Modell wurde durch das Trainieren der ausgewählten Basis-PLMs (German BERT-Modelle) mit ca. 32.000 DIN- und VDE-Normen entwickelt. Dazu wurden Trainingsdatensätze mit technisch relevanten Passagen aus circa 25.000 deutschen DIN- und 7.000 deutschen VDE-Normen erstellt. Um ein normenbasiertes Modell mit optimalem technischen Sprachverständnis zu erhalten, wurden über 30 Trainingsversuche mit verschiedenen Modell- und Trainingsparametern durchgeführt. Die längsten Trainings dauerten über 2 Wochen. Die Modelle mit dem besten technischen Sprachverständnis wurden für das Finetuning ausgewählt.

Finetuning auf IDiS-Usecase

Für das Finetuning wurde ein konkreter Use Case der IDiS-Initiative ausgewählt:

„Als Konstrukteur möchte ich, aufgrund einer merkmalbasierten Klassifikation (z.B. ECLASS) meines zu konstruierenden Bauteils, alle für die Konstruktionsaufgabe möglichen Varianten mit ihren Ausprägungen und Wertebereichen in einem maschinenlesbaren Format ausgezeichnet bekommen.“

Die domänenbasierten Language-Modelle wurden auf den IDiS Use Case in einem weiteren Trainingsschritt mit Referenzdatensätzen, der für ausgewählte ECLASS-Merkmale relevante Norminhalte enthält, finegetuned. Dieser Referenzdatensatz wurde durch verschiedene Datensätze mit relevanten Normdaten ergänzt.

Ablauf des Trainingsprozesses

IDiS-NLP – Ablauf

IDiS-NLP – Ablauf

| DKE DIN

Ergebnisse

In dem Projekt wurde gezeigt, dass das Training von PLMs mit einer großen Anzahl von Normen zu Language-Modellen führt, die ein besseres technisches Verständnis haben als die German BERT-Basismodelle. Zudem konnte das vortrainierte Modell so verfeinert werden, dass die Ergebnisqualität bei der Identifikation von relevanten Norminhalten zu Produkten und deren Merkmalen deutlich gesteigert werden konnte.

TechBert - Grafik
DIN DKE

Demonstrator

Zum Demonstrieren der Projektergebnisse wurde zudem eine prototypische Rechercheanwendung entwickelt.

Die Ergebnisse des Demonstrators sind u.a.:

  • Die semantische Rechercheanwendung hat ihre Funktionstüchtigkeit nachgewiesen.
  • Sie findet die Information besser, wenn vortrainierte Basismodelle zusätzlich auf Normen trainiert wurden.
  • Sie macht bessere Vorhersagen mit normenbasierten BERT large-Modellen als mit normenbasierten BERT base-Modellen.
  • Das Modell erkennt nach dem Finetuning relevante Norminhalte für gegebene ECLASS-Definitionen ohne ECLASS im Training gesehen zu haben.
  • Normenbasierte Language Modelle verbessern das Ergebnis.

Weitere Verwendung

Das in diesem Projekt entwickelte domänenbasierte Modell mit technischem Verständnis kann künftig in weiteren IDiS-Projekten eingesetzt und für weitere Normenanwendungen finegetuned werden.


Folgende Einsatzmöglichkeiten sind denkbar:

Verwertung der Domänenmodelle

Verwertung der Domänenmodelle

| DKE DIN