Projektdaten
Laufzeit: Q2 2022 – Q4 2022 (9 Monate)
Projektpartner: TH Köln, DIN Software GmbH, DKE Deutsche Kommission Elektrotechnik Elektronik Informationstechnik, ECLASS e.V., WAGO GmbH & Co. KG, Beuth Verlag GmbH
Laufzeit: Q2 2022 – Q4 2022 (9 Monate)
Projektpartner: TH Köln, DIN Software GmbH, DKE Deutsche Kommission Elektrotechnik Elektronik Informationstechnik, ECLASS e.V., WAGO GmbH & Co. KG, Beuth Verlag GmbH
Anwendende von Normendokumenten müssen häufig viel Zeit bei der Recherche aufwenden, um relevante Informationen aus Normen zu extrahieren und verwenden zu können. Bestehende Recherchetools basieren auf der Identifikation von Stichworten, verhindern somit einen kontextspezifischen Bezug der Recherche und erschweren damit insbesondere das Finden von Anforderungen in Normen. Darüber hinaus können Suchanfragen nicht in natürlicher Sprache formuliert werden.
Im deutschen Normungswesen sollen künftig kontextspezifische Rechercheanwendungen und automatisierte Auszeichnungsverfahren mithilfe von Methoden des Natural Language Processing (NLP) implementiert werden. Natural Language Processing ist eine Methode des Machine Learnings - einer Domäne der künstlichen Intelligenz (KI), die es Computern ermöglicht, die natürliche Sprache des Menschen zu verstehen. Aktuelle NLP-Methoden basieren häufig auf NLP-Modellen, auch Language Models genannt, die auf einer großen Menge an Text (z.B. Wikipedia-Einträge, Parlamentsreden, allgemeine Auszüge aus dem WWW) trainiert werden, sodass sie die Semantik von Wörtern, Zusammenhänge zwischen Begriffen und ein allgemeines Textverständnis erlernen. Nur ein geringer Teil dieser Trainingstexte hat technischen Inhalt. Durch die verfügbaren Modelle besteht im NLP ein allgemeines Textverständnis, jedoch wenig technisches Verständnis.
Genau dieses technische Verständnis von Texten wird jedoch benötigt, um übergeordnete Ziele der Initiative Digitale Standards (IDiS) von DIN und DKE, wie beispielsweise die Verbesserung der Recherche-Tools und Verfahren von SMART Tools und Services (Erhöhung der Qualität) und Reduzierung der manuellen Aufwände bei der semantischen Anreicherung von Normen (SMART Content Generierung), mit den hier eingesetzten KI-Verfahren zu erreichen.
Dieses Pilotprojekt hatte das Ziel, ein domänenbasiertes Language Model mit verbessertem technischen Verständnis zu entwickeln und gegen einen Use Case aus IDiS zu evaluieren.
Ablauf des Trainingsprozesses
In dem Projekt wurde gezeigt, dass das Training von PLMs mit einer großen Anzahl von Normen zu Language-Modellen führt, die ein besseres technisches Verständnis haben als die German BERT-Basismodelle. Zudem konnte das vortrainierte Modell so verfeinert werden, dass die Ergebnisqualität bei der Identifikation von relevanten Norminhalten zu Produkten und deren Merkmalen deutlich gesteigert werden konnte.
Zum Demonstrieren der Projektergebnisse wurde zudem eine prototypische Rechercheanwendung entwickelt.
Die Ergebnisse des Demonstrators sind u.a.:
Das in diesem Projekt entwickelte domänenbasierte Modell mit technischem Verständnis kann künftig in weiteren IDiS-Projekten eingesetzt und für weitere Normenanwendungen finegetuned werden.
Folgende Einsatzmöglichkeiten sind denkbar: