Automatische Klassifizierung von technischen Dokumenten mit Künstlicher Intelligenz

Der Classifier

Freitag, 26.04.2019

Auf einen Blick

In Produktlebenszyklusmanagementsystemen (PLM) und anderen Datenmanagementsystemen heutiger Industrieunternehmen ruhen riesige Mengen an Daten und technischen Dokumenten, die nur noch durch automatische Vorsortierung und Klassifizierung in den Griff zu bekommen sind.
Dafür hat PITERION mithilfe des OpenSource-Frameworks TensorFlow eine Lösung implementiert, die anhand von gelabelten Daten trainiert wird und dann in der Lage ist, Text- oder PDF-Dateien von ähnlicher Gestalt mit einem Label zu versehen.
Die Lösung kann als Webservice auf eigenen Servern oder in der Cloud installiert werden und bei Bedarf mit neuen Daten trainiert werden.

Viele Daten, viele Aufgaben

Mit der Digitalisierung im Produktlebenszyklus und der Anbindung immer mehr Bereiche ins PLM entstehen vielerlei Daten, unter deren Nutzung verschiedenste Aufgaben bewältigt werden müssen. Dies bedeutet, das Daten in einer Form vorliegen müssen, die es erlaubt, mit ihnen zu arbeiten. Struktur in den Daten bekommt man durch die meisten PLM-Systeme bereits geliefert; viele Daten sind jedoch in nicht standardisierter Form abgelegt, schlecht gepflegt oder fehlen schlicht. Systeme mit künstlicher Intelligenz können dazu beitragen, beispielsweise Metadaten auf Basis von vorhandenen Daten in einer Produktstruktur zu ergänzen und damit für Vollständigkeit zu sorgen. Auch können Daten, die neu in das System geladen werden, auf Basis von bereits vorhandenen ähnlichen Daten mit den nötigen Attributen versehen werden.

Entwicklung von Machine-Learning-Modellen

Im Rahmen einer Abschlussarbeit in Kooperation mit Prof. Dr. Klaus Brinker von der Hochschule Hamm-Lippstadt wurden verschiedene Modelle zur Klassifikation von Texten (siehe dazu Natural Language Processing (NLP)) untersucht und verglichen. Dazu wurden frei zugängliche wissenschaftliche Artikel zum Thema Medizin von der Plattform Europe PubMed Central (https://europepmc.org/) geladen. Diese Artikel liegen bereits klassifiziert mit den jeweilig darin behandelten Krankheitsbildern vor. Die verschiedenen Modelle wurden daraufhin mit diesem Datensatz, bestehend aus 3500 Trainings- und 1500 Testdatensätzen, trainiert und validiert.

Natürlich sind die entstandenen Modelle nicht eingeschränkt auf Medizindaten, sondern können mit anderen Datensätzen, zum Beispiel technischer Dokumentation, die den richtigen Fachabteilungen zugewiesen werden muss, trainiert und genutzt werden. Je nach Daten werden die Parameter des Modells angepasst, sodass mit dem dahinterliegenden mathematischen Verfahren (z.B. neuronale Netzen) eine gute Konfiguration entsteht.

Anhand verschiedener Metriken wurde das beste Modell identifiziert, welches ausgeleitet und in anderen Implementierungen nutzbar gemacht wurde.

Einsatz von künstlicher Intelligenz in Softwarelösungen

Das beste Modell wird als sog. Pickle-Objekt in einen bei uns gehosteten Webservice zu Demonstrationszwecken ausgerollt und kann dort die Klassifizierung von als PDF-Dateien hochgeladenen medizinischen Artikeln vornehmen.
Natürlich können diese Machine-Learning-Modelle in verschiedenen Szenarien zum Einsatz kommen. Zum Beispiel kann in einem Workflow, der eine Datei einem Fachbereich zur Untersuchung zuweisen muss, ein solches Klassifikationsmodell ideal eingesetzt werden.
Gerade im PLM-Bereich gibt es unzählige weitere Einsatzmöglichkeiten, die je nach Fragestellung und Datenlage eruiert werden müssen.

Kundennutzen

Mit PITERION profitieren Kunden sowohl von der langjährigen Erfahrung, die als PLM-Spezialist bei der nahtlosen Integration verschiedener Anwendungen vorhanden ist, als auch von innovativen Themen direkt von den Universitäten und Hochschulen, die von Kolleginnen und Kollegen mit neuen Ideen und frischem Wind mitgebracht wird.

Weitere Themen in Kooperation mit Hochschul- und Forschungseinrichtungen sind bereits in Planung und bereichern auch in Zukunft das Portfolio bei PITERION.

Der Classifier
Artikel teilen

Über PITERION

PITERION ist ein internationaler PLM Serviceprovider mit Hauptsitz in Deutschland sowie Niederlassungen in den USA, Indien, Tunesien, Schweden, der Schweiz und Polen. Mit hochqualifizierten Mitarbeitern bieten wir Ihnen sowohl Lösungen, als auch Dienstleistungen unabhängig von Systemherstellern. Dabei folgen wir stets den Richtlinien der Qualitätsmanagementstandards EN 9100 (Aerospace) und ISO 9001 sowie der ISO 14001. Auf diesen haben wir interne Standards und Prozesse aufgesetzt, welche es uns ermöglichen, weltweit über unsere Standorte hinweg, eine gleichbleibend hohe Qualität zu gewährleisten.

Unseren Kunden stehen wir als kompetenter und unabhängiger Partner zur Verfügung, der auf sie individuell zugeschnittene Lösungen und Dienstleistungen anbietet. In Kombination mit unseren Technologieträgern gibt uns das die Möglichkeit, die PLM-Strategie unserer Kunden bestmöglich zu unterstützen.