Von Webdaten zur kontinuierlich aktualisierten Akteurslandkarte

von Karl Trela /

Wer gehört »wirklich« zu einem Ökosystem – und in welcher Rolle? Unser KI‑Akteursradar im Projekt FiberConnect beantwortet diese Frage datengetrieben: Eine modular aufgebaute Pipeline extrahiert Webinhalte, erkennt relevante Organisationen und ordnet sie einer Domänen‑Taxonomie zu. Das Ergebnis ist eine laufend aktualisierte Akteurslandkarte – reproduzierbar, prüfbar, übertragbar.

© Fraunhofer ISI
Akteurslandkarte FiberConnect
© Fraunhofer ISI
Schritte der Daten-Pipeline

Warum ein KI‑Akteursradar?

Innovations- und Transformationsfelder sind dynamisch: neue Anbieter, Spin‑offs, geänderte Leistungsprofile. Klassische Datenquellen greifen oft zu kurz, weil sie fragmentiert, veraltet oder nur Teile der Wertschöpfung abbilden. Unser Ansatz setzt daher früher an – direkt an den öffentlichen Webinhalten von Organisationen – und verbindet NLP, Active Learning und Human‑in‑the‑Loop zu einer verlässlichen, pflegbaren Datenbasis.

Wie es funktioniert – am Beispiel FiberConnect

Am Anfang steht die Rohdatenerhebung. Im Projekt FiberConnect  haben wir mit einem breit angelegten Web-Crawling alle bekannten Webseiten von Unternehmen in Sachsen gesammelt. Das System funktioniert sprach- und zeichensatzunabhängig, erkennt doppelte Inhalte und respektiert die robots.txt-Dateien, die festlegen, welche Bereiche einer Website überhaupt automatisch ausgelesen werden dürfen. So entsteht eine saubere, gut strukturierte Textbasis für alle folgenden Schritte.

Die gesammelten HTML-Seiten werden in reinen Text umgewandelt. Eine Keywordliste aus dem Fachgebiet dient als Startpunkt, um die Inhalte zu ordnen. Mit Hilfe von Embeddings und der Cosine Similarity wird für jede Seite automatisch erkannt, welche Textstellen inhaltlich wirklich relevant sind. So müssen wir nicht ganze Webseiten durchgehen, sondern konzentrieren uns auf die wichtigsten Abschnitte – das erleichtert das spätere Labeln und macht die Modelle treffsicherer, gerade weil die Webseiten der Akteure sehr unterschiedlich aufgebaut sind.

Die Einordnung der Akteure passierte dann in zwei Schritten: Ein erstes KI-Modell (z. B. BERT oder XLM-RoBERTa) prüfte, ob ein Unternehmen überhaupt thematisch zur Carbonfaser-Wertschöpfungskette gehört. Ein zweites KI-Modell ordnete diese Unternehmen dann konkret ihrer Rolle in der Wertschöpfungskette zu. Diese Rollen wurden zuvor gemeinsam mit Fachexpert:innen festgelegt. Die Zweiteilung war im Projekt besonders sinnvoll, weil die Ergebnisse später redaktionell geprüft und freigegeben wurden.

Da wir zu Beginn nur wenige Goldstandard-Daten (einheitlich gelabelte Beispiele von Expert:innen) hatten, kombinierten wir Active Learning und Datensynthese.

  • Aus relevanten Textabschnitten (Snippets) erzeugten große Sprachmodelle neue Trainingsbeispiele.
  • Schwierige Fälle wurden über Uncertainty Sampling priorisiert.
  • Fachpersonen waren über ein Human-in-the-Loop-Verfahren (Doccano) kontinuierlich eingebunden, um Vorschläge zu prüfen und zu korrigieren.
  • Label-Guidelines und Inter-Annotator-Checks sicherten eine einheitliche Qualität.

So konnten wir sehr schnell zuverlässige Modelle entwickeln.

Für jedes identifizierte Unternehmen erzeugten wir zusätzlich Kurzprofile, ebenfalls mithilfe großer Sprachmodelle. Diese fassen Name, Standort und die wichtigsten belegbaren Inhalte zusammen. Die Profil-Generierung ist klar getrennt von der Klassifikation, und jedes Profil wird vor Veröffentlichung redaktionell geprüft.

Die komplette Datenverarbeitung läuft nach etablierten MLOps-Standards: Alle Dienste sind containerisiert (Docker). Es gibt eigene APIs für Klassifikation und Profiltexte. Mit festen Aktualisierungszyklen – derzeit quartalsweise – und einer teilautomatisierten Freigabe bleibt die Akteurslandkarte zuverlässig auf dem aktuellen Stand, ohne hohen Wartungsaufwand. Perspektivisch lassen sich zusätzliche Funktionen integrieren, etwa ein Monitoring für Modellveränderungen, Trefferquoten und Freigaberaten oder Audit Trails, die alle Änderungen transparent nachvollziehbar machen. 

Qualitätssicherung und Governance

Die Taxonomie wird gemeinsam mit Fachexpert:innen entwickelt und orientiert sich eng an der Sprache und Struktur des jeweiligen Fachgebiets. Ein transparentes Evaluationssetup mit Präzision und Recall macht mögliche Fehlzuordnungen und ihren Einfluss auf das Screening sichtbar. Jede Klassifikation wird durch kurze, relevante Textabschnitte belegt. Wir nutzen ausschließlich öffentlich verfügbare Quellen, verarbeiten keine personenbezogenen Daten und veröffentlichen Ergebnisse erst nach einer redaktionellen Prüfung.

Wo kann man das Verfahren sonst noch einsetzen?

Der Ansatz ist domänenagnostisch, also flexibel einsetzbar. Durch das Anpassen der Keywordliste und der Taxonomie kann das Verfahren schnell auf neue Themenfelder übertragen werden – etwa Wasserstoff, Batterietechnologien, Bioökonomie, MedTech, KI-Start-ups oder die Digitalisierung im Bauwesen. Die Kombination aus Snippet-Selektion, zweistufiger Klassifikation und Active Learning liefert auch bei sehr unterschiedlichen Webseiten ein robustes Signal. So entstehen dynamische Akteurslandkarten, die sich laufend weiterentwickeln und neue Entwicklungen automatisch aufnehmen.

Fazit

Unser KI‑Akteursradar schließt die Lücke zwischen der digitalen Präsenz im Web und den konkreten Bedarfen an Planung und Vernetzung, die Politik, Verbände und Unternehmen im Alltag haben. Es macht Ökosysteme sichtbar, filterbar und anschlussfähig – und bleibt durch automatisierte Updates aktuell. Kurz: ein praxistauglicher Baustein, mit dem Politik, Verbände und Unternehmen schneller die richtigen Partner finden.

Mehr Information und Glossar

Letzte Änderung: