Von Webdaten zur kontinuierlich aktualisierten Akteurslandkarte

von Karl Trela / 07. Januar 2026

Wer gehört »wirklich« zu einem Ökosystem – und in welcher Rolle? Unser KI‑Akteursradar im Projekt FiberConnect beantwortet diese Frage datengetrieben: Eine modular aufgebaute Pipeline extrahiert Webinhalte, erkennt relevante Organisationen und ordnet sie einer Domänen‑Taxonomie zu. Das Ergebnis ist eine laufend aktualisierte Akteurslandkarte – reproduzierbar, prüfbar, übertragbar.

© Fraunhofer ISI
Akteurslandkarte FiberConnect

© Fraunhofer ISI
Schritte der Daten-Pipeline

Warum ein KI‑Akteursradar?

Innovations- und Transformationsfelder sind dynamisch: neue Anbieter, Spin‑offs, geänderte Leistungsprofile. Klassische Datenquellen greifen oft zu kurz, weil sie fragmentiert, veraltet oder nur Teile der Wertschöpfung abbilden. Unser Ansatz setzt daher früher an – direkt an den öffentlichen Webinhalten von Organisationen – und verbindet NLP, Active Learning und Human‑in‑the‑Loop zu einer verlässlichen, pflegbaren Datenbasis.

Wie es funktioniert – am Beispiel FiberConnect

Am Anfang steht die Rohdatenerhebung. Im Projekt FiberConnect haben wir mit einem breit angelegten Web-Crawling alle bekannten Webseiten von Unternehmen in Sachsen gesammelt. Das System funktioniert sprach- und zeichensatzunabhängig, erkennt doppelte Inhalte und respektiert die robots.txt-Dateien, die festlegen, welche Bereiche einer Website überhaupt automatisch ausgelesen werden dürfen. So entsteht eine saubere, gut strukturierte Textbasis für alle folgenden Schritte.

Die gesammelten HTML-Seiten werden in reinen Text umgewandelt. Eine Keywordliste aus dem Fachgebiet dient als Startpunkt, um die Inhalte zu ordnen. Mit Hilfe von Embeddings und der Cosine Similarity wird für jede Seite automatisch erkannt, welche Textstellen inhaltlich wirklich relevant sind. So müssen wir nicht ganze Webseiten durchgehen, sondern konzentrieren uns auf die wichtigsten Abschnitte – das erleichtert das spätere Labeln und macht die Modelle treffsicherer, gerade weil die Webseiten der Akteure sehr unterschiedlich aufgebaut sind.

Die Einordnung der Akteure passierte dann in zwei Schritten: Ein erstes KI-Modell (z. B. BERT oder XLM-RoBERTa) prüfte, ob ein Unternehmen überhaupt thematisch zur Carbonfaser-Wertschöpfungskette gehört. Ein zweites KI-Modell ordnete diese Unternehmen dann konkret ihrer Rolle in der Wertschöpfungskette zu. Diese Rollen wurden zuvor gemeinsam mit Fachexpert:innen festgelegt. Die Zweiteilung war im Projekt besonders sinnvoll, weil die Ergebnisse später redaktionell geprüft und freigegeben wurden.

Da wir zu Beginn nur wenige Goldstandard-Daten (einheitlich gelabelte Beispiele von Expert:innen) hatten, kombinierten wir Active Learning und Datensynthese.

Aus relevanten Textabschnitten (Snippets) erzeugten große Sprachmodelle neue Trainingsbeispiele.
Schwierige Fälle wurden über Uncertainty Sampling priorisiert.
Fachpersonen waren über ein Human-in-the-Loop-Verfahren (Doccano) kontinuierlich eingebunden, um Vorschläge zu prüfen und zu korrigieren.
Label-Guidelines und Inter-Annotator-Checks sicherten eine einheitliche Qualität.

So konnten wir sehr schnell zuverlässige Modelle entwickeln.

Für jedes identifizierte Unternehmen erzeugten wir zusätzlich Kurzprofile, ebenfalls mithilfe großer Sprachmodelle. Diese fassen Name, Standort und die wichtigsten belegbaren Inhalte zusammen. Die Profil-Generierung ist klar getrennt von der Klassifikation, und jedes Profil wird vor Veröffentlichung redaktionell geprüft.

Die komplette Datenverarbeitung läuft nach etablierten MLOps-Standards: Alle Dienste sind containerisiert (Docker). Es gibt eigene APIs für Klassifikation und Profiltexte. Mit festen Aktualisierungszyklen – derzeit quartalsweise – und einer teilautomatisierten Freigabe bleibt die Akteurslandkarte zuverlässig auf dem aktuellen Stand, ohne hohen Wartungsaufwand. Perspektivisch lassen sich zusätzliche Funktionen integrieren, etwa ein Monitoring für Modellveränderungen, Trefferquoten und Freigaberaten oder Audit Trails, die alle Änderungen transparent nachvollziehbar machen.

Qualitätssicherung und Governance

Die Taxonomie wird gemeinsam mit Fachexpert:innen entwickelt und orientiert sich eng an der Sprache und Struktur des jeweiligen Fachgebiets. Ein transparentes Evaluationssetup mit Präzision und Recall macht mögliche Fehlzuordnungen und ihren Einfluss auf das Screening sichtbar. Jede Klassifikation wird durch kurze, relevante Textabschnitte belegt. Wir nutzen ausschließlich öffentlich verfügbare Quellen, verarbeiten keine personenbezogenen Daten und veröffentlichen Ergebnisse erst nach einer redaktionellen Prüfung.

Wo kann man das Verfahren sonst noch einsetzen?

Der Ansatz ist domänenagnostisch, also flexibel einsetzbar. Durch das Anpassen der Keywordliste und der Taxonomie kann das Verfahren schnell auf neue Themenfelder übertragen werden – etwa Wasserstoff, Batterietechnologien, Bioökonomie, MedTech, KI-Start-ups oder die Digitalisierung im Bauwesen. Die Kombination aus Snippet-Selektion, zweistufiger Klassifikation und Active Learning liefert auch bei sehr unterschiedlichen Webseiten ein robustes Signal. So entstehen dynamische Akteurslandkarten, die sich laufend weiterentwickeln und neue Entwicklungen automatisch aufnehmen.

Fazit

Unser KI‑Akteursradar schließt die Lücke zwischen der digitalen Präsenz im Web und den konkreten Bedarfen an Planung und Vernetzung, die Politik, Verbände und Unternehmen im Alltag haben. Es macht Ökosysteme sichtbar, filterbar und anschlussfähig – und bleibt durch automatisierte Updates aktuell. Kurz: ein praxistauglicher Baustein, mit dem Politik, Verbände und Unternehmen schneller die richtigen Partner finden.

Mehr Information und Glossar

zur Akteursdatenbank FiberConnect

Letzte Änderung: 07. Januar 2026

Alle ausklappen Alle einklappen

Active Learning

Eine Methode im maschinellen Lernen, bei der das Modell aktiv auswählt, welche Datenpunkte (z. B. Textbeispiele) von Menschen beschriftet werden sollen, um das Training effizienter zu gestalten und Ressourcen zu sparen.
Audit Trails

Digitale Protokolle, die alle Änderungen, Zugriffe und Operationen in einem System nachverfolgen und dokumentieren, um Transparenz, Nachverfolgbarkeit und Compliance zu gewährleisten.
BERT

Ein vortrainiertes Sprachmodell (Bidirectional Encoder Representations from Transformers), das Kontext in Texten bidirektional versteht und für Aufgaben wie Textklassifikation oder Frage-Antwort-Systeme eingesetzt wird.
Cosine Similarity

Ein Maß zur Berechnung der Ähnlichkeit zwischen zwei Vektoren (z. B. Textdarstellungen), das Winkelvergleiche nutzt, um semantische Nähe zu quantifizieren – oft verwendet, um relevante Inhalte zu filtern.
Datensynthese

Die Erzeugung künstlicher Trainingsdaten durch Algorithmen (z. B. mit Sprachmodellen), um bestehende Datensätze zu erweitern und Lücken in realen Daten zu schließen, ohne neue Rohdaten sammeln zu müssen.
Docker

Ein Containerisierungs-Tool, das Anwendungen in isolierten Umgebungen (Containern) verpackt, um sie unabhängig von der zugrunde liegenden Hardware oder Software zu betreiben und den Betrieb zu vereinfachen.
Doccano

Ein Open-Source-Tool für die kollaborative Annotation von Textdaten, das es Teams ermöglicht, Inhalte zu beschrifteten und zu überprüfen, insbesondere in KI-Trainingsprozessen.
Domänenagnostisch

Ein Ansatz oder System, das unabhängig von einem spezifischen Fachbereich (Domäne) funktioniert und flexibel auf verschiedene Themen anwendbar ist, ohne grundlegende Anpassungen.
Drifts

Veränderungen in den Daten oder Modellleistungen über die Zeit (z. B. Concept Drift), die zu Abweichungen von Trainingsbedingungen führen und die Genauigkeit von KI-Modellen beeinträchtigen können.
Embeddings

Dichte Vektordarstellungen von Wörtern, Sätzen oder Objekten in einem mehrdimensionalen Raum, die semantische Beziehungen erfassen und für Algorithmen wie Ähnlichkeitsvergleiche genutzt werden.
Goldstandard-Daten

Manuell von Expert:innen beschriftete Referenzdaten, die als Wahrheit für das Training und die Evaluierung von KI-Modellen dienen und die Qualität der Lernprozesse sicherstellen.
Human-in-the-Loop

Ein Prozess, in dem menschliche Expert:innen aktiv in automatisierte KI-Systeme eingebunden sind, um Vorschläge zu überprüfen, zu korrigieren oder zu ergänzen und so die Genauigkeit zu verbessern.
Inter-Annotator-Checks

Überprüfungen der Übereinstimmung zwischen mehreren Annotator:innen (Beschriftenden), um Konsistenz und Zuverlässigkeit der Datenlabeling zu gewährleisten und Bias zu minimieren.
Label-Guidelines

Klare, standardisierte Anweisungen für die Beschriftung von Daten, die sicherstellen, dass verschiedene Personen konsistente Kategorien zuweisen und die Qualität der Trainingsdaten erhalten bleibt.
LLMs (Large Language Models)

Große Sprachmodelle wie GPT-Varianten, die auf massiven Textdaten trainiert sind und Aufgaben wie Textzusammenfassungen, Generierung oder Klassifikation ausführen können.
MLOps

Machine Learning Operations, ein Framework für den Lebenszyklus von KI-Modellen, das Entwicklung, Deployment, Monitoring und Wartung automatisiert, ähnlich wie DevOps für Software.
Seed

Ein initialer Satz von Daten oder Keywords, der als Ausgangspunkt für iterative Prozesse wie das Aufbauen einer Taxonomie oder das Training eines Modells dient.
Snippets

Kurze, extrahierte Textpassagen aus Webseiten oder Dokumenten, die als Belege oder Samples für Analysen dienen, oft durch Suchmaschinen oder Crawler generiert.
Taxonomie

Eine hierarchische Klassifikationsstruktur, die Begriffe und Kategorien in einem Fachbereich organisiert, um Inhalte systematisch zu ordnen und zu analysieren.
Uncertainty Sampling

Eine Active-Learning-Technik, bei der Datenpunkte priorisiert werden, die das Modell als unsicher oder schwierig einstuft, um das Training gezielt zu verbessern.
Web-Crawling

Der automatisierte Prozess, bei dem Software (Crawler oder Spiders) das Internet durchsucht, Links folgt und Inhalte von Webseiten sammelt, z. B. für Suchindizes oder Datenanalysen.
XLM-RoBERTa

Eine multilingual erweiterte Version des RoBERTa-Modells (eine Variante von BERT), die in über 100 Sprachen trainiert ist und für cross-linguale Textaufgaben wie Klassifikation geeignet ist.

KI-Akteursradar

Von Webdaten zur kontinuierlich aktualisierten Akteurslandkarte

Warum ein KI‑Akteursradar?

Wie es funktioniert – am Beispiel FiberConnect

Qualitätssicherung und Governance

Wo kann man das Verfahren sonst noch einsetzen?

Fazit

Mehr Information und Glossar

Active Learning

Audit Trails

BERT

Cosine Similarity

Datensynthese

Docker

Doccano

Domänenagnostisch

Drifts

Embeddings

Goldstandard-Daten

Human-in-the-Loop

Inter-Annotator-Checks

Label-Guidelines

LLMs (Large Language Models)

MLOps

Seed

Snippets

Taxonomie

Uncertainty Sampling

Web-Crawling

XLM-RoBERTa

Contact Press / Media

Dr. Karl Trela

Contact Press / Media

Anne-Catherine Jung

Contact Press / Media

Dr. Jacob Leidenberger