Deutsche Presse-Agentur GmbH
Entwicklung einer Dokumentationsdatenbank mit vollautomatischer Erschließung von Pressemitteilungen
Für die dpa wurde von picturesafe eine Dokumentationsdatenbank entwickelt. Die Anwendung wird fortlaufend weiterentwickelt und angepasst. Ein wesentlicher Teil des Gesamtkonzeptes ist die automatische Erschließung von Inhalten aus Presseartikeln und von Kurzbeschreibungen zu Bilddaten. Die Erschließung erfolgt mit dem von picturesafe entwickelten dio:semantic Textminer und den Zusatzmodulen.
Aufgabenstellung
Die Dokumentationsdatenbank ist eine zentrale Recherche- und Erschließungsplattform für die dpa-Dokumentation. Sie dient sowohl der Recherche und Qualitätskontrolle wie auch der Erstellung und Verteilung neuer Produkte (Pressemitteilungen, dpa-Dienste). In der Dokumentationsdatenbank werden Entitäten (Geografika, Personen und Organisationen) sowie mehrere Thesauri zur Erschließung und Klassifizierung gepflegt. Neue Entitäten und Kategorien werden in einem definierten Workflow erfasst, geprüft und zentral bereit gestellt.
Die Ergebnisse werden über verschiedene Schnittstellen unternehmensweit und für Kunden der dpa verfügbar gemacht.
Vollautomatische Kategorisierung
Alle Pressemitteilungen werden mit mehreren Thesauri in zwei Sprachen kategorisiert.
Der reguläre Produktionsbetrieb erfolgt vollautomatisch. Lediglich stichprobenartige Kontrollen und das zielgenaue Trainieren für die kontinuierliche Pflege oder für neue kundenspezifische Thesauri erfolgt manuell. Trotz der Erweiterung des Mengenumfanges konnte der manuelle Aufwand bei der dpa extrem reduziert werden.
Neben den Analysealgorithmen ist eine optimale Trainingsbasis der Schlüssel zu Qualität und hohem Automatisierungsgrad. Für dieses zweite Qualitäts-Standbein wurde gemeinsam mit der Dokumentationsabteilung der dpa eine Trainings- und Analyseumgebung konzipiert, und von picturesafe softwaretechnisch umgesetzt. In Rahmen der gemeinsamen Realisierung wurde der Aufwand für das Re-Training minimiert. Dazu kann mit dem Trainingsclient eine Trainingsbasis analysiert werden. Schwachstellen und die Optimierungspotentiale in den Trainingsdaten werden punktgenau analysiert. Zusätzlich können Regeln angewendet werden, die es erlauben, die Kategorisierung kundenspezifisch anzupassen. Der für die Pflege der Wissensbasis entwickelte Trainingsclient erlaubt es, ohne Programmierkenntnisse das Modell für die Kategorisierung zu trainieren, statisch auszuwerten und den Index zu optimieren. Der binäre Modellindex kann bis auf Phrasenebene hinab analysiert, sichtbar gemacht und modifiziert werden.
Pflege der Entitäten bei der dpa
Die prinzipiellen Workflows der Entitätenpflege sind weitgehend deckungsgleich mit den Anforderungen der vorliegenden Ausschreibung. Die Kerndaten der Entitäten werden der dpa im sogenannten Master gepflegt. Diese Pflege im Master ist unabhängig vom Textmining-Verfahren. Über Webservices kann der Masterbestand komplett oder über Einzelaufrufe an den Textminer übertragen und aktuell gehalten werden. Analysespezifische Regeln und Verknüpfungen für die Entitäten können über den Trainingsclient optional hinzugefügt werden.
Weitere Aufbereitung
Auch andere Textarten, wie Kurzbeschreibungen und Metadaten zu Bilddaten (Bildfunk) werden in großen Mengen analysiert. Neben der Kategorisierung kann eine weitere Aufbereitung, zum Beispiel die vollautomatische Erzeugung einer Zusammenfassung erfolgen. Dieses Feature ist für dpa eine interessante Option, es wird derzeit jedoch im produktiven Betrieb genutzt.





