Deutsche Presse-Agentur GmbH

Entwicklung einer Dokumentationsdatenbank mit vollautomatischer Erschließung von Pressemitteilungen

Für die dpa wurde von picturesafe eine Dokumentationsdatenbank entwickelt. Die Anwendung wird fortlaufend weiterentwickelt und angepasst. Ein wesentlicher Teil des Gesamtkonzeptes ist die automatische  Erschließung von Inhalten aus Presseartikeln und von Kurzbeschreibungen zu Bilddaten.  Die Erschließung erfolgt mit dem von picturesafe entwickelten dio:semantic Textminer und den Zusatzmodulen.

Aufgabenstellung

Die Dokumentationsdatenbank ist eine zentrale Recherche- und Erschließungsplattform für die dpa-Dokumentation. Sie dient sowohl der Recherche und Qualitätskontrolle wie auch der Erstellung und Verteilung neuer Produkte (Pressemitteilungen, dpa-Dienste). In der Dokumentationsdatenbank werden Entitäten (Geografika, Personen und Organisationen) sowie mehrere Thesauri zur Erschließung und Klassifizierung gepflegt. Neue Entitäten und Kategorien werden in einem definierten Workflow erfasst, geprüft und zentral bereit gestellt.

Die Ergebnisse werden über verschiedene Schnittstellen unternehmensweit und für Kunden der dpa verfügbar gemacht.

Vollautomatische Kategorisierung

Alle Pressemitteilungen werden mit mehreren Thesauri in zwei Sprachen kategorisiert.

Der reguläre Produktionsbetrieb erfolgt vollautomatisch. Lediglich stichprobenartige Kontrollen und das zielgenaue Trainieren für die kontinuierliche Pflege oder für neue kundenspezifische Thesauri erfolgt manuell.  Trotz der Erweiterung des Mengenumfanges konnte der manuelle Aufwand bei der dpa extrem reduziert werden.

Neben den Analysealgorithmen ist eine optimale Trainingsbasis der Schlüssel zu Qualität und hohem Automatisierungsgrad. Für dieses zweite Qualitäts-Standbein wurde gemeinsam mit der Dokumentationsabteilung der dpa eine Trainings- und Analyseumgebung konzipiert, und von picturesafe softwaretechnisch umgesetzt. In Rahmen der gemeinsamen Realisierung wurde der Aufwand für das Re-Training minimiert. Dazu kann mit dem Trainingsclient eine Trainingsbasis analysiert werden. Schwachstellen und die Optimierungspotentiale in den Trainingsdaten werden punktgenau analysiert.  Zusätzlich  können Regeln angewendet werden, die es erlauben, die Kategorisierung kundenspezifisch anzupassen. Der für die Pflege der Wissensbasis entwickelte Trainingsclient erlaubt es, ohne Programmierkenntnisse das Modell für die Kategorisierung zu trainieren, statisch auszuwerten und den Index zu optimieren. Der binäre Modellindex kann bis auf Phrasenebene hinab analysiert, sichtbar gemacht und modifiziert werden.

Pflege der Entitäten bei der dpa

Die prinzipiellen Workflows der Entitätenpflege sind weitgehend deckungsgleich mit den Anforderungen der vorliegenden Ausschreibung. Die Kerndaten der Entitäten werden der dpa im sogenannten Master gepflegt. Diese Pflege im Master ist unabhängig vom Textmining-Verfahren. Über Webservices kann der Masterbestand komplett oder über Einzelaufrufe an den Textminer übertragen und aktuell gehalten werden. Analysespezifische Regeln und Verknüpfungen für die Entitäten können über den Trainingsclient optional hinzugefügt werden.

Weitere Aufbereitung

Auch andere Textarten, wie Kurzbeschreibungen und Metadaten zu Bilddaten (Bildfunk) werden in großen Mengen analysiert. Neben der Kategorisierung kann eine weitere Aufbereitung, zum Beispiel die vollautomatische Erzeugung einer Zusammenfassung erfolgen. Dieses Feature ist für dpa eine interessante Option, es wird derzeit jedoch im produktiven Betrieb genutzt.

 

News
04.05.12

Südkurier wählt Copyclick für den E-Paper-Vertrieb auf Facebook

27.02.12

Mittelbayerische Zeitung publiziert mit Copyclick von picturesafe auf Facebook

27.02.12

com! Das Computer-Magazin nun auf Facebook

21.02.12

1. FC St. Pauli e.V. - Stadionzeitung auf Facebook

Folgen Sie uns auf Twitter Folgen Sie uns auf Facebook Folgen Sie unseren RSS 2.0 Nachrichten
picturesafe media/data/bank GmbH· Seelhorststr. 44· 30175· Hannover DE/Germany. Länge: 52.377898 N / Breite: 9.761406 E. Telefon: +49 (0)511 - 28 393 - 0 · Internet: .