Burda Information Services GmbH
Semiautomatisierte Datenaufbereitung für den Hubert Burda Media Pressepool
Aufgabenstellung
Für Hubert Burda Media wurde eine komplett neue Datenaufbereitungsdienstleistung entwickelt. Dabei werden 40 Quellen von Hubert Burda Media und ca. 50 Quellen externer Verlage verarbeitet. Die Dienstleistung umfasst den Import von Presseartikeln in unterschiedlichen Formaten, deren vollautomatische Erschließung und der Auswahl von für Hubert Burda Media relevanten Artikel inkl. größtmöglicher Qualitätssicherung. Neben dem abschließenden Import bei Burda in den HBM Pressepool, werden zusätzlich ca. 20 Quellen der Hubert Burda Media für 16 externe Empfänger in unterschiedlichen Formaten bereitgestellt (unter anderem auch Daten, die in das Presse Archiv Netzwerk bei den Rundfunkanstalten einlaufen).
pictursafe hat die komplette Software entwickelt, führt das Hosting durch, und ist der Dienstleister für die dokumentarischen Aufgaben.
Mitarbeiter
Für die unterschiedlichen Aufgaben beschäftigt picturesafe ausgebildete Diplom-Bibliothekare, Dokumentare und gezielt ausgebildete Hilfskräfte. Tätigkeiten sind: Koordination und Optimierung dio:semantic Re-Training, Auswahllektorat, Entitätenpflege, Tagging von Indesign Quellen, Kontrolle der Klassifikation, Workflowkontrolle. Einige Tätigkeiten werden über den webfähigen Operatingclient von Heimarbeitskräften ausgeführt.
Kategorisierung und Pflege
Alle eingehenden Pressemitteilungen werden mit einem hierarchischen Thesaurus maschinell verschlagwortet, welcher aus ca. 1500 Kategorien in bis zu fünf Hierarchieebenen besteht. Des Weiteren können vielfältige Regelwerke definiert werden, die eine Kategorisierung auf kundenspezifische Ziele anpassen. Zusätzlich erfolgt eine intelligente Named Entity Recognition, welche ausschließlich Personen, Institutionen und/oder Geographika liefert, die über eine gewisse Relevanz in dem Presseartikel verfügen.
Die kontinuierliche Pflege des hinterlegten statistischen Modells, sowie die Aktualisierung und Verwaltung der hinterlegten Entitätenlisten erfolgt über einen eigenen auf Java basierten Trainingsclient, der es erlaubt, alle Wissensbasen ohne Programmierkenntnisse an die kundenspezifischen Ziele anzupassen. Die Auswirkungen eines Updatezyklus lassen sich durch diverse integrierte statistische Analyseverfahren ermitteln.
Hochqualifiziertes Lektorat und Re-Training
Um eine größtmögliche Qualität zu sichern, werden die automatisch annotierten Kategorien und Entitäten einer Pressemitteilung von gezielt ausgebildeten Lektoren auf ihre dokumentarische Korrektheit validiert und gegebenenfalls korrigiert. Zusätzlich zu dieser anspruchsvollen Aufgabe, führen die Lektoren für Presseartikel externer Verlage ein Auswahllektorat durch, welches nach strikt definierten Vorgaben von HBM „uninteressante" Pressemitteilungen ausfiltert.
Die Korrektur der Verschlagwortung und das Auswahllektorat erfolgen über die Benutzeroberfläche eines eigenen, auf Java basierten Operatingclients. Pressemitteilungen, deren maschinelle Erschließung von den Lektoren manuell korrigiert wird, fließen in die Textmining-Komponente zurück und bilden dort eine zusätzliche Grundlage für die Pflege des statistischen Modells.
Workflowüberwachung und -steuerung
Der Workflow-Monitor ist eine webbasierte Anwendung zur Überwachung und Steuerung der gesamten Dienstleitung. Er zeigt den Abarbeitungs- und Erwartungs-Status jeder Pressequelle, und liefert so den Überblick über den aktuellen Verarbeitungsverlauf. Minutengenau kann für jede Ausgabe der erwarte Eingang, die Zwischenschritte und der Export definiert, kontrolliert und protokolliert werden. Verspätete Ausgaben oder Verarbeitungsstörungen werden im Monitor über ein Ampelsystem auf einen Blick sichtbar, damit kann sofort die notwendige Reaktion erfolgen.





