Burda Information Services GmbH

Semiautomatisierte Datenaufbereitung für den Hubert Burda Media Pressepool

Aufgabenstellung

Für Hubert Burda Media wurde eine komplett neue Datenaufbereitungsdienstleistung entwickelt. Dabei werden 40 Quellen von Hubert Burda Media und ca. 50 Quellen externer Verlage verarbeitet. Die Dienstleistung umfasst den Import von Presseartikeln in unterschiedlichen Formaten, deren vollautomatische Erschließung und der Auswahl von für Hubert Burda Media relevanten Artikel inkl. größtmöglicher Qualitätssicherung. Neben dem abschließenden Import bei Burda in den HBM Pressepool,  werden zusätzlich ca. 20 Quellen der Hubert Burda Media für 16 externe Empfänger in unterschiedlichen Formaten bereitgestellt (unter anderem auch Daten, die in das Presse Archiv Netzwerk bei den Rundfunkanstalten einlaufen).

pictursafe hat die komplette Software entwickelt, führt das Hosting durch, und ist der Dienstleister für die dokumentarischen Aufgaben.

Mitarbeiter

Für die unterschiedlichen Aufgaben beschäftigt picturesafe ausgebildete Diplom-Bibliothekare, Dokumentare und gezielt ausgebildete Hilfskräfte. Tätigkeiten sind: Koordination und Optimierung dio:semantic Re-Training, Auswahllektorat, Entitätenpflege, Tagging von Indesign Quellen, Kontrolle der Klassifikation, Workflowkontrolle.  Einige Tätigkeiten werden über den webfähigen Operatingclient von Heimarbeitskräften ausgeführt.

Kategorisierung und Pflege

Alle eingehenden Pressemitteilungen werden mit einem hierarchischen Thesaurus maschinell verschlagwortet, welcher aus ca. 1500 Kategorien in bis zu fünf Hierarchieebenen besteht. Des Weiteren können vielfältige Regelwerke definiert werden, die eine Kategorisierung auf kundenspezifische Ziele anpassen. Zusätzlich erfolgt eine intelligente Named Entity Recognition, welche ausschließlich Personen, Institutionen und/oder Geographika liefert, die über eine gewisse Relevanz in dem Presseartikel verfügen.

Die kontinuierliche Pflege des hinterlegten statistischen Modells, sowie die Aktualisierung und Verwaltung der hinterlegten Entitätenlisten erfolgt über einen eigenen auf Java basierten Trainingsclient, der es erlaubt, alle Wissensbasen ohne Programmierkenntnisse an die kundenspezifischen Ziele anzupassen. Die Auswirkungen eines Updatezyklus lassen sich durch diverse integrierte statistische Analyseverfahren ermitteln.

Hochqualifiziertes Lektorat und Re-Training

Um eine größtmögliche Qualität zu sichern, werden die automatisch annotierten Kategorien und Entitäten einer Pressemitteilung von gezielt ausgebildeten Lektoren auf ihre dokumentarische Korrektheit validiert und gegebenenfalls korrigiert. Zusätzlich zu dieser anspruchsvollen Aufgabe, führen die Lektoren für Presseartikel externer Verlage ein Auswahllektorat durch, welches nach strikt definierten Vorgaben von HBM „uninteressante" Pressemitteilungen ausfiltert.

Die Korrektur der Verschlagwortung und das Auswahllektorat erfolgen über die Benutzeroberfläche eines eigenen, auf Java basierten Operatingclients. Pressemitteilungen, deren maschinelle Erschließung von den Lektoren manuell korrigiert wird, fließen in die Textmining-Komponente zurück und bilden dort eine zusätzliche Grundlage für die Pflege des statistischen Modells.

Workflowüberwachung und -steuerung

Der Workflow-Monitor ist eine webbasierte Anwendung zur Überwachung und Steuerung der gesamten Dienstleitung. Er zeigt den Abarbeitungs- und Erwartungs-Status jeder Pressequelle, und liefert so den Überblick über den aktuellen Verarbeitungsverlauf.  Minutengenau kann für jede Ausgabe der erwarte Eingang, die  Zwischenschritte und der Export definiert, kontrolliert und protokolliert werden.  Verspätete Ausgaben oder Verarbeitungsstörungen werden im Monitor über ein Ampelsystem auf einen Blick sichtbar,  damit kann sofort die notwendige Reaktion erfolgen.

Aktuelles:
04.05.12

Südkurier wählt Copyclick für den E-Paper-Vertrieb auf Facebook

27.02.12

Mittelbayerische Zeitung publiziert mit Copyclick von picturesafe auf Facebook

27.02.12

com! Das Computer-Magazin nun auf Facebook

21.02.12

1. FC St. Pauli e.V. - Stadionzeitung auf Facebook

Folgen Sie uns auf Twitter Folgen Sie uns auf Facebook Folgen Sie unseren RSS 2.0 Nachrichten
picturesafe media/data/bank GmbH· Seelhorststr. 44· 30175· Hannover DE/Germany. Länge: 52.377898 N / Breite: 9.761406 E. Telefon: +49 (0)511 - 28 393 - 0 · Internet: .