Presse-Monitor GmbH
"Das Herzstück der PMG ist das Presse-Monitor®-System, die umfangreichste tagesaktuelle deutschsprachige Pressedatenbank, die täglich 100.000 Artikel zur einfachen Online-Recherche bereithält. ... Mit mehr als 600 Zeitungs- und Zeitschriftenverlagen, die rund 2.400 Publikationen herausgeben, hat die PMG Vereinbarungen über die Vermarktung ihrer Artikel getroffen. Über 90 Prozent aller deutschen Tageszeitungen haben einen Vertrag mit der PMG." (Zitate der Webseite www.pressemonitor.de)
Aufgabenstellung
Für die PMG wurde von picturesafe die komplette Applikationsumgebung erstellt. Der nachfolgenden Text beschränkt sich auf die Erläuterung der von der PMG eingesetzten semantischen Komponenten, welche ebenfalls vollständig von picturesafe entwickelt wurden.
Vollautomatische Kategorisierung
Täglich werden mehr als 100.000 Presseartikel unterschiedlichster Inhalte und Themen nach dem international standardisierten IPTC-Thesaurus vom dio:semantic Categorizer erschlossen. Ein so großer Datendurchsatz erfordert ein vollautomatisiertes Verschlagwortungssystem. Eine manuelle Korrektur der von dio:semantic gelieferten Indexate erfolgt nicht. Neben der automatischen Klassifizierung werden für jeden Artikel automatisch satzbasierte Zusammenfassungen (Summary) berechnet. Die Artikelzusammenfassung wird für jede Suchanfrage individualisiert und optimiert. Auf diese Weise wird es dem Nutzer ermöglicht, eine kurze, an seine Suche angepasste Artikelvorschau zu erhalten. Die erleichtert dem Benutzer die Entscheidung, ob der Artikel den Kern seiner Anfrage trifft.
Themenverwandtschaft und Dublettenerkennung
Für die täglich über 100.000 einlaufenden Artikel wird eine Ähnlichkeitsanalyse in zwei Varianten gerechnet. Die semantischen Berechnungen erfolgen „on the Fly" während des Importprozesses. Die erste Variante erkennt Dubletten bzw. Quasi-Dubletten und erzeugt Verknüpfungen zu stark ähnelnden Artikeln. Diese Funktionalität eröffnet mehr Übersicht und Transparenz in den Ergebnislisten kundenspezifischer Suchabfragen. Zusätzlich ist auf Anhieb erkennbar, in welchen unterschiedlichen Ausführungen ein Artikel veröffentlicht wurde.
Die zweite Variante der Ähnlichkeitsanalyse erkennt themenverwandte Artikel und verknüpft diese miteinander. Durch eine komplexe inhaltliche Analyse erfolgt eine Bewertung eines jeden Artikels zum Gesamtbestand. Artikel die der Anwender sonst übersehen hätte, werden über sie Suche nach themenverwandten Artikeln gefunden..
Performanz und Zuverlässigkeit
Alle semantischen Analysen werden bei der PMG über einen einzigen dio-semantic Textminer berechnet (plus schlafenden Fallback). Die Software ist so performant, dass weder Server Cluster noch Dispatcher für die semantischen Analysen erforderlich sind. Die Kombination aus hochperformanten Verfahren und einer durchgehenden Realisierung in JAVA erspart erhebliche Kosten im Bereich des Rechenzentrums (Hardware, Wartung, Betriebskosten).
Der picturesafe dio-semantic Textminer zeichnet sich durch absolute Stabilität aus. Im Presse-Monitor®-System hat der dio-semantic Textminer inzwischen weit über 100 Millionen Artikel analysiert und verarbeitet. Dieses Modul läuft seit Jahren ohne Ausnahme stabil.





