Navigationsweiche Anfang

Navigationsweiche Ende

Sprache wählen


CITREC - Offenes Framework für die Evaluation zitatbasierter und textbasierter Ähnlichkeitsmaße

Überblicks-Publikation:

B. Gipp, N. Meuschke, and M. Lipinski,
“CITREC: An Evaluation Framework for Citation-Based Similarity Measures based on TREC Genomics and PubMed Central,”
in Proceedings der iConference 2015, Newport Beach, California, 2015.
(PDF | DOI)

 

Zusammenfassung

CITREC vereint und vereinheitlicht die Daten von zwei ehemals getrennten Kollektionen für eine zitatbasierte Analyse und stellt Werkzeuge bereit, um die Güte von Ähnlichkeitsmaßen zu bewerten. Die erste Kollektion ist das PubMed Central Open Access Subset (PMC OAS)das Datenset des Genomics-Tracks bei den Text REtrieval Conferences (TREC) 2006 und 2007 (Überblicks-Publikation TREC Gen Collection).

CITREC erweitert die PMC OAS- und TREC Genomics-Kollektionen um:

  1. Zitat- und Referenzinformationen, einschließlich der Position von In-Text-Zitaten für Dokumente in beiden Sammlungen;
  2. Quellcode und vorberechnete Scores für 35 zitatbasierte und textbasierte Ähnlichkeitsmaße;
  3. Zwei Gold-Standards basierend auf Medical Subject Headings (MeSH) Deskriptoren und dem für die TREC Genomics-Kollektion erhobenen Relevanz-Feedback;
  4. ein webbasiertes System (Literature Recommendation Evaluator - LRE), zur Bewertung von Ähnlichkeitsmaßen hinsichtlich ihrer Eignung, Dokumente zu identifizieren, die für benutzerdefinierte Informationsbedürfnisse relevant sind;
  5. Anwendungen zur statistischen Analyse und zum Vergleich der Ergebnisse einzelner Ähnlichkeitsmaße.

 

Demo-System

Die Demo Datenbank (User: citrec_demo / Password: citrec) erlaubt einen ersten Einblick in die Daten und möglichen Analysen, die das Framework bietet.

Diese Excel Tabelle zeigt beispielhaft eine mögliche Auswertung anhand von CITREC-Daten. Die Tabelle stellt die Scores verschiedener Ähnlichkeitsmaße in Relation zum mittleren Co-Citation-Score.

 

Dokumentation

  1. Datenbank Übersicht und Tutorial zur Erläuterung der Struktur der CITREC-Datenbank und zur Demonstration der Verwendung des Demo-Systems.
  2. Übersicht über die Tabellen, in denen die Scores der im CITREC-Framework enthaltenen Ähnlichkeitsmaße aufgeführt sind. Die Übersicht erläutert auch die Namenskonventionen für die Datenbanktabellen.
  3. Parser-Dokumentation, in der die Verfahren zum Extrahieren und Bereinigen von Daten erläutert werden.
  4. LRE Dokumentation, die den webbasierten Literature Recommendation Evaluator beschreibt, mit dem Umfragen zur Sammlung von Relevanz-Feedback und Erstellung von Goldstandard-Datensätzen erstellen werden können.

 

Daten

PubMed Central Open Access Subset

  • Datenbank Schema (1.3 KB)
  • Gesamte Datenbank (5 GB komprimiert, ~20 GB roh) – enthält Dokumentmetadaten, Zitatinformationen und vorberechnete Ähnlichkeits-Scores

TREC Genomics Collection

 

Quellcode

Quellcode (Java)

Der Java-Quellcode enthält:

  1. Parser für die PMC OAS- und die TREC Genomics-Kollektion sowie Tools zum Abrufen von MeSH und Artikelmetadaten aus NCBI Ressourcen (Paket org.sciplore.citrec.dataimport)
  2. Anwendungen zur statistischen Auswertung von Ergebnissen mithilfe einer top-k oder einer rangbasierten Analyse (Paket org.sciplore.citrec.eval)
  3. Implementierung von Ähnlichkeitsmaßen und Code zur Berechnung des MeSH-basierten Gold-Standards (Paket org.sciplore.citrec.sim)

LRE-Code (PHP)

Der Quellcode für den Literature Recommendation Evaluator (LRE) verwendet das PHP-Framework symfony (v. 2).

 

FAQ

F: Welche bibliometrischen oder szientometrischen Methoden deckt CITREC ab?
A: CITREC umfasst 35 zitatbasierte (linkbasierte), textbasierte und auf semantischen Konzepten basierte Ähnlichkeitsmaße. Für jedes dieser Maße stellen wir Implementierungen (Java-Code) und vorberechneten Ähnlichkeits-Scores für alle Dokumente in unserer Kollektion bereit. Die 35 Ähnlichkeitsmaße umfassen Varianten, z.B. abgeleitet durch Verwendung verschiedener Gewichtungsparameter für die folgenden Ansätze: Amsler, Bibliographic Coupling, Co-Citation, Contextual Co-Citation, Citation Proximity-Analyse, Linkthrough, Lucene More Like This, MESH-Ähnlichkeit. In der Übersicht der Ähnlichkeitstabellen sind alle 35 in CITREC enthaltenen Maße aufgeführt.

F: Welche Vor- und Nachteile hat die Verwendung von CITREC?
A: Vorteile:

  • CITREC umfasst viele Ähnlichkeitsmaße und bietet deren Implementierung und vorberechnete Ergebnisse für eine große Dokumentenkollektion.
  • CITREC beinhaltet zitatbasierte (linkbasierte), textbasierte und auf semantischen Konzepten basierte Ähnlichkeitsmaße.
  • CITREC bietet zwei Gold-Standards:

    • Der erste Maßstab ist automatisch aus Expertenklassifikationen (MESH-Begriffen) abgeleitet. Dieser Maßstab kann für beliebige weitere PubMed Dokumente neu berechnet werden.
    • Der andere Maßstab wurde manuell von Fachexperten erstellt und umfasst Relevanzbeurteilungen für Dokumente und Passagen. Er ist statisch und kann nicht automatisch für andere Dokumente erstellt werden.

  • CITREC enthält Quellcode zum Durchführen von Bewertungen und zum Hinzufügen weiterer Ähnlichkeitsmaße und Dokumente zum CITREC-Framework.
  • CITREC enthält eine Webanwendung (LRE) zur Durchführung von Nutzerstudien.
  • Alle Daten und der Sourcecode sind Open Source.

Nachteile:

  • Die Dokumentenkollektion von CITREC deckt derzeit nur Biowissenschaften ab.

F: Wie unterscheidet sich CITREC von anderen bibliometrischen Tools wie CiteSpace?
A: CITREC konzentriert sich auf die vergleichende Bewertung der Güte von Ähnlichkeitsmaßen für Information-Retrieval-Anwendungen, z.B. um zu bestimmen, welche Maßnahmen am besten zur Realisierung eines Such- oder Empfehlungssystems geeignet sind. Tools wie CiteSpace konzentrieren sich auf deskriptive bibliografische Analysen von Forschungsfeldern oder Dokumentensammlungen und die Visualisierung der Ergebnisse. Diese Tools dienen zur Beantwortung von Forschungsfragen wie "Was sind die Zitier- oder Kollaborationsmuster in einem bestimmten Forschungsbereich?". CITREC enthält viele Varianten von Maßen, die es ermöglichen experimentell den am besten geeigneten Ansatz für eine bestimmte Information-Retrieval-Anwendung zu bestimmen. CITREC erleichtert es Forschern auch, ihre eigenen Ähnlichkeitsmaße zu realisieren und sie mühelos mit allen Maßen zu vergleichen, die wir bereits im CITREC-Framework umgesetzt haben

 

Zu CITREC beitragen

CITREC ist ein Open-Source-Projekt, das unter der Gnu Public License (GPL) Version 2 veröffentlicht wurde. Wir laden Sie herzlich ein, zur kontinuierlichen Weiterentwicklung des Frameworks beizutragen, indem Sie Ergebnisse und Ressourcen im Zusammenhang mit CITREC austauschen.

Wenn Sie eine Evaluation mittels CITREC durchgeführt, ein Ähnlichkeitsmaß, einen Parser oder eine andere Anwendung entwickelt haben, die Sie teilen möchten, würden wir Ihre Arbeit auf dieser Seite gerne würdigen und teilen. Sollten Sie daran interessiert sein, Ihre Ressourcen über diese Seite verfügbar zu machen, kontaktieren Sie uns bitte unter meuschke{at}uni-wuppertal.de.

 

Dokumentkollektion und Metadaten

Im Folgenden verlinken wir auf die Quellen von Dokumenten und Metadaten, die wir im Rahmen von CITREC kombiniert, verarbeitet und erweitert haben. Bitte beachten Sie die Einzellizenzen der Verlage!


Verwandte Projekte

  • ParsCit – Referenzparser
  • SimPack – Java Bibliothek für Ähnlichkeitsmaße
  • WebLA – Java-Paket zur Verarbeitung von Web-Graphen, das gängige Algorithmen wie PageRank, HITS, Co-Citation Similarity und SimRank implementiert.

 

Danksagung

Wir danken allen, die zur Erstellung der TREC Genomics Kollektion beigetragen haben. Ohne diese großartige Arbeit wäre die Umsetzung des CITREC-Frameworks nicht möglich gewesen.

 

Kontakt

Wenn Sie Probleme bei der Nutzung von CITREC haben oder zu diesem Projekt beitragen möchten, senden Sie uns bitte eine E-Mail: meuschke{at}uni-wuppertal.de 

zuletzt bearbeitet am: 18.12.2020