Digital Knowledge Store

Logo der Berlin Brandenburgischen Akademie der Wissenschaften (BBAW)

Logo der Berlin Brandenburgischen Akademie der Wissenschaften (BBAW)

 

Übersicht

  • Mitarbeit: 15.05.2012 – 31.12.2013
  • Themen: semantische Netze, Volltextindexierung von digitalen Dokumenten, semantische Suche
  • Projekt-Website: http://wsp.bbaw.de 
  • entwickelte Software: Volltext-Parser für heterogene Formate (PDF, Open Documents, Word, HTML, …), automatisierte Metadatentransformation von METS und MODS zu dem RDF-Zielformat, Clustering-Algorithmus, RDF Triple-Store-Adapter, Java Web-Applikation für die Volltext- und semantische SUche
  • Kompetenzen: Java 7, Java Web – Applikationen und Servlets, XML (XSLT, XPath, XQuery,…), Apache Lucence, RDF, SparQl, OWL, Apache Jena, OAI/ORE, METS, MODS, Apache Jena – Library, MySql, Apache Tomcat 7

 

Projektbeschreibung

Vom 15.05.2012 – 31.12.2013 arbeite ich neben dem Präsenzstudium als studentische Hilfskraft im Digitalen Wissensspeicher der TELOTA-Initiative an der Berlin Brandenburgischen Akademie der Wissenschaften (BBAW).

Ich arbeite aktiv an dem Aufbau eines digitalen Wissensspeichers mit, der dem Benutzer ein Knowledge Browsing bieten soll, das alle digitalen Ressourcen der BBAW verknüpft. Dabei kommen semantische Technologien zum Einsatz, die gerade jetzt sehr spannende Möglichkeiten eröffnen. Man bedenke nur die aktuellen Schlagworte Big Data und Open Linked Data.

Besonders spannend ist die Vielfalt der digitalen Ressourcen. Die BBAW als altehrwürdige Institution beherbergt teilweise bis zu 350 Jahre alte Dokumente (z.B. Schriftwechsel), die sehr unterschiedlich digitialisiert wurden. Die große Anzahl von Vorhaben und Projekten an der BBAW ist eine weitere Herausforderung. Jedes Vorhaben stellt seine Publikationen bzw. Ressourcen in unterschiedlichen Formaten zur Verfügung; die Ressourcen müssen außerdem gefunden und gesammelt werden.

Daher ist gerade die semantische Verknüpfung der digitalen Ressourcen besonders spannend. Bei meiner Arbeit vertiefte  ich bisher die semantischen Technologien Resource Description Framework (RDF), OWL und arbeitet mit dem Jena Framework. Außerdem arbeite ich an dem Volltext-Parser für heterogene Ressourcen, an XSLT-Transformationen sowie XPath- und XQuery-Skripten und an der Architektur unseres Wissensspeichers.