Publishing 20th Century Press Archives

Posted on 26 noviembre, 2014 por

0


Se trata de una colección de la Biblioteca Nacional Alemana de Economía son una enorme colección de recortes de periódicos que tratan de temas como mercancíaas, personas o compañías, que abarca cronológicamente desde el año  1826 hasta  el año 2005, y está organizada en una serie de carpetas temáticas. La información de las piezas de la colección y de los metadatos (como por ejemplo fuente y fecha de un artículo o nombre y  localización de una empresa) solo está disponible en alemán. Ésta iniciativa como muchas otras se enmarca dentro del W3C Library Linked Data Incubator Group, que tiene por objetivo aplicar las tecnologías de la Web Semántica y Linked Data a la organización de bibliotecas y archivos, exprimiendo y poniendo de manifiesto todo su potencial.

En la actualidad los diferentes datos de los más de seis millones de documentos son accesibles como imágenes digitalizadas a través de una aplicación específica. La recolección de los datos por parte de aplicaciones ajenas o los hiperenlaces profundos no son posibles.

Estos archivos pretenden conseguir una serie de metas, tales como:

  1. Relación agregada mediante carpetas que permitan el acceso a varios documentos o devolución de resultados a través de un único URI.
  2. Relaciones nuevas para proporcionar un contexto a partir de metadatos y el enlace a otros datos relevantes para el dominio.
  3. Reutilización, categorización así como  uso del Fichero de Autoridades Virtual Internacional, así como, el uso de la BSO Geonames, y el control de autoridad de la Biblioteca Nacional Alemana se mencionan como objetivos de enriquecimiento para la prestación de un mejor contexto.
  4. Publicación: recolectar y publicar datos en el archivo con la intención de apoyar el uso de una imagen estándar y visor de metadatos basado en METS / MODS.

El target de ésta iniciativa abarca a estudiantes de económicas e historia, profesores, documentalistas, periodistas, público especializado y proveedores de servicios.

El usuario de este archivo puede navegar y buscar en las colecciones de los metadatos disponibles. La búsqueda debe estar sostenida por un servicio de auto sugerencia incluyendo nombres alternativos (por ejemplo, de la alemana Archivo de Autoridades Personal, PND).

Cada artículo, carpeta o documento de una sola página dentro de un documento tiene su propia dirección web persistente que puede ser citada y enlazada.

Se proporciona información complementaria añadida por otras fuentes en la web. Para los usuarios no alemanes, existe una página web con los datos de la web alemana. Además también se ofrecen enlaces a los lugares donde se dispone de más información, como el Fichero de Autoridades Virtual Internacional,  y  se adjuntan algunos metadatos para que el usuario pueda ver cómodamente carpetas y documentos con sus imágenes de las páginas.

Además, los usuarios institucionales y proveedores de servicios de valor añadido (como Europeana) pueden recoger los datos de manera eficiente gracias a la nube de linked data y al metalenguaje descriptivo empleado.

Respecto a la aplicación de los datos vinculados al caso de uso dado el OAI-ORE es la columna vertebral de este sistema. En cada nivel de agregación proporciona acceso a los recursos agregados. Los resultados de la búsqueda se representan en agregaciones ORE que están construidas dinámicamente. Las agregaciones son descritas por los mapas de recursos RDFa.

 

Los metadatos proporcionados por la base de datos de aplicaciones y enlaces a la nube de Linked Data enriquecen estos mapas de recursos. La RDFa facilita la creación de una aplicación web para ambos, humanos y máquinas, que sigue los principios de la arquitectura REST. Como por ejempl consultas basadas en SPARQL

 

En este sistema existen problemas y limitaciones que se pueden resumir en:

 

El rendimiento supone un problema porque las páginas RDFa se generan dinámicamente desde una base de datos relacional. Dado que se requiere información de los diferentes niveles de la jerarquía de agregación y tablas de metadatos asociados para construir una pantalla significativa para el usuario. Es imprescindible emplear estrategias de almacenamiento en caché (que aprovechan las tecnologías web estándar).  Estas tecnologías  también se aplicarán a las fuentes de datos externas vinculadas, con el fin de garantizar la disponibilidad y lograr el rendimiento general.

La granularidad de las agrupaciones que se presentan al usuario es también un problema para resolver (por ejemplo, la colección “compañías” agrega unas 13.000 empresas, lo cual es demasiado para la representación).

Para su uso en la Fundación Alemana de Investigación Científica  las agregaciones se van a asignar a archivos XML en diferentes granulaciones. Hasta ahora, no existe una metodología de mapeo en general, por lo que en la actualidad se generan los archivos directamente de la base de datos.

El orden de los documentos dentro de una carpeta, por lo general después de la fecha de publicación de los artículos, es fundamental.

En este sistema también se contempla la posibilidad de usos no previstos como:

Cosechas de Europeana y agregados metadatos de sitios.

NDNP (Chronicling América) ofrece un gran corpus de periódicos históricos, hasta el nivel de la página de búsqueda a través de texto OCR.

Servicio de Linked Data de la Biblioteca Nacional de Alemania y del Fichero de Autoridades Virtual Internacional que proporciona enlaces a las propiedades de las Bibliotecas Nacionales de todo el mundo y de otros orígenes de Linked Data.

Anuncios
Posted in: Uncategorized