lunes, 1 de agosto de 2011

La paleografía digital: ¿estamos ante una especialidad demasiado orientada a cuestiones técnicas, o por el contrario se trata de la creación de nuevos instrumentos para abordar cuestiones tradicionales?

Categoría: Artículos

Spanish translation of the article "Digital Palaeography: is more oriented to digital than paleography? Or it creates new instruments to deal with traditional issues of a already old science?, originally published in French on the blog Paléographie Médiévale. [Digital humanities, New technologies for learning and research in the auxiliary sciences of history]

Traduction en espagnol du article "Paléographie numérique: plus de numérique que de paléographie? Ou des instruments nouveaux pour s’attaquer aux questions traditionnelles d’une science déjà ancienne?", initialement publié en français sur le blog Paléographie Médiévale. [Informatique en sciences humaines, Les nouvelles technologies dans l'apprentissage et la recherche en sciences auxiliaires de l'histoire]


En primer lugar me gustaría agradecer a Dominique Stutzmann, investigador en el Institut de Recherche d'Histoire des Textes del Centre National de la Recherche Scientifique de Francia, por darnos su permiso para publicar la traducción en español del post que recientemente publicó en el blog Paléographie Médiévale: "Paléographie numérique: plus de numérique que de paléographie? Ou des instruments nouveaux pour s’attaquer aux questions traditionnelles d’une science déjà ancienne?". Trataremos de que la traducción respete lo más posible el sentido del original, para así poder acercar un poco más al público hispanohablante, algunos aspectos de una nueva especialidad dentro de las Ciencias y Técnicas Historiográficas como es la Paleografía Digital.

El artículo trata de mostrar cuales fueron las diferentes aportaciones presentadas al Taller de Paleografía Digital  (Workshop Digital Palaeography) celebrado en la universidad alemana de Wurtzbourg (Baviera) entre los días 20 y 22 de Julio de este año, el cual fue financiado por la European Science Foundation y organizado por Malte Rehbein. En el evento se dieron cita 24 investigadores de 9 países europeos y de los Estados Unidos, para intercambiar sus perspectivas en este nuevo campo científico.



Conferencia introductoria

El congreso fue inaugurado con la brillante intervención del profesor Overgaauw que llevo por título: "Paleografía: viejas cuestiones y nueva tecnología" ("Palaeography: old questions and new technology"). En ella rechazó completamente la idea de que existiese una crisis en la disciplina paleográfica, ya que la presencia de jóvenes investigadores y el interés que despiertan los estudios sobre cultura material e intelectual de la Edad Media, hacen de la paleografía un campo vivo y activo, que tiene el deber aclarar otras cuestiones a los investigadores que se vayan a enfrentar a un manuscrito.

También rechazó particularmente la idea de que la introducción de la informática en las humanidades haya provocado un cambio en las preguntas realizadas en la investigación, y subrayó que el interés de las nuevas tecnologías es el de ofrecer una esperanza para definitivamente poder dar respuestas satisfactorias a cuestiones pendientes, cuya resistencia a poder ser solucionadas mediante la metodología tradicional ha generado dudas a los paleógrafos sobre la pertinencia y la eficacia de sus métodos. Después de presentar una lista con los problemas todavía por resolver, siendo el primero de ellos el de cómo encontrar criterios fiables para datar y localizar una escritura, trazó un panorama de avances positivos en la disciplina durante los últimos cincuenta años, tanto desde el enfoque tradicional (creación y difusión de las escrituras carolina y humanística), como desde la codicología cuantitativa.

Una situación de constantes avances que generan nuevas dudas entra dentro de la noción de progreso de las humanidades, y también dentro del propio método paleográfico que hasta entonces estaba basado en la combinación de la erudición positiva y el entrenamiento del ojo. Esto último podría ser entrenado o sustituido mediante las tecnologías de análisis de imagen (T. Schaβan).

Respecto los métodos actuales de la paleografía (la paleografía estadística, el análisis de las imágenes digitalizadas, y la construcción de largas bases de datos), Overgaauw señaló que el empleo de la informática ha modificado los modos de llevar a cabo la investigación pero a la vez exige un aprendizaje adicional, y lamentó que algunos investigadores no encuentren el camino a su proposito original (el de manejar una herramienta destinada a responder las "viejas" cuestiones epistemológicas de la paleografía) al encerrarse en aspectos técnicos y olvidarse de dar respuesta a las problemáticas históricas. Por ello invita a los investigadores a trabajar directamente con los manuscritos, ya que no todos están digitalizados ni fueron nunca objeto de un profundo análisis.

Después de esta presentación en la que se ha introducido las cuestiones clave de la introducción de las nuevas tecnologías en la paleografía, tuvieron lugar diferentes sesiones temáticas en las que se presentaron diferentes proyectos en curso y sus resultados, y en las que se debatió sobre las expectativas suscitadas por los análisis y las metodologías innovadoras.


Letra, texto, forma: perfil grafológico y análisis de imagen.

Cuatro son las contribuciones que descubren las amplias posibilidades de tratamiento del texto y de la imagen a través del mundo informático: la asociación para una transcripción letra a letra (W. Scase), el análisis gráfico de las letras a través de la tecnología OCR (T. Schaβan), la elaboración de una base de datos de las formas de las letras (S. Brookes), el análisis gráfico de formas complejas y la visualización de grandes masas de datos.

Wendy Scase (Universidad de Birmingham) en una comunicación titulada: "Nuevas metodologías para un aprovechamiento efectivo de las colecciones de manuscritos digitalizados" ("New Methodologies for effective explotation of Digital Manuscript Corpora"), presentó dos proyectos: "Manuscripts of the West Midlands – A Catalogue of Vernacular Manuscript Books of the English West Midlands, c. 1300 – c. 1475" y "The Vernon Manuscript Project", que tienen por objetivo la publicación integral de un manuscrito escrito en torno al año 1400, el Oxford, Bodl, Libr., MS Eng. Poet. A.1, un "monstruo" de la literatura inglesa: 350 folios que pesan 22 kilos y contienen 370 textos, cuya digitalización ha sido realizada por menos de 25000 €. Debido a la escasez de tiempo, dentro de la transcripción, muy próxima al original, se ha tenido que renunciar al estudio de los alógrafos, pero al menos nos permite volver a examinar la historia del manuscrito a través de los perfiles grafológicos de los intervinientes (empleo de diferentes formas). La utilización de un formato diferente al TEI y la publicación en formato DVD, han suscitado polémica, ya que la publicación por parte de la Universidad de Birmingham de las prácticas de codificación y los ficheros XML brutos, podría dar a los futuros investigadores la posibilidad de producir datos interoperables y de reoganizar los datos, algo interesante para el análisis pendiente de los alógrafos. Otras cuestión que se planteó fue la necesidad de establecer vínculos entre los recursos disponibles y los que todavía quedan por digitalizar, algo que es bastante problemático, especialmente en el Reino Unido, por la cuestión de derechos de reutilización y publicación de las imágenes de manuscritos.

Torsten Schaβan intervino en una comunicación titulada: "La tecnología de Reconocimiento Óptico de Carácteres OCR para manuscritos y primeros libros impresos" ("OCR for manuscripts and early prints"), en donde presentó las conclusiones alcanzadas por el grupo de trabajo de la tecnología OCR en la Asociación de Bibliotecas de Alemania, la DBV (Deutsche Bibliotheksverband), sobre un tema relacionado con el proyecto europeo de mejora de acceso al texto, el proyecto "IMPACT" (Improving Access to Text). Dos programas informáticos son mencionados: el ABBYY FindReader, que obtiene resultados relevantes pero tiene dificultades para trabajar con algunas escrituras (góticas y romanas) y para mejorar su sistema de reconocimiento; y el BIT Alpha, que necesita un largo proceso de entrenamiento y el manejo de numerosos parámetros, pero que finalmente obtiene los mejores resultados y abre la posibilidad a la comparación de los carácteres de diferentes imprentas (Proyecto "Helmstedt imprints" que cubre más de 5000 impresos del siglo XVII), algo que incluso podría ser extensible a las escrituras librarias que tuvieran unos patrones regulares.

Stewart Brookes y Peter Stokes (King's College, Londres) presentaron el proyecto "Recursos digitales y Bases de Datos para Paleografía y Diplomática, y para el estudio de los manuscritos" ("Digital Resource and Database of Palaeography, Manuscripts and Diplomatic"), también conocido como DigiPal, que está financiado por el Consejo Europeo de Investigación (European Research Council). El pequeño equipo de investigación formado por dos investigadores titulares, un doctorando y un contratado, pone el acento en las escrituras vernáculas inglesas del siglo XI (1200 manos diferentes), para desarrollar una ontología (un exhaustivo y riguroso esquema conceptual de uno o varios dominios) del alfabeto latino que contenga descripciones, y para construir una infraestructura online para el estudio de la paleografía, con funciones de visualización y navegación (esquema de evolución de las letras, navegación sobre una letra respecto a su contexto en la página...). También podrían tener en cuenta la aplicación de métodos informáticos para analizar las similitudes entre diferentes modelos de una misma letra.

Matthieu Exbrayat (encargado de las herramientas de exploración espacial en el proyecto GRAPHEM) presentó brevemente el proyecto ANR GRAPHEM (2008-2011), que tiene por objetivo el establecer automaticamente una clasificación de las escrituras medievales en alfabeto latino a partir de un conjunto de casi 10000 fotografías, y que se clausuró con un gran coloquio internacional que se celebró en abril del 2001, y que llevó por título: "Paléographie fondamentales, paléographie expérimentale: l'écriture entre histoire et science". El mostró los principios y las interfaces de los cuatro motores de búsqueda de similitud que han sido desarrollados en el marco de este proyecto, y la herramienta de visualización de las distancias entre las diferentes muestras. Una demostración que ha resaltado la importancia de la visualización de los resultados como instrumento heurístico, dada la complejidad y la cantidad de datos a analizar.


Materiales (Nuevas técnicas para el estudio del pergamino).

Paola Errani (Biblioteca Malatestiana de Cesena, Italia), en una intervención titulada "El pergamino y los escribas en el scriptorium Malatestiano" ("Parchement and Scribes in the Malatestian Scriptorium"), presentó la metodología y los resultados del estudio de 343 códices manuscritos realizados por el convento en pergamino procedente de la piel de cabras y en formato folio. Después de varios meses de trabajo para medir el espesor de la piel en seis puntos de cada bifolio en todos los códices, lo que supuso tomar un total de 78.360 medidas, se confirmaron las sospechas iniciales de que los bifolios exteriores son más gruesos y que los cuadernillos finales son más gruesos y más regulares. El espesor de los folios se mueve entre los 125,3 y los 181,5 micrones, siendo la media de unos 158,9 micrones, y la mediana aproximadamente unos 159,5 micrones. Las dos principales conclusiones del trabajo son que la homogeneidad respecto al espesor de los folios en los códices disminuye con el aumento del tamaño del manuscrito (E. Overgauww ofrece dos explicaciones: que se utilice la piel de un animal más grande con una piel más espesa, o bien que las otras pieles se redujeron de manera que el exterior, la parte más gruesa, ha desaparecido); y que los manuscritos ejecutados para Malatesta son generalmente más finos y menos homogeneos que otros elaborados en el mismo entorno y por los mismos escribas, para otros patrocinadores.

Otro estudio sobre el pergamino fue presentado por Timothy Stinson (Universidad de Carolina del Norte) con el título: "El análisis del ADN y el estudio de los códices medievales" ("DNA Analysis and the Study of Medieval Parchement Books"). El análisis del ADN mitocondrial de las celulas de pergamino abre nuevas expectativas a la datación y localización de los pergaminos, que hasta la fecha, han sido infinitamente menos documentados que el papel y las filigranas. De hecho, el proceso de transformación de la piel en pergamino no altera sustancialmente el material genético, de modo que los 600.000 manuscritos medievales constituyen el mayor conjunto de datos genéticos de la época medieval y la formación de una base de datos es posible, lo que nos permitirá estudiar la relación entre la piel y el comercio del pergamino. Sin embargo, los datos son todavía demasiado fragmentarios como para poder ser utilizados en ese sentido, pero si permiten comprobar la estructura material de los manuscritos o la pertenencia de los fragmentos a una misma piel. El camino a seguir será la exploración de aquellos manuscritos que hayan sido datados o localizados, para que de sirvan de referencia a aquellos de los que se desconocen estos datos.


La tecnología informática y la reconstrucción de textos y manuscritos.


Dos comunicaciones han puesto de relieve los beneficios de las tecnologías informáticas para la reconstrucción de manuscritos y textos dañados, la de Lior Wolf (The Blavatnik School of Computer Science en la Universidad de Tel Aviv) titulada: "Identificando los fragmentos de los manuscritos de la Geniza de El Cairo" ("Identifying Join Candidates in the Cairo Genizah"); y la de Mélanie Gau y Robert Slabatnig (Vienna University of Technology) que lleva por título: "La investigación de los documentos históricos enfocada en preparación de la página y carácteres automáticos" ("Investigation of Historic Documents with Focus on Automatic Layout and Character"). Los dos se ocupan de diferentes dominios escriturarios: el hebreo y el glagolítico.

Lior Wolf mostró como la informática permite identificar fragmentos provenientes de un mismo manuscrito dentro del enorme conjunto de 250.000 fragmentos disperso que proceden de la Geniza de El Cairo, el motor de búsqueda de similitud se retroalimenta de las identificaciones ya realizadas (para definir los criterios que permiten reunir los fragmentos) y abarca tanto la preparación del espacio escrito, la mise en page (altura de los fragmentos, del interlineado y de las letras, el ancho de columna, y la densidad de las líneas), como la propia escritura. A pesar de que la tasa de error sigue siendo bastante alta en los pares propuestos, los resultados son muy positivos y hacen que sea posible estudiar un material cuyo acceso estaba limitado por el problema de la fragmentariedad, lo que permite nuevos descubrimientos en la historia de la teología judía mediante la asignación e identificación de los textos. Además, el trabajo sobre las escrituras se llevo a cabo mediante el recorte de los signos gráficos en grupos grafémicos aprovechando que los cálculos de similitud  permiten entre otras cosas, la comparación letra a letra (o por diferentes conjuntos de trazos), por lo que se pudo generar una tipología automática que coincide bastante con las categorías tradicionales (hebreo cuadrado ashkenazi / italiano / oriental / sefardita - semicursiva oriental / sefardita)

Melanie Gau y Robert Sablatnig presentaron los proyectos Sinaí I y Sinaí II, dirigidos por el profesor Heinz Miklas (Österreichische Akademie der Wissenschaften), poniendo énfasis en el análisis y la edición de los manuscritos glagolíticos de los siglos XI al XIII que fueron descubiertos en el Monte Sinaí en 1975 y que tienen gran importancia desde las perspectivas filológica y cultural. Unos manuscritos que presentan dificultades por su mal estado de conservación, por conservarse como palimpsestos y por la transformación química de la tinta; por lo que tuvieron que ser afrontados mediante técnicas extremadamente desarrolladas que precisaron de que cada página fuese fotografiada una docena de veces utilizando diversos espectros de luz (infrarrojo, visible y ultravioleta). Para apoyar al proceso de transcripción se reconstruyeron los palimpsestos a través del borrado digital del texto añadido y de la restitución de los trazos sobreescritos, y se hizo una descripción de cada carácter del alfabeto glagolítico (con el número de nodos, trazos...) con el fin de permitir a la maquina que propusiese una transcripción de las letras todavía visibles en los diferentes fragmentos, un proceso que no permite reconstruir el ductus pero que aporta unos resultados satisfactorios.


La interoperabilidad y datos abiertos.

La anterior comunicación de Paola Errani sobre los códices de la Biblioteca Malatestiana puso de relieve la importancia de los protocolos para tomar medidas comparables y de poner a disposición la información en bruto a través de almacenes de datos perennes. El riesgo existente de que las medidas puedan ser malinterpretadas y ser erroneamente comparadas, provoca la necesidad de que estas deban estar bien documentadas con la información sobre los protocolos de toma de medidas, los formatos de medida...

Un imperativo que particularmente fue reseñado por Ségolène Tarte (Universidad de Oxford) en su presentación titulada: "Interpretar documentos antiguos: la incertidumbre y la creación de conocimiento a través de los diferentes niveles interpretativos" ("Interpreting Ancient Documents: Of Avatars, Uncertainty, and Knowledge Creation"). Poniendo el enfoque en el proceso interpretativo de las humanidades, y en particular, del trabajo a partir de fuentes digitales, su comunicación ha revelado que tanto la edición como la digitalización se basan en la elección de pasar una realidad de un sistema de significación a otro. Por una parte, el objeto digital, lejos de ser una mera reproducción, es una interpretación bidimensional discreta de una realidad tridimensional continua y una recreación de un objeto diferente, tratándose de otro nivel interpretativo ("avatar" o "salmu"). Por otra parte, la lectura en si misma deriva de una percepción doble de una forma y de un significado, con una oscilación y una confrontación perceptiva fecundas. La complejidad de los procesos que conducen a una decisión debe fomentar a la creación de protocolos de documentación y de registro, permitiendo la creación de árboles de decisión y la reinterpretación de las conclusiones en caso de cambio de modelo (por ejemplo: la identificación de nuevas morfologías de la antigua cursiva romana). Ella aboga por el abandono de una supuesta cuantificación objetiva, para reemplazarla por una subjetividad medida, formalizada en los modelos de datos.

Las mismas preguntas sobre la incertidumbre y su medición, aparecieron en la intervención de T. Schaβan sobre la tecnología OCR, al señalar la inexistencia de una medida de la calidad del reconocimiento óptico (¿por palabras?, ¿por carácteres?, ¿por como hacen las abreviaturas?, ¿a qué diccionario confrontar el resultado del reconocimiento de los textos y a la fuerte variabilidad grafémica?). La mención de la información requiere, además de la documentación del proceso de creación y de las incertidumbres inducidas, un dominio de la granularidad, de la inserción de anclajes y de las coordenadas de citación (en particular por un resultado de reconocimento óptico en ALTO).


Cuestiones y perspectivas: las humanidades digitales y la medievalística, paleografía, formatos y útiles.

La intervención de Ségolène Tarte nos ha recordado que la paleografía y las humanidades digitales no son monopolio exclusivo de la época medieval ya que el dinamismo de estos enfoques rompe con las tradicionales divisiones cronológicas. Sin embargo, la disciplina paleográfica ha tenido desde siempre especial predilección por la etapa medieval, debido a que su fuente principal es el documento escrito.

Por una afortunada casualidad, los cinco miembros del bureau de Digital Medievalist (Malte Rehbein, Peter Stokes, Torsten Schaßan, Marjorie Burghart, y Dominique Stutzmann) estaban presentes. Los cuales trataron uno de sus temas preferidos, los formatos descriptivos (TEI, ALTO...), llegando a un consenso sobre la necesidad de abordar la cuestión de una forma pragmática, por el cual las herramientas deben existir para permitir a los investigadores registrar los datos necesarios de manera fácil y uniforme, o comprender sus resultados. Unos formatos que deberían de adaptarse a las necesidades que se han analizado en el congreso, como por ejemplo la elaboración de ontologías de escrituras a través de la descripción de éstas en los citados formatos, o la posibilidad de registrar las características físicas medidas de forma precisa para así poder trabajar con aspectos codicológicos a través del lenguaje de marcado TEI.

Otro aspecto de su interés son las herramientas, tanto de constitución de los datos como de su explotación, las necesidades son grandes. Por una parte, permitirán compartir las buenas prácticas y la utilización de formatos comunes, ya que su ausencia es la que explica dentro de los proyectos presentados, la división en dos archivos distintos de las informaciones descriptivas del manuscrito y de la transcripción en el proyecto Vernon que ha presentado Wendy Scase, la ausencia de exhaustividad en la captura de los grafemas en el proyecto DigiPal (S. Bookes - el diseño de los cuadrados alrededor de las letras se hace a mano!), la función de comparación dentro del proyecto Genizah que ha presentado Lior Wolf, y la herramienta de exploración espacial del proyecto GRAPRHEM que ha presentado Matthieu Exbrayat. Dentro de este último proyecto se ha desarrollado una herramienta que permite medir las características morfológicas de las letras (Graphoskop) que reafirma el método descriptivo de Leon Gilissen ya que sus detractores señalaban que no podía ser usado sin tener la suficiente precisión para medir esas características.

Siguiendo con el tema de las herramientas, el debate iniciado por N. Golob demostró que la mayoría de los expertos en informática (por ejemplo M. Bughart) comprenden perfectamente la necesidad de interfaces atractivas (y XML-less) como la propuesta por el proyecto Monasterium a través de su interfaz de transcripción y corrección colaborativa (Monasterium Collaborative Archive). M. Gau y R. Slabatnig también tienen una buena interfaz en su plataforma NOM, su "caja de herramientas" no está plenamente operativa, pero pronto se pondrá a disposición de los investigadores en humanidades digitales.

Con respecto a los métodos, todavía se necesita un desarrollo profundo, especialmente en la heurística y en la validación de los resultados (¿comparación con los resultados insuficientes de la paleografía tradicional?, ¿comparación cruzada de los resultados obtenidos por métodos estadísticos e informáticos?).

Con este estado de la cuestión, E. Overgaauw sugirió reanudar las cuestiones todavía pendientes de la paleografía y tratar de aportar nuevas respuestas, las cuales también se deben de nutrir del estado actual de los conocimientos, es decir, de los métodos tradicionales. Cuestiones como: ¿Qué es la calidad de una escritura? ¿Qué es la regularidad de una escritura? ¿Cómo medir la imitación, la evolución progresiva y los cambios imperceptibles?. Para así poder responder a la problemática principal de definir una escritura a través de diferentes características y así poder hacer frente a la ausencia, a la vez sintomática y cruel, de un vocabulario compartido.

Finalmente se trato el tema de la difusión de los métodos, las herramientas y los resultados. Mencionándose redes e infraestructuras como la NeDiMAH (Network for Digital Methods in the Arts and Humanities), revistas científicas como Digital Medievalist o aquella cuyo nacimiento es anunciado por Timothy Stinson (Universidad de Carolina del Norte), plataformas comunes para compartir los programas informáticos y las herramientas (aunque el ejemplo francés de Balisez.net incite por un momento a la cautela). La paleografía requiere de un saber hacer que pocos poseen pero que todos necesitan, no está claro que los métodos y las cuestiones de las humanidades digitales se difundan a partir de ese saber hacer, pero a través de ella se avanza y sus resultados serán necesariamente observados.

No hay comentarios:

Publicar un comentario en la entrada