Filología digital

Además de las herramientas de carácter general y de los gestores bibliográficos, se han ido desarrollando numerosas herramientas digitales. La mayor parte forman parte de la lingüística informática y se orientan al trabajo lingüístico o traductivo, aunque otras son puramente filológicas o de apoyo a la edición.

 

Transcriptio. La transcripción de textos es una de las tareas más mecánicas, pero también donde más errores se insertan en el proceso de fijación o traducción de un texto. Los programas de OCR funcionan cada vez mejor con textos impresos o digitales, pero no sucede aún lo mismo con los manuscritos. Algunas herramientas han llegado para agilizar este proceso, especialmente crítico con los manuscritos. Existen varias aplicaciones sencillas de transcripción automática: Livescribe Smartpen, tranScriptorium. Otras son aplicaciones paleográficas o filológicas, asociadas a un proyecto, que pretenden desarrollar

Cursos y recursos:

Collatio y alineación de textos. En crítica textual se denomina collatio a la fase preparatoria de una edición crítica que se lleva a cabo tras la recensio. Se trata de un cotejo sistemático de todos los testimonios existentes de un texto con el fin de localizar errores significativos que permitan relacionas y jerarquizar esos testimonios. La colación permite anotar cuidadosamente todas las variantes, los diferentes errores y alteraciones intencionadas, para crear el apparatus criticus, pero también es la base científica del análisis textual y de la eliminatio. Los trabajos de anáisis y la edición de textos largos que presentan mucha dificultad conducen a realizar una selección de loci critici, lo que no exime del cotejo completo y minucioso de todos los testimonios. La alineación es uno de los recursos fundamentales a la hora de facilitar este cotejar y de mostrar textos para que el lector pueda apreciar estas variaciones. Cuando dos o más ediciones se ofrecen en paralelo, hablamos de ediciones sinópticas. Word y otros tratamientos de texto permiten disponer gráficamente varias columnas en una página, aunque para evitar desplazamientos indeseados del texto suelen representarse dentro de cajas. El programa InDesign permite una gestión de columnas profesional.

En Traducción, algunos programas de paquetes como SDL Trados, Wordfast, SDLX o MemoQ Aligner permiten explotar textos ya traducidos para crear memorias de traducción. Su empleo es una solución eficaz para mejorar la productividad: crea una memoria bilingüe que agiliza la decisión y las búsquedas. También es posible usar a fondo estos programas como herramienta filológica para detectar los problemas y variaciones entre ediciones de un mismo texto.

  • Linguee o Reverso Context. Herramientas basadas en ofrecer traducciones en su contexto comparadas.
  • WinAlign. Es el programa de alineación más empleado. Tutorial. Vídeo. Vídeo 2.
  • Wordfast Aligner. Interfaz parecida al anterior. Es posible descargarse una demo. Tutorial.
  • LF Aligner. Alineador automático de código abierto. Interfaz poco user-friendly, pero de uso efiza y sencillo. Reseña.
  • Youalign. Aplicación en línea que alinea textos a partir de los documentos que se envíen (word, excel, pdf, html, xml, rtf, etc.) y genera archivos TMX que se pueden cargar en la memoria de traducción.También genera archivos html para publicar en internet, o usarlo en con unmotor de búsqueda de terminología y fraseología en su contexto.
  • Juxta. Programa especializada en cotejar y comparar una obra en varias versiones en su mismo idioma, y compartir los resultados. Desarrollado en Java para PC, mac y Unix. Un ejemplo y su Manual de uso.

Stemma codicum y análisis sintáctico. El estema es una representación en forma de árbol jerárquico. En lingüística se emplea, desde Lucien Tesnière (con el nodo en lugar central), para formalizar las estructuras sintácticas. En crítica textual, es el esquema de la filiación y transmisión de testimonios (versiones conservadas o hipotéticas de una obra) desde un original o arquetipo. Representar grafos en árbol no es una tarea fácil con los tratamientos de texto Aquí proponemos varios para mejorar la diagramación. A pesar de las facilidades de la automatización, sigue siendo fundamental la intervención humana en la toma de decisiones.

  • PAUP (Phylogenetic Analysis Using Parsimony). Se trata del programa más utilizado para realizar estemas en filogenética computacional. Basado en el principio de economía (ex parsimoniae), desde la versión 3.0 permite una matriz de distancias y métodos de probabilidad. Hay versión para PC, Mac, DOS y Unix. El algoritmo detecta la similitud entre versiones. Preguntas frecuentes.
  • Stemweb, del Helsinki Institute for Information Technology HIIT, and Stemmaweb. Ofrece una fórmula algorítmica para crear hipótesis de estemas.
  • Byzantini. Código fuente disponible en https://github.com/tla/stemmaweb/  desarrollada por el proyecto Tree of Texts de la Univ. de Lovaina y el proyecto Interedition. Ofrece una colección de herramientas de análisis de textos intercalados.
  • The Trees 3 Program. Es el más completo: permite animaciones. Programado por Sean Crist para la Univ. de Pensilvania, es de pago, pero es posible probar una demo.
  • LinguisticTree Constructor. De manejo complicado: hay instalarlo y luego definir las relaciones, atributos, especificaciones, etc. de las categorías.
  • TreeFormSyntax. Programado por la UBC; hay que instalarlo.
  • Phpsyntaxtree, de Eisenbach. El más fácil de usar. No se instala, sino que se emplea en la web. Es el que se utiliza habitualmente para representar árboles sintácticos en internet.
  • RSyntaxTree, de Hasebe. Es una copia del anterior con variaciones: permite emplear caracteres asiáticos, tiene alguna opción de tipográficamás y un validador del etiquetado.

Ejercítate. Sigue estos pasos:

  1. Abrir la aplicación PhpSyntaxTree. Si necesitas caracteres, cópialos en No tengo enie.
  2. Etiquetar entre corchetes los constituyentes sintácticos o categorías gramaticales (léxicas, funcionales) que se desee identificar, situando delante su valor y un espacio en blanco.
    Generar el árbol haciendo clic en «Draw». Avisa del número de corchetes de cierre y apertura, que debe coincidir. Te doy uno ejemplos ya etiquetados:

    [α [A a][β [B [? φ]][C c]][D d]]

    [O [SN/sujJuan][SV [V’ [V piensa] [SP/CCL en la cárcel]][SP en su casa]]]

    [O [SV’ [SN/CCT [detEsta] [S mañana]]] [SN/suj [Detel] [N cartero]] [SV’ [V ha entregado] [SN/Cd [Det una] [N carta]] [SP/CI [E a] [Det mi] [N marido]]]]

  3. Es posible cambiar tipografías, que el dibujo sea en blanco y negro  o en color (dibuja constituyentes y subconstituyentes en azul; en rojo, la oración; en negro, la dependencia jerárquica), numerar o no los constituyentes sintácticos que aparecen en varias ocasiones, etc. También puede sustituirse los subconstituyentes por un triángulo: basta con dejarlo sin separar mediante más corchetes.
  4. Una vez dibujado el árbol, hay que hacer clic en él. Se descarga automáticamente una imagen al ordenador. Basta con insertar la imagen [insertar>Imagen] en el lugar que deseemos del documento de MicrosoftWord (u otro). Es posible retocarlo después: hacer clic en la imagen, ir a Formato y elegir la opción deseada.

Análisis textual. La lingüística computacional aplicada ha desarrollado diversos programas de explotación de textos o de corpora de textos. La gestión de documentos, su categorización e indexación automática permiten crear herramientas muy variadas, desde la minería de datos hasta la creación de programas de lematización, corrección y revisión o flexionadores. Hecha un vistazo al concepto y a resultados en español de Signum o el Molino de Ideas. Algunas aplicaciones en línea son muy sencillas, fundamentalmente son visualizadores, pero otras han evolucionado hacia el análisis académico complejo, como TACT.

  • Words. Conjunto histórico de programas de análisis textual desarrollado por Howard P. Iker para la Univ. de Rochester. Permite identificar los temas principales de un texto. Reseña.
  • El más sencillo de los analizadores gratuitos de palabras. Envías el texto y genera una nube de palabras, cuya frecuencia determina el tamaño. Echa un vistazo al resultado en los discursos inaugurales de las presidencias de los EE.UU.
  • WordSmith Tools. Conocido conjunto de herramientas de análisis léxico para PC. Incluye un generador de concordancias, identificador de palabras clave de un texto y un generador de listas de palabras.
  • TACT (Textual Analisys Computing Tools). El conjunto de programas más conocido de análisis para MS-DOS. Desarrollado por la Univ. de Toronto, entre otras cosas, incluye un creador de base de datos textual en forma de corpus, un fraccionador del corpus, un sistema de búsqueda y consulta, así como herramientas estadísticas. por ejemplo, permite calcular el número de veces que aparece una palabra en un texto o su distribución. Tutorial. Tutorial.
  • ListWords. Herramienta web gratuita, de uso muy sencillo. Se usa para contar palabras de un documento web (html, xlm o rtf) o enviado por el usuario y para generar listas.
  • Voyant Tools. Es un conjunto de programas de explotación de textos de uso sencillo, claro y muy visual. Corpus Term Frequencies proporciona rápidamente la frecuencia de palabras y su distribución en un texto. Introducido un texto, ofrece el cómputo de la lista de palabras, y herramientas de visualización: nube de palabras, concordancias, word trends, etc. Voyal Links es una herramienta que construye mapas de palabras, a partir de sus relaciones de proximidad. Echa un vistazo a un resultado práctico bien desarrollado en EcoLexicon.
  • Visual Text. Entorno gratuito de desarrollo integrado de sistemas de extracción de información, procesamiento de lenguaje natural y analizadores de texto. La versión Tutoriales.
  • Docuburst. Herramienta de visualización web gratuita para explorar el contenido de un texto. A partir de un texto propio o de los proporcionados por otros, DocuBurst presenta un gráfico interactivo de 'rayos de sol radial' que organiza los nombres extraídos del texto según su significado. Los colores muestran la frecuencia y los temas comunes. La visualización muestra los nombres propios (por ejemplo, nombres de personajes) en una nube de palabras. La visualización también proporciona una herramienta de comparación para contrastar el uso la palabra en dos documentos. 
  • Paper Machine. Extensión  de código abierto de Zotero que permite generar análisis y visualizaciones de corpora proporcionado por el usuario, sin necesidad de recursos computacionales extensas o conocimientos técnicos. Tutorial.
  • Text Grid. Conjunto de recursos para investigación en Humanidades financiado por el gobierno alemán. Ofrece un repositorio y un el entorno virtual de investigación. Entre otras funciones, permite localizar textos (casi todo en alemán e inglés) y aplicar varias herramientas de análisis, como Voyant.
  • Discursis. Herramienta de análisis del discurso humano. Analiza el comportamiento de los usuarios y su interacción con otros, localizando tendencias, liderazgo, conformismo o cambios de comprtamiento. Cuesta 290$, pero ofrece una licencia académica.
  • TextArc. Representación visual en java de un texto entero en una sola página. Combina un índice, las concordancias y el resumen.
  • Otras 55 herramientas de análisis textual.
  • DIRT (Digital Research Tools). Wiki de recursos digitales.

Plagiarismo. Existen varios programas de análisis de textos cuyo fin es detectar el plagio. El más potente y usado por las universidades de todo el mundo es Turnitin. Se trata de un programa en línea de pago, con una gran base de datos de trabajos previos. Realiza un minucioso informe que expresa en procentajes el nivel de plagio y ofrece el enlace a los textos fuente desde donde se copión. CheckText es un comparador en línea y gratuito de textos. Localiza textos que ya existen en la web o en una base de datos y emite un informe estadístico, una nota de legibilidad y las posibles fuentes de plagio.

 

Editar y etiquetar. Los textos siguen editándose de manera tradicional, habitualmente en un tratamiento de textos. El trabajo con herramientas digitales permite avanzar en varias áreas e incluso combinar en formatos multimedia o variorum de varias ediciones. Muchas de estas ediciones son resultado de un desarrollo particular, pero comienza a haber herramientas en línea para trabajar al menos en una parte del proceso.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

subir

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

RSyntaxTree

 

 

 

 

 

 

 

 

 

subir

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

subir

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

subir