Rogue Scholar

Published January 31, 2024 in Lucidarios

Terminé la última entrada describiendo el inusual comportamiento al entrenar dos modelos de transcripción en PyLaia, 7P y Lucidario B : Cuando las tasas de error en los sets de entrenamiento y de validación de un modelo HTR son demasiado altas, el modelo puede volverse a entrenar —que no es lo mismo que re-entrenarlo , algo que desaconsejo— para lograr nuevas iteraciones (versiones) que corrijan el problema.

EntradasEscrituraHumanidades DigitalesModelo De TranscripciónReconocimiento De TextoLanguages and LiteratureSpanish

Usando Transkribus con manuscritos medievales (9): problemas en el paraíso digital

https://doi.org/10.59350/kv5sy-86p30

Published January 17, 2024 in Lucidarios

Author Cossío Olavide, Mario

Ha pasado casi un año desde mi última entrada sobre Transkribus y varias cosas han cambiado. Poco después de la última entrada, en marzo de 2023, la mejor y más eficiente máquina de HTR de Transkribus, CITLab+ (de la que hablo en estas entradas), fue retirada por una disputa de propiedad intelectual sobre el código de la máquina.

EntradasEscrituraHumanidades DigitalesLucidario CModelo De TranscripciónLanguages and LiteratureSpanish

Usando Transkribus con manuscritos medievales (8): ¿Y ahora qué? —o, ¿qué hacer después de la transcripción?

https://doi.org/10.59350/v70t2-sfb39

Published February 22, 2023 in Lucidarios

Author Cossío Olavide, Mario

Retomo el hilo de Transkribus para discutir algunas cuestiones que surgen tras la transcripción. En la última entrada teníamos un modelo entrenado (y re-entrenado) y listo para ser utilizado en la transcripción automatizada del testimonio D del Lucidario . No hay más que hacer que decirle a Transkribus: ahora transcríbelo todo.

EntradasCopiaCopistaErrorEscrituraLanguages and LiteratureSpanish

Tipología del error (5): errores por sustitución (parte 2)

https://doi.org/10.59350/1fm1c-9aj28

Published February 15, 2023 in Lucidarios

Author Cossío Olavide, Mario

En la entrada anterior comencé a hablar de los errores por sustitución, cuya revisión terminaré en esta. El sexto tipo es la sustitución de palabras o frases, cuando el escriba establece mal el corte sintáctico de lo que aparece en su modelo.

EntradasCopiaCopistaErrorEscrituraLanguages and LiteratureSpanish

Tipología del error (4): errores por sustitución (parte 1)

https://doi.org/10.59350/c0q17-rt137

Published February 8, 2023 in Lucidarios

Author Cossío Olavide, Mario

En la entrada anterior hablé sobre los errores por alteración del orden. En esta entrada me dedicaré a los errores por sustitución. A diferencia de los errores por adición, omisión y alteración del orden, los errores de sustitución afectan palabras enteras.

EntradasEscrituraHumanidades DigitalesLucidario DModelo De TranscripciónLanguages and LiteratureSpanish

Usando Transkribus con manuscritos medievales (7): entrenando un modelo CITLab HTR+ (parte 4)

https://doi.org/10.59350/mjf0h-11b81

Published February 1, 2023 in Lucidarios

Author Cossío Olavide, Mario

En la entrada anterior expliqué los contenidos de la ventana de resumen del entrenamiento y la importancia de los valores de los CER de entrenamiento y de validación. En la primera versión del modelo, Lucid D 0.1, utilicé 3374 líneas de texto (o 50 páginas), logrando un CER de entrenamiento de 1.15% y un CER de validación de 2.97%. Este es el paso final del entrenamiento en Transkribus.

EntradasEscrituraHumanidades DigitalesLucidario DModelo De TranscripciónLanguages and LiteratureSpanish

Usando Transkribus con manuscritos medievales (6): entrenando un modelo CITLab HTR+ (parte 3)

https://doi.org/10.59350/fs9hf-70s86

Published January 25, 2023 in Lucidarios

Author Cossío Olavide, Mario

Al final de la entrada anterior habíamos recibido un correo de confirmación sobre la finalización exitosa del entrenamiento de un modelo de transcripción de letra manuscrita. Como dije entonces, el correo contiene un corto resumen y los datos más relevantes del nuevo modelo: los porcentajes de error de caracteres o CER ( character error rate ) en el set de entrenamiento y en el set de validación.

EntradasEscrituraHumanidades DigitalesLucidario DModelo De TranscripciónLanguages and LiteratureSpanish

Usando Transkribus con manuscritos medievales (5): entrenando un modelo CITLab HTR+ (parte 2)

https://doi.org/10.59350/c23j6-ezy24

Published January 18, 2023 in Lucidarios

Author Cossío Olavide, Mario

En la entrada anterior escribí sobre cómo comenzar un entrenamiento de un modelo CITLab HTR+ en Transkribus. Continúo aquí con el proceso. Lo último que había hecho era seleccionar el set de entrenamiento ( training set ) y el set de validación ( validation set ). Como dije entonces, este último set permite a la máquina evaluar la precisión del aprendizaje en el modelo que está desarrollado.

EntradasEscrituraHumanidades DigitalesLucidario CLucidario DLanguages and LiteratureSpanish

Usando Transkribus con manuscritos medievales (4): entrenando un modelo CITLab HTR+ (parte 1)

https://doi.org/10.59350/xdsjy-e3r41

Published January 11, 2023 in Lucidarios

Author Cossío Olavide, Mario

Tras tres entradas de presentación sobre el trabajo con Transkribus –que en realidad son los sucesivos párrafos de introducción que me vi forzado a ampliar para darle un poco de sentido al trabajo que viene a continuación–, llego finalmente al punto más importante del trabajo con Transkribus: la creación y entrenamiento de un modelo de transcripción.

EntradasEscrituraHumanidades DigitalesLucidario DModelo De TranscripciónLanguages and LiteratureSpanish

Usando Transkribus con manuscritos medievales (3): la transcripción inicial

https://doi.org/10.59350/tz61a-dk820

Published January 4, 2023 in Lucidarios

Author Cossío Olavide, Mario

Finalmente llegamos al momento en el que toca hablar sobre cómo realizar una transcripción automatizada. En esta entrada comienzo a describir el trabajo para el desarrollo de un modelo de transcripción para el testimonio D del Lucidario , el códice de Puñonrostro.

Rogue Scholar Posts

Usando Transkribus con manuscritos medievales (10): perfeccionando modelos con PyLaia (parte 1)

Usando Transkribus con manuscritos medievales (9): problemas en el paraíso digital

Usando Transkribus con manuscritos medievales (8): ¿Y ahora qué? —o, ¿qué hacer después de la transcripción?

Tipología del error (5): errores por sustitución (parte 2)

Tipología del error (4): errores por sustitución (parte 1)

Usando Transkribus con manuscritos medievales (7): entrenando un modelo CITLab HTR+ (parte 4)

Usando Transkribus con manuscritos medievales (6): entrenando un modelo CITLab HTR+ (parte 3)

Usando Transkribus con manuscritos medievales (5): entrenando un modelo CITLab HTR+ (parte 2)

Usando Transkribus con manuscritos medievales (4): entrenando un modelo CITLab HTR+ (parte 1)

Usando Transkribus con manuscritos medievales (3): la transcripción inicial