Messaggi di Rogue Scholar

language
Pubblicato in Lucidarios

Volviendo de la pausa de dos semanas, quiero hablar ahora de un tema que llamó mi atención cuando comencé a trabajar con los testimonios A, B y C del Lucidario : la existencia de dos anónimos profanadores –modernos– que anotaron los manuscritos a su gusto, sin importarles su antigüedad ni su valor.

Pubblicato in The Ideophone
Autore Mark Dingemanse

It’s easy to forget amidst a rising tide of synthetic text, but language is not actually about strings of words, and language scientists would do well not to chain themselves to models that presume so. For apt and timely commentary we turn to Bronislaw Malinowski who wrote: In follow-up work, Malinowski has critiqued the unexamined use of decontextualised strings of words as a proxy for Meaning: Malinowski did not write this on his substack,

Pubblicato in Martin Paul Eve

In my new role at Crossref I work on a series of data pipelines for research and development projects. These are resource-intensive data processing tasks that need to be executed periodically on a schedule, with good observability, but also with parallel processing capacity. Amazon’s Managed Workflows for Apache Airflow (MWAA) seems like an ideal solution for this.

Pubblicato in Lucidarios

Retomo el hilo de Transkribus para discutir algunas cuestiones que surgen tras la transcripción. En la última entrada teníamos un modelo entrenado (y re-entrenado) y listo para ser utilizado en la transcripción automatizada del testimonio D del Lucidario . No hay más que hacer que decirle a Transkribus: ahora transcríbelo todo.

Pubblicato in Martin Paul Eve

I am currently conducting a research project at Crossref that requires me to build a database using large backend files (e.g. building a relational database from a 3GB XML file). We need to rebuild this monthly, so Apache Airflow seemed a good tool to run these periodic tasks. There are, however, lots of “gotchas” in this framework that can trip up a newcomer and I thought it might be helpful to document some of these.

Pubblicato in The Ideophone
Autore Mark Dingemanse

We don’t generally see PhD dissertations as an exciting genre to read, and that is wholly our loss. As the publishing landscape of academia is fast being homogenised, the thesis is one of the last places where we have a chance to see the unalloyed brilliance of up and coming researchers. Let me show you using three examples of remarkable theses I have come across in the past years.

Pubblicato in Lucidarios

En la entrada anterior hablé sobre los errores por alteración del orden. En esta entrada me dedicaré a los errores por sustitución. A diferencia de los errores por adición, omisión y alteración del orden, los errores de sustitución afectan palabras enteras.

Pubblicato in Lucidarios

En la entrada anterior expliqué los contenidos de la ventana de resumen del entrenamiento y la importancia de los valores de los CER de entrenamiento y de validación. En la primera versión del modelo, Lucid D 0.1, utilicé 3374 líneas de texto (o 50 páginas), logrando un CER de entrenamiento de 1.15% y un CER de validación de 2.97%. Este es el paso final del entrenamiento en Transkribus.

Pubblicato in Lucidarios

Al final de la entrada anterior habíamos recibido un correo de confirmación sobre la finalización exitosa del entrenamiento de un modelo de transcripción de letra manuscrita. Como dije entonces, el correo contiene un corto resumen y los datos más relevantes del nuevo modelo: los porcentajes de error de caracteres o CER ( character error rate ) en el set de entrenamiento y en el set de validación.