Postagens de Rogue Scholar

language
Publicados in Martin Paul Eve

LocalStack is a great cloud emulation layer. It lets you simulate interaction with AWS, which is great for writing integration tests. However, I wanted a system that, when run locally, would spin up the LocalStack server and then destroy it when done. But when running the test on GitLab CI, it will use the “service” provision of their continuous integration system and connect to that.

Publicados in Lucidarios

Volviendo de la pausa de dos semanas, quiero hablar ahora de un tema que llamó mi atención cuando comencé a trabajar con los testimonios A, B y C del Lucidario : la existencia de dos anónimos profanadores –modernos– que anotaron los manuscritos a su gusto, sin importarles su antigüedad ni su valor.

Publicados in The Ideophone
Autor Mark Dingemanse

It’s easy to forget amidst a rising tide of synthetic text, but language is not actually about strings of words, and language scientists would do well not to chain themselves to models that presume so. For apt and timely commentary we turn to Bronislaw Malinowski who wrote: In follow-up work, Malinowski has critiqued the unexamined use of decontextualised strings of words as a proxy for Meaning: Malinowski did not write this on his substack,

Publicados in Martin Paul Eve

In my new role at Crossref I work on a series of data pipelines for research and development projects. These are resource-intensive data processing tasks that need to be executed periodically on a schedule, with good observability, but also with parallel processing capacity. Amazon’s Managed Workflows for Apache Airflow (MWAA) seems like an ideal solution for this.

Publicados in Lucidarios

Retomo el hilo de Transkribus para discutir algunas cuestiones que surgen tras la transcripción. En la última entrada teníamos un modelo entrenado (y re-entrenado) y listo para ser utilizado en la transcripción automatizada del testimonio D del Lucidario . No hay más que hacer que decirle a Transkribus: ahora transcríbelo todo.

Publicados in Lucidarios

En la entrada anterior comencé a hablar de los errores por sustitución, cuya revisión terminaré en esta. El sexto tipo es la sustitución de palabras o frases, cuando el escriba establece mal el corte sintáctico de lo que aparece en su modelo.

Publicados in Martin Paul Eve

I am currently conducting a research project at Crossref that requires me to build a database using large backend files (e.g. building a relational database from a 3GB XML file). We need to rebuild this monthly, so Apache Airflow seemed a good tool to run these periodic tasks. There are, however, lots of “gotchas” in this framework that can trip up a newcomer and I thought it might be helpful to document some of these.

Publicados in The Ideophone
Autor Mark Dingemanse

We don’t generally see PhD dissertations as an exciting genre to read, and that is wholly our loss. As the publishing landscape of academia is fast being homogenised, the thesis is one of the last places where we have a chance to see the unalloyed brilliance of up and coming researchers. Let me show you using three examples of remarkable theses I have come across in the past years.

Publicados in Lucidarios

En la entrada anterior hablé sobre los errores por alteración del orden. En esta entrada me dedicaré a los errores por sustitución. A diferencia de los errores por adición, omisión y alteración del orden, los errores de sustitución afectan palabras enteras.

Publicados in Lucidarios

En la entrada anterior expliqué los contenidos de la ventana de resumen del entrenamiento y la importancia de los valores de los CER de entrenamiento y de validación. En la primera versión del modelo, Lucid D 0.1, utilicé 3374 líneas de texto (o 50 páginas), logrando un CER de entrenamiento de 1.15% y un CER de validación de 2.97%. Este es el paso final del entrenamiento en Transkribus.