Rogue Scholar

Pubblicato 15 marzo 2023 in Lucidarios

Volviendo de la pausa de dos semanas, quiero hablar ahora de un tema que llamó mi atención cuando comencé a trabajar con los testimonios A, B y C del Lucidario : la existencia de dos anónimos profanadores –modernos– que anotaron los manuscritos a su gusto, sin importarles su antigüedad ni su valor.

HighlightsLinguisticsNLPLingue e letteraturaInglese

Malinowski (1922) on Large Language Models

https://doi.org/10.59350/87ndy-8h096

Pubblicato 14 marzo 2023 in The Ideophone

Autore Mark Dingemanse

It’s easy to forget amidst a rising tide of synthetic text, but language is not actually about strings of words, and language scientists would do well not to chain themselves to models that presume so. For apt and timely commentary we turn to Bronislaw Malinowski who wrote: In follow-up work, Malinowski has critiqued the unexamined use of decontextualised strings of words as a proxy for Meaning: Malinowski did not write this on his substack,

Lingue e letteraturaInglese

A data pipeline with Apache Airflow and Dask

https://doi.org/10.59351/5jkka-69w74

Pubblicato 9 marzo 2023 in Martin Paul Eve

Autore Martin Paul Eve

In my new role at Crossref I work on a series of data pipelines for research and development projects. These are resource-intensive data processing tasks that need to be executed periodically on a schedule, with good observability, but also with parallel processing capacity. Amazon’s Managed Workflows for Apache Airflow (MWAA) seems like an ideal solution for this.

EntradasEscrituraHumanidades DigitalesLucidario CModelo De TranscripciónLingue e letteraturaSpagnolo

Usando Transkribus con manuscritos medievales (8): ¿Y ahora qué? —o, ¿qué hacer después de la transcripción?

https://doi.org/10.59350/v70t2-sfb39

Pubblicato 22 febbraio 2023 in Lucidarios

Autore Cossío Olavide, Mario

Retomo el hilo de Transkribus para discutir algunas cuestiones que surgen tras la transcripción. En la última entrada teníamos un modelo entrenado (y re-entrenado) y listo para ser utilizado en la transcripción automatizada del testimonio D del Lucidario . No hay más que hacer que decirle a Transkribus: ahora transcríbelo todo.

EntradasCopiaCopistaErrorEscrituraLingue e letteraturaSpagnolo

Tipología del error (5): errores por sustitución (parte 2)

https://doi.org/10.59350/1fm1c-9aj28

Pubblicato 15 febbraio 2023 in Lucidarios

Autore Cossío Olavide, Mario

En la entrada anterior comencé a hablar de los errores por sustitución, cuya revisión terminaré en esta. El sexto tipo es la sustitución de palabras o frases, cuando el escriba establece mal el corte sintáctico de lo que aparece en su modelo.

Lingue e letteraturaInglese

Getting to grips with Airflow on Amazon AWS

https://doi.org/10.59348/c41fh-cp382

Pubblicato 13 febbraio 2023 in Martin Paul Eve

Autore Martin Paul Eve

I am currently conducting a research project at Crossref that requires me to build a database using large backend files (e.g. building a relational database from a 3GB XML file). We need to rebuild this monthly, so Apache Airflow seemed a good tool to run these periodic tasks. There are, however, lots of “gotchas” in this framework that can trip up a newcomer and I thought it might be helpful to document some of these.

AcademiaMost ReadWritingMostreadLingue e letteraturaInglese

Mindblowing dissertations

https://doi.org/10.59350/1xe81-vdk14

Pubblicato 10 febbraio 2023 in The Ideophone

Autore Mark Dingemanse

We don’t generally see PhD dissertations as an exciting genre to read, and that is wholly our loss. As the publishing landscape of academia is fast being homogenised, the thesis is one of the last places where we have a chance to see the unalloyed brilliance of up and coming researchers. Let me show you using three examples of remarkable theses I have come across in the past years.

EntradasCopiaCopistaErrorEscrituraLingue e letteraturaSpagnolo

Tipología del error (4): errores por sustitución (parte 1)

https://doi.org/10.59350/c0q17-rt137

Pubblicato 8 febbraio 2023 in Lucidarios

Autore Cossío Olavide, Mario

En la entrada anterior hablé sobre los errores por alteración del orden. En esta entrada me dedicaré a los errores por sustitución. A diferencia de los errores por adición, omisión y alteración del orden, los errores de sustitución afectan palabras enteras.

EntradasEscrituraHumanidades DigitalesLucidario DModelo De TranscripciónLingue e letteraturaSpagnolo

Usando Transkribus con manuscritos medievales (7): entrenando un modelo CITLab HTR+ (parte 4)

https://doi.org/10.59350/mjf0h-11b81

Pubblicato 1 febbraio 2023 in Lucidarios

Autore Cossío Olavide, Mario

En la entrada anterior expliqué los contenidos de la ventana de resumen del entrenamiento y la importancia de los valores de los CER de entrenamiento y de validación. En la primera versión del modelo, Lucid D 0.1, utilicé 3374 líneas de texto (o 50 páginas), logrando un CER de entrenamiento de 1.15% y un CER de validación de 2.97%. Este es el paso final del entrenamiento en Transkribus.

EntradasEscrituraHumanidades DigitalesLucidario DModelo De TranscripciónLingue e letteraturaSpagnolo

Usando Transkribus con manuscritos medievales (6): entrenando un modelo CITLab HTR+ (parte 3)

https://doi.org/10.59350/fs9hf-70s86

Pubblicato 25 gennaio 2023 in Lucidarios

Autore Cossío Olavide, Mario

Al final de la entrada anterior habíamos recibido un correo de confirmación sobre la finalización exitosa del entrenamiento de un modelo de transcripción de letra manuscrita. Como dije entonces, el correo contiene un corto resumen y los datos más relevantes del nuevo modelo: los porcentajes de error de caracteres o CER ( character error rate ) en el set de entrenamiento y en el set de validación.

Messaggi di Rogue Scholar

Los anónimos profanadores del Lucidario (1)

Malinowski (1922) on Large Language Models

A data pipeline with Apache Airflow and Dask

Usando Transkribus con manuscritos medievales (8): ¿Y ahora qué? —o, ¿qué hacer después de la transcripción?

Tipología del error (5): errores por sustitución (parte 2)

Getting to grips with Airflow on Amazon AWS

Mindblowing dissertations

Tipología del error (4): errores por sustitución (parte 1)

Usando Transkribus con manuscritos medievales (7): entrenando un modelo CITLab HTR+ (parte 4)

Usando Transkribus con manuscritos medievales (6): entrenando un modelo CITLab HTR+ (parte 3)