Rogue Scholar

Veröffentlicht 13. Februar 2023 in Martin Paul Eve

I am currently conducting a research project at Crossref that requires me to build a database using large backend files (e.g. building a relational database from a 3GB XML file). We need to rebuild this monthly, so Apache Airflow seemed a good tool to run these periodic tasks. There are, however, lots of “gotchas” in this framework that can trip up a newcomer and I thought it might be helpful to document some of these.

AcademiaMost ReadWritingMostreadSprachwissenschaften und LiteraturwissenschaftenEnglisch

Mindblowing dissertations

https://doi.org/10.59350/1xe81-vdk14

Veröffentlicht 10. Februar 2023 in The Ideophone

Autor Mark Dingemanse

We don’t generally see PhD dissertations as an exciting genre to read, and that is wholly our loss. As the publishing landscape of academia is fast being homogenised, the thesis is one of the last places where we have a chance to see the unalloyed brilliance of up and coming researchers. Let me show you using three examples of remarkable theses I have come across in the past years.

EntradasCopiaCopistaErrorEscrituraSprachwissenschaften und LiteraturwissenschaftenSpanisch

Tipología del error (4): errores por sustitución (parte 1)

https://doi.org/10.59350/c0q17-rt137

Veröffentlicht 8. Februar 2023 in Lucidarios

Autor Cossío Olavide, Mario

En la entrada anterior hablé sobre los errores por alteración del orden. En esta entrada me dedicaré a los errores por sustitución. A diferencia de los errores por adición, omisión y alteración del orden, los errores de sustitución afectan palabras enteras.

EntradasEscrituraHumanidades DigitalesLucidario DModelo De TranscripciónSprachwissenschaften und LiteraturwissenschaftenSpanisch

Usando Transkribus con manuscritos medievales (7): entrenando un modelo CITLab HTR+ (parte 4)

https://doi.org/10.59350/mjf0h-11b81

Veröffentlicht 1. Februar 2023 in Lucidarios

Autor Cossío Olavide, Mario

En la entrada anterior expliqué los contenidos de la ventana de resumen del entrenamiento y la importancia de los valores de los CER de entrenamiento y de validación. En la primera versión del modelo, Lucid D 0.1, utilicé 3374 líneas de texto (o 50 páginas), logrando un CER de entrenamiento de 1.15% y un CER de validación de 2.97%. Este es el paso final del entrenamiento en Transkribus.

EntradasEscrituraHumanidades DigitalesLucidario DModelo De TranscripciónSprachwissenschaften und LiteraturwissenschaftenSpanisch

Usando Transkribus con manuscritos medievales (6): entrenando un modelo CITLab HTR+ (parte 3)

https://doi.org/10.59350/fs9hf-70s86

Veröffentlicht 25. Januar 2023 in Lucidarios

Autor Cossío Olavide, Mario

Al final de la entrada anterior habíamos recibido un correo de confirmación sobre la finalización exitosa del entrenamiento de un modelo de transcripción de letra manuscrita. Como dije entonces, el correo contiene un corto resumen y los datos más relevantes del nuevo modelo: los porcentajes de error de caracteres o CER ( character error rate ) en el set de entrenamiento y en el set de validación.

EntradasEscrituraHumanidades DigitalesLucidario DModelo De TranscripciónSprachwissenschaften und LiteraturwissenschaftenSpanisch

Usando Transkribus con manuscritos medievales (5): entrenando un modelo CITLab HTR+ (parte 2)

https://doi.org/10.59350/c23j6-ezy24

Veröffentlicht 18. Januar 2023 in Lucidarios

Autor Cossío Olavide, Mario

En la entrada anterior escribí sobre cómo comenzar un entrenamiento de un modelo CITLab HTR+ en Transkribus. Continúo aquí con el proceso. Lo último que había hecho era seleccionar el set de entrenamiento ( training set ) y el set de validación ( validation set ). Como dije entonces, este último set permite a la máquina evaluar la precisión del aprendizaje en el modelo que está desarrollado.

EntradasEscrituraHumanidades DigitalesLucidario CLucidario DSprachwissenschaften und LiteraturwissenschaftenSpanisch

Usando Transkribus con manuscritos medievales (4): entrenando un modelo CITLab HTR+ (parte 1)

https://doi.org/10.59350/xdsjy-e3r41

Veröffentlicht 11. Januar 2023 in Lucidarios

Autor Cossío Olavide, Mario

Tras tres entradas de presentación sobre el trabajo con Transkribus –que en realidad son los sucesivos párrafos de introducción que me vi forzado a ampliar para darle un poco de sentido al trabajo que viene a continuación–, llego finalmente al punto más importante del trabajo con Transkribus: la creación y entrenamiento de un modelo de transcripción.

EntradasEscrituraHumanidades DigitalesLucidario DModelo De TranscripciónSprachwissenschaften und LiteraturwissenschaftenSpanisch

Usando Transkribus con manuscritos medievales (3): la transcripción inicial

https://doi.org/10.59350/tz61a-dk820

Veröffentlicht 4. Januar 2023 in Lucidarios

Autor Cossío Olavide, Mario

Finalmente llegamos al momento en el que toca hablar sobre cómo realizar una transcripción automatizada. En esta entrada comienzo a describir el trabajo para el desarrollo de un modelo de transcripción para el testimonio D del Lucidario , el códice de Puñonrostro.

EntradasAlteración Del OrdenCopiaCopistaErrorSprachwissenschaften und LiteraturwissenschaftenSpanisch

Tipología del error (3): errores por alteración de orden

https://doi.org/10.59350/gwj0s-28x73

Veröffentlicht 28. Dezember 2022 in Lucidarios

Autor Cossío Olavide, Mario

En la entrada anterior escribí sobre los errores por adición y omisión. En esta me dedicaré a aquellos que tienen que ver con el reordenamiento del contenido en un manuscrito. Como con los tipos anteriores, los errores por alteración del orden ocurren a nivel de fonema, sílaba, palabra y frase.

Language PoliticsPhoneticsSexy Baby VoiceVariationSprachwissenschaften und LiteraturwissenschaftenEnglisch

That is not your voice

https://doi.org/10.59350/dbagq-ns858

Veröffentlicht 25. Dezember 2022 in Technology and language

Autor Angus Grieve-Smith

This is the fifth post in a series inspired by Lake Bell’s audiobook chapter “Sexy Baby Voice.” In previous posts I’ve covered the three key features she uses to define this vocal style – bright resonance (which Bell refers to as “high pitch”), creaky voice (“vocal fry”) and legato articulation (“slurring”), and discussed the various ways that we can manipulate our vocal tracts to create or amplify bright or dark resonances.

Rogue Scholar Beiträge

Getting to grips with Airflow on Amazon AWS

Mindblowing dissertations

Tipología del error (4): errores por sustitución (parte 1)

Usando Transkribus con manuscritos medievales (7): entrenando un modelo CITLab HTR+ (parte 4)

Usando Transkribus con manuscritos medievales (6): entrenando un modelo CITLab HTR+ (parte 3)

Usando Transkribus con manuscritos medievales (5): entrenando un modelo CITLab HTR+ (parte 2)

Usando Transkribus con manuscritos medievales (4): entrenando un modelo CITLab HTR+ (parte 1)

Usando Transkribus con manuscritos medievales (3): la transcripción inicial

Tipología del error (3): errores por alteración de orden

That is not your voice