Handskriven textigenkänning (HTR) för historiska dokument: Tillämpning av HTRflow, utforskning av nya möjligheter och hantering av kvarstående utmaningar
Delta i ett evenemang som ägnas åt att utforska möjligheterna och utmaningarna med handskriven textigenkänning (HTR) vid analys av komplexa historiska dokument.
Riksarkivet har omfattande digitala samlingar av handskrivna material, inklusive brev, register, officiella handlingar och mycket mer. Även om dessa material har digitaliserats är mycket av innehållet fortfarande endast tillgängligt som bilder.
Traditionell optisk teckenigenkänning (OCR), som är utformad för tryckt text, har begränsad kapacitet att bearbeta detta material. Tekniken för handskriven textigenkänning (HTR) kan dock tolka nyanserna och variationerna i mänsklig handskrift, vilket gör det möjligt att automatiskt konvertera handskriven text till maskinläsbar data. HTR kan därför öppna upp digitala samlingar av dokument för storskalig sökning, analys och andra möjligheter. Historiska dokument är dock sällan enhetliga. Många samlingar har komplexa layouter, inkonsekventa strukturer och svårlästa handstilar.
Detta evenemang, som leds av Riksarkivets datavetare, fokuserar på att hantera dessa komplexiteter och utvidga de praktiska tillämpningarna av HTR. Under workshopparna kommer deltagarna att arbeta med Google Colab notebooks som är uppbyggda kring Riksarkivets Python-paket, HTRflow, vilket gör det möjligt för dem att följa med under demonstrationerna och experimentera på egen hand.
Evenemanget kommer också att visa upp Riksarkivets pågående HTR-initiativ, med exempel som sträcker sig från enkel handskriven löptext till mer komplexa dokumentlayouter.
Evenemangsprogram:
21 april, förmiddag (9:30–12:00 CET)
– Presentation och diskussion: En introduktion till HTR inom historisk forskning, med fokus på metodologiska utmaningar och möjligheter.
21 april, eftermiddag (13:30–16:00 CET)
– Öppen experimentell workshop: Praktiskt arbete med HTR. Deltagarna uppmuntras att ta med eget digitalt material att arbeta med.
Evenemanget arrangeras med stöd från projektet Machine Learning for Difficult Digitizations (MaLDD): Old Maps and Beyond, som finansieras av LNU:s humanistiska fakultets Sara Lisa-initiativ. Detta är också ett Huminfra-evenemang. Huminfra är Sveriges nationella infrastruktur för digital och experimentell forskning inom humaniora, där både LnU och Riksarkivert är medlemmar. Slutligen arrangeras detta evenemang genom Centrum för digital humaniora vid LNU.
Evenemanget kommer att hållas på engelska.
-- Hur man registrerar sig --
Deltagande i evenemanget är kostnadsfritt, men deltagarna ombeds att anmäla sig. Anmäl dig här: https://forms.office.com/e/UhtJYMNbHR
För ytterligare information:
https://www.huminfra.se/
https://lnu.se/en/research/research-groups/digital-humanities/
https://riksarkivet.se/ https://huggingface.co/Riksarkivet