Has rechazado las cookies. Puedes reconsiderar esta decisión
You have allowed cookies to be placed on your computer. This decision can be reversed.
El segundo taller/hackathón de desarrolladores, organizado el 10 y 11 de abril por el Succeed Project, ha reunido a expertos de diversas empresas europeas, entre ellas DIGIBÍS, para trabajar en nuevas ideas que mejoren el Reconocimiento Óptico de Caracteres (OCR) de los textos de libros digitalizados de fondo antiguo.
El evento tuvo lugar en el aula "Claude Shannon", del departamento de Lenguajes y Sistemas Informáticos (DLSI) de la Universidad de Alicante. Claude Shannon fue un famoso matemático e ingeniero, y también es conocido como el "padre de la teoría de la información".
Succeed es una acción de apoyo del grupo IMPACT financiada por la Unión Europea. Promueve la asimilación y la validación de los resultados de investigación en la digitalización masiva, centrándose en el contenido textual.
Durante las dos jornadas han colaborado programadores e investigadores de Alemania, Polonia, Holanda y diversos lugares de España, todos ellos dispuestos a trabajar en herramientas y soluciones abiertas. A efectos de hacer más eficaz el trabajo, previamente se identificaron algunas áreas en las que se pueden implementar tpdavía más las herramientas de código abierto para la digitalización de texto . En realidad, una de las primeras cosas que hicimos fue establecer un repositorio git local y las personas estaban presionando ejemplos de código , prototipos y proyectos interesantes para compartir con el grupo durante los dos días.
Jesús Domínguez Muriel, director de Proyectos Informáticos de DIGIBÍS (a la que presentan como la compañía que hizo la Api de consulta simultánea en la DPLA y Europeana) abrió una investigación sobre herramientas OCR de código abierto y frameworks. Hizo un análisis muy detallado de la situación y, finalmente, sugirió la conveniencia de la creación de una web tipo Wikipedia donde recopilar los algoritmos; sería no sólo muy útil para compartir los algoritmos sino también las implementaciones y evitar reinventar (o reimplementar ) lo ya avanzado.
El Centro IMPACT de Competencia en Digitalización es una organización sin fines de lucro. Su objetivo es conseguir que la digitalización de textos impresos de fondo antiguo sea "mejor, más rápida, más barata". Proporciona herramientas, servicios e instalaciones para hacer avanzar el estado de la técnica en el campo de la digitalización de documentos, de la tecnología del lenguaje y del procesamiento de texto de fondo antiguo.
Leer el artículo publicado en la Web de Impact Digitisation.eu.