Más de 333 millones de formas ortográficas en Nuevo Corpus del Español

Madrid, 15 feb (Prensa Latina) Más de 333 millones de formas ortográficas contenidas en textos escritos y transcripciones conforman la nueva actualización del Corpus del Español del Siglo XXI, presentado hoy por la Real Academia Española.


La última versión de esa herramienta lingüística comprende más de 316 mil documentos y resulta un incremento de 21 millones de formas respecto a la versión anterior, difundida en mayo de 2020.


El informe incluye también más de cuatro millones y medio de grafías, obtenidas a partir de transcripciones de textos orales de programas de radio y televisión, entrevistas en medios de comunicación o videos de YouTube.


El bloque de ficción, referido a novelas, guiones de cine, relatos y obras de teatro, comprende 93 millones de términos y los contenidos en textos de libros de no ficción y publicaciones periódicas de ciencias sociales, salud, política, artes y tecnología alcanza los 238 millones.


De acuerdo con el Corpus, los textos procedentes de volúmenes acopian 166 millones de formas y a blogs, entrevistas digitales y redes sociales corresponden seis millones.


El libro constituye un conjunto extenso y ordenado de documentos empleados tradicionalmente con el propósito de conocer el contexto y las propiedades de las palabras, expresiones y construcciones, desde los usos reales registrados.


Su formato es electrónico, dada la cantidad de información compilada, y contribuyen a la caracterización global de una lengua en un momento determinado de su historia.

Más noticias: