Monografico_3_ES_Doxa_29

3.2. Procesos productivos

El ingeniero en IA de la compañía, Javier García, explica que “el programa funciona como una mente humana: capta da-tos, los analiza junto a otros ejemplos y fabrica la noticia”. Sin embargo, en la práctica, el método de trabajo para generar el contenido a través de Gabriele es más complejo.

En la observación participante llevada a cabo en el marco de esta investigación se ha analizado cómo se produce una noticia sobre el desempleo en España. El proceso se ha dividido en tres fases:

La primera se denomina “definición del diseño de la noticia” y ha consistido en la ingesta continuada de datos al progra-ma. En esta etapa se han introducido diferentes crónicas, reportajes y noticias, entre otros géneros periodísticos, sobre el paro en el país. Estas publicaciones han servido de plantilla para que el sistema detecte de manera automática patrones, ítems, palabras claves a tratar, el contexto y la estructura lingüística. Por eso, estos textos se han caracterizado por poseer una composición sencilla, carecer de interpretación y contar con una composición lingüística clara. “El objetivo es que se cree una especie de biblioteca o de liberaría de narrativas que sirvan como modelo o guía para posteriores textos”, explica Llorente. Por su parte, Alberto Moratilla, lead architect de la compañía, deja claro que cuantos más ejemplos se aporten, mejor será la calidad de la noticia creada por el software. En temas deportivos, por ejemplo, se suelen introducir unas 10.000 informaciones, aunque en temas de finanzas la cifra aumenta hasta las 50.000 piezas aproximadamente. En la actualidad, el programa cuenta con alrededor de 10 millones de textos periodísticos recopilados, equivalente a unos 40 gigabyte. Estos ejemplos son seleccionados previamente por un equipo de periodistas, cuyo número oscila, pero suelen ser dos. Ésta es la única etapa donde intervienen los profesionales de la información en el proceso de producción. Esta fase es la que mayor trabajo supone a priori, pero una vez en marcha, el propio sistema va aprendiendo y mejorando.

La segunda fase es la de “aprendizaje automático” (machine learning comprehension), y se ha basado en la descarga y pos-terior procesamiento de los datos introducidos en la fase anterior. El sistema ha tomado la información relevante selec-cionada de la base de conocimientos y la ha combinado con el formato de plantillas de la biblioteca, extrayendo los datos más relevantes. En este proceso, además, han entrado en juego dos algoritmos: de variabilidad y de similitud. El primero ha creado posibles estructuras iniciales a partir de distintas combinaciones y ha detectado los patrones de contenido más relevantes. En el caso de la noticia sobre el paro han sido los siguientes: la tasa de paro de larga duración, el número de parados registrados en las oficinas de los Servicios Públicos de Empleo, el número de personas en relación con el mes anterior, la creación de empleo registrada por comunidades autónomas, y el número de afiliados a la Seguridad Social, entre otras. Por su parte, el segundo algoritmo se ha limitado a detectar las similitudes entre los textos e indicar qué pie-zas son parecidas. En el caso de que se hayan creado dos noticias muy similares, el programa las vuelve a redactar, con el objetivo de que cada cliente (medio de comunicación) tenga una información diferente. En esta etapa, Gabriele también puede personalizar el idioma y el tono, según el estilo editorial de cada medio, garantizando su uniformidad con el resto de los contenidos. “Actualmente, los textos generados de manera automática por nuestro software incluyen el inglés y el español, y a nivel mundial somos la única compañía que incluye el árabe”, apostilla García.

Una vez que se han establecido estos patrones comienza la tercera fase, denominada “maching”, donde se trabaja con archivos CSV, que son un tipo de documento de texto que almacena los datos en forma de columnas y tablas. Este archivo