242 | 31, pp. 241-249 | doxa.comunicación

julio-diciembre de 2020

The digital ecosystem: a corpus study of the Spanish language

ISSN: 1696-019X / e-ISSN: 2386-3978

Presentación

Según datos obtenidos de la edición 2020 del Anuario del Instituto Cervantes (Instituto Cervantes, 2020: 5), casi 489 millones de personas tienen el español como lengua ma-terna, lo que la convierte en la segunda lengua materna del mundo por número de hablantes, tras el chino mandarín. Si, además de estos hablantes nativos, tenemos en cuenta el cómputo global de hablantes (que incluye también los de competencia limitada y los estudiantes de español como lengua extranjera), entonces el español se sitúa como la tercera lengua en el mundo, solo después del inglés y del chino mandarín.

Estos hablantes de español están presentes en cualquier parte del mundo. De hecho, se calcula que, en 2060, un 27,5% de la población de Estados Unidos será de origen hispano, y este país será el segundo país hispanohablan-te, después de México. Es por ello por lo que, en la actuali-dad, a punto ya de alcanzar el primer cuarto del siglo XXI, el estudio de la lengua española cada vez va teniendo más en cuenta los medios digitales como espacios masivos de comunicación en español. En el ecosistema digital, en el que cada segundo se calcula que se realizan ya en torno a cinco millones de consultas (Lewis, 2020), estos hablantes de español se acercan cada día a distintas páginas web, a las aplicaciones de teléfonos móviles o a diferentes redes sociales para buscar información, para consumir produc-tos audiovisuales, para realizar sus compras, para exponer sus ideas o para comunicarse con otros usuarios. Estos mi-llones de mensajes orales y escritos quedan registrados en la web, de modo que el ecosistema digital constituye hoy el mayor corpus de estudio de los distintos usos lingüísticos, por mucho que algunas voces contrarias a este enfoque in-validen la red como corpus al no estar regido por la correc-ción normativa.

Presentation

According to data obtained from the 2020 edition of the Cervantes Institute Yearbook (Instituto Cervantes, 2020: 5), nearly 489 million people speak Spanish as their mother tongue, making it the second most spoken language in the world after Mandarin Chinese. In addition to native speakers, if we take into account the worldwide number of speakers, which includes those of limited competence and students of Spanish as a foreign language, then Spanish is the third language in the world just after English and Mandarin Chinese.

These Spanish speakers are present everywhere in the world. In fact, it is estimated that by 2060, 27.5% of the population of the United States will be of Hispanic origin, and the United States will be the second largest Spanish-speaking country after Mexico. For this reason, as we are on the verge of reaching the first quarter mark of the 21st century, the study of Spanish is increasingly taking into account the digital media as a space of mass communication in the Spanish language. In the digital ecosystem, in which it is estimated that around five million queries are made every second (Lewis, 2020), these Spanish speakers go to different websites, mobile phone applications, or different social networks every day in order to find information, use audio-visual products, make purchases, present their ideas, or to communicate with other users. This activity aggregates millions of oral and written messages that are logged on the web, and as a consequence, the digital ecosystem today is the largest study corpus of different language uses, even though some voices that speak out against this approach invalidate the web as a corpus, as it is not governed by normative accuracy.

On the other hand, the large multinational distribution companies (as opposed to the linguistics departments of universities) are the ones who are leading the development of language programmes for natural language processing (conversion of voice to written text and written text to voice;