Gecor diseña los algoritmos para la integración de la red social Twitter en el servicio público de limpieza de una Smart City

Programa del VI Congreso Ciudades Inteligentes

17 Nov de 2020

José Juan Nebro Mellado, Catedrático de Escuela Universitaria, Univeridad de Málaga.
Antonio de Toro Morón, Director General, Gecor System.
Antonio García González, Director de Tecnología, Gecor System.
José Antonio Campos González, Desarrollador de Sistemas, Gecor System.
Alberto Guzmán Madueño, Director de Operaciones, Gecor System.

Resumen: En este artículo se describe el proceso seguido para el diseño y desarrollo de los algoritmos necesarios para integrar la red social TWITTER en el servicio de limpieza de una Smart City. Los pasos desarrollados en el trabajo se inician con la definición de una adecuada taxonomía, que facilite la clasificación de la información, a continuación, se analiza el uso que hacen los ciudadanos de la red social para comunicarse con el servicio de limpieza, y por último se desarrollaron los trabajos necesarios para el diseño de los algoritmos que han sido la base de la herramienta GWEET. Esta herramienta ha conseguido integrar Twitter con éxito en el servicio de limpieza de una Smart City.

Palabras clave: Red social, Twitter, Algoritmos de Clasificación, Inteligencia, Trasparencia, Servicios Públicos, Smart City, Participación Ciudadana.

1. INTRODUCCIÓN

Los ciudadanos utilizan cada vez más las TICs para relacionarse con las administraciones públicas. Según el informe sobre la sociedad digital de 2018 de la fundación telefónica (telefónica, 2018), el uso de la red y tecnologías digitales para comunicarse con la administración crece continuamente, de hecho, en 2017 el 52% de la población ha contactado con las administraciones públicas a través de internet.

Con el aumento de las poblaciones urbanas, los servicios públicos se enfrentan a desafíos inherentes con el crecimiento poblacional (Alawadhi et al., 2012), en este sentido, las interacciones aumentan y entre estas, las interacciones de los ciudadanos con la administración usando redes sociales.

Ante este desafío, las administraciones deben adaptarse al uso de las redes sociales como una vía de comunicación más. El nivel de uso de la red social twitter en una administración actualmente presenta diversas fases: Informativa, Interactiva, e Integrada (Criado et all 2013).

Los trabajos realizados en este proyecto se encuadran en la integración de Twitter en los servicios públicos de limpieza, y se muestra un procedimiento de integración de la red social twitter en el caso particular del servicio de limpieza de una Smart City, mediante herramientas TICs y diferentes procedimientos organizativos.

Para conseguir este resultado se han tenido en cuenta las características de la red social TWITTER, como son: la inmediatez, datos públicos (abiertos), dinamismo, uso de abreviaturas, contenido muy resumido, con una gran cantidad de información implícita. (Farzindar e Inkpen 2015: 70). Con toda esta información se han diseñado algoritmos y procedimientos que han conseguido integrar de manera exitosa la red social Twitter a los servicios de limpieza de una Smart City.

En este sentido, se usan datos abiertos privados y públicos, se analiza la calidad de los datos y se utilizan algoritmos semánticos, tecnologías de reconocimiento de imágenes y análisis de metadatos de localización geográfica para clasificar y extraer información para mejorar la gobernanza.

2. METODOLOGÍA

En el trabajo actual se ha comenzado definiendo una taxonomía, junto con la empresa de limpieza, que nos ha servido de criterio para decidir lo que consideraremos incidencia. Posteriormente y en base a la taxonomía, se ha explorado si los usuarios de twitter comunican informaciones sobre incidencias de limpieza. Para ello se ha realizado un análisis del 100% de los tweets emitidos en la ciudad durante dos días. Se ha observado que aparecen pocas incidencias, pero con un impacto elevado. Conocida esta información, se ha procedido a realizar un estudio mas profundo, de 6 meses de trabajo, en el cual se han seguido los siguientes pasos:

Definición de la taxonomía decidida para la clasificación de las incidencias.
Construcción de un corpus de palabras utilizadas para descargar y clasificar las incidencias.
Descarga de los tweets en base al corpus.
Análisis de patrones detectados en las incidencias detectadas.
Definición del algoritmo de clasificación en base a los patrones encontrados.
Diseño de la herramienta GWEET para el uso del algoritmo por parte de la empresa de limpieza.

3. DESARROLLO DEL PROYECTO

3.1. Taxonomía para clasificación de la información en Twitter

La primera acción se ha realizado en este trabajo ha sido la definición una taxonomía para la clasificación sobre lo que se considera una incidencia ad hoc. Esta taxonomía se considera clave en la estrategia a seguir por el modelo, ya que esta focalizada en la detección de problemas que pueden ser resueltos “rápidamente” del orden de semanas. No necesitan planificación, ni largos procesos de gestión, que hagan que su resolución se alargue mucho en el tiempo, y no se adecuen bien a las características de la comunicación en redes sociales, como la inmediatez.

La taxonomía se ha decidido por un grupo de expertos formados por personal de la empresa de limpieza y personal de la plataforma de gestión de incidencias GECOR. Se ha definido la siguiente taxonomía:

i. Incidencia: información sobre un problema existente que el servicio de limpieza que los técnicos tienen capacidad de solucionar. La discusión sobre la capacidad de solucionar un problema quedo zanjado con la organización responsable del servicio público de limpieza. Se consideran incidencias aquellos servicios de limpieza correctiva cuya ejecución dependa del responsable de zona, es decir, puede ser reparado por su equipo directamente.

ii. Otra información: resto de informaciones relacionadas o no con los servicios de limpieza. Información que quedará clasificada como no incidencia.

Con este criterio se consigue separar aquella información sobre la que se puede tener una actuación operativa, fácil de asignar un responsable y rápida de resolver del resto. Con la automatizada clasificación de esta información, se consigue una gestión muy eficiente que deriva en una toma de decisiones más rápida y eficaz.

Esta taxonomía no implica que, en futuras investigaciones, no se defina otra información que también se pueda integrar con éxito.

3.2. Uso de Twitter por parte de la ciudadanía para comunicar incidencias

En el informe IRIA 2018, se expone que el 25% del uso de las redes sociales por parte de los ciudadanos en su interacción con las administraciones publicas son para informar sobre preocupaciones y quejas ciudadanas. Es decir, una parte de ese 25% puede clasificarse como incidencias y por tanto se realizó un estudio exploratorio para conocer si en la red social TWITTER, los ciudadanos de la Smart City objeto de estudio comunican las incidencias de limpieza. En caso de ser así, observar si se justifica su integración en el servicio de limpieza para informar de las incidencias.

La metodología seguida ha sido analizar todos los tweets localizados en la Smart City durante los días 10 y 11 de septiembre de 2017. Se descargaron un total de 50.000 tweets utilizando la herramienta Search API de Twitter, que fueron revisados y clasificados al 100%. En el análisis se trataba de clasificar las incidencias que se comunicaron desde twitter del resto de la información. Para ello se utilizó la taxonomía descrita anteriormente.

Durante esta revisión se detectaron 9 incidencias. Las incidencias fueron informadas por:

2 ciudadanos (2 incidencias).
2 partidos políticos (2 incidencias).
Un periódico (1 incidencia).
Dos cuentas dedicadas a informaciones sobre barrios (4 incidencias).

El impacto de las incidencias fue de 33.000 visualizaciones potenciales, calculadas en base a los retweets realizados, y seguidores de las cuentas que los comunican y re twittean.

La primera reflexión a partir de los datos es el escaso uso de la red social por parte de la ciudadanía para denunciar incidencias, solo 0,02% de los tweets comunicados.

Una segunda reflexión es el alto impacto potencial de cada incidencia debido a los seguidores y retweets que reciben, 3.300 impactos potenciales por incidencias.

Basándose en esta información se consideró interesante la integración de la red social en el servicio de limpieza, ya que genera poca carga extra de trabajo, al ser pocas incidencias, y sin embargo tienen un elevado impacto en la red social.

Por otra parte, se observa que para la integración de la red social es necesario el uso de herramientas tecnológicas y organizativas, que hagan eficaz y eficiente la detección de las incidencias. No es viable la detección manual de las incidencias, ya que deben ser detectadas entre miles de tweets.

3.3. Estudio de patrones en la información sobre incidencias en Twitter

Para encontrar elementos que faciliten el diseño de un algoritmo clasificación adecuado para integrar twitter en el servicio de limpieza, se ha procedido a estudiar el comportamiento de los ciudadanos a la hora de informar sobre una incidencia: tipos de ciudadanos, organizaciones ciudadanas, información proporcionada, etc.

Se ha realizado un estudio exploratorio sobre los patrones que comenzó el 1 de septiembre de 2017 y finalizó el 31 de marzo de 2018. En el estudio se han seguido la siguiente metodología:

Descarga de tweets: para la descarga de los tweets se utilizo la herramienta Search API de twitter y en la descarga se han seguido las siguientes pautas:

Se han descargado el 100% de los tweets dirigidos a la cuenta oficial del servicio. Una cuenta propia del servicio público de limpieza.

Se descargaron aquellos tweets que contenían al menos una de las palabras del corpus determinado para el trabajo. El corpus se ha confeccionado utilizando mas de 15.000 incidencias sobre limpieza obtenidas del sistema de gestión de incidencias GECOR de la Smart City en el año 2016, disponible en el repositorio de la ciudad. Como conclusión de este trabajo, se han detectado 25 palabras clave, que por su frecuencia de aparición forman parte del corpus que será utilizado para la descarga de los tweets.

Análisis de los tweets descargados. Con estos resultados se han detectado 104 incidencias de 25.000 tweets descargados. Analizadas las incidencias se observa que cuando un ciudadano informa sobre una incidencia, indica al menos una de los siguientes atributos:

Descripción del problema.
Una dirección postal.
Una o más fotos.

En el 65% de las ocasiones, aparecen dos, en el 30% aparecen tres y solo en un 5% aparece solo uno de los atributos.

Patrones a la hora de comunicar incidencias. Con la información analizada se puede constatar que el 95% de los usuarios a la hora de informar sobre una incidencia incluye al menos dos de estas informaciones, lo que ha servido de base para la configuración de los algoritmos de clasificación.

Otro elemento importante ha sido la detección de 5 cuentas de Twitter muy activas con mas de 5 incidencias en el periodo de estudio, y dedicadas a informar sobre el estado de la ciudad, por lo que se estimo oportuno descargar todos sus tweets para el estudio, aunque no cumplan la condición anterior.

3.4. Propuesta del algoritmo para la detección y clasificación de las incidencias

Sobre la base de las informaciones anteriores se ha diseñado un algoritmo secuencial que ha servido de base para la herramienta informática: descarga los tweets potencialmente considerados como incidencias y una vez descargados, los clasifica, los envía la información a los responsables de su resolución, y una vez resueltos vuelven a ser enviadas por twitter al mismo hilo de conversación donde fueron detectados.

Se han diseñado distintos tipos de algoritmos, algoritmos semánticos basados en la frecuencia de aparición en el texto de las palabras incluidas en el corpus, algoritmos de geolocalización que determinan si aparece alguna dirección en el texto, y por último un algoritmo de reconocimiento de imágenes (basado en la herramienta Vision de Google), que detecta si aparecen elementos relacionados con la limpieza en la vía pública.

Cada uno de estos algoritmos aplicados de forma secuencial, determina la potencialidad de que un tweet sea una incidencia. En base a esta potencialidad se determina si el tweet comunica una incidencia o no.

Con esta configuración se han conseguido resultados muy esperanzadores, el algoritmo diseñado, desde el 1 de enero hasta el 1 de octubre de 2019, acierta en un 80% de los tweets que son clasificados como incidencias. Estos han sido resueltos y enviados a través de la cuenta oficial de Twitter del servicio publico.

De los 10.000 tweets descargados solo se han enviado 200 durante este periodo, de los cuales 50 han sido incidencias. Por lo que podemos concluir el éxito de esta primera fase ya que la cantidad de información enviada al sistema es muy pequeña y manejable.

En cuanto a las incidencias que han quedado fuera de las descargas, se han realizado dos descargas completas en diciembre de 2018, los días 10 y 11, descargando 80.000 tweets que han sido analizados al 100% y de los cuales se han detectado 12 incidencias, 11 de las cuales han sido descargadas por los algoritmos de la herramienta. Con esto damos por validada la descarga, aunque si se detectan cambios en los hábitos de comunicación social, se deberán incorporar al corpus nuevas palabras.

El diseño definitivo de la herramienta ha sido un modelo secuencial:

1. Descarga basada en:

Uso del corpus.
Las cuentas activas sobre la gestión municipal, de las que se descargan todos sus tweets.
Todos los tweets con fotografías.
Localización configurada en la Smart City. Este proceso termina con la colección de tweets potenciales, que suponen en la Smart City objeto de estudio de cerca del 10% de los tweets enviados por los ciudadanos.

2. Aplicación de los algoritmos sobre comportamiento para clasificación de las incidencias:

a. Sobre esta descarga se aplican algoritmos semánticos donde se analiza la aparición de las palabras claves a aquellos tweets de las cuentas no filtradas. (las mas activas)
b. Filtros de geolocalización para poder circunscribir las incidencias de limpieza de la ciudad objeto de estudio. Se determina si aparece una dirección.
c. Análisis de imágenes, para lo que se ha utilizado un algoritmo de google de reconocimiento de imágenes.
Con esta secuencia de filtros se determina si es incidencia o no, para ello se han diseñado un sistema de ponderaciones que exige al menos el cumplimiento de dos de las condiciones.

3. Los resultados han sido de un 80% de eficiencia y un 90 % de eficacia, es decir 20 de cada 100 tweets son falsos positivos, y de las incidencias totales descargadas solo se pierden 10 de cada 100.
Los resultados son ampliamente esperanzadores ya que se detectan incidencias de forma operativa, es decir que no introduce una información en el sistema que no sean capaz de gestionarse, y sobre todo a nivel de impacto, la detección de las incidencias de alto impacto alcanza el 99%.

4. DISCUSIÓN

En este documento se ha plateado la necesidad de integrar las redes sociales en los servicios públicos. Para ello se ha seleccionado el servicio público de limpieza de una Smart City, y a continuación se han presentado los resultados exploratorios sobre el uso de Twitter para comunicar las incidencias sobre limpieza. A partir de esta información, se ha diseñado un sistema de clasificación de incidencias que pudiese integrarse de forma efectiva y eficiente al servicio publico de limpieza, con resultados positivos y muy esperanzadores. Solo se ha estudiado la red social TWITTER, así como solo se han determinado incidencias relacionadas con la limpieza en la vía pública, pero la metodología es extrapolable a otras áreas y podría componer una parte muy importante de un cuadro de mandos integral para la gobernanza de una Smart City.

Se están analizando sistemas basados en “Machine Learning” que mejore el corpus de descarga y poder con ello conseguir una adaptación constante a los hábitos de comunicación ciudadana.

Entre los resultados no previstos, y que serán fruto de nuevas investigaciones, es la constatación durante el estudio una disminución de las criticas y retweets sobre las incidencias. La respuesta aséptica (sin contenido emocional) sobre la resolución de la incidencia con una fotografía en el mismo hilo de conversación, parece tener un efecto en la disminución de la diseminación de información negativa sobre el servicio. No exponer información con sentimientos, parece que evita respuestas emocionales que provoquen una diseminación no deseada, y el envío de la fotografía con la resolución, parece tener un efecto informativo y de transparencia muy elevado, que favorece que no se disemine información negativa.

5. CONCLUSIONES

Como conclusiones de este informe se pueden exponer:

El uso por parte de la ciudadanía en cuanto al numero de tweets que se envían y los relacionados con la limpieza es muy escaso, menos del 0,04% sobre los enviados.
El impacto potencial de los tweets enviados es muy amplio, superior a 2.000 visualizaciones por tweet en el que se comunica una incidencia.
Que existen cuentas con una gran actividad en la información de incidencias, y con un gran número de seguidores, lo cual aumenta el impacto.
Es posible definir algoritmos de clasificación suficientemente eficaces y eficientes para integrar la red social Twitter con un bajo esfuerzo, al ser pocos los tweets potenciales incidencias y con un elevado impacto.
El uso de las TICs para este proceso es necesario para la integración de la red social en la gestión de los servicios públicos.

6. AGRADECIMIENTOS

Nos gustaría agradecer especialmente al Ayuntamiento de Málaga, la Universidad de Málaga y la empresa LIMASA su colaboración de inestimable valor en la realización y ejecución de este proyecto.

7. REFERENCIAS

Alawadhi, S., Aldama-Nalda, A., Chourabi, H., Gil-García, J. R., Leung, S., Mellouli, S. & Walker, S., (2012), Building understanding of smart city initiatives, In 11th International Conference on Electronic Government, págs. 40-53.
Cortés-Cediel, M & Gil, O, (2018), Engagement en ciudades inteligentes. Diseño de un marco de análisis teórico y aplicado para la participación ciudadana, GAPP. Nueva Época, N.o 19, mayo 2018 – ISSN: 1989-8991 – DOI: 10.24965/gapp.v0i19.10505 – [Págs. 50-69]
Criado, J. Ignacio & Rojas-Martín, Francisco (2013). Las redes sociales digitales en la gestión y las políticas publicas. Barcelona, Escola d’Administració Publica de Catalunya.
EUROPEAN PARLIAMENT (2014). Mapping Smart Cities in the EU.
Farzindar, Atefeh & Inkpen, Diana, (2015), Natural Language Processing for Social Media, Morgan & Claypool Publishers.
Fundación telefónica, (2018), Sociedad Digital en España 2018.
SGAD Ministerio de política territorial y función pública, (2018), Las Tecnologías de la Información y las Comunicaciones en la Administración Local, Informe IRIA.

+ Artículos relacionados

Conoce las ventajas de ser asociado

Smart City Cluster potencia la colaboración entre sus socios, favoreciendo la investigación, el desarrollo y la innovación en las diferentes soluciones y tecnologías orientadas al desarrollo de las ciudades inteligentes.

Ventajas