Detección de filtraciones de privacidad: una visión del estado del arte

Detection of privacy leaks in social networks: a vision of the estate of art

Diana Marcela Romero Córdova [1]*

1 Universidad Católica de Cuenca
* dmromeroc@ucacue.edu.ec
DOI: https://doi.org/10.26871/killkana_tecnica.v2i1.289

Resumen:

Cuando se habla de redes sociales, se expresan todas las ventajas que estas brindan al usuario en cuanto a la comunicación e interacción con el mundo, además se reconoce que son una fuente de extracción y uso de datos con diversos fines, aunque algunos con objetivos ilícitos. Las redes sociales se han popularizado y las personas les dedican diariamente tiempo para revisar las principales notificaciones recibidas, así como comunicarse, publicar, realizar comentarios o colocar etiquetas. La necesidad de controlar la privacidad es fundamental, pero no son suficientes las configuraciones que se puedan realizar para evitarlo. El usuario coloca en sus publicaciones mensajes que contienen elementos propios del lenguaje natural, pero que resultan difíciles de interpretar por un software. Para realizar una búsqueda de elementos considerados privados que se encuentren en los textos publicados o que puedan inferirse por la revisión total de la información visible publicada en el perfil del usuario, es necesario procesar el texto para limpiarlo, normalizarlo y clasificarlo. La información privada puede ser fácilmente inferida, con solo asociar las diferentes publicaciones textuales que se compartieron por el usuario u otra persona. Resulta oportuno hacer uso de las técnicas de la minería de texto para evitar la publicación de información privada en el perfil que se comparte con el grupo de amigos de la red social.

Palabras clave: filtraciones, minería de texto, privacidad, redes sociales.

Abstract:

When talking about social networks, all the advantages they offer to the user in terms of communication and interaction with the world are expressed, and it is also recognized that they are a source of extraction and use of data for various purposes, although some with illicit purposes. Social networks have become popular and people dedicate daily time to review the main notifications received, as well as communicate, publish, comment or place labels. The need to control privacy is fundamental, but the configurations that can be made to avoid it are not enough. The user posts messages that contain elements of natural language, but that are difficult to interpret by software. To perform a search for items considered private that are found in the published texts or that can be inferred by the total revision of the visible information published in the user's profile, it is necessary to process the text to clean it, normalize it and classify it. Private information can easily be inferred, just by associating the different textual publications that were shared by the user or another person. It is opportune to make use of text mining techniques to avoid the publication of private information in the profile that is shared with the group of friends of the social network.

Key words: leaks, privacy, social networks, text mining.

Introducción

La evolución de la tecnología en los últimos años ha permitido que personas de diferentes edades, en distintas ubicaciones geográficas y utilizando un dispositivo conectado a internet pueda comunicarse con el mundo entero de una manera dinámica, permitiendo el intercambio de información y relacionando personas a través de las redes sociales. [1] [2]

Al estar conectados, los usuarios han podido identificar no solo las múltiples posibilidades y ventajas del uso de las redes sociales, también las innumerables formas en las que se expone su información personal, y los riesgos que conllevan. Actualmente se regulan los contenidos publicados en redes sociales o medios electrónicos [1] en varios países. El Ecuador incluye en su código orgánico integral penal COIP artículos que protegen los datos e información de los ciudadanos, incluyendo los que se publican en las redes sociales, en búsqueda de una mejor convivencia entre sus habitantes.

Las redes sociales se han convertido en el objetivo de muchos investigadores. En este documento el objetivo consiste en revisar el estado actual de las principales formas de control de la información textual que se publica en las redes sociales, que con el uso de diferentes técnicas permitan identificar elementos de privacidad. Se han convertido en una fuente de análisis los contenidos y comportamientos de los usuarios. [3]

En la sección II se define la privacidad desde diferentes puntos de vista y su importancia, siendo necesario el control de los diferentes tipos de datos que se publican. En la sección III se indican las recomendaciones a los usuarios de las redes sociales para evitar perder datos privados. En la sección IV se describen las técnias de protección de datos en las redes sociales. La sección V tiene el detalle de las principales técnicas de extracción de información de las redes sociales para su análisis, dónde la técnica de la minería de textos demuestra su importancia al momento de procesar los textos en lenguaje natural, a continuación en la sección VI se explica el proceso de clasificación automática de los textos realizada con minería de textos y se finaliza con la sección VII donde se presentan las conclusiones del documento.

La privacidad

Según la Real Academia de la lengua española se define la privacidad como "ámbito de la vida privada que se tiene derecho a proteger de cualquier intromisión".

Mark Zuckerberg dijo que “la privacidad es un bien del pasado y que, tecnológicamente hablando, el mundo actual es un lugar en el que no tiene cabida. Creo que son visiones profundamente erradas, pues la privacidad es un asunto fundamental para la libertad de las personas, y también estoy convencido de que se pueden construir herramientas tecnológicas con un mejor tratamiento para la privacidad de los usuarios” [4]

En [5] se define a la privacidad como el derecho de un individuo al secreto de su vida. Estudios realizados por [6] [7] [8] mencionan la importancia de proteger los datos de las personas y empresas. La información y los datos aportan gran valor a las empresas, tanto que son considerados parte de sus activos. [8]

Al hacer uso de las redes sociales un usuario coloca en ellas gran cantidad de datos, que pueden clasificarse en dos grupos:

La difusión de comentarios en los perfiles de las redes sociales de los usuarios son visibles para todos sus contactos [9]. Estos comentarios pueden ser leídos y asociados por una persona que pertenezca a la red y que esté interesada en descubrir información privada. Con un proceso mental de análisis de los textos publicados, podrá inferir información identificando elementos que ponen en riesgo la privacidad del usuario.[10]

Principales recomendaciones a los usuarios de redes sociales

Las principales recomendaciones que se han emitido a los usuarios de las redes sociales inician con la modificación voluntaria de las configuraciones de privacidad de su perfil. Sin embargo, no es suficiente. La privacidad se pierde el momento de la creación de la cuenta, porque datos como correo electrónico, número de teléfono celular, fecha de nacimiento, nombres y apellidos son obligatorios para su autentificación. La información del usuario pasa a formar parte de las grandes bases de datos del proveedor de la red social y no pueden ser eliminados. [11]

El derecho al olvido es una de las regulaciones que se están proponiendo en Europa, con el objetivo de poder eliminar definitivamente de los grandes servidores los datos que los usuarios han compartido. [8]

Algunos autores mencionan la necesidad de integrar en el currículo de formación de los jóvenes el fomento del buen uso de las redes sociales. [12] Concienciando así al uso responsable de las redes sociales y la información que en ellas se comparte. Los mensajes de odio que se encuentran en las redes sociales pueden influir principalmente en los jóvenes, quienes son más propensos a caer en provocaciones. El desarrollo de habilidades críticas es un requerimiento para el uso ético de estas redes. [13]

Las redes sociales son usadas en diferentes áreas profesionales, por ejemplo en la médica, con claras ventajas en la creación de perfiles, intercambio de artículos científicos y comunicación con los pacientes. Sin embargo, [14] menciona la importancia de mantener un perfil profesional modesto, con la creación de contenido responsable y honesto.

Otra recomendación importante tiene que ver con el crecimiento de la red. Los miembros que la integran deben formar parte del grupo de amigos, familiares o conocidos reales. La aceptación o la integración de nuevos miembros para pertenecer al grupo de amigos debe realizarse con precaución. Muchos de los perfiles son falsos y un gran porcentaje tienen como objetivo formar parte de una red social con intensiones de acoso, estafa o robo de identidad. [15]

Extración de información textual de las redes sociales

Las redes sociales generan diariamente 2,5 quintillones de bytes en datos [16] de tipo no estructurado [*]Los datos no estructurados, generalmente son datos binarios que no tienen estructura interna identificable. Es un conglomerado masivo y desorganizado de varios objetos que no tienen valor hasta que se identifican y almacenan de manera organizada.. Estas publicaciones se realizan en lenguaje natural [*]El lenguaje natural es el medio que se utiliza para la comunicación cotidiana con las demás personas por ejemplo el español o el inglés. fácilmente entendido por las personas pero difícil de interpretar por un software, razón por lo que el uso de técnicas especializadas para el análisis, procesamiento y organización de este tipo de datos es necesario.

La necesidad de identificar elementos que pueden revelar información considerada privada en un perfil de redes sociales antes de su publicación, dan paso al estudio de las principales técnicas para identificar los textos, procesarlos, categorizarlos e identificar relaciones entre ellos. La ciencia que permite el proceso mencionado es la minería de textos [17], que facilita la extracción de información a partir de textos publicados [16], descubriéndose conocimiento a través de la identificación de patrones ocultos en los mismos. [18]

La minería de textos (MT) puede ser confundida con la minería de datos (MD) [*]Es un campo de la estadística y ciencias de la computación que intenta desubrir patrones en grandes volúmenes de datos estructurados, pero a diferencia de la segunda, la MT extrae información clara y explícita de los textos publicados no estructurados [19] [17] [16].

En la MT se abordan problemas como la categorización (clasificación supervisada)[*]Son aquellos que a partir de un conjunto de datos de entrenamiento, se intenta asignar una clasificación a un segundo conjunto de datos. Se preocupa de asignar etiquetas que indican a qué categoría o categorías corresponde el documento y el agrupamiento (clasificación no supervisada)[*]Sin poseer un conjunto de datos de entrenamiento se parte de las propiedades de los ejemplos y se intenta agruparlos de acuerdo a su similaridad. Consiste en la división de los datos en grupos de objetos similares entre otros.

El procesamiento de lenguaje natural (PLN) es una rama de la Inteligencia Artificial cuyo objetivo es conseguir que un software comprenda el texto escrito por una persona, ayudando a la interacción entre el humano y la computadora. [20] [10]. Siri de IOS, Cortana de Microsoft, el traductor de google entre otros varios, son productos incorporan algoritmos de procesamiento de lenguaje natural. [20]

El análisis de sentimiento de los mensajes publicados en las redes sociales, se pueden procesar combinando las técnicas de minería de texto y procesamiento de lenguaje natural. [21] [22] Las opiniones que se expresen en las redes sociales aportan en la identificación de la reputación online, [23] [24] que es aprovechada por instituciones gubernamentales, empresariales, educativas, financieras, etc.

El reconocimiento de entidades nombradas [*]Nombres de personas, instituciones, lugares, productos es una de las técnicas de minería de textos que contribuye a mejorar la tarea en la minería de opinión. [25] El enfoque de aprendizaje supervisado permite la búsqueda de respuestas y realiza la categorización de textos de manera automática.

Proceso de clasificación automática de los textos

En esta sección se presentan aspectos importantes de la clasificación automática de los textos, que sirven para identificar y clasificar cada uno de los mensajes que se encuentran publicados en el perfil de la red social que pudo haber sido compartida por el usuario propietario o un amigo que pertenece a su red, realizando una búsqueda de filtraciones de elementos privados.

Pre procesamiento de los textos

Las operaciones de pre procesamiento de textos se centran en la identificación, extracción, refinamiento y adición de características a los textos publicados en las redes sociales. De tal forma que se descarten todos aquello elementos no representativos. [26]

Una primera etapa consiste en separar el texto en palabras, frases, símbolos u otra unidad sintáctica llamada token [25]. Estos tokens identificados serán la entrada para las etapas posteriores del análisis. En las redes sociales cada mensaje deberá ser dividido en tokens.

La conversión de mayúsculas a minúsculas elimina uno de los atributos que permite identificar a las entidades nombradas, la letra maýuscula [27] esta etapa se denomina normalización[*]Las palabras se agrupan según su familia léxica. Para continuar es necesaria la eliminación de preposiciones, artículos y conjunciones.

La eliminación del ruido es la tercera etapa, consiste en la eliminación de los espacios innecesarios y signos de puntuación de los textos. Luego se convertirá el texto en un documento de formato plano, es decir carecerá de estilo (negrita, subrayado, un único tipo de letra). Esta etapa es importante porque los mensajes escritos por los usuarios por lo general poseen urls, emoticones, hashtags, etc., propios del lenguaje natural. El objetivo es precisamente eliminar estos elementos que distorcionan el texto y facilitar su procesamiento. [22].

Para concluir con este proceso se eliminan los stop words, que son palabras con poco aporte semántico.

Identificación de nombres propios

En esta etapa se necesita de técnicas de análisis sintáctico[*]Relaciones de concordancia y jerarquía que guardan las palabras cuando se agrupan en oraciones que identifican los verbos que sirven de unión entre nombre propios (nombres de instituciones, de personas organizaciones, etc.). Es fundamental que se identifiquen estos nombres en los textos publicados para poder encontrar relaciones entre ellos.[16]

Representación de los documentos mediante un modelo

Generalmente en esta etapa se utiliza un modelo vectorial para realizar la representación de los documentos, donde cada texto o documento representa un vector[16].

Categorización automática

En primer lugar a cada documento es necesario asignarle una categoría, o a un mismo documento asignarle más de una categoría. De ser necesario se clasifica cada documento en una categoría mediante verdadero o falso. Por último se indica la probabilidad que tiene cada documento de pertenecer a una categoría[28].

Relaciones entre términos y conceptos

En esta última etapa se realizan la extracción de términos y conceptos y las relaciones existentes entre ellos[28].

Al terminar de ejecutar todo el proceso descrito, se obtiene un corpus de texto estructurado,

Componentes de software de clasificación

Las técnicas de de clasificación de la minería de textos consisten en asignar a las categorías previamente definidas diferentes objetos.[26] Los clasificadores pueden construirse a partir de aprendizaje de máquina. Cuando esto sucede, un proceso inductivo examina las características de los documentos previamente clasificados e infiere las condiciones que los nuevos textos deben cumplir para ser clasificados en una u otra categoría. Por ejemplo los contenidos de las publicaciones en las redes sociales serán clasificados como datos privados o comunes. Al realizar la comparación de las categorías identificadas en el corpus de entrenamiento con las categorías seleccionadas automáticamente es posible identificar la calidad del clasificador. [26]

A continuación se describen los componentes de un clasificador que usa aprendizaje de máquina.

Categorías

Para iniciar con el entrenamiento, previamente se deben identificar y registrar las categorías en las que se deben clasificar los diferentes componentes del corpus. Estas categorías son revisadas por un experto. Una manera de comprobar la efectividad del clasificador, será comparar los textos clasificados con los datos del entrenamiento.[26]

Conjunto de entrenamiento

Los datos utilizados para construir los clasificadores son tomados de las redes sociales a través de sus api. Es necesario identificar las categorías en las que debe basarse el clasificador para realizar su trabajo.

Selección de características y algoritmo de clasificación

En esta sección es importante entender las necesidades del negocio, es decir analizar el contenido textual de las publicaciones en las redes sociales en la primera fase denominada conocer el negocio.

A continuación la fase de comprensión de los datos se deben considerar tres aspectos: errores ortográficos, incompatibilidad de caracteres y archivos duplicados.

La tercera fase es la de preparación de los datos, que consiste el procedimiento descrito anteriormente denominado pre procesamiento de los textos.

La cuarta fase se refiere al modelado, en la que se utilizan distintos algoritmos de clasificación, pudiendo se utilizados: Naïve Bayes, al ser un clasificador probabilístico su desempeño depende de la cantidad de instancias empleadas para estimar las probabilidades. El algoritmo KNN (k-ésimo vecino más cercano) no construyen una representación declarativa explícita de las categorías sino que computan directamente la similitud entre el documento a ser clasificado y los documentos de entrenamiento. SVM (Máquina de soporte vectorial) binario, es usado cuando se tienen solo dos categorías, por ejemplo positiva y negativa.[26]

Finalmente es importante realizar la evaluación de los datos obtenidos por cada uno de los algoritmos utilizados, a fin de comparar sus resultados y realizar las iteraciones que fueran necesarias hasta encontrar los resultados que indiquen la eficiencia del proceso.

En la literatura se identifican gran cantidad de herramientas o softwares que permiten la minería y clasificación automática de los textos utilizando herramientas de aprendizaje supervisado. En [29]se mencionan los software que se encuentran en desarrollo: Software de Asistente de Creación de Corpus, Sistema de Mapeo de Datos,Sistema de detección de similitudes en archivos de código fuente, que permiten el reconocimiento del contexto de los textos.

Conclusiones

Gran cantidad de investigaciones sobre las redes sociales y sus seguridades están enfocadas en la detección de la privacidad de los usuarios a partir de la estructura de la red. Este trabajo propone utilizar las técnicas de minería de textos para realizar la estructuración de sus contenidos. Para futuras investigaciones es importante diseñar un modelo que permita caracterizar e identificar los elementos considerados privados por parte del usuario previo a una clasificación y relación de las entidades identificadas en el texto. Lo que contribuirá a una propuesta de seguridad para el usuario a partir de datos textuales publicados.

Bibliográfia

[1] J. P. Cardoso, “Democracia y redes sociales,” Universidad Verdad, no. 72, pp. 297–311, 2017.

[2] E. Amesti, L. Estrada, and D. Rey, “Inteligencia de negocios y redes sociales//business intelligence and social networks,” Marketing Visionario, vol. 2, no. 2, pp. 110–124, 2014.

[3] L. F. Hurtado, F. Pla, M. Giménez, and E. S. Arnal, “Elirf-upv en tweetlid: Identificación del idioma en twitter.,” in TweetLID@ SEPLN, pp. 35–38, 2014.

[4] S. Flores and E. Estefanía, “Análisis de la privacidad y transparencia del internet,” B.S. thesis, PUCE, 2017.

[5] P. E. Núñez Fiallos, “La ley de comunicación y la violación del derecho a la privacidad individual en las redes sociales,” B.S. thesis, Universidad Técnica de Ambato, Facultad de Jurisprudencia y Ciencias Sociales, Carrera de Derecho, 2018.

[6] T. Moreno-Becerra, C. Gajardo-León, and E. ParraOrtiz, “Privacidad: cómo se entiende y se gestiona en facebook. estudio de caso de jóvenes chilenos,” Revista Latina de Comunicación Social, no. 71, pp. 715– 729, 2016.

[7] M. Toscano, “Sobre el concepto de privacidad: la relación entre privacidad e intimidad,” Isegoría, no. 57, pp. 533–552, 2017.

[8] M. Á. Caro, Derecho al olvido en internet: el nuevo paradigma de la privacidad en la era digital. Editorial Reus, 2015.

[9] L. R. García, J. R. M. Benedito, et al., “Perspectiva de los jóvenes sobre seguridad y privacidad en las redes sociales.,” Revista ICONO14 Revista científica de Comunicación y Tecnologías emergentes, vol. 14, no. 1, pp. 24–49, 2016.

[10] E. Cambria and B. White, “Jumping nlp curves: A review of natural language processing research,” IEEE Computational intelligence magazine, vol. 9, no. 2, pp. 48–57, 2014.

[11] L. Tello, “Intimidad y «extimidad» en las redes sociales. las demarcaciones éticas de facebook,” Comunicar, vol. 21, no. 41, 2013.

[12] E. Argente, E. Vivancos, J. Alemany, and A. GarcíaFornes, “Educando en privacidad en el uso de las redes sociales,” Education in the Knowledge Society, vol. 18, no. 2, p. 107, 2017.

[13] I. A. Martínez, “La cultura sobre seguridad informática en las redes sociales: el caso de los estudiantes de la preparatoria de san diego cuentla, méxico/the culture on information security in social networks: the case of students of san diego cuentla high school, mexico,” RICSH Revista Iberoamericana de las Ciencias Sociales y Humanísticas, vol. 6, no. 11, pp. 20–30, 2017.

[14] M. Rodríguez-Socarrás, J. Gómez-Rivas, M. ÁlvarezMaestro, L. Tortolero, M. Ribal, M. G. Sanz, and M. Rouprêt, “Adaptación al español de las recomendaciones para el uso apropiado de las redes sociales en urología de la european association of urology (eau),” Actas Urológicas Españolas, vol. 40, no. 7, pp. 417– 423, 2016.

[15] E. Zheleva, E. Terzi, and L. Getoor, “Privacy in social networks,” Synthesis Lectures on Data Mining and Knowledge Discovery, vol. 3, no. 1, pp. 1–85, 2012. [16] A. I. Valero Moreno, “Técnicas estadísticas en minería de textos,” 2017.

[17] J. Pino-Díaz et al., “Minería de textos,” Ingeniería del conocimiento biomédico y del producto, I+ D en investigación traslacional. Master Universitario Investigación Traslacional y Medicina Personalizda (Transmed) de la Universidad de Granada., 2016.

[18] A. R. Blanco, A. S. Cuevas, E. G. Martínez, and W. H. Mazo, “Modelo de representación de textos basado en grafo para la minería de texto,” Ciencias de la Información, vol. 46, 2015.

[19] A. A. Consuegra, Y. M. Salazar, J. H. García, and D. H. Vizcaino, “Minería de texto como una herramienta para la búsqueda de artículos científicos para la investigación,” INVESTIGACIÓN Y DESARROLLO EN TIC, vol. 7, no. 1, pp. 14–20, 2017.

[20] Á. García Gutiérrez et al., “Machine learning en bases de datos de lenguaje natural,” B.S. thesis, 2016.

[21] E. Martínez Cámara, M. T. Martín Valdivia, J. M. Perea Ortega, and L. A. Ureña López, “Técnicas de clasificación de opiniones aplicadas a un corpus en español,” Procesamiento del Lenguaje Natural, no. 47, 2011.

[22] S. Estévez-Velarde and Y. A. Cruz, “Evaluación de algoritmos de clasificación supervisada para el minado de opinion en twitter,” Investigación Operacional, vol. 36, no. 3, pp. 194–205, 2015.

[23] M. Del-Fresno-García, “Cómo investigar la reputación online en los medios sociales de la web 2.0.,” Cuadernos de comunicación Evoca, vol. 5, no. 1, pp. 29–33, 2011.

[24] J. Fernández, Y. Gutiérrez, J. M. Gómez, and P. Martínez-Barco, “Social rankings: análisis visual de sentimientos en redes sociales,” Procesamiento del Lenguaje Natural, vol. 55, pp. 199–202, 2015.

[25] L. G. Fernández, “Metodología para el reconocimiento de entidades nombradas en mensajes cortos,” 2017.

[26] P. Santana Mansilla, R. Costaguta, and D. Missio, “Aplicación de algoritmos de clasificación de minería de textos para el reconocimiento de habilidades de etutores colaborativos,” Inteligencia Artificial. Revista Iberoamericana de Inteligencia Artificial, vol. 17, no. 53, 2014. [27] A. Ritter, S. Clark, O. Etzioni, et al., “Named entity recognition in tweets: an experimental study,” in Proceedings of the conference on empirical methods in natural language processing, pp. 1524–1534, Association for Computational Linguistics, 2011.

[28] J. A. Valero-Medina, C. D. Dallos-Bustos, and I. Lizarazo, “Un nuevo enfoque para la clasificación de imágenes multiespectrales basado en complejos cartesianos,” DYNA, vol. 85, no. 204, pp. 28–37, 2018.

[29] J. J. Castillo, M. E. Cardenas, A. Curti, O. Casco, M. Navarro, N. A. Hernández, and M. Velazco, “Desarrollo de sistemas de análisis de texto,” in XIX Workshop de Investigadores en Ciencias de la Computación (WICC 2017, ITBA, Buenos Aires), 2017.

Recibido: 3 de mayo de 2018

Aceptado: 15 de junio de 2018