Un estudio realizado por las Universidad Carnegie Mellon e IBM ha presentado una nueva herramienta que puede emplearse para facilitar el uso de la información de los usuarios de un servicio sin comprometer su privacidad.
El objetivo es solucionar el problema que se produce cuando una empresa, una organización u organismo gubernamental necesita compartir los datos con otra entidad para mejorar sus sistemas.
Hasta el momento la solución ha sido crear una base de datos que copie la original pero deje afuera la información sensible de los usuarios. Sin embargo esta operación no siempre es sencilla. Al crear los nuevos conjuntos de datos se producen diferencias.
Los investigadores han propuesto una herramienta conocida como DoppelGANger, que utiliza un esquema de redes generativas adversarias (GAN) para sintetizar los datos y obtener las mismas estadísticas que en los originales.
Un Doppleganger es un doble fantasmagórico que forma parte del folklore alemán.
Los conjuntos de datos creados de esta manera ofrecieron un 43% de mejora en el nivel de acierto en relación a los producidos con otros sistemas.
El futuro
Los desarrolladores creen que este tipo de herramientas serán esenciales en el futuro, dado que facilitarán la circulación de la información en ecosistemas cada vez más automatizados.
Una alternativa práctica que podría estar muy cerca es el uso de base de datos sintéticas para el entrenamiento de ingenieros de redes de seguridad.
Por el momento DoopelGANger opera solo con conjuntos de datos de poca complejidad, por lo que una de las prioridades de sus desarrolladores es mejorar sus capacidades.
Una ventaja extra de este sistema es que es de código abierto, tanto la investigación como el software empleado pueden encontrarse en Github.