Descripción: Desde el surgimiento del big data como un fenómeno independiente, poco se ha dicho acerca de la relación entre la sociedad civil organizada y el big data. Los investigadores han centrado su atención en iniciativas individuales o en el papel facilitador de las empresas. Pero en general, hasta ahora han hecho caso omiso de la dimensión de la acción colectiva y el papel del software y los datos en permitirla y restringirla.
Proponemos observar, recopilar, analizar y visualizar información acerca de la actividad en las redes sociales, y sobre las interacciones y acciones colectivas, de una serie de comunidades de activistas de datos con el fin de comprender mejor su comportamiento y sacar algunas conclusiones, aplicando algunas de las mismas tecnologías que los activistas de datos utilizan para promover el cambio social. El proyecto combinará observaciones de campo en el ciberespacio y la minería de datos para capturar esta actividad: lo que los activistas de datos piensan y dicen, lo que los activistas de datos hacen, y cómo los algoritmos median en aquello que los activistas de datos piensan y hacen. En definitiva, vamos a confiar en métodos basados en algoritmos para explorar un fenómeno arraigado en los algoritmos. Los datos recopilados se recabarán y recogerán en bases de datos integrados, y se harán públicos al final del proyecto.
Proponemos observar, recopilar, analizar y visualizar información acerca de la actividad en las redes sociales, las interacciones y acciones colectivas de una serie de comunidades de activistas de datos con el fin de comprender mejor su comportamiento.
Herramientas y Materiales
Para el desarrollo del proyecto no se necesitará material físico ya que el trabajo se centra en datos, su procesamiento, la obtención de conclusiones y su visualización.
El material fundamental son los datos a recuperar de alguno de los diferentes lugares identificados durante un proceso previo.
Otros puntos claves para el desarrollo del proyecto son los siguientes:
Desarrollo ágil de scripts con Python + IDE Eclipse + PyDev
Desarrollo ágil de scripts para la gestión de los datos y adecuación con PyTHon + IDE Eclipse + PyDev
Diseño de visualización de información con dispositivos de dibujado analógicos
Maquetación Web con HTML5 + CSS
Generación de gráficos dinámicos con mbostock
Análisis de información estadística con Weka y Teiresias
Análisis de redes con Gephi
Desarrollo de infografías con herramientas de edición de imágenes GIMP o similares.
Promotor: Miren Gutiérrez
Colaboradores:
Javier Nieves: Gestión de proyecto y análisis estadístico de la información. Desarrollador informático
Borja Sanz: Gestión de proyecto y análisis estadístico de la información. Desarrollador informático.
Tom Estes: Diseñador gráfico que determinar el método más eficaz para la viualización de resultados.
Tom Estes: Artista, diseñador para la determinación de los métodos más eficaces para mostrar los resultados alcanzados.
Colaborador3: Diseñador gráfico para la codificación de los sistemas de visualización del prototipo final
Enlaces
La web final del desarrollo del proyecto puede consultarse en http://paginaspersonales.deusto.es/jnieves/interactivos/index.html
Los repositorios iniciales para la investigación de los comportamientos son los que se indican a continuación:
ProPublica
WebSite: http://www.propublica.org/
Datos relacionados: http://www.propublica.org/tools/
Twitter: @ProPublica
The Guardian Datablog
Hack/Hackers
WebSite: http://hackshackers.com/
Open Knowledge Fundation
WebSite: https://okfn.org/
Twitter: https://twitter.com/okfn
International Journalist Network
New York Times
WebSite: http://data.nytimes.com/
DataDrivenJournalism
WebSite: http://datadrivenjournalism.net/
Datos relacionados: http://datadrivenjournalism.net/about#sthash.Sy6Sl6v2.dpuf (ver más)
The International Consortium of Investigative Journalists
WebSite: http://www.icij.org/
The Knight Center for Journalism
WebSite: https://knightcenter.utexas.edu/
Organizaciones (Idioma castellano)
MediaLab-Prado
WebSite: http://comunidad.medialab-prado.es
Imágenes del proceso
Obtención de la información Análisis de la información Representación de la información
Plan de proyecto
Analizar las fuentes de datos
Identificar los activos de los que se disponen en cada una de ellas
Identificar el tipo de información que puede ser sacado de cada uno de ellos
Determinar cuál será el conjunto de datos con el que trabajar
Seleccionar los datos
Seleccionar las posibilidades de salida de información
Seleccionar el formato de almacenamiento
Crawling de datos
Desarrollar los scripts para la obtención de la información
Aplicar el proceso de descarga
Análisis de los procesos de comportamiento
Analizar la red de interacciones: Determinar la forma de procesamiento de la información seleccionada para que se pueda generar una visualización de la red de interacciones de los usuarios. Además determinar tipologías de usuarios según la información de los nodos (importancia por page rank).
Analizar la información: Determinar la información disponible y los filtros que podrán ser aplicados posteriormente en la visualización de las infografías.
Analizar la tipología de perfiles: Determinar los perfiles de los usuarios con un análisis de clustering que identifique los diferentes tipologías de usuarios según el comportamiento que tienen.
Extracción de patrones: Extracción de los patrones de comportamiento a través de diferentes algoritmos.
Extracción de patrones a través de la generación de las reglas de lo que se suele repetir.
Extracción de patrones a través de la utilización de la búsqueda de patrones genéticos (Teiresias)
Definición de las posibilidades de visualización de la información
Visualización en un portal Web
Posibilidades de representación en gráficas
Posibilidades de representación en infografías
Posibilidades de representación en elementos interactivos
Diseño de los métodos de visualización para este tipo de información
Desarrollo del portal Web para la visualización de la información
Desarrollo de las visualizaciones
Primera aproximación mediante el desarrollo de representaciones estáticas
Segunda aproximación mediante el desarrollo de representaciones dinámicas
Día 11 de noviembre de 2014
Javier Nieves acude a MediaLab Prado para realizar su presentación del proyecto. En su presentación marca una historia en la que se muestra como puede ser utilizado el proceso del data-activismo. No obstante a la audiencia no le queda claro el contenido del proyecto, por lo que se pasa a determinar en la ronda de preguntas que el objetivo es el de análisis de usuarios anónimos para determinar cuál es el tipo de comportamientos dentro del data-activismo.
La presentación ha quedado adjunta en la sección de documentos.
Día 13 de Noviembre de 2014
Tras las sesiones de reuniones con el equipo de tutores de MediaLab-Prado, así como con los diferentes miembros del equipo, se ha determinado que el sistema a desarrollar será el que se detalla a continuación.
El sistema realizará el análisis de los conjuntos de datos que se recogerán de una única fuente de datos. El resultado de los análisis podrá promover las diferentes visualizaciones de los comportamientos a través de un sistema artístico de presentación de información. El caso de uso ideal es el desarrollo de los diferentes módulos de visualización como infografías dinámicas presentadas a través de una plataforma Web.
Los resultados se espera que sean similares a los siguientes ejemplos:
Durante la sesión de la tarde se prepara la documentación y se cierra el plan de proyecto definitivo que deberá ser cumplido a lo largo de la duración del proyecto.
A continuación se adjunta el diagrama de gantt que determina la ejecución de las tareas del proyecto.
Día 14 de Noviembre de 2014
Se continúa con el proceso de desarrollo del proyecto. Siguiendo el plan de trabajo, a lo largo del día de hoy se ha hecho el análisis de las fuentes de datos seleccionadas antes de llegar a MediaLab-Prado. Antes de comenzar, se ha hecho la primera de las selecciones. Concretamente, se trabajará únicamente con aquellas que se encuentran en inglés.
Las fuentes que han sido seleccionadas para el análisis son las siguientes:
Además, se ha decidido acotar el scope del análisis centrándose en la temática del training, seminarios, tutoriales, herramientas, hackatones o similares.
Dentro de la información que puede ser procesada aparecen las clasificaciones por tipologías, autorías, fechas, volúmen de interés, palabras utilizadas para los cursos, localizaciones en algunos de ellos, precios, entre otras cosas.
Después del análisis se han seleccionado aquellas que pueden aportar más información. Concretamente serán:
La información que puede ser recogida de cada uno de ellos y la que será utilizada para el análisis del comportamiento asociado al movimiento de aprendizaje por los grupos activistas es la que se recoge en el siguiente mind map, y que se encuentra adjunto en la sección de imágenes.
El proceso continuará mañana a través del desarrollo de los crawlers que permitirán obtener los datos a analizar.
Día 15 de Noviembre de 2014
Se incorpora Tom Estes como colaborador del proyecto con el objetivo de dotar de un punto de vista más artístico a las posibles representaciones que hay que realizar. Las representaciones que haga Tom serán llevadas al mundo digital para visualizar los comportamientos de estas redes de data-activismo.
La actividad de Tom a lo largo del día ha sido ponerse al día con el proyecto y analizar las técnicas actuales que existen para la visualización de información en un entorno de data-activismo. Tom detecta diversos gráficos que pueden ser de ayuda para medir los resultados del análisis. Concretamente, parece de gran interés el gráfico en forma de flor.
Por otra parte, se comienza con el proceso del desarrollo de los crawleadores. EL primero de los desarrollos es el Crawler IJN. Se desarrolla el crawler de IJN para obtener las noticias. Puntos a tener en cuenta, se ha hecho el desarrollo teniendo en cuenta el idioma de la noticia. Así, si el título de la noticia no se encuentra en inglés, esa noticia será desechada.
Se ha desarrollado el script en python y se utiliza como servidor de navegación una versión antigua de selenium server. Así, se realizan las búsquedas de las palabras claves y se recorren todas las página de noticias. Una vez hemos recogido la información, se navega a cada una de las páginas de la noticia para recuperar el valor del texto de la noticia.
Nótese que en caso de darse un problema, temas de parseos o codificación del texto, esa noticia no se tendrá en cuenta y se pasará a la siguiente.
Día 16 de Noviembre de 2014
Los resultados han sido almacenados en un fichero CSV en crudo con el que habrá que trabajar posteriormente (se adjunta en la plataforma el fichero).
A continuación se adjuntan un par de imágenes de cómo se está llevando a cabo el proceso de descarga de información de forma automática.
Días 17,18 y 19 de Noviembre de 2014
Se ha continuado con el proceso de desarrollo y crawleo de la información de las otras fuentes de datos. La primera de ellas, The Guardian Data Blog, se ha seleccionado la parte de los cursos para recoger de ellos la información. El documento se encuentra en la sección de descargas. La segunda de ellas, ProPublica, se ha descargado la información relativa a las herramientas de datos.
A continuación se adjuntan un par de imágenes de cómo se ha llevando a cabo el proceso de descarga de información de forma automática. Para ver el proceso completo, en la sección de descarga se han dejado unos vídeos que muestran el proceso completo.
Días 20 y 21 de Noviembre de 2014
Durante estos días se ha realizado un análisis de los datos y se ha comprobado las formas de visualización posibles. A la par se ha procedido a desarrollar la plataforma Web en la que se mostrarán los resultados del proyecto
En lo que respecta a la visualización se han determinado dos herramientas concretas. Para ello, se mostrará información en gráficos sectoriales dinámicos para que el usuario pueda ir navegando y descubriendo la información. Por otra parte, se mostrará una red con información y los enlaces de los cursos, autores, años, etc.
A continuación se adjuntan dos imágenes como ejemplo de la visualización.
El diseño de la Web se ha intentado hacerlo de la forma más clara y sencilla. Así puede ser visualizado al hacer la navegación por la plataforma. El desarrollo ha sido realizado en HTML y en CSS. Hay una pequeña parte desarrollada en JavaScript y las visualizaciones han sido realizadas utilizando una librería externa.
Días 22 y 23 de Noviembre de 2014
Se procede a la integración de las visualizaciones y el despliegue de la plataforma Web.