Hoy, las personas, generamos un gran número de datos. En una sociedad conectada vamos dejando un rastro casi con cada acción que realizamos. Por ejemplo al valorar un comercio en Google Place o al realizar una transacción bancaria en un comercio con una tarjeta. Si juntamos estas dos fuentes de información tenemos delante el proyecto BBVAPlaces que han llevado a cabo en Outliers Collective, junto con Alberto González Paje (de Bestiario) y Rafael Höhr (de Prodigioso Volcán), para el Innova Challenge BBVA, un concurso dirigido a desarrolladores que construyan contenidos y servicios a partir de los datos extraídos de las transacciones realizadas con tarjetas bancarias.
El proyecto BBVAPlaces: Estimación de consumos a partir de datos de Google Places
El proyecto presentado trata de responder a preguntas ¿qué distritos de una ciudad tienen mayor éxito por tipo de establecimiento (moda, restauración, etc.)?, ¿en qué áreas nos gastamos más dinero?, ¿donde están los establecimientos mejor valorados?, ¿en que zona tengo más posibilidades de éxito para mi tipo de comercio?, etc.
Para ello, han descargado información de número de locales por categoría y sus valoraciones (para Madrid y Barcelona en noviembre de 2012) del API de Google Places. Se han centrado únicamente en tres categorías: hoteles, comida y moda y han cruzado los datos con el API facilitado por el BBVA, que con el que se accede a los datos, anónimos y agregados por distrito postal, de los movimientos con tarjetas en las ciudades de Madrid y Barcelona.
API de Google Place y de BBVA
El API de Google Places permite conocer
- el número de establecimientos para cada categoría
- su valoración social media en un área determinada
La petición unitaria a Places devuelve, a partir de una categoría, centro geográfico y radio determinado, la lista completa de establecimientos en esa zona, acompañados de información tal como su valoración social (de 1 a 5), localización exacta, precio medio, etc.
Los datos ofrecidos por el BBVA cuenta con las siguientes características:
- Compras realizadas de noviembre 2012 a abril 2013
- Datos generados en Madrid y Barcelona
- Origen demográfico, edad, sexo de los clientes
- Los datos se mostrarán agregados por semanas, meses y semestres
- Patrones diarios de comportamiento por semana detallados por horas
- Categoría de gasto: viajes, alimentación, hipermercados, hoteles, inmobiliaria, automoción, bares y restaurantes, cuidado personal, deportes y juguetes, tecnología, hogar, contenidos, moda, ocio, salud y transporte.
No se incluye información relacionada con importes o intervalos de gasto.
Una vez normalizados y cruzados los datos se obtiene:
- El número de pagos por unidad de área geográfica
- El número de establecimientos por unidad de área geográfica
- El número de valoraciones totales
- La media de estas valoraciones, la medida tentativa de «éxito local», resultado de dividir el número de pagos por el número de establecimientos.
El estudio se ha realizado con software libre. Según señalan en la página del proyecto, las herramientas utilizadas han sido Python, Python+librería shapely, MongoDB, D3.js, Open Refine, Mapshaper, CartoDB y R.
El análisis estadístico ha permitido comprobar por ejemplo la relación entre la densidad de pagos en función de la densidad de establecimientos de Google Place o que áreas de una ciudad tienen mejores valoraciones para cada sector. Esto da idea de las áreas de una ciudad donde se tiene una mejor percepción social de los establecimientos, complementando el análisis de transacciones, de cara a una posible apertura de negocio.
Nuevas fuentes de estudio
Esta claro que están cambiando las fuentes tradicionales para el estudio de la actividad humana. Además de los datos oficiales sobre población activa, origen de una población, la renta familiar o encuestas sobre población activa, ahora tenemos la oportunidad de analizar otros tipos de datos, debidos en gran medida al uso de redes sociales y a la aparición del big data y las herramientas que nos permiten trabajar con eficacia el ingente número de datos que generamos.
Un mapa de New York, o de Londres, con el idioma de los tweets enviados desde cada lugar de la ciudad, nos indica con más claridad el origen de sus habitantes, en que idioma se expresan, con que cultura se identifican... que las habituales preguntas de los censos de población y además se ajustan mejor a las fronteras reales que los límites administrativos a los que nos tenemos que ceñir habitualmente en este tipo de estudios. Otro ejemplo de una visión distinta del estudio de la actividad económica de un territorio uniendo Big Data y software libre: el impacto del Mobile World Congress de Barcelona 2013 usando un mapa dinámico. Nuevas fuentes de estudio, nuevas herramientas y nuevas formas de representación.
Innova Challenge BBVA
Innova Challenge es un concurso de Innovación que surge en el marco del Centro de Innovación BBVA de España como iniciativa para fomentar, en esta primera edición, el desarrollo de aplicaciones y de webs o visualizaciones que en cualquiera de los casos hagan uso de esta API de BBVA en combinación con datos externos que aporten una valor añadido al resultado final.