Y esta cantidad de datos circulando por la red son negocio. De hecho, solo la reutilización de la información pública en España ya genera un volumen de negocio anual de entre 550 y 650 millones de euros y el sector emplea directamente a cerca de 5.500 trabajadores, según el reciente Estudio de Caracterización del Sector Infomediario, realizado por el ONTSI (Observatorio Nacional de las Telecomunicaciones y la Sociedad de la Información).

El uso de la tecnología es fundamental para recuperar la extraordinaria cantidad de datos e informaciones que se generan cada día, miles de fuentes abiertas con información no clasificada, disponible al público. En recuperarla y en analizarla, claro.

Presentación de los datos

Se pueden descubrir (o suponer) muchas cosas de un conjunto de datos si se visualizan de la manera adecuada. Evidentemente, lo más atractivo es una representación gráfica de conjunto, una visualización que facilite la comprensión e interpretación de los datos, que nos permita apreciar su agrupación, distribución, probabilidad o cualquier otro criterio.

El método de presentación elegido es muy importante para interpretar correctamente los datos. Es importante conocer el funcionamiento de la herramienta que vamos a utilizar y que resultados esperamos. Un mal uso del software puede dar resultados desastrosos sin tan siquiera darnos cuenta.

Herramientas de visualización

A continuación te presentamos varias herramientas de visualización de datos. No es una lista exhaustiva. Hay muchas más herramientas. No te pierdas Data Visualization (en inglés), seguramente la referencia web más importante sobre visualizaciones de datos, siguen las tendencias y examinan los recursos sobre visualización de datos e infografías. Una fuente de información imprescindible sobre este sector.

Circos

Ejemplos de gráficas usando Circos
Circos es un paquete de software para la visualización de datos utilizando para ello un diseño circular, que va mucho más allá de las típicas tartas o quesos. Además de su atractivo visual su punto fuerte reside en la capacidad de personalizar cada elemento del gráfico y en su capacidad de trabajar con conjuntos de datos extremadamente grandes y complejos. Hay que tener en cuenta que en su inicio estaba pensado para representar bases de datos genéticas. En la actualidad es muy usado también en marketing por la capacidad de comprender las relaciones entre las variables y entender fácilmente las diferencias cuantitativas entre distintos valores.
Tiene versión para su uso en escritorio (UNIX y Windows) y online y su uso no es fácil.

Tableau Public

Ejemplo de salida de Tableau Public

Tableau Software, Inc es la empresa creadora de Tableau Public, la versión gratuita de la aplicación de Business Intelligence “Tableau Software”. Su única limitación respecto a su hermano mayor es cantidad de datos con los que se puede trabajar.

Su principal ventaja es la facilidad de uso, no es necesario ser un programador para utilizarlo y no usa ni Flash, ni plug-ins, ni API. Se pueden crear gráficos interactivos, paneles, mapas y tablas de prácticamente todos los datos e integrarlos en una web o blog en cuestión de minutos. Destaca también por lo atractivo de su interfaz, muy limpia y rápida. Se descarga para su uso en ordenadores con Windows.

Para muchos es una de las mejores herramientas que hay actualmente para la visualización de datos, tanto por la facilidad de uso como por sus funcionalidades.

Many Eyes

ejemplo de gráfico con Many Eyes Many Eyes. Esta herramienta ha sido creada por IBM y puesta disposición de los usuarios de forma gratuita, con la idea clara de compartir la información.  Se trata de una herramienta de uso público, es decir, que todos los datos y visualizaciones que se realicen estarán a disposición del resto de usuarios, no se puede usar de forma privada. Es una aplicación Web que funciona con Java y Flash

Google Fusion Tables

Google Fusion Tables. Actualmente forma parte del conjunto de aplicaciones Drive de Google. Esta herramienta Web gratuita que permite subir diferentes conjuntos de datos, combinarlos, visualizarlos de forma rápida y sencilla, en un mapa o en diferentes tipos de gráficos, y consultar los datos. También se puede trabajar en colaboración con otros usuarios online y publicar en blog, por ejemplo. Entre los gráficos incluye gráficos circulares, de barras, diagramas de dispersión, líneas del tiempo, etc. Gestiona grandes colecciones de datos que deben estar normalizados y guardados en un archivo Excel, .ods, .csv o .kml.

En MappingGIS, el blog de Aurelio Morales, puedes encontrar un completo tutorial sobre Cómo crear un mapa con Google Fusion Tables.

Dispone de API (Fusion Tables API) para su uso por terceros desarrolladores y utiliza tecnología JavaScript y Flash.

Herramientas de conversión / depuración / conversión

Más importante que la herramienta son lógicamente los datos. Los datos en bruto son feos y hace falta mucho trabajo para darles forma: hay que adquirirlos, depurarlos, estructurarlos, limpiarlos y la mayoría de las veces pasarlos a otro formato para poder manejarlos. Algunas herramientas imprescindibles para hacerlo son:

DataWrangler

DataWrangler. Aplicación Web para la limpieza y depuración de datos y los prepara para su uso en Excel, R, Tableau, Protovis... Aprovecha los tipos de datos semánticos (localizaciones geográficas, fechas, códigos de clasificación) para ayudar a la validación y conversión de tipos.

OpenRefine

OpenRefine. Aunque es sus inicios era un proyecto apoyado por Google (Google Refine) en la actualidad se encuentra solo apoyado por voluntarios. Es una aplicación de escritorio gratuita, disponible para Windows, Mac y Linux. Para algunos es un súper Excel, por su capacidad de manejar cantidades ingentes de datos, aunque va mucho más allá. Otro de sus puntos fuertes es su facilidad para uniformar datos provenientes de distintas fuentes, cambiar contenido de celdas y unificar campos, de forma manual o ayudado por el propio programa. 

Además  es capaz de ampliar nuestros datos, de crear nuevos campos a partir de servicios externos, como por ejemplo Freebase (una base de datos libre colaborativa). Muy útil.