Antecedentes
En los últimos años ha habido un gran interés y un gran avance en el desarrollo de la minería de datos; en especial cuando se trata con problemas de índole geográfico (por la cantidad de datos que llegan a ser procesados). Estudios hechos por Shekhar y Chawla (2003) y distintos congresos y libros (por ejemplo, Bolstad (2002) o Cressie (1993)) reflejan la gran cantidad de conocimiento que se produce al respecto.
Ahora bien, las técnicas utilizadas tienden a ser modelos basados en la estadística multivariada, tal como el análisis del componente principal (Jain, 1988), clasificadores de Markov (Li, 1995), outliers (Barnett 1994), entre otros. Esto no implica que no se puedan utilizar otros algoritmos de minería de datos y de agrupamiento (Jain, 1988) pero es necesario adaptarlos a los modelos y las características de la minería espacial, en donde las características a evaluar tienen relaciones implícitas y distintos tipos de continuidad (Shekhar y otros, 2004).
Problema y objetivos
Existen entonces, técnicas estadísticas para el estudio del agrupamiento de eventos y datos espaciales (donde los eventos se pueden considerar datos que se acumulan sobre el tiempo); pero ninguno de ellos está fundamentado en modelos físicos.
En este caso, se ha propuesto la necesidad de tomar un algoritmo de agrupamiento no estadístico, y adaptarlo a las necesidades y características de los datos geográficos. Para ello, se tomará como base el modelo de agrupamiento por difusión (Skliar y otros, 2007).
Para el desarrollo del nuevo algoritmo, se tomarán en cuenta los siguientes factores:
- El conocimiento de que todos los datos de entrada son coordenadas geográficos, según un modelo de conversión
- En caso de eventos temporales, se considerará el hecho de que la acumulación de eventos implica un mayor riesgo de ocurrencia
- El hecho que, hasta el momento, los algoritmos de agrupamiento espacial son estadísticos o aritméticos
Entonces, el objetivo de la ponencia es desarrollar y fundamentar ese nuevo método y aplicarlo a datos geográficos existentes para verificar su efectividad.
Metodología
Para la aplicación de este proceso necesitaremos una representación en una imagen, de la información espacial que queremos analizar, una vez que ya tenemos nuestra figura lista dentro de la imagen procedemos con la aplicación del algoritmo. El algoritmo consiste en tomar cada pixel, de la figura a analizar y simular un proceso de difusión. Dicho proceso lo que hará es tomar los pixeles que tienen algún objeto dentro de él y tomarlos como fuentes, los pixeles que no tendrán objetos es donde se realiza la difusión.
Por ejemplo, es como si tuviéramos una hoja blanca con unas manchas de tinta. Y nuestro objetivo es agrupar las manchas de tinta de la mejor forma posible, entonces derramamos un poco de agua sobre nuestra hoja y la tinta empezará a moverse y dispersarse conforme el tiempo avanza por las partes del papel donde antes no había tinta y haciendo que las manchas de tinta se comienzan a agrupar unas con otras.
Ahora procedemos a mostrar en profundidad el algoritmo para caracterizar figuras planas. Por ahora, se considerará cada imagen georreferenciada como una figura plana compuesta por píxeles.
El algoritmo consiste en un modelo de simulación por difusión de partículas (que es un proceso determinado por la cantidad de partículas para cada coordenada (variable N), el progreso del tiempo (variable t) y por ciertas constantes de difusión (k y kd)).
.../...