Introducción Métodos Resultados Conclusión El uso de minería de datos en la definición de los patrones biogeográficos de la diversidad ornítica española Víctor Javier Colino Rabanal1, Roberto Rodríguez Díaz2 1 Área de Zoología. 2 Área de Antropología Física Departamento de Biología Animal, Parasitología, Ecología, Edafología y Química Agrícola. Universidad de Salamanca. Facultad de Farmacia. Campus Miguel de Unamuno. C.P: 37071. Salamanca. España.Tfno: 676643770; Fax: 34-923294515. E-mail: vcolino@usal.es Introducción Métodos Para la identificación de los diferentes patrones de distribución espacial de la diversidad de aves reproductoras en la España Peninsular se creó un Kohonen self-organizing map (SOM), una red neuronal artificial no supervisada basada en el aprendizaje competitivo (Kohonen 1982, 2001) donde cada especie con su distribución espacial expresada en una cuadrícula UTM 10 x10 km entra como un vector. Los mapas organizativos pretenden similar el funcionamiento de las neuronas en el cerebro. Constan de dos capas: la matriz de entrada y la matriz de salida. La matriz de entrada recibe los vectores de la matriz de datos y cuenta con tantas neuronas como variables se han considerado en el análisis. Como resultado se obtiene una matriz bidimensional de salida de celdas cuadrada o rectangular según se fije previamente. El programa empleado para la aplicación del algoritmo de Kohonen fue KOH.C, desarrollado por la State University of Groningen, Holanda. Los resultados se han expresado sobre mapas de la España peninsular. La distribución espacial de las especies de aves reproductoras en España se obtuvo a partir del Inventario Nacional de Biodiversidad, gestionado por el Ministerio de Agricultura, Alimentación y Medio Ambiente. La información contenida en las Bases de Datos corresponde a la distribución de las especies en España según los diferentes Atlas y Libros Rojos. Gracias a la metodología seguida, el Atlas cubre el 100% del territorio del país. Las distribuciones se representan un malla de cuadrículas UTM 10x10 km. Se han incluido en el estudio un total de 271 especies, incluyendo finalmente las especies exóticas puesto que queremos comprobar el funcionamiento de la red neuronal también para ellas. Para profundizar en las variables eco-geográficas que contribuyen a explicar los diferentes patrones espaciales definidos, se ha obtenido la siguiente información para cada cuadrícula UTM: - altitud y pendiente que se obtuvieron a partir de un modelo de elevación digital elaborado por el Instituto Geográfico de España, con una resolución de 25 metros; - temperatura máxima, mínima, y precipitación, que se derivaron de Worldclim versión 1.4 (Hijmans et al., 2005), un conjunto de capas climáticas globales con 1 km2 de resolución y generados a través de la interpolación de los datos climáticos de estaciones meteorológicas. Las técnicas de minería de datos permiten la extracción automática o semiautomática de patrones no aparentes a partir de grandes volúmenes de información. Los avances en el campo de las ciencias de la computación, así como la obtención y almacenamiento de grandes bases de datos, han contribuido con fuerza al gran desarrollo que estas técnicas han experimentado en los últimos años. Dentro de la minería de datos destacan las redes neuronales que pretenden simular el comportamiento del sistema nervioso animal. A diferencia de otras metodologías, mejoran su rendimiento a medida que aumenta el volumen de datos con el que trabajan puesto que van «aprendiendo» y reajustándose durante todo el proceso. Se han aplicado con éxito en diferentes campos de la ecología en general, y de la zoología y ecología animal en particular. Por otro lado, el esfuerzo colaborativo de numerosos profesionales y naturalistas voluntarios ha permitido la compilación de grandes bases de datos con información sobre la distribución espacial de las especies de fauna que han servido. Conocer cómo se distribuye la fauna, y los factores que contribuyen a explicar dicha distribución, el objeto de la biogeografía, son esenciales para la redacción de planes de gestión y de conservación adecuados. La definición de dichos patrones de distribución puede abordarse mediante minería de datos. En este trabajo hemos empleado las redes neuronales para definir los patrones de distribución de la ornitofauna reproductora en la Península Ibérica. Figura 1: Esquema de funcionamiento de una red neuronal basadas en mapas auto-organizativos Los patrones de distribución de las especies de aves reproductoras definidos por la red neuronal se muestran en la figura 2. La forma de clasificación de la red neuronal es tal que los patrones mejor definidos tienden a ocupar las celdas de las esquinas y los laterales de la matriz mientras que los de menor definición se sitúan en el centro. Visualmente se puede ver como los patrones se distribuyen en la matriz siguiendo gradientes. Así, por ejemplo en la celda 1-A tenemos un patrón espacial ligado a ambas mesetas y las depresiones de Ebro y Guadalquivir; el 1-J se corresponde con especies de montaña de la Cordillera Cantábrica y Pirineos; en 10-J incluye las especies más generalistas presentes prácticamente en todas las cuadrículas peninsulares. La selección del número de patrones a identificar (o lo que es lo mismo, el número de celdas en la matriz de salida es arbitrario) y depende del grado de agregación que sea más útil para los fines perseguidos. En este caso se han definido 100 patrones en una matriz de 10x10. Las especies que se ajustan a cada uno de los patrones mostrados en la Figura 2 se especifican en la Figura 3 también de forma matricial. Resultados Figura 2: Matriz resultante con los mapas de distribución correspondientes a cada uno de los 100 patrones definidos en la red neuronal. Figura 3: Matriz con las especies incluidas en cada uno de los patrones espaciales definidos. Figura 5: Nº medio de cuadrículas UTM en cada patrón. Figura 4: Distancias entre las celdas de la matriz. A B C D E F G H I J La minería de datos en general, y las redes neuronales y mapas auto-organizativos en particular, son técnicas óptimas para la obtención de patrones espaciales de distribución de especies de forma automática o semiautomática a partir de los grandes bases de datos de presencia que se compilan de forma ya habitual por administraciones, profesionales, organizaciones naturalistas, etc. Además, debido al proceso de aprendizaje que se desarrolla a medida que se ejecuta el proceso, cuanto mayor sea el volumen de información mejor hará la clasificación la red neuronal, por tanto, la adicción de nuevos datos siempre supondrá una mejora en la definición de los patrones. El tamaño de la matriz de salida, y el consiguiente número de patrones, es un parámetro que se da al inicio del procesamiento de la información. En función de los objetivos que estemos persiguiendo tendremos que probar con diferentes tamaños hasta obtener la disgregación óptima. Más allá de los mapas auto-organizativos, la minería de datos comprende otras metodologías: otros tipos de redes neuronales (por ejemplo los perceptrones multicapa), el clustering o agrupamiento, árboles de decisiones o las reglas de asociación, que sin duda tienen un gran interés para la ornitología y cuyo uso y aplicaciones seguirá aumentando en los próximos años. Conclusión En los mapas auto-organizativos no todas las celdas son igualmente diferentes entre sí, sino que las barreras entre celdas pueden ser de diferente magnitud. La Figura 4 representa el tamaño de esas barreras. Los patrones de especies de distribución restringida son los que presentan mayores diferencias entre sí. En la Figura 5 se muestra el número medio de cuadrículas UTM con presencia de aquellas especies correspondiente al patrón espacial definido en cada celda. Se ve un claro gradiente desde la fila 1 donde se encuentran las especies de distribución más reducida (mínimo la 1-G con una media de 13 cuadrículas UTM) hasta la fila 10 donde se encuentran las especies más generalistas (con un máximo para 10-J con una media de 5008 cuadrículas UTM positivas). La Figura 6 recoge los valores medios de las variables eco-geográficas para cada celda de la matriz. En ellas por ejemplo se puede apreciar claramente cómo los patrones de la esquina superior derecha (las especies de zonas montañosas) se corresponden con zonas de bajas temperaturas, altas precipitaciones y una elevada altitud. Las especies más reducidas por su ubicación arrojan valores elevados de temperaturas, escasas precipitaciones y baja altitud. Las especies más generalistas, por lógica, muestran valores próximos a la media peninsular. Figura 6: Matrices con los valores medios de las variables eco-geográficas (temperatura media, mínima, máxima, precipitación y altitud) para cada celda (para cada patrón) coloreadas con una escala de grises para su interpretación visual. Figura 7: Matriz de distribución para una de las variables eco-geográficas