Páginas

lunes, 30 de diciembre de 2013

Clasificando el mundo

Me he encontrado un artículo interesantísimo que me gustaría compartir. En abril de este año se publicó en la International Journal of Remote Sensing, un artículo de un equipo de trabajo formado en su mayoría por investigadores chinos titulado "Finer resolution observation and monitoring of global land cover: first mapping results with Landsat TM and ETM+ data" (Observación y seguimiento de mayor resolución de la cobertura global: primeros resultados de la clasificación con datos de Ladsat TM y ETM+).

Me ha resultado curiosísimo primero, la laboriosidad inmensa del trabajo realizado con 8929 imágenes, 91433 muestras de entrenamiento y 38664 muestras de validación en todo el mundo, llevado a cabo además por medio de 27 intérpretes expertos diferentes. También me ha sorprendido bastante la gran utilidad del trabajo, dado que, de realizarse cada cierto tiempo y de tener una precisión adecuada, nos podría dar una idea excelente de cómo van evolucionando los distintos usos del suelo en el mundo. Estos datos, cruzados con otros como los de emisiones que afectan al cambio climático, indicadores económicos generales, o datos de producción agrícola, serían de gran ayuda para la planificación territorial a escala MUNDIAL (lo complicado sería tratar esto mismo con una gobernanza adecuada, pero ese es otro tema).

El trabajo es el primero de estas características que se realiza en lo que podríamos denominar como resolución espacial media (30 metros por píxel), frente a otros estudios previamente realizados también a nivel global pero con resolución espacial de entre 300 m. y 1 km. Se realizó con datos alrededor de 2006.

Algunos aspectos técnicos:
- Preprosesamiento: básicamente corrección atmosférica y topográfica de las imágenes.
- Clasificación: los algoritmos que se usaron para ser comprobados fueron MLC (Maximum Likelihood Classifier, o clasificador de máxima probabilidad), J4.8 decision tree classifier (clasificador de árbol de decisión), Support Vector Machine (SVM), y Random Forest. Como curiosidad, se usó un supercomputador de la Tsinghua University que, usando 1200 núcleos, tardó 6 días en clasificar todas las escenas mediante SVM.
- Diseño de la clasificación: basada en bloques o end-components de atributos, formas de vida e información estructural (aviso de que la traducción puede ser algo tramposa con estos términos, mis disculpas). En total 11 clases que se subdividen cada una en varias subclases. Las clases son: campos de cultivo, bosque, pradera (grasslands), matorral (shurblands), terrenos húmedos (masas vegetales inundadas, etc.), masas de agua (lagos, etc.), tundra, zonas impermeables (superficies artificiales), tierras desérticas, y nieve/hielo.
- Muestreo: Llevado a cabo por 27 intérpretes expertos diferentes por medio de Google Earth y bajo el criterio de what you see is what you get. Se tomaron con tamaños de 8x8 píxeles (casi 250 m2), siendo muestras homogéneas, con 10-20 muestras por escena, con no más de 3 por clase, y con una clasificación cualitativa de las muestras según éstas estén claras o no (confidence)

Más allá de la metodología utilizada (que entiendo que nos interesa sólo a los más técnicos en la materia), lo interesante son los resultados. En primer lugar, hay que destacar que no fueron excesivamente precisos ya que las precisiones globales obtenidas (overall accuracy -OA-, estimada como el porcentaje de muestras de validación que fueron bien clasificadas con respecto al total) estuvieron entre el 65% de SVM y el 54% de MLC, corroborando, por otro lado, la bondad del uso de métodos no paramétricos mejorar los resultados de la clasificación. En segundo lugar, y como era de esperar, las clases mejor clasificadas fueron nieve/hielo, los cuerpos de agua, las tierras desérticas y los bosques. Si nos fijamos, todas ellas se caracterizan por ser bastante homogéneas y diferenciables espectralmente. Por el contrario, las clases peor clasificadas fueron las áreas impermeables, los campos de cultivo, praderas y matorral, muy confundidas entre sí, sobre todo las tres últimas, como es por otra parte lógico dada su heterogeneidad y parecido (imaginemos cómo diferenciar un campo arado dedicado a la agricultura y un campo de matorral).

Lo anterior implica, como el propio artículo destaca, que las zonas del planeta con climatología "pura" son las que mejor están clasificadas. Por ejemplo, todos los países influidos por el desierto del Sáhara o por grandes zonas boscosas tienen una precisión en su clasificación muy elevada, mientras que las zonas que podemos denominar de transición climática, con un gran mix de usos del suelo, son las peor clasificadas. Europa, en general, tiene una OA del 62%, mientras que para España el valor baja hasta el 52% (resultados con el clasificador SVM).

Es una lástima que una clase tan importante como las superficies impermeables (ISA) esté tan erróneamente clasificada (aunque por otra parte, es totalmente comprensible por su heterogeneidad interna y su confusión con otros usos del suelo). Esta clase es, desde mi punto de vista, clave para entender las dinámicas humanas dentro del mundo, pues supone la ocupación del suelo por infraestructuras humanas (carreteras, edificios, y superficies urbanas en general). Con los datos en la mano, SVM clasificó las ISA con una precisión muy baja (intervalo de confianza entre 7% y 14%, estimado mediante esta aplicación) y no fue el clasificador que mejor lo hizo ya que MLC obtuvo una precisión entre 28% y 40% para esta clase.

Figura 1. Estimación de la proporción de los usos del suelo a nivel mundial mediante el clasificador SVM.

En la figura anterior podemos observar cómo se distribuyen los usos del suelo a nivel mundial, según las clases que se tuvieron en cuenta en el estudio y la clasificación mediante SVM. A la hora de leer estos resultados, hay que tener muy en cuenta la baja precisión obtenida, pero pueden servirnos para sacar algunas conclusiones. Hay que destacar en este punto que el artículo compara los resultados con datos de la FAO, para superficie dedicada a cultivos,con coeficientes de determinación (R2) algo bajos (alrededor de 0.70), y con superficie de bosque o arbolada, con un R2 cercano a 1 en este caso.

Las interpretaciones son múltiples pero no hay duda de que, si se consigue realizar una clasificación fidedigna de los usos del suelo a nivel mundial, muchas otras variables podrán ser estudiadas para favorecer diversas políticas internacionales. Por ejemplo, ¿cómo va evolucionando el porcentaje de territorio natural? ¿cuánta parte del planeta se destina a la agricultura? ¿cómo van aumentando las superficies desérticas? ¿y las coberturas de hielo? El interés aumenta exponencialmente si estos datos se cruzan con otros de tipo biofísico, biológico, incluso económico o climático. Además, de existir una serie de datos temporales, el estudio de su evolución sería de importancia máxima, pudiéndose además realizar en regiones concretas, con la importancia que ello tiene (por ejemplo, ¿cómo ha aumentado la superficie agrícola en África? y ¿se relaciona este aumento con un descenso en el hambre en este continente?)

Figura 2. Clasificación mediante el método SVM.

Personalmente, a parte de que la técnica empleada resulta del todo interesante científicamente, la parte que más me ha llamado la atención es la referida a las áreas impermeables. Nunca pensé que fuese tan escasa (menos del 1%, incluso si tenemos en cuenta el error en la clasificación). Nos da una idea de cómo la actividad  humana afecta al medio. Mientras que sólo usamos esa minúscula parte del mundo para desarrollar nuestra vida (agricultura aparte): transporte, vivienda, etc., estamos afectando al planeta de una forma desorbitada.

Como conclusión, sería del todo interesante que o bien por estados o bien por regiones continentales, existiese un programa para realizar este tipo de clasificaciones de un modo intercambiable (clases-objetivo coincidentes) que pudiesen usar sus propios satélites-plataformas u otra información geográfica, pero que los datos finales fuesen recogidos y puestos a disposición para todo el planeta, de forma que se tuviesen estos datos cada cierto tiempo y poder estudiar su evolución para cruzar con otros datos y sacar las conclusiones debidas. Debemos tener como objetivo superar ese 65% de precisión alcanzado en ese estudio para que los resultados fuesen indiscutiblemente válidos.

Saludos.

No hay comentarios:

Publicar un comentario