En el aprendizaje automático dos recurrentes tareas son: clasificación y regresión, cuando la variable a predecir es categórica o numérica respectivamente. Dentro de este enfoque, los métodos de selección de instancias buscan escoger una submuestra del conjunto original que mantenga, o incluso mejore, las capacidades predictivas de la muestra. En el artículo se analiza cómo la combinación (ensembles) de métodos de selección de instancias, ofrece excelentes resultados en regresión. La combinación de métodos de selección de instancias, en regresión, mejora la capacidad predictiva de los métodos “clásicos” aplicados individualmente.

Ilustración 1: Esquema del método propuesto: el subconjunto original es dividido en subconjuntos (bags), los cuales son utilizados por los algoritmos de selección de instancias individualmente. Por cada instancia, se almacena las veces que ha sido seleccionada (votes). Por último, aquellas instancias que han sido seleccionadas el número suficiente de veces, es decir que tienen suficientes votos, son seleccionadas para el conjunto final

Resumen:

En la minería de datos, una etapa fundamental es el preprocesamiento de los datos. Esta fase busca adecuar los conjuntos de datos para su posterior utilización: eliminando ruido,  imprecisiones, datos redundantes, etc. Es en este ámbito donde encaja el presente artículo. La selección de instancias busca seleccionar un subconjunto del conjunto original de datos que sea capaz de mantener, o incluso mejorar, la capacidad predictiva del mismo. Esta reducción, aparte de facilitar su manejo por la reducción de tamaño, permite eliminar ejemplos/instancias repetidas, ruido, valores atípicos, redundancias… Aunque la selección de instancias para clasificación (cuando la variable a predecir es categórica) ha sido ampliamente estudiada desde hace varias décadas, no ha ocurrido lo mismo en regresión (cuando la variable a predecir es numérica). Tan sólo unos escasos estudios afrontan este problema debido, entre otros motivos, a su dificultad.

El presente artículo encara esta tarea desde un nuevo punto de vista: la combinación de diversos métodos de selección de instancias para dar un único resultado. La novedad es doble: aporta un nuevo método en un campo poco investigado y, por otro lado, demuestra que la combinación ofrece mejores resultados que los métodos aplicados individualmente. Pese a que la combinación de métodos de aprendizaje (ensembles) no es nueva y ha sido aplicada en las últimas décadas a diversas tareas, entre ellas, clasificación y regresión. La combinación de métodos de selección de instancias no había sido aplicada a regresión con anterioridad.

Resaltar que el artículo es fruto de una colaboración internacional entre la Universidad de Burgos y dos universidades polacas: Silesian University of Technology and University of Bielsko-Biala. Además, el artículo ha sido publicado en la revista «Information Fusion», que está en la tercera posición del ranking elaborado por Thomson Reuter para la categoría «Computer Science, Theory and Methods».

En resumen, como novedad del artículo, podemos destacar la presentación de una nueva técnica de selección de instancias. Dicha idea es validada mediante diversos experimentos con un amplio número de conjuntos de datos. Por último, la ventaja de la combinación puede ser vista desde diversos enfoques: calcula mejores subconjuntos, puede ser ejecutado en paralelo y permite dar mayor importancia a la reducción o a la precisión mediante un umbral definido por el usuario.

Este estudio ha sido realizado por el Grupo de Investigación de la UBU Advanced Data MIning Research And Bioinformatics LEarning (ADMIRABLE).

Palabras clave: elección de instancias; regresión; minería de datos. Instance selection; Regression; Ensemble models.   Referencia bibliográfica del artículo:

Arnaiz-González, Á., Blachnik, M., Kordos, M., & García-Osorio, C. (2016). Fusion of instance selection methods in regression tasks. Information Fusion, 30, 69-79. doi: 10.1016/j.inffus.2015.12.002Dirección de contacto con el autor:

Álvar Arnaiz González (alvarag@ubu.es). Universidad de Burgos. Grupo de investigación Advanced Data MIning Research And Bioinformatics LEarning (ADMIRABLE).Datos de la revista:

Information Fusion (Elsevier). ISSN:1566-2535, e-ISSN:1872-6305:

  • Revista indexada en  Science Citation Index (WOS)
  • Factor de impacto (2014): 3,001.  Q1 posición 3/102 en la categoría Computer Science, Theory & Methods. (Fuente consultada Journal Ctitation Report®)
  • SCImago Journal Rank (SJR): 1,750. Q1 posición  32/226 en la categoría Information Systems.

Otra información relevante:

Para lectores interesados en preprocesamiento:

  • García, S., Luengo, J., & Herrera, F. (2015). Data preprocessing in data mining. Switzerland: Springer. Doi: 10.1007/978-3-319-10247-4.

Para lectores interesados en selección de instancias:

  • Arnaiz-González, Á., Díez-Pastor, J. F., Rodríguez, J. J., & García-Osorio, C. I. (2016). Instance selection for regression by discretization. Expert Systems with Applications, 54, 340-350. DOI: 10.1016/j.eswa.2015.12.046.
  • Garcia, S., Derrac, J., Cano, J. R., & Herrera, F. (2012). Prototype selection for nearest neighbor classification: Taxonomy and empirical study. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 34(3), 417-435. DOI: 10.1109/TPAMI.2011.142.

Resumen redactado por Alvar Arnaiz González.