Revisión de algoritmos para la detección de valores atípicos

  • Cristina Mariuxi Flores Urgiles Universidad Católica de Cuenca.
  • Martin Sebastian Ortiz Amoroso Universidad Católica de Cuenca.
Palabras clave:
Valores Atípicos, Minería de Datos, Clustering, Basado en Densidad, Basado en Distancia

Resumen

La detección de los valores atípicos es una tarea extremadamente importante en una amplia variedad de dominios de aplicación. Con frecuencia estos valores son eliminados para mejorar la precisión de la información, pero a veces la presencia de un valor atípico tiene un cierto sentido o explicación que se puede perder si se elimina, puesto que su identificación puede conducir al descubrimiento de un conocimiento inesperado en diversas áreas como por ejemplo: actividades delictivas en el comercio electrónico, detección de fraudes e incluso el análisis del rendimiento estadístico. El artículo que se presenta es el resultado de una investigación documental, no exhaustiva, de la opinión de diversos autores, que enfocaron su trabajo en determinar la eficiencia de los diversos métodos o algoritmos para la detección de valores atípicos. Inicialmente se realizó un estudio teórico conceptual que permita entender la naturaleza de un valor atípico y su clasificación, para después realizar un análisis sobre las diferentes técnicas de detección basadas en clustering, distancias y densidad. Para cada una de las técnicas de detección de valores atípicos estudiada se presentan algoritmos que han sido planteados por diversos autores además de la eficiencia que cada uno de ellos ha tenido en determinados contextos.

Descargas

La descarga de datos todavía no está disponible.

Citas

J. Han y M. Kamber, «Data Mining: Concepts and Techniques».

D. Hawkins, Identification of Outliers., London: Chapman & Hall, 1980.

R. a. D. J. H. Bolton, «Statistical Fraud Detection: A Review,» Statistical Science, pp. pp. 235-249, 2002.

T. a. C. E. B. Lane, «Temporal Sequence Learning and Data Reduction for Anomaly Detection,» ACM Transactions on Information and System Security, pp. Pages 295-331 , 2000.

A. a. A. F. Chiu, «Enhancement on Local Outlier Detection.,» Chiu, A. an 7th International Database Engineering and Application Symposium (IDEAS03), pp. pp. 298-307., 2003.

E. a. R. N. Knorr, « Algorithms for Mining Distance-based Outliers in Large Data Sets,» Proc. the 24 th International Conference on Very Large Databases (VLDB), pp. pp. 392-403., 2000.

A. L. T. a. C. S. Loureiro, «Outlier Detection using Clustering Methods: a Data Cleaning Application,» in Proceedings of KDNet Symposium on Knowledge-based Systems for the Public Sector, Bonn, Germany..

K. C. H. S. Z. a. J. C. Niu, «ODDC: Outlier Detection Using Distance Distribution Clustering,» PAKDD 2007 Workshops, Lecture Notes in Artificial Intelligence (LNAI) 4819, Springer-Verlag., p. pp. 332–343, 2007.

J. a. H. W. Zhang, «Detecting outlying subspaces for high-dimensional data: the new Task, Algorithms, and Performance,» Knowledge and Information Systems,, 2006.

V. a. T. L. Barnett, «Outliers in Statistical Data,» John Wiley., 1994.

P. a. A. L. Rousseeuw, Robust Regression and Outlier Detection, John Wiley & Sons., 2000.

E. R. N. a. V. T. Knorr, « Distance-based Outliers: Algorithms and Applications.,» VLDB Journal, pp. 237-253., 2000..

S. R. R. a. K. S. Ramaswami, «Efficient Algorithm for Mining Outliers from Large Data Sets,» Proc. ACM SIGMOD, pp. pp. 427-438., 2000.

F. a. C. P. Angiulli, «Outlier Mining in Large High-Dimensional Data Sets,» IEEE Transactions on Knowledge and Data Engineering, 17(2), pp. 203-215, 2005.

H. K. R. N. a. J. S. M., «Lof: identifying density-based local outliers,» In Proceedings of 2000 ACM SIGMOD International Conference on Management of Data., pp. 93-104, 2000.

H. K. P. G. a. C. F. S., « Fast outlier detection using the local correlation integral.,» Proc. of the International Conference on Data Engineering, pp. pp. 315-326., 2003.

J. L. B. A. P. a. S. F. Almeida, «Improving Hierarchical Cluster Analysis: A New Method with Outlier Detection and Automatic Clustering,» Chemometrics and Intelligent Laboratory Systems, p. 208–217, 2007.

C. C. Y. S. P. Aggarwal, «An effective and efficient algorithm for high-dimensional outlier detection,» The VLDB Journal, vol. 14, p. 211–22, 2005.

V. a. L. T. Barnett, Outliers in Statistical Data., John Wiley., 2000.

A. E. a. R. C., «A Meta Analysis Study of Outlier Detection Methods in Classification, Technical paper, Department of Mathematics, University of Puerto Rico at Mayaguez,» 2004.

J. R. K. R. Gnanadesikan, «Robust Estimates Residuals and Outlier Detection with Multiresponse Data,» Biometrics., vol. 28, pp. pp 81-124.

B. B. J. Peat, «Medical Statistics: “A guide to data analysis and critical appraisal”,» Blackwell Publishing , 2005.

I. Ben-Gal, «Outlier detection,» Data Mining and Knowledge Discovery Handbook: A Complete Guide for Practitioners and Researchers, pp. 131-146, 2005.

A. a. R. D. Jain, Algorithms for Clustering Dat, Prentice-Hall., 1988..

M. K. P. a. J. B. Laan, «A New Partitioning Around Medoids Algorithms,» Journal of Statistical Computation and Simulation, 2003.

S. a. S. Bay, Mining distance-based outliers in near linear time with randomization and a simple pruning rule, 2003.

M. H. K. R. N. a. J. S. Breunig, «identifying density-based local outliers,» Proceedings of 2000 ACM SIGMOD International Conference on Management of Data, p. 93–104., 2000.

S. H. K. P. G. a. C. F. Papadimitriou, «Fast outlier detection using the local correlation integral.,» Proc. of the International Conference on Data Engineering, pp. pp. 315-326., 2003.

D. X. a. J. F. J. Principe, «Unsupervised Adaptive Filtering,» de Information Theoretic Learning, vol. 1, John Wiley & Sons, 2000.

D. B. ,. S. S. A. Mira, «RODHA: Robust Outlier Detection using Hybrid Approach,» American Journal of Intelligent Systems, 2012.

A. Ankur, «Local Subspace based Outlier Detection. IC3 2009, CCIS 40, pp. 149–157, 2009.,» Contemporary Computing , pp. pp 149-157, 2009.
COMENTARIOS
Publicado
2018-06-22
ESTADÍSTICAS
  • Resumen 2
  • PDF 271
  • HTML 1
  • EPUB 11
  • Audio Español 10
Cómo citar
Flores Urgiles, C., & Ortiz Amoroso, M. (2018). Revisión de algoritmos para la detección de valores atípicos. Killkana Técnica, 2(1), 19-26. https://doi.org/10.26871/killkana_tecnica.v2i1.287