El gran volumen de datos en el que se vive en la actualidad, hace evidente la necesidad de clasificar los datos para obtener relaciones, asociaciones y correlaciones de ellos. Para llevar a cabo esta clasificación es necesario emplear algoritmos de agrupamiento del tipo no supervisado y particionales. Un candidato de este tipo es el algoritmo KMeans, ampliamente utilizado para resolver el problema de agrupamiento. Sin embargo, este algoritmo necesita de argumentos iniciales como lo son el número de grupos y un conjunto de datos llamados centroides que son los representantes de cada uno de ellos. Esto puede ser una fortaleza pero a la vez puede representar limitaciones del algoritmo. Es por ello que en este trabajo se inicia con la caracterización general del algoritmo KMeans en base a la selección de los centroides iniciales para después estudiar la técnica de análisis de componentes principales y con esta proporcionar centroides iniciales óptimos, pero esa etapa aún está en desarrollo y por tanto solo se presenta la idea inicial. La herramienta computacional es clave para el trabajo con alta densidad de datos es por eso que en este trabajo también se tiene como objetivo implantar un marco de trabajo llamado Apache Spark.
Abstract
El gran volumen de datos en el que se vive en la actualidad, hace evidente la necesidad de clasificar los datos para obtener relaciones, asociaciones y correlaciones de ellos. Para llevar a cabo esta clasificación es necesario emplear algoritmos [...]