Los 10 conceptos clave para entender el Big Data y el Data Science.

Los 10 conceptos clave para entender el Big Data y el Data Science.

A estas alturas de 2018, son ya muchas las empresas que están comenzando a aplicar big data y análisis de datos. Unas en un estado muy inicial y otras que ya están llevando a cabo estrategias a nivel corporativo de transformación digital.
27 Septiembre 2018

Sin embargo, a la hora de profundizar un poco más, uno se da cuenta de que en muchas ocasiones, no todos los miembros de la organización tienen claros los conceptos que engloba esta disciplina, incluso no se tienen claras las diferencias entre Big Data y Data Science

Escuchamos constantemente big data, machine learning, inteligencia artificial… Pero ¿sabes exactamente qué diferencias hay entre unos y otros? Hemos querido enumerar los conceptos clave del sector del big data y del Data Science y describirlos brevemente, para resolver cualquier tipo de confusión.

 

10 conceptos clave para entender el Big Data y el Data Science

 

1. Inteligencia Artificial.

Se conoce coloquialmente a la inteligencia artificial cuando se aplica a una máquina una serie de funciones cognitivas propias del ser humano, basadas en el razonamiento y en la conducta. Otra definición pasa por considerarla como un “área multidisciplinar, que, a través de ciencias como la computación, la lógica y la filosofía, estudia la creación y diseño de entidades capaces de resolver problemas cotidianos por sí mismas, utilizando como paradigma a la inteligencia humana”.

Pero ¿qué relación tiene con la disciplina del big data?. El denominador común, como no podría ser de otra manera, son los datos. La Inteligencia artificial se nutre de ingentes cantidades de datos, de los cuales, aprende. De tal forma que aplicando estadística, uno es capaz de realizar predicciones a futuro. .

 

2. Machine learning:

También suele haber confusión entre machine learning e inteligencia artificial, ya que, aunque van de la mano, la diferencia principal es el contexto de subordinación que existe entre un término y el otro. Machine learning es un concepto que queda enmarcado dentro de la inteligencia artificial; es una de sus ramas de estudio.

El machine learning especifica una forma de aprendizaje de las máquinas a partir de los datos introducidos. Comparte con la inteligencia artificial el uso de algoritmos, pero se enfoca en “educar” a la máquina para que logre un grado mayor de autonomía. En definitiva, se centra en que la máquina autoaprenda y corrija errores por sí sola.

 

3. Deep learning:

Es el concepto más complejo de los tres (Inteligencia Artificial, Machine Learning y Deep Learning) y la tecnología más sofisticada de las tres, porque toma conceptos básicos de la Inteligencia artificial con el objetivo de resolver problemas a partir de redes neuronales profundas que imitan la forma en la que nuestro cerebro toma decisiones.

En el enfoque Deep learning “se usan estructuras lógicas que se asemejan en mayor medida a la organización del sistema nervioso de los mamíferos, teniendo capas de unidades de proceso (neuronas artificiales) que se especializan en detectar determinadas características existentes en los objetos percibidos”.

Los modelos computacionales de Deep learning imitan las características arquitecturales del sistema nervioso, permitiendo que dentro del sistema global haya redes de unidades de proceso que se especialicen en la detección de determinadas características ocultas en los datos. Los coches autónomos son un ejemplo claro de cómo se está aplicando la tecnología de Deep learning en nuestra vida diaria.

 

4. Modelos Algorítmicos:

Un algoritmo es un conjunto prescrito de instrucciones o reglas que permite llevar a cabo una actividad mediante pasos sucesivos. Sin embargo, en Inteligencia Artificial es complicado definir algoritmos que hagan lo que queramos: ¿qué pasos hay que seguir para detectar un gato en una foto? ¿o para decidir si un cliente se va a cambiar de compañía telefónica? ¿o para estimar el volumen de negocio que tendrá una compañía en el próximo mes?

Estos problemas no se pueden resolver con instrucciones concretas dadas a un ordenador. En su lugar, se utilizan modelos matemáticos complejos que aprenden a base de ejemplos, es decir, a través de los datos. Este proceso de aprendizaje se denomina entrenamiento del modelo.

 

5. Variables:

En el mundo Big Data, las variables son las magnitudes incluidas en cada uno de los ejemplos de los que se nutren los modelos algorítmicos. Por ejemplo, en el problema de detección de abandono, algunas variables relevantes pueden ser: la frecuencia de uso, el volumen contratado, si usa la app móvil o no, etc. Toda esta información es la que compone el conjunto de datos, o dataset, con el que se entrenará al modelo algorítmico.

 

6. Data mining:

Este término hace referencia a la acción de exploración de los datos con el objetivo de encontrar relaciones entre variables y patrones de comportamiento para orientar la modelización.   

 

7. Clustering:

Está relacionado con la minería de datos en el sentido de que el clustering es una técnica de la primera. El proceso consiste en, a través de algoritmos matemáticos y usando la información recogida de las variables, dividir o clasificar los datos existentes en grupos con características similares. Cada grupo se denomina cluster, y cada cluster está, por tanto, formado por objetos similares entre sí, pero distintos con respecto a los objetos de otros clusters.

Es importante  no confundir la técnica de clustering con la de clasificación, ya que la primera se enmarca dentro del aprendizaje no supervisado (tenemos información de un conjunto de datos de entrada) mientras que la clasificación se encuentra dentro del aprendizaje supervisado (disponemos de información tanto de la entrada como de la salida, es decir, cada dato ya viene etiquetado)

 

8. Procesamiento lenguaje Natural.

También se relaciona con la Inteligencia Artificial porque el PLN (o NLP, en sus siglas en inglés, Natural Language Processing) es una rama de estudio de la IA. Trata de investigar la manera en la que las máquinas se comunican con las personas mediante el uso de lenguas naturales como pueden ser el español o el  inglés. Siri, Cortana o Alexa son ejemplos de PLN en nuestro día a día.                                                                                  .

 

9. Datos no estructurados:

Este término tiene relación con el mundo del análisis de datos en tanto en cuanto los datos no estructurados son precisamente los que han protagonizado la revolución del big data por su capacidad de almacenamiento en tiempo real. Son aquellos que se encuentran en el formato tal y como fueron recogidos. Carecen de un formato específico.

No se pueden almacenar en tablas porque no se puede desgranar su información a tipos más básicos de datos. Ejemplos de datos no estructurados son PDF, correos electrónicos, imágenes….

 

10. Data Lake:

La mayoría de las empresas tienen los datos digitalizados repartidos por todas las áreas de la organización, y en ocasiones ocurre que cada empleado tiene localizados sus datos pero no otros, y los departamentos se convierten en silos estancos donde los datos no se transfieren.

Un Data Lake es un entorno de datos compartidos en su formato original que comprende múltiples repositorios. El Data Lake utiliza una arquitectura plana para almacenar los datos, es decir, la información se almacena en multitud de ficheros planos que no son procesados hasta que no es necesario su uso

¿Qué opinas de este artículo?