Blog de marketing digital | Cyberclick

Machine Learning y Big Data: tendencias tecnológicas entre data scientists (2021)

Escrito por David Tomas | 17 de septiembre de 2020 8:00:00 Z

El big data ha dado mucho que hablar en los últimos años, pero para muchos sigue rodeado de un halo de misterio. Y para resolverlo, ¿qué mejor que preguntar a los propios data scientists sobre las tendencias de su sector?

Pues bien, eso es lo que ha hecho la plataforma de análisis de datos Kaggle. Para su estudio State of Data Science and Machine Learning 2019, han encuestado a más de 4000 data scientists sobre su perfil demográfico, sus condiciones laborales y las herramientas y métodos que utilizan. ¡Vamos a ver las conclusiones!

 

El perfil de los data scientists

 

Género

Hay una brecha de género muy significativa en el mundo del big data y el machine learning, ya que el 84% de los encuestados se identifican como hombres. Esta cifra era algo inferior en Estados Unidos (79%) y superior en Japón (90%).

 

Edad

La ciencia de datos es sin duda una profesión joven y dominada por los millennials. La franja de edad más común entre los encuestados era la de 25 a 29 años, seguida por 30 a 34. Sin embargo, hay porcentajes significativos en edades mayores, por ejemplo, el 18% de los encuestados tenía 40 años o más.

Cabe destacar que en La India el perfil es aún más joven, con un 41% de los entrevistados entre 19 y 24 años.

 

Educación

No resulta sorprendente que los data scientists tengan un gran nivel educativo. La mayoría de ellos (52%) cuentan con un máster, el 23% ha completado una carrera y el 19% cuenta con un doctorado. Este último porcentaje se duplica en Alemania (38%).

Además, la formación continua en big data y machine learning tiene un papel muy destacado en este sector, ya que está en constante evolución. Tan solo el 2% de los entrevistados afirmaron no utilizar ningún medio para mejorar sus habilidades de ciencia de datos.

Más del 70% de los encuestados leían blogs para mantenerse al día sobre el sector y cerca del 40% utilizaba YouTube para su formación continua. También hubo un porcentaje muy significativo de usuarios que mencionaron los foros de Kaggle (65%), pero hay que tener en cuenta que la encuesta se hizo entre los usuarios de esta herramienta, por lo que esta cifra podría estar sesgada.

 

¿Cómo y dónde trabajan los data scientists?

 

Experiencia en ciencia de datos y machine learning

La comunidad global de data scientists se compone de novatos y veteranos a partes más o menos iguales. Aproximadamente un tercio de los encuestados tiene menos de 3 años de experiencia, otro tercio tiene entre 3 y 5 años y el tercio restante lleva más de 5 años trabajando en este campo.

En lo que se refiere específicamente a machine learning, podemos ver que la tendencia es a tener menos experiencia, ya que se trata de un sector muy nuevo. El 35% de los encuestados cuenta con 2 años de experiencia o menos, y solo el 6% afirma tener más de 10 años de experiencia.

 

Tareas más frecuentes

¿Cómo es el día a día de un data scientist? Según los entrevistados, sus tareas más frecuentes son analizar y entender los datos (mencionada por el 75% de los entrevistados), construir prototipos para explorar cómo aplicar el machine learning (cerca del 70%) y experimentar e iterar para mejorar los modelos de machine learning existentes (más del 65%).

 

¿Qué tipo de empresas emplean a data scientists?

El estudio de Kaggle analiza algunos aspectos clave de las empresas que emplean a científicos de datos: número de empleados, tamaño del equipo y adopción de prácticas de machine learning.

Uno de los descubrimientos más curiosos es que las empresas que emplean data scientist están repartidas entre dos extremos: compañías de menos de 49 empleados (en las que trabajan el 30% de los encuestados) y de más de 10.000 (un 23% de las respuestas).

El tamaño de los equipos dedicados a la ciencia de datos también varía mucho de empresa a empresa. El 40% de los entrevistados trabaja en equipos de 5 personas o menos, mientras que el 25% forma parte de un equipo de 20 personas o más.

En cuanto a la adopción del machine learning, vemos una clara tendencia ascendente. Más del 30% de los encuestados afirman que su empresa ha empezado a usar métodos de machine learning recientemente y el 17% que están explorándolos. Solo un 5% de los entrevistados trabajan en empresas donde no se emplea el machine learning en la actualidad.

 

Las tecnologías y métodos utilizados en machine learning y big data

 

Entornos de desarrollo interactivos

Las herramientas de análisis de big data más comunes entre los data scientists son los entornos de desarrollo. Dentro de ellos, el más popular es Jupyter (Jupyter Labs, Jupyter Notebooks, etc.), empleado por el 83% de los data scientists encuestados.

 

Métodos y algoritmos

Los métodos empleados en el análisis de big data destacan por su sencillez. Los más empleados son la regresión lineal y logística, seguidos por los árboles de desarrollo. Aunque no son tan potentes como las técnicas más complejas, pueden ser bastante efectivos y tienen la ventaja de ser más sencillos de interpretar, lo que podría explicar su popularidad. El 80% de los data scientist entrevistados empleaban regresiones y el 75% árboles de decisión.

En cuanto a entornos de machine learning, los data scientist usan múltiples herramientas. Más del 80% utiliza Scikit-learn, un paquete de Python que utiliza algoritmos de ciencia de datos populares. TensorFlow y Keras son los preferidos para deep learning.

 

Soluciones en la nube

La mayoría de los data scientists trabajan con la nube, pero más del 24% todavía no la utilizan. Entre los que sí lo hacen, las herramientas más populares son Amazon Web Services (46% de los encuestados), Google Cloud Platform (32%) y Microsoft Azure (20%).

 

Plataformas de machine learning

Lo más destacado en este apartado es el crecimiento de Google Cloud AutoML respecto del año anterior, ya que el porcentaje de encuestados que lo usan es muy superior. En 2018 esta herramienta era utilizada por un 4,2% de los encuestados a nivel global y un 2,6% en Estados Unidos, mientras que en 2019 la usaban un 6,4% de los usuarios globales y un 4% de los estadounidenses.