Data Science

Guía sobre Dataset: qué es, tipos y fuentes

  • No hay sugerencias porque el campo de búsqueda está vacío.

    Por Pere Munar, publicado en 24 abril 2024

    Un dataset es un gran archivo de datos organizados (estructurados) o no que puede contener desde texto y números, hasta imágenes, vídeo y sonido. Por regla general, los datasets contienen ingentes cantidades de datos, sirviendo para realizar análisis de datos y extraer patrones (una rama del big data) o para entrenar a Inteligencias Artificiales. Sin embargo, hay conjuntos de datos más grandes que otros.

    Cuando un dataset está ordenado de forma coherente, facilita mucho el proceso de análisis y comprensión.


    Guia sobre Dataset que es tipos y fuentes


    Componentes de un Dataset

    Además de datos, en un dataset estructurado podemos encontrar los siguientes elementos.

    • Filas: son los grupos básicos en los que se organizan los datos. Por ejemplo, si tenemos un dataset con información de clientes, cada fila podría representar a un cliente concreto. O si tenemos un dataset que registra las ventas, cada fila podría representar una transacción concreta. En resumen, una fila es cada una de las entradas en una base de datos.

    • Columnas: son cada uno de los apartados que componen una fila y donde encontramos sus características o información. Siguiendo con el ejemplo del cliente, cada columna alojaría una información sobre este, como su nombre, edad, historial de compra… Del mismo modo, en el ejemplo de las ventas, cada columna indicaría las características de esa transacción como la hora y el día que se ha efectuado y lo que costó. En definitiva, las columnas son los atributos de cada una de las entradas.

    • Valores: son los datos que encontramos dentro de cada fila y columna, que pueden estar en diferentes formatos.


    Tipos de Dataset


    Tipos de conjuntos de datos según su formato

    • Numérico: contiene únicamente datos en forma de números y con él se pueden hacer esencialmente análisis cuantitativos y estadísticos. Es por ello que se utiliza sobre todo en el campo de la ciencia, la estadística y las finanzas.

    • De texto: en este caso, la información está en formato de palabras y caracteres y se utiliza sobre todo para entrenar modelos de lenguaje natural y para desarrollar herramientas de traducción automática. Dentro de este conjunto de datos podemos encontrar estudios, noticias, reseñas, publicaciones en redes sociales, artículos, blogs, foros…

      Son los que más al alcance están del usuario estándar, pudiendo encontrar muchos en repositorios públicos online.

    • De vídeo e imagen: como su nombre indica, contienen datos en formato vídeo e imagen, sirviendo principalmente para entrenar a los sistemas informáticos encargados de interpretar y analizar imágenes o vídeos así como de identificar patrones dentro de ellos; en definitiva, lo que se conoce como modelos de visión por computadora.


    Tipos de conjuntos de datos según su estructura

    • Tablas (data set estructurado)

      Son los más habituales y tienen la ventaja de que son intuitivos y fáciles de entender, por lo que los pueden utilizar usuarios sin altos conocimientos técnicos. Las bases de datos relacionales y las hojas de cálculo son ejemplos de data sets estructurados.

      Por otro lado, permiten un análisis eficiente y rápido, utilizándose además en una gran variedad de sectores como el marketing y las finanzas.

    • Dataset no estructurado

      Los datos no están organizados, siendo así más difícil su procesamiento y su análisis. Un ejemplo perfecto de conjunto de datos no estructurados serían los correos electrónicos dentro del email.

      Al igual que los conjuntos de datos estructurados, dentro de este tipo también podemos englobar diferentes datasets según su formato.


    ¿Dónde puedo encontrar Datasets?

    Antes que nada, debes saber que cualquier persona puede crear un conjunto de datos almacenando datos e información digitalmente. No obstante, hay usuarios que deciden publicarlos (de forma autónoma o porque forma parte de su trabajo) para que el público pueda acceder a ellos.

    En ese sentido, podemos encontrar conjuntos de datos públicos (gratuitos) o privados.

    Respecto a los conjuntos de datos públicos, cualquier usuario puede acceder a ellos y se pueden encontrar en plataformas concretas como es el caso de Google Data Search o FiveThrityEight. La primera es probablemente el buscador de dataset más grande online en cuanto a información de empresas. La segunda aloja una gran cantidad de datos sobre política, deporte y encuestas a nivel global. Ambos son fiables y puedes utilizarlos en tus proyectos de forma gratuita.

    Por su parte, los conjuntos de datos privados los suelen comprar empresas u organizaciones privadas y, debido a que los datos no son públicos, hay que tener especial cuidado con su privacidad a la hora de almacenarlos y tratarlos, pues suelen ser el blanco de los ciberataques.

    Dentro de los conjuntos de datos privados también encontramos datos gubernamentales extremadamente sensibles que no son de dominio público y que, por tanto, no todo el mundo puede acceder a ellos.

    Curso Data Science en Marketing

    Pere Munar