372 palabras
2 minutos
The Quiz Challenge | Minería de Datos y Dashboard Interactivo
Visitar
Para ver el dashboard en línea, entra aquí o haz clic en la imagen de arriba.
The Quiz Challenge – Dashboard Interactivo
Este proyecto combina minería de datos descriptiva con un modelo de clustering y un dashboard interactivo en Tableau. Su objetivo es ayudar al canal de YouTube The Quiz Challenge a identificar patrones en métricas clave (vistas, comentarios, suscripciones, likes/dislikes) y tomar decisiones más precisas sobre qué contenido crear.
Fuente de datos
- Dataset original exportado desde YouTube: vistas, suscriptores, comentarios, likes/dislikes.
- Archivos agrupados por tipo de métrica en carpetas separadas.
- Investigación de fuentes externas para enriquecer datos (demografía, keywords en tendencia).
Dashboard en Tableau
- ETL realizado en Tableau Prep: unión de fuentes, limpieza, campos calculados (cuartiles, grupos horarios).
- Visualizaciones interactivas:
- Líneas de tiempo de vistas y suscripciones.
- Histogramas por duración y categoría.
- Filtros por cuartil de vistas, grupo horario y cluster.
- Panel de detalle por video con métricas y etiquetas.
- Publicado en Tableau Public para acceso de stakeholders.
Modelo descriptivo con clusters
- Entorno: Python 3 en Jupyter Notebook.
- Preprocesamiento: tokenización con NLTK, eliminación de stopwords, lematización.
- Vectorización: TF-IDF para texto; normalización para métricas numéricas.
- Algoritmos: K-Means (selección de k con curva de codo y silhouette), validación con DBSCAN.
- Evaluación: Silhouette Score, Davies–Bouldin, análisis de cohesión vs separación.
Tecnologías utilizadas
- Visualización: Tableau Desktop & Public
- Análisis y modelado: Python, Jupyter Notebook, Pandas, NumPy, Scikit-Learn, NLTK
Desarrollo del proyecto
-
Exploración inicial
- Carga de CSVs.
- Revisión de calidad y formatos de datos.
-
ETL en Tableau Prep
- Unión y limpieza.
- Creación de campos derivados.
- Exportación de extractos
.hyper.
-
Modelado en Python
- Preprocesamiento de texto.
- Vectorización TF-IDF.
- K-Means y validación con métricas.
- PCA para visualización 2D de clusters.
-
Dashboard final
- Conexión a datos procesados.
- Creación de hojas y diseño final con acciones de filtro.
- Publicación en Tableau Public.
Dashboard Interactivo
Listado de tecnologías utilizadas
Autores
- Vladimir Curiel - Co-desarrollador
- Natasha Lopez - Co-desarrolladora
The Quiz Challenge | Minería de Datos y Dashboard Interactivo
https://vladimircuriel.com/posts/9_the-quiz-challenge/
