Cuando empecé a dar clase a principios de 2020 me pareció buena idea enseñar Exploratory Data Analysis mediante mis propios datos descargados de Spotify.
Para descargar tus datos de escuchas de Spotify simplemente entra aquí y al final del todo puedes pedir tu historia de datos del último año.
Yo hice esto en diciembre 2019 y otra vez a mediados de febrero 2021.
Vamos a ver qué pinta tienen mis datos.
Cómo se reciben los datos
Spotify te manda un email cuando tienen preparado tu paquete y puedes descargarlo desde ahí. La carpeta se llama MyData y tiene esta pinta:
Esta carpeta incluye diferentes archivos JSON con diferentes contenidos:
Follow.json
Playlist.json
StreamingHistoryX.json
De JSON a Pandas DataFrames
Con Python podemos utilizar las librerías json
y pandas
para pasar los datos a formato tabular (tablas de filas y columnas como en Excel).
Usando esas funciones podemos ver los datos como DataFrames de pandas:
Como se ve, en los datos de StreamingHistory
tenemos:
artistName: nombre del artista o banda
endTime: Timestamp del momento en que se terminó la escucha
msPlayed: milisegundos (ms) de reproducción
trackName: nombre de la canción
Feature Engineering o cómo generar nuevos datos partiendo de lo que tenemos
Aunque tenemos ya buena información, podemos extenderla:
Calcular el momento de inicio de la reproducción restando
msPlayed
aendTime
Crear nuevas variables temporales como semana, día de la semana, etc
Crear la variable
covid
con valorTrue
si la escucha ocurrió después del confinamiento de Marzo 2020, y en función de esta variable partir el dataset en dos:pre_covid
ypost_covid
Empieza el análisis
Los 5 artistas y 5 canciones más escuchados
Usando value_counts()
sobre la variable que queremos analizar:
Me sorprende que no haya nada de Hamilton o de La Costa Brava, pero bueno.
¿Cuándo utilizo Spotify?
Aquí lo separo en pre y post confinamiento, cuando empecé a trabajar desde casa. Hay 2 grandes diferencias de uso:
El rato de conducir desde casa al trabajo por la mañana, que desde el confinamiento ya no lo tengo
La tarde en la oficina y la vuelta a casa en coche escuchando música. Por la tarde en casa escucho menos música.
Y partiendo en findes/no findes:
Y partiendo en días de la semana:
En general lo que más se ha resentido son las tardes, que ya no escucho tanta música. Será que ahora que estoy más en casa no necesito música para aislarme en la ofi ;)
Además, el uso de Spotify empieza más tarde generalmente —menos madrugones para ir a la oficina!
La semana que viene traeré más análisis y más exponer mis vergüenzas.
Si te ha gustado, suscríbete y comparte!
Lecciones
Con el covid y el confinamiento, ya no conduzco tanto y eso eran unas ~10h a la semana de Spotify.
Cuando empiezo a currar ahora, ya llevaría un par de horas escuchando música en el coche de ser todo normal, y se nota ese lag.
Cuando una canción/grupo me gusta, me gusta mucho.