Deze post is onderdeel van een serie over “FemFM”, over de representatie van vrouwen op de Nederlandse radio. In andere post van je de statistieken vinden, de aanleiding, hoe ik de data verzameeld heb. In deze post leg ik uit hoe ik bepaal of een artiest een vrouw is.
Poging 1
Nu we de data te verzameld hebben, is de volgende vraag: is dit een vrouw? Mijn eerste idee was om gewoon een lijstje met bekende vrouwen te zoeken en daar tegen te matchen.
Je kan er wel een googletje aan wijden, maar een downloadbare lijst is er niet zo 1,2,3. Ik begon met de lijst van IMDB, dat zijn er dan in ieder geval al 100. Andere lijsten hebben er meer, bijv deze, maar daar zitten dan ook weer allemaal liedjes tussen, en dan moet je nog meer programmeren of met de hand zoeken. Bah! Weer andere lijsten kun je niet filteren op geslacht.
Gebruik ChatGPT zei mijn man, en dat is niet zo’n gek idee. Ik wil er eerst 500 opvragen, maar dat is teveel, maar gelukkig kan ik wel een paar keer “doe er nog eens 100” haha. Ik ben voorlopig nog slimmer dan een AI.Helaas zitten daar, uiteraard, foutjes tussen, zo krijg ik Amanda Seyfriend en dat is geen zangeres. Nu maakt dat voor dit project niet uit, maar het is toch weer typisch. Nog typischer is dat in voor Nederlandse artiesten ook Suzan en Freek terugkrijg.
Half puntje, zullen we maar zeggen?
En, ook nog opvallend, op een dag toen ik toevallig even zat te luisteren naar de stream, kwam Jennifer Lopez langs, maar ze werd niet aangemerkt als vrouw. Ik dacht even dat er een foutje zat in mijn code, maar wat bleek, ze stond niet op mijn lijst van vrouwen. Ze staat dus niet in de top 100 van IMDB en kwam ook niet uit GPT rollen. Dat vind ik wel opvallend want ze is toch wel echt een superster. Het lijkt er op dat de GPT data een recency bias heeft omdat bijv Dua Lipa er wel op staat, die volgens Google pas 6 miljoen albums verkocht heeft versus 80 miljoen van Lopez.
Poging 2
Na een beetje zoeken kwam op ik op de database MusicBrainz. Daar staan enorm veel artiesten in, en ze hebben ook informatie over gender van mensen in de database, bijvoorbeeld voor P!nk:
Dat kan je dus, iedere jeer als er een liedje langskomt, uitlezen en dan meteen bepalen of het een vrouw is. Omdat dat tamelijk langzaam gaat (MusicBrainz heeft, denk ik, een soort throttle op hun database zodat je het niet helemaal leeg kan trekken) heb ik eerst alle liedjes opgeslagen, en daarna het gender opgezocht met een los scriptje.
Gender van bands bepalen met MusicBrainz
Een enkele artiest zoals Pink hierboven is eenvoudig, het heeft een veld Gender en daar staan Female.
Voor een band is de zaak complexer. Je kan in MusicBrainz bij een band wel alle leden opvragen, en dan per lid weer kijken wat hun gender is, maar wat tel je dan mee? Ik kwam er bijvoorbeeld door deze analyze achter dat de Jayhawks een vrouwelijk lid hebben (Karen Grotberg) en ik heb toch heel wat uurtje naar hun muziek geluisterd, alleen maar meer dan 0% vrouw tellen, dat vind ik te losjes. Ik heb er dus voor gekozen om bands met 50% of meer mee te tellen, daaronder niet. Omdat de database uit zo’n 60.000 liedjes bestaat met duizenden artiesten, kan je niet alles met de hand gaan doen. Het resultaat is dan ABBA meetelt, maar Skunk Anansie niet, die zou immers (qua cijfers!) lijken op de Jayhawks, ook al vind je een vrouwelijke frontvrouw misschien wel “een vrouw”, als je data automatiseert moet je ergens een grens trekken.
Gender van “featurings” bepalen met MusicBrainz
Er is dan nog een categorie liedjes, namelijk samenwerkingen. Omdat de data uit verschillende bronnen komt, is het niet altijd gelijkvorming. De ene zender gebruikt feat.
of ft
, een andere weer X
en een andere weer &
, en ook niet altijd consistent. In zulke gevallen knip ik de eerste artiest eraf, en bepaal van die artiest het gender, want vaak is een featuring natuurlijk toch vooral een liedje van de eerste artiest (den aan California Gurls van Katie Perry en Snoop Dogg).
Deze aanpak heeft voor- en nadelen, Ike en Tina Turner worden als twee losse artiesten gezien en dan als man geclassificeerd (want hij staat vooraan), terwijl je hen als unit natuurlijk ook als een band kunnen tellen, dan hebben ze 50% vrouw en tellen ze wel meer. Aan de andere kant, een samenwerking zoals Jessie J featuring Big Sean en Dizzee Rascal (maar voor 33% uit vrouwen bestaand) telt dan weer wel als vrouw.
Data in aggregaat
In het bovenstaande heb ik het steeds over wel of geen vrouw, als een binaire keuze. Die tellen wordt gebruikt in het besluiten of er in het live radio station wordt doorgezapt, want dan heb je immers een ‘ja’ of een ‘nee’ nodig. Wanneer ik aggregaties tel (bijvoorbeeld het percentage vrouwen over een hele zender) het is niet nodig om zo binair te tellen. Dan tel ik eenvoudigweg het percentage als cijfer mee. Als er dus 3 liedjes zouden spelen van ABBA, met 50% vrouwen, komt het percentage op 50% uit, niet op 100. Als er drie liedjes van de Jayhawks spelen, met 20% vrouwelijke leden, dan komt het totaal op 20% uit, niet op 0. Zo zijn de geaggregeerde data een preciezere weergave dan de analyzes waarvoor een ja/nee keuze vereist is.