Google stelt dataset met afbeeldingen beschikbaar voor trainen van diepe neurale netwerken

Onderzoekers en ontwikkelaars kunnen vandaag de dag zelf aan de slag met zelflerende diepe neurale netwerken. Om hen hierbij te ondersteunen stelt Google nu de Open Images dataset beschikbaar. Deze dataset bestaat uit 9 miljoen links naar afbeeldingen die zijn voorzien van annotaties die betrekking hebben op ruim 6.000 categorieën.

Met behulp van de dataset moeten ontwikkelaars en onderzoekers in staat zijn een diepe neurale netwerken vanaf nul te trainen. In een blogpost leggen software engineers Tom Duerig en Ivan Krasin van Google uit dat het annoteren van de afbeeldingen geautomatiseerd is uitgevoerd met behulp van een vision model, dat vergelijkbaar is met de Google Cloud Vision API. Wel zijn alle geautomatiseerd gegenereerde labels door menselijke medewerkers gecontroleerd.

De annotaties worden door Google beschikbaar gesteld onder de CC BY 4.0 licentie. De afbeeldingen zijn voorzien van een CC BY 2.0 licentie. Google stelt geprobeerd te hebben afbeeldingen te gebruiken die een Creative Commons Attribution licentie hebben, maar geeft hiervoor geen garanties. Ontwikkelaars en onderzoekers zouden dan ook zelf de licentie van iedere afbeelding moeten controleren. De dataset is door Google ontwikkeld in samenwerking met de Cornell University en de Carnegie Mellon University.

De Open Images dataset van Google (bron: Google)

Dossiers