De gegevens zijn afkomstig van meerdere Yahoo-nieuwswebsites, meldt Yahoo in een bericht op Tumblr. Het gaat om data van onder andere Yahoo News, Yahoo Sports en Yahoo Finance.
De gedeelde data is volledig geanonimiseerd. Onderzoekers kunnen hierdoor niet zien door wie online handelingen zijn uitgevoerd.
Machine learning
De dataset van 13,5 terabyte bevat meer dan 110 miljard online interacties. Deze data kan door onderzoekers worden gebruikt voor onderzoek naar kunstmatige intelligentie met machine learning.
Bij machine learning leert software om zelf beslissingen te nemen op basis van achterliggende software. Programma’s worden getraind in het maken van beslissingen, door zoveel mogelijk eerdere (menselijke) scenario’s voor te leggen.
Het gedeelde datapakket is volgens Yahoo de grootste in zijn soort. Techbedrijven deelden nog niet eerder zoveel informatie.