Taalmodellen zoals GPT-4 en Claude zijn krachtig en nuttig, maar de gegevens waarop ze zijn getraind, zijn een goed bewaard geheim. Het Allen Institute for AI (AI2) wil deze trend keren met een nieuwe, enorme tekstdataset die gratis te gebruiken en open is voor inspectie.
Dolma, zoals de dataset heet, is bedoeld als basis voor het geplande open taalmodel van de onderzoeksgroep, of OLMo (Dolma is een afkorting van “Data om OLMo’s Appetite te voeden). Aangezien het model bedoeld is om vrij te gebruiken en aan te passen door de AI-onderzoeksgemeenschap, zou dat ook (beweren AI2-onderzoekers) de dataset moeten zijn die ze gebruiken om het te maken.
Dit is het eerste “gegevensartefact” dat AI2 beschikbaar maakt met betrekking tot OLMo, en in een blogpost legt Luca Soldaini van de organisatie de keuze van bronnen en de grondgedachte achter verschillende processen uit die het team gebruikte om het geschikt te maken voor AI-consumptie. (“Er is een uitgebreider document in de maak”, merken ze aan het begin op.)
Hoewel bedrijven als OpenAI en Meta enkele van de vitale statistieken publiceren van de datasets die ze gebruiken om hun taalmodellen te bouwen, wordt veel van die informatie als bedrijfseigen behandeld. Afgezien van het bekende gevolg van het ontmoedigen van controle en verbetering in het algemeen, wordt er gespeculeerd dat deze gesloten benadering misschien te wijten is aan het feit dat de gegevens niet ethisch of legaal zijn verkregen: bijvoorbeeld dat illegale kopieën van veel auteursboeken worden ingenomen.
U kunt in deze door AI2 gemaakte grafiek zien dat de grootste en meest recente modellen slechts een deel van de informatie bieden die een onderzoeker waarschijnlijk zou willen weten over een bepaalde dataset. Welke informatie is verwijderd en waarom? Wat werd beschouwd als tekst van hoge versus lage kwaliteit? Zijn persoonlijke gegevens op de juiste manier weggelaten?

Grafiek met de openheid of het gebrek daaraan van verschillende datasets. Beeldcredits: AI2
Het is natuurlijk het voorrecht van deze bedrijven, in de context van een fel concurrerend AI-landschap, om de geheimen van de trainingsprocessen van hun modellen te bewaken. Maar voor onderzoekers buiten de bedrijven maakt het die datasets en modellen ondoorzichtiger en moeilijker te bestuderen of te repliceren.
Dolma van AI2 is bedoeld als het tegenovergestelde hiervan, met al zijn bronnen en processen – laten we zeggen, hoe en waarom het werd bijgesneden tot originele Engelstalige teksten – openbaar gedocumenteerd.
Het is niet de eerste die het open dataset-ding probeert, maar het is verreweg de grootste (3 miljard tokens, een AI-native maatstaf voor inhoudsvolume) en, zo beweren ze, de meest rechttoe rechtaan in termen van gebruik en machtigingen. Het maakt gebruik van de “ImpACT-licentie voor artefacten met een gemiddeld risico”, waarover u hier de details kunt zien. Maar in wezen vereist het dat potentiële gebruikers van Dolma:
- Verstrek contactgegevens en beoogde use-cases
- Maak alle van Dolma afgeleide creaties bekend
- Distribueer die derivaten onder dezelfde licentie
- Ga akkoord om Dolma niet toe te passen op verschillende verboden gebieden, zoals surveillance of desinformatie
Voor degenen die zich zorgen maken dat, ondanks de inspanningen van AI2, sommige persoonlijke gegevens van hen in de database zijn terechtgekomen, is hier een verwijderingsverzoekformulier beschikbaar. Het is voor specifieke gevallen, niet alleen een algemeen ‘gebruik mij niet’-ding.
Als dat je allemaal goed in de oren klinkt, is toegang tot Dolma beschikbaar via Hugging Face.
Source link: https://techcrunch.com/2023/08/18/ai2-drops-biggest-open-dataset-yet-for-training-language-models/