(Eleven reasons to stay away from OpenAI and ChatGPT; And what you would want instead, English version below)
OpenAI werkt volgens het silicon valley principe van “Move fast and break things”. Het doel is om de markt te veroveren en dat snel genoeg doen voordat rechters en beleidsmakers je terug fluiten. Dit geeft deze bedrijven, als ze eenmaal een monopoliepositie hebben bereikt, enorme macht. Rechtszaken worden voor miljarden afgekocht of geschikt en de politieke lobby is gigantisch.
(Microsoft Copilot gebruikt het taalmodel ChatGPT-4 van OpenAI. Onderstaande problemen hebben dus ook allemaal betrekking op MS Copilot)
OpenAI en ChatGPT:
1 hebben het hele internet gescraped, zonder ergens op te letten, dus de OpenAI
dataset bevat:
1.1 materiaal waar copyright op zit en/of achter paywalls vandaan is gescraped.
1.2 opensource licenties met attributievereisten.
1.3 werken met creative commons non-commercial & attribution licenties.
1.4 persoonsgegevens zonder toestemming van betrokkenen.
1.5 data van lage kwaliteit: alle complottheorieën, racistische uitlatingen, des- en misinformatie die op het internet zijn te vinden zitten in de dataset. Voorbeelden zijn 4chan- en 8chanfora en nazistische sites als Stormfront. Met de juiste prompts leveren OpenAI en ChatGPT leveren dergelijke informatie weer terug aan de gebruiker.
2 zijn niet transparant over data en algoritmen: Welke data gebruiken ze precies, hoe wordt die gewogen, hoe ziet het algoritme er uit en hoe is het getraind? Het is voor de gebruiker dus nauwelijks tot niet mogelijk de kwaliteit van de geleverde informatie te beoordelen.
3 is closed source. Hierdoor is het moeilijk om er onafhankelijk wetenschappelijk onderzoek naar te doen.
4 doen niet aan bronvermelding, wat beoordeling van de informatie eveneens bemoeilijkt
5 misbruiken onderbetaalde arbeid uit lage lonen landen om het algoritme verder te trainen. Zie: https://www.theguardian.com/technology/2023/aug/02/ai-chatbot-training-human-toll-content-moderator-meta-openai en https://time.com/6247678/openai-chatgpt-kenya-workers/
6 storten het internet vol met automatisch gegenereerde mis- en desinformatie en schadelijke content, aangezien de output deels is gebaseerd op de mis- en desinformatie en schadelijke content die zich in de database bevinden (zie punt 1.5). Zoeken en goede informatie vinden is daardoor veel moeilijker geworden. Dit is een zichzelf versterkend proces en dus een groeiend probleem naarmate er meer door ChatGPT en OpenAI gegenereerde content online komt. “Content marketeers” zetten ChatGPT en OpenAI op grote schaal in om click-bait en SEO-spam te genereren (Search Engine Optimalization, ofwel strategieën om een website hoger op de lijst van zoekresultaten te laten verschijnen).Zie https://www.businessinsider.com/seo-heist-ai-generative-artificial-intelligence-google-2023-12
7 vormen een onwenselijke machtsconcentratie. Er zijn slechts een paar partijen in de wereld die beschikken over zo veel data en computerkracht dat ze deze zeer inefficiënte manier van AI kunnen uitvoeren. Ook dit is een zichzelf versterkend proces: hoe meer data en computerkracht, hoe groter de machtspositie en hoe meer data, geld en verdere computerkracht dit wederom oplevert. De grote techbedrijven zijn vaak machtiger dan sommige nationale regeringen; dit terwijl er nooit een democratisch debat is geweest over de vraag of dit wel wenselijk is. Voorheen waren het publieke instellingen als universiteiten, meteorologische diensten of defensie die over de meeste computerkracht beschikten.
8 zijn ook voor scammers, spammers, phishers en trollenfabrieken krachtig gereedschap: phishing berichten zijn nog nooit zo goed geweest.
9 gebruiken jouw data. Alle data die in ChatGPT worden ingevoerd zijn door ChatGPT te gebruiken voor vrijwel elk doel. Terms of service zijn hierbij misleidend. Vrij vertaald: ‘Jouw data blijven van jou’ (maar wij mogen het ook gebruiken, voor alles).
10 produceren met de volste overtuiging geloofwaardig klinkende onzin. Bijvoorbeeld de laatste 10 cijfers van Pi, wetenschappelijke rapporten vol goed uitziende bronvermeldingen die niet bestaan (of op verzoek ook gewoon gegenereerd kunnen worden). En meer AI fouten die in het nieuws zijn geweest: https://tech.co/news/list-ai-failures-mistakes-errors
Zaken die op het internet breed zijn gedocumenteerd gaan meestal goed, maar als er gevraagd word naar zaken die nieuw zijn, tegen meest gedeelde opinie in gaan of onbekend zijn, komt er een onzin antwoord.
11 verbruiken astronomisch veel energie en koelwater, alsof de klimaatcrisis niet bestaat:
https://techhq.com/2023/03/data-center-energy-usage-chatgpt en nee, AI gaat dat niet oplossen: https://www.technologyreview.com/2024/09/28/1104588/sorry-ai-wont-fix-climate-change Wel worden oude kerncentrales weer uit de mottenballen gehaald om aan de AI-energie honger te voldoen: https://www.cnn.com/2024/09/20/energy/three-mile-island-microsoft-ai/index.html
Wat je dan wel zou willen:
Kunstmatige intelligentie zou opensource, uitlegbaar, reproduceerbaar en energiezuinig moeten zijn, gebaseerd op een eerlijke manier van data verzamelen en met respect voor mensenrechten. Zie een voorbeeld van een ethisch toetsingskader voor algoritmen opgesteld door de rekenkamer: https://www.rekenkamer.nl/onderwerpen/algoritmes-digitaal-toetsingskader/ethiek
Een dergelijk kader zou ook voor AI in onderzoek en onderwijs gemaakt kunnen worden.
Het initiatief https://gpt-nl.nl lijkt het beter te doen dan de op dataroof gebaseerde commerciële initiatieven uit Silicon Valley. Ook zijn gelukkig meer universiteiten bezig met ethiek en AI, bijvoorbeeld de UVA: https://www.uva.nl/binaries/content/assets/uva/nl/over-de-uva/over-de-uva/ai-in-het-onderwijs/ai-checklist-vu-uva-taskforce.pdf
Nu nog zorgen dat deze eerlijke alternatieven worden doorontwikkeld, worden onderwezen en breed geaccepteerd in het Nederlandse onderwijs plaats van de door Amerikaanse oligarchen bestuurde AI-algoritmen.
edit 2025-01-27 : opmerking over Microsoft Copilot toegevoegd.
edit 2025-02-26: added English translation.
This work is licensed under CC BY-NC-SA 4.0. To view a copy of this license, visit
https://creativecommons.org/licenses/by-nc-sa/4.0/
Eleven reasons to stay away from OpenAI and ChatGPT; And what you would want instead
OpenAI operates on the Silicon Valley principle of ‘Move fast and break things’. The goal is to capture the market and do it fast enough before judges and policymakers get them under control. This, once these companies achieve monopoly position, gives them enormous power. Lawsuits are bought off or settled for billions and political lobbying is huge.
(Microsoft Copilot uses OpenAI’s ChatGPT-4 language model. So the problems below are all also related to MS Copilot)
OpenAI and ChatGPT:
1 have scrapped the entire internet, without paying attention to any rule, licence or law, so the OpenAI dataset contains:
1.1 copyrighted material and/or scrapped from behind paywalls.
1.2 open source licences with attribution requirements.
1.3 works with creative commons non-commercial & attribution licences.
1.4 personal data without data subjects’ consent.
1.5 low-quality data: all conspiracy theories, racist statements, dis- and misinformation found on the internet are in the dataset. Examples include 4chan and 8chan forums and Nazi sites like Stormfront. With the right prompts, OpenAI and ChatGPT deliver such information back to the user.
2 are not transparent about data and algorithms: Exactly what data do they use, how is it weighted, what does the algorithm look like and how is it trained? It is therefore hardly possible, if at all, for the user to assess the quality of the information provided.
3 is closed source. This makes it difficult to conduct independent scientific research on it.
4 do not provide source references, which also makes assessment of the information difficult
5 misuse underpaid labour from low-wage countries to further train the algorithm. See: https://www.theguardian.com/technology/2023/aug/02/ai-chatbot-training-human-toll-content-moderator-meta-openai and https://time.com/6247678/openai-chatgpt-kenya-workers/
6 flood the internet with automatically generated misinformation and harmful content, since the output is partly based on the misinformation and harmful content contained in the database (see section 1.5). Searching and finding good information has therefore become much more difficult. This is a self-reinforcing process and thus a growing problem as more ChatGPT and OpenAI-generated content comes online. ‘Content marketers’ widely deploy ChatGPT and OpenAI to generate click-bait and SEO spam (Search Engine Optimisation, or strategies to make a website appear higher on the search results list). See https://www.businessinsider.com/seo-heist-ai-generative-artificial-intelligence-google-2023-12
7 constitute an undesirable concentration of power. There are only a few parties in the world with so much data and computing power that they can run this highly inefficient way of AI. Again, this is a self-reinforcing process: the more data and computing power, the greater the position of power and the more data, money and further computing power this in turn generates. The big tech companies are often more powerful than some national governments; this while there has never been a democratic debate about whether this is desirable. Previously, it was public institutions like universities, meteorological services or defence that had most of the computing power.
8 are also powerful tools for scammers, spammers, phishers and troll farms: phishing messages have never been better.
9 use your data. All data entered into ChatGPT can be used by ChatGPT for virtually any purpose. Terms of service are misleading in this regard. Freely translated: ‘Your data remains yours’ (but we may also use it, for anything).
10 produce credible-sounding nonsense with complete conviction. For example, the last 10 figures of Pi, scientific reports full of good-looking source citations that don’t exist (or can also just be generated on request). And more AI errors that have been in the news: https://tech.co/news/list-ai-failures-mistakes-errors
Things that are widely documented on the internet usually go well, but when asked about things that are new, go against most shared opinion or are unknown, a nonsense answer comes.
11 consume astronomical amounts of energy and cooling water, as if the climate crisis doesn’t exist:
https://techhq.com/2023/03/data-center-energy-usage-chatgpt and no, AI is not going to solve that: https://www.technologyreview.com/2024/09/28/1104588/sorry-ai-wont-fix-climate-change. What is happening is that old nuclear power plants are being taken out of mothballs again to satisfy the AI energy hunger: https://www.cnn.com/2024/09/20/energy/three-mile-island-microsoft-ai/index.html
What you would want then:
Artificial intelligence should be open source, explainable, reproducible, energy-efficient, based on fair data collection and respectful of human rights. See an example of an ethical review framework for algorithms prepared by the Dutch ‘Rekenkamer’ : https://www.rekenkamer.nl/onderwerpen/algoritmes-digitaal-toetsingskader/ethiek
Such a framework could also be made for AI in research and education.
The https://gpt-nl.nl initiative seems to fare better than Silicon Valley’s data-driven commercial initiatives. Fortunately, more universities are also working on ethics and AI, e.g. the University of Amsterdam (UVA): https://www.uva.nl/binaries/content/assets/uva/nl/over-de-uva/over-de-uva/ai-in-het-onderwijs/ai-checklist-vu-uva-taskforce.pdf
Now all that remains is to ensure that these honest alternatives are further developed, taught and widely accepted in Dutch education instead of US oligarch-controlled AI algorithms.
edit 2025-01-27: comment on Microsoft Copilot added.
edit 2025-02-26: added English translation.
This work is licensed under CC BY-NC-SA 4.0. To view a copy of this licence, visit https://creativecommons.org/licenses/by-nc-sa/4.0/
Prima en verhelderend stuk informatie..
Kun je een alternatief suggereren waarvoor ik geen half doctoraatsdiploma nodig heb?
Je zou naar https://jan.ai kunnen kijken, dat is in ieder geval opensource en lokaal te draaien. Daar moet ik wel bij zeggen dat we Jan.ai nog niet op alle bovengenoemde problemen getoetst hebben.
Een project wat het echt veel beter doet is https://gpt-nl.nl, maar dit is nog in ontwikkeling.
Heb op basis hiervan even OLMo uitgetest… bakte er echt niet veel van.
Jan.ai … heb ik niet de nodige hardware voor. Kan ik die ergens als een service draaien? (zodat ik weet hoeveel ’t mij zal kosten) Als ik op huggingface kijk, lijkt het er ook op dat de laatste ontwikkeling van ettelijke maanden geleden is. Maar misschien kijk ik niet goed.
gpt-nl … tja… is nog maar een concept. Er is zelfs nog geen werkende versie.
Je kunt een VM met grafische kaart voor AI toepassingen huren. Zelf geen ervaring mee, dus ik kan je niet adviseren welke er goed is (check de voorwaarden, waar het gehost wordt etc), maar een zoekopdracht geeft een hoop opties: https://duckduckgo.com/?t=ftsa&q=rent+ai+vm&ia=web
Reden nummer 12: het toppunt van hypocrisie met het geklaag van OpenAI over de vermeende datadiefstal van Deepseek : https://www.404media.co/openai-furious-deepseek-might-have-stolen-all-the-data-openai-stole-from-us/
de pot verwijt de ketel…
Hier een interessante vergelijkingstabel die de openheid van diverse LLM’s met elkaar vergelijkt: “tracking openness of instruction-tuned LLMs” https://opening-up-chatgpt.github.io/
A very interesting talk on the CCC about AI and exponential growth: https://media.ccc.de/v/38c3-resource-consumption-of-ai-degrow-or-die