In een beëdigde verklaring vertelde Schwartz de rechtbank dat het de eerste keer was dat hij ChatGPT als juridische onderzoeksbron gebruikte en dat hij “zich niet bewust was van de mogelijkheid dat de inhoud ervan vals zou kunnen zijn.” Hij gaf toe dat hij de bronnen van de AI-chatbot niet had bevestigd. Hij zei ook dat hij “het enorm betreurt dat hij generatieve kunstmatige intelligentie heeft gebruikt als aanvulling op het juridische onderzoek dat hierin wordt uitgevoerd, en dat hij dit in de toekomst nooit zal doen zonder absolute verificatie van de authenticiteit ervan.”
In juni 2023 legde rechter Castel een boete van $ 5.000 op aan Schwartz en LoDuca. In een afzonderlijke uitspraak in juni heeft rechter Castel de rechtszaak van Mata tegen Avianca afgewezen.
AI-algoritmen identificeren alles behalve COVID-19
Sinds het begin van de COVID-19-pandemie hebben talloze organisaties geprobeerd machine learning-algoritmen (ML) toe te passen om ziekenhuizen te helpen patiënten sneller te diagnosticeren of te triageren. Maar volgens het Britse Turing Institute, een nationaal centrum voor datawetenschap en AI, maakten de voorspellende tools weinig tot geen verschil.
MIT Technology Review heeft een aantal mislukkingen opgetekend, waarvan de meeste voortkomen uit fouten in de manier waarop de tools zijn getraind of getest. Het gebruik van verkeerd gelabelde gegevens of gegevens uit onbekende bronnen was een veelvoorkomende boosdoener.
Derek Driggs, een onderzoeker op het gebied van machine learning aan de Universiteit van Cambridge, publiceerde samen met zijn collega’s een artikel in Nature Machine Intelligence waarin het gebruik van deep learning-modellen voor de diagnose van het virus werd onderzocht. Het artikel bepaalde dat de techniek niet geschikt was voor klinisch gebruik. De groep van Driggs ontdekte bijvoorbeeld dat hun eigen model gebrekkig was omdat het was getraind op een dataset die scans bevatte van patiënten die lagen terwijl ze werden gescand en patiënten die stonden. De patiënten die lagen hadden een veel grotere kans ernstig ziek te zijn, dus leerde het algoritme het COVID-risico te identificeren op basis van de positie van de persoon op de scan.
Een soortgelijk voorbeeld omvat een algoritme dat is getraind met een dataset die scans van de borstkas van gezonde kinderen omvatte. Het algoritme leerde kinderen te identificeren, en geen hoogrisicopatiënten.
Zillow schreef miljoenen dollars af en bezuinigde op het personeelsbestand als gevolg van een algoritmische ramp bij het kopen van huizen
In november 2021 vertelde de online vastgoedmarktplaats Zillow aan de aandeelhouders dat het de activiteiten van Zillow Offers zou afbouwen en de komende kwartalen 25% van het personeelsbestand van het bedrijf zou schrappen (ongeveer 2.000 werknemers). De problemen van de home-flipping unit waren het gevolg van het foutenpercentage in het machine learning-algoritme dat werd gebruikt om de huizenprijzen te voorspellen.
Zillow Offers was een programma waarmee het bedrijf contante aanbiedingen deed op eigendommen op basis van een “Zschatting” van de woningwaarden afgeleid van een machine learning-algoritme. Het idee was om de panden te renoveren en snel om te bouwen. Maar een woordvoerder van Zillow vertelde CNN dat het algoritme een gemiddeld foutenpercentage van 1,9% had, en dat het foutenpercentage veel hoger zou kunnen zijn, zelfs 6,9%, voor huizen buiten de markt.
CNN meldde dat Zillow sinds de lancering in april 2018 27.000 huizen heeft gekocht via Zillow Offers, maar er tot eind september 2021 slechts 17.000 heeft verkocht. Zwarte zwaangebeurtenissen zoals de COVID-19-pandemie en een tekort aan arbeidskrachten bij de renovatie van huizen droegen bij aan de nauwkeurigheidsproblemen van het algoritme.
Zillow zei dat het algoritme ertoe heeft geleid dat het onbedoeld huizen heeft gekocht tegen hogere prijzen dan de huidige schattingen van toekomstige verkoopprijzen, wat resulteerde in een voorraadafwaardering van $ 304 miljoen in het derde kwartaal van 2021.
In een telefonische vergadering met investeerders na de aankondiging zei Rich Barton, medeoprichter en CEO van Zillow, dat het misschien mogelijk is om het algoritme aan te passen, maar dat het uiteindelijk te riskant was.
Zorgalgoritme kon zwarte patiënten niet markeren
In 2019 onthulde een studie gepubliceerd in Science dat een gezondheidszorgvoorspellingsalgoritme, dat door ziekenhuizen en verzekeringsmaatschappijen in de hele VS wordt gebruikt om patiënten te identificeren die behoefte hebben aan ‘risicovolle zorgmanagement’-programma’s, veel minder waarschijnlijk zwarte patiënten zou uitkiezen.
Zorgmanagementprogramma’s met een hoog risico bieden opgeleid verplegend personeel en eerstelijnsmonitoring voor chronisch zieke patiënten in een poging ernstige complicaties te voorkomen. Maar het was veel waarschijnlijker dat het algoritme blanke patiënten voor deze programma’s aanbeveelde dan zwarte patiënten.
Uit het onderzoek bleek dat het algoritme de gezondheidszorguitgaven gebruikte als maatstaf voor het bepalen van de zorgbehoefte van een individu. Maar volgens Scientific American waren de zorgkosten van ziekere zwarte patiënten vergelijkbaar met de kosten van gezondere blanke mensen, wat betekende dat ze lagere risicoscores kregen, zelfs als hun behoefte groter was.
De onderzoekers van het onderzoek suggereerden dat een paar factoren hieraan hebben bijgedragen. Ten eerste hebben gekleurde mensen een grotere kans op lagere inkomens, waardoor ze, zelfs als ze verzekerd zijn, minder vaak toegang hebben tot medische zorg. Impliciete vooroordelen kunnen er ook voor zorgen dat mensen van kleur minder goede zorg krijgen.
Hoewel het onderzoek het algoritme of de ontwikkelaar niet noemde, vertelden de onderzoekers aan Scientific American dat ze met de ontwikkelaar samenwerkten om de situatie aan te pakken.
Dataset trainde Microsoft-chatbot om racistische tweets te verspreiden
In maart 2016 ontdekte Microsoft dat het gebruik van Twitter-interacties als trainingsgegevens voor machine learning-algoritmen onthutsende resultaten kan hebben.
Microsoft heeft Tay, een AI-chatbot, uitgebracht op het sociale mediaplatform. Het bedrijf omschreef het als een experiment in ‘conversationeel begrip’. Het idee was dat de chatbot de persoonlijkheid van een tienermeisje zou aannemen en via Twitter met individuen zou communiceren met behulp van een combinatie van machinaal leren en natuurlijke taalverwerking. Microsoft heeft het voorzien van geanonimiseerde openbare gegevens en wat materiaal dat vooraf is geschreven door cabaretiers, en heeft het vervolgens losgelaten om te leren en te evolueren van de interacties op het sociale netwerk.
Binnen 16 uur plaatste de chatbot meer dan 95.000 tweets, en die tweets werden al snel openlijk racistisch, vrouwonvriendelijk en antisemitisch. Microsoft schortte de dienst snel op vanwege aanpassingen en trok uiteindelijk de stekker eruit.
“Het spijt ons ten zeerste voor de onbedoelde aanstootgevende en kwetsende tweets van Tay, die niet weergeven wie we zijn of waar we voor staan, noch hoe we Tay hebben ontworpen”, zegt Peter Lee, corporate vice president, Microsoft Research & Incubations (toen nog corporate vice president). president van Microsoft Healthcare), schreef in een bericht op de officiële blog van Microsoft naar aanleiding van het incident.
Lee merkte op dat Tay’s voorganger, Xiaoice, die in 2014 door Microsoft in China werd uitgebracht, in de twee jaar voorafgaand aan Tay’s vrijlating met succes gesprekken had gevoerd met meer dan 40 miljoen mensen. Waar Microsoft geen rekening mee hield, was dat een groep Twitter-gebruikers onmiddellijk racistische en vrouwonvriendelijke opmerkingen naar Tay zou gaan tweeten. De bot leerde snel van dat materiaal en verwerkte het in zijn eigen tweets.
“Hoewel we ons hadden voorbereid op vele vormen van misbruik van het systeem, hadden we deze specifieke aanval kritisch bekeken. Als gevolg hiervan tweette Tay enorm ongepaste en laakbare woorden en beelden”, schreef Lee.
Net als veel grote bedrijven heeft Amazon honger naar tools waarmee de HR-functie sollicitaties kan screenen op de beste kandidaten. In 2014 begon Amazon te werken aan door AI aangedreven rekruteringssoftware om precies dat te doen. Er was alleen één probleem: het systeem gaf een grote voorkeur aan mannelijke kandidaten. In 2018 bracht Reuters het nieuws naar buiten dat Amazon het project had geschrapt.
Het systeem van Amazon gaf kandidaten sterrenbeoordelingen van 1 tot 5. Maar de machine learning-modellen die de kern van het systeem vormen, zijn getraind op basis van tien jaar aan cv’s die bij Amazon zijn ingediend – de meeste van mannen. Als gevolg van die trainingsgegevens begon het systeem zinsneden in het cv waarin het woord ‘vrouwen’ voorkomt, te bestraffen en zelfs kandidaten te degraderen van alleen vrouwenhogescholen.
Amazon zei destijds dat de tool nooit door Amazon-recruiters werd gebruikt om kandidaten te beoordelen.
Het bedrijf probeerde de tool aan te passen om deze neutraal te maken, maar besloot uiteindelijk dat het niet kon garanderen dat het geen andere discriminerende manier zou leren om kandidaten te sorteren en beëindigde het project.
Doelanalyses hebben de privacy geschonden
In 2012 liet een analyseproject van retailgigant Target zien hoeveel bedrijven uit hun data over klanten kunnen leren. Volgens de New York Times begon de marketingafdeling van Target zich in 2002 af te vragen hoe ze konden vaststellen of klanten zwanger zijn. Die onderzoekslijn leidde tot een voorspellend analyseproject dat ertoe zou leiden dat de retailer onbedoeld aan de familie van een tienermeisje zou onthullen dat ze zwanger was. Dat zou op zijn beurt leiden tot allerlei artikelen en marketingblogs waarin het incident wordt aangehaald als onderdeel van advies om de ‘griezelige factor’ te vermijden.
De marketingafdeling van Target wilde zwangere individuen identificeren omdat er bepaalde perioden in het leven zijn – de zwangerschap daaronder in de eerste plaats – waarin mensen de grootste kans hebben om hun koopgedrag radicaal te veranderen. Als Target in die periode klanten zou kunnen bereiken, zou het bijvoorbeeld nieuw gedrag bij die klanten kunnen cultiveren, waardoor ze zich voor boodschappen, kleding of andere goederen bij Target zouden wenden.
Net als alle andere grote retailers verzamelde Target gegevens over zijn klanten via shoppercodes, creditcards, enquêtes en meer. Het vermengde die gegevens met demografische gegevens en gegevens van derden die het had gekocht. Door al die gegevens te verzamelen, kon het analyseteam van Target vaststellen dat er ongeveer 25 producten door Target werden verkocht die samen konden worden geanalyseerd om een score voor ‘zwangerschapsvoorspelling’ te genereren. De marketingafdeling kan vervolgens hoog scorende klanten targeten met kortingsbonnen en marketingboodschappen.
Aanvullend onderzoek zou uitwijzen dat het bestuderen van de reproductieve status van klanten voor sommige van deze klanten griezelig zou kunnen zijn. Volgens de Times deinsde het bedrijf niet terug voor zijn gerichte marketing, maar begon het advertenties te mixen voor dingen waarvan ze wisten dat zwangere vrouwen ze niet zouden kopen – inclusief advertenties voor grasmaaiers naast advertenties voor luiers – om de advertentiemix te maken voor de klant willekeurig aanvoelen.