Generatiivinen tekoäly ja tutkimusaineistojen analyysin etiikka

Generatiivinen tekoäly on tutkijalle houkutteleva työkalu. Sen käyttö aineiston analyysissa sisältää kuitenkin tutkimuseettisiä sudenkuoppia: pystyykö tutkija selittämään, miten analyysi on tehty? Kykeneekö arvioija arvioimaan prosessin luotettavuutta? Tiedämmekö, mitä aineistolle tapahtuu, kun sen syöttää tekoälysovellukseen?

Määritelmästä riippuen tekoälypohjaisia menetelmiä on käytetty tutkimusaineistojen analysoinnissa jo pitkään. Erilaisia koneoppimismenetelmiä on hyödynnetty numeerisen aineiston ja tekstimassan analysoinnissa. Tietyssä mielessä myös perinteisemmät tilastomenetelmät kuten regressioanalyysi tai dimensionaalisuuden analysointimenetelmät ovat vähintäänkin koneoppimisen serkkuja.

Aiemmin käytetyt työvälineet ovat kuitenkin olleet tyypillisesti niin sanotun kapean tekoälyn työvälineitä. Ne ovat siis työkaluja, jotka toteuttavat tietyn, niille määrätyn tehtävän. Uudemmat tekoälyn sovellukset ovat niihin verrattuna lähempänä niin sanottua yleistä tai laajaa tekoälyä, joka pystyy toimimaan erilaisissa konteksteissa ja ratkaisemaan erilaisia ongelmia.

Viimeisen puolentoista vuoden aikana generatiivisen tekoälyn leviäminen laajempaan käyttöön on ravistellut myös tutkimusmenetelmien kenttää. Kyse on tekoälysovelluksista, jotka luovat sisältöjä – tekstiä, kuvia ja videoita – vastauksena ihmiskäyttäjän pyyntöön. Generatiivisen tekoälyn taustalla oleva suuri kielimalli (large language model, LLM) opetetaan käyttämällä opetusaineistoja, tyypillisesti valtavia tekstikokoelmia tai kuvien ja tekstin yhdistelmätietokantoja.

Kielimallit ovat mahdollistaneet esimerkiksi teksti- tai kuvapohjaisten aineistojen luokittelun nopeasti ja parhaimmillaan jopa ilman esimerkkejä sisältävää opetusaineistoa (ns. zero-shot tai one-shot learning). Ne ovat myös parantaneet tekstinlouhinnassa käytettävien perinteisempien koneoppimismenetelmien tarkkuutta. Tässä kirjoituksessa keskityn nimenomaan generatiivisen tekoälyn käyttöön tutkimusaineistojen analysoinnissa ja siihen liittyviin eettisiin kysymyksiin.

Validiteetti, vinoumat ja vastuu aineistosta

Generatiiviset tekoälysovellukset ovat entistä useammin eri alojen tutkijoiden ulottuvilla esimerkiksi helppokäyttöisinä selainsovelluksina tai Microsoftin tai Googlen tuotteiden lisäpalveluina. Haittapuoli on, että tiedämme niiden toimintaperiaatteista yhä vähemmän. Siksi suljettujen tekoälyjen käyttöön tutkimusaineiston analyysissa liittyy monenlaisia tutkimuksen integriteettiin liittyviä hankaluuksia.

Ensinnäkin sovellukset ovat moninkertaisia mustia laatikoita. Analyysin reliabiliteetti ja validiteetti ovat oleellinen osa vastuullista tiedettä ja tieteen luotettavuutta. Analyysit pitäisi toteuttaa niin että niiden toteutusta ja eri vaiheita on helppo seurata ja että analyysin voisi tarvittaessa toistaa. Tekoälysovellusten kanssa tämä ei useinkaan ole mahdollista: emme tiedä, millä aineistolla kielimalli on koulutettu, emmekä myöskään pysty ymmärtämään – saati selittämään – millä logiikalla analyysi on tehty. Kaupallisia malleja myös kehitetään jatkuvasti, minkä vuoksi on vaikea yksilöidä, millä mallin versiolla analyysi on tehty. Tieteelle oleelliset toistettavuuden ja läpinäkyvyyden vaatimukset eivät toteudu – saatika avoimen tieteen vaatimukset.

Generatiivinen tekoäly voi muutenkin olla arvaamaton, sillä sen toimintalogiikka perustuu osin satunnaisuudelle. Suurten kielimallien tuotokset saattavat vaihdella paitsi eri mallien välillä, myös eri käyttötapojen tai käyttökertojen välillä. Ne voivat toimia arvaamattomasti yksittäisen keskustelusession sisälläkin, sillä mallin lähimuisti on varsin rajattu. Esimerkiksi ChatGPT eräänäkin viikonloppuna vastaili erikoisia tavallisiin kysymyksiin. Kenen vastuulla on, jos tällainen vikatilanne sattuu analyysin tekemisen hetkeen?

Toinen tutkimuseettinen haaste liittyy sekin kielimallin tuotoksiin. Kielimallin voima perustuu suurelle tietoaineistolle, jonka avulla se pystyy käsittelemään uutta tietoa nopeasti kääntämällä sitä matemaattisiksi esityksiksi. Kielimallin kouluttamiseen käytetyn aineiston sisältö ja laatu vaikuttavat suuresti siihen, mitä malli pystyy tuottamaan. Kaikki tekoälyn tekemä analyysi tavalla tai toisella pohjautuu dataan, jolla kielimalli on koulutettu. 

Opetusaineiston aiheuttamista vinoumista on puhuttu paljon. Yleensä kysymys on opetusaineiston laadusta ja edustavuudesta: jos opetusaineistossa on esimerkiksi runsaasti vähemmistöjä koskevaa syrjivää kieltä, malli oppii tunnistamaan ja tuottamaan sitä. Täysin tasapuolisen opetusaineiston kokoaminen olisi melkoisen mahdotonta, kun kyse on terabittien kokoisista tekstimassoista. Välttääkseen vinoja vastauksia esimerkiksi OpenAI on erikseen kouluttanut ChatGPT-mallia ihmiskouluttajien avulla. Koulutusprosessi vaatii väistämättä jonkinlaiset ohjeet. Ne taas väistämättä perustuvat joillekin arvoille, jotka määrittelee palvelun omistama yritys.

Tutkimuseettisestä näkökulmasta vinoumat ovat merkittävä ongelma: ne toisintavat stereotypioita ja maailmassa vallitsevia rakenteita. Usein toistettu ajatus, että tietokoneavusteisesti tehty analyysi olisi neutraalimpi kuin ihmisen tekemä, ei välttämättä pidä laisinkaan paikkansa generatiivisen tekoälyn kohdalla.

Kolmas suuri eettinen kysymys kysymys liittyy siihen, mihin aineistoja ylipäätään saa laittaa ja ladata. Kuka tekoälypalvelua ylläpitää, sijaitseeko se Euroopan talousalueella, noudattaako se Euroopan tietosuojalakeja? Kysymykset ovat lähtökohtaisesti teknisiä tai oikeudellisia, mutta niihin liittyy vahvasti myös eettisiä ulottuvuuksia: tutkijan pitäisi olla varma siitä, että hän käsittelee tutkimusaineistoa mahdollisimman eettisesti tutkimuskohteita suojaten. 

On harvoin toivottavaa tai tietosuojan mukaista, että tutkimusaineisto päätyy uudeksi kielimallin koulutusmateriaaliksi, kuten esimerkiksi OpenAI:n palveluissa tapahtuu. Tämä ongelma koskee yhtä lailla tekstin luokittelupalveluita ja lyhennyspalveluita sekä litterointipalveluita, jotka nekin ovat usein tekoälyllä kuorrutettuja.

Eettinen harkinta generatiivisen tekoälyn tutkimuskäytössä

Voiko näitä riskejä jotenkin välttää? Jos puhutaan yksinkertaisimmista tekoälysovelluksista kuten koneoppimisjärjestelmistä, on olemassa kohtalaisen vakiintuneita keinoja analyysiprosessin standardointiin sekä tulosten validiteetin tarkastamiseen. Generatiivisen tekoälyn kohdalla ainoa keino pyrkiä vaikuttamaan tuotoksiin on käytännössä syötteen (prompt) muotoilu ja tulosteiden tarkistus ihmisen toimesta. Suoraviivaisissa luokittelutehtävissä kielimallipohjaisten menetelmin tarkkuus on varsin vakuuttava. Siitäkin huolimatta ne on syytä aina ristiintarkistaa ihmiskoodaajan kanssa.

Avainkysymys on pohtia, missä tekoäly on hyvä, missä puolestaan ihminen. Tekoälysovellukset (tai algoritmiset järjestelmät ylipäätään) ovat hyviä mallintamaan, tiivistämään ja optimoimaan, ehkä myös yhdistelemään asioita sekä työstämään valtavia tietomassoja. Oman kokemukseni mukaan kielimallien käyttö tutkimuksessa voi olla järkevää silloin, kun analyysi on mahdollisimman yksinkertainen (esimerkiksi kenttien luokittelu luokittelurunkoa käyttäen), ja silloin, kun prosessi on muulla tavalla erikseen rakennettu nimenomaan tiettyä aineistoa ajatellen. Siis silloin, kun tutkija pystyy kuvaamaan analyysin vaiheet, tulokset on validoitu, ja toinen tutkija pystyisi ne toistamaan.

Viime aikoina on herätelty kiinnostavaa keskustelua siitä, miten tekoälyä voisi käyttää myös tukiälynä analyysissa tai koko tutkimusasetelman suunnittelussa. Se on tehokas menetelmäapuri varsinkin tilastollisten ja algoritmisten menetelmien kohdalla. Generatiivisten mallien avulla voidaan myös luoda synteettisiä aineistoja tai virikkeitä haastatteluja varten. Tällainen käyttö voi olla hyödyksi myös menetelmäopetuksessa, jolloin voidaan välttää aitojen henkilötietojen käyttö.

Luovemmissa kokeiluissa on valjastettu kielimallien rajoitukset ja vinoumat osaksi analyysia. Kielimallien persoutta stereotypioille ja konservatiivista maailmankuvaa tai vinoumia voi käyttää apuna erottamaan aineistosta mielenkiintoisia anomalioita tai entisestään korostamaan luokille tyypillisiä piirteitä. Ehkäpä generatiivisen tekoälyn suurin vahvuus onkin se, että se voi auttaa meitä havaitsemaan toistuvuuksia ja rakenteita sosiaalisessa maailmassamme.

VTT, dos. Salla-Maaria Laaksonen on viestinnän, teknologian ja organisaatioiden tutkija Helsingin yliopistossa. Hän tutkii teknologisen julkisuuden valta-asetelmia sekä datan, algoritmien ja automaation käyttöä organisaatioissa. Hän on myös digitaalisten tutkimusmenetelmien ja tutkimusetiikan asiantuntija. @[email protected]

Teksti on rinnakkaisjulkaistu myös Rajapinta.co-blogissa.

Kommentoi

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *