Uudet supertietokoneet ja datahallinnan välineet tulevat tutkijoiden avuksi

Opetus- ja kulttuuriministeriö 9.12.2019 15.16
Uudet supertietokoneet ja datahallinnan välineet tulevat tutkijoiden avuksi

Datanhallinnan ja laskennan kehittämisohjelman vuosiseminaarissa marraskuussa 2019 tarkasteltiin sitä, millaista kansallista ja Euroopan tason datanhallinnan ja laskennan ympäristöä Suomi haluaa olla rakentamassa. Seminaarissa pohdittiin, miten Suomi ja Suomessa työskentelevät tutkijat hyötyvät Euroopan tason palveluista. Opetus- ja kulttuuriministeriö toteuttaa tutkimus- ja innovaatiotoimijoiden kanssa datanhallinnan ja laskennan tutkimusinfrastruktuurien, palveluiden ja osaamisen kehittämisohjelman vuosina 2017−2021. Kansallinen kehittämisohjelma linkittyy vahvasti alan eurooppalaiseen tutkimusinfrastruktuuripolitiikkaan.

Nykyaikainen tiede käyttää supertietokoneita moniin, aiemmin lähes mahdottomilta tuntuneisiin tehtäviin lääkemolekyylien toiminnan mallintamisesta maailmankaikkeuden alun simulointiin.

Suomi on maailman eturintamassa tietotekniikan käytössä myös superlaskennassa, sillä vuoden 2020 alussa käyttöön tuleva Mahti on Pohjoismaiden ärein numeronmurskaaja. Sen seurana on tänä vuonna käynnistynyt Puhti, ja näitä kumpaakin tukee suuri tietovarasto Allas. Laitteita hallinnoi CSC - Tieteen tietotekniikan keskus, joka on vastannut Suomen supertietokoneista vuodesta 1971. Koneita on päivitetty ja vaihdettu uusiin tekniikan kehittyessä; nyt ajan hengen mukaisesti olennaisinta on datanhallinnan ja laskennan infrastruktuureiden ja palveluiden kokonaisuus, jolla vastataan eri tieteenalojen vaihteleviin tarpeisiin.

Seuraava askel on saada Suomen käyttöön myös maailman mittakaavassa aivan kärkitason supertietokoneet. Euroopan unionin tukema suurteholaskennan yhteisyritys, EuroHPC (European High-Performance Computing) Joint Undertaking on hankkimassa Eurooppaan kolme niin sanottua esi-eksa-tason supertietokonetta vuoteen 2021 mennessä.

Yksi niistä sijoitetaan CSC:n Kajaanin datakeskukseen. Kone on saanut nimen Lumi (eli Large Unified Modern Infrastructure) ja se tulee olemaan eräs maailman tehokkaimmista tietokoneista vuosina 2021–2026. Laitteen kustannuksiin osallistuvat Suomen lisäksi Belgia, Tšekin tasavalta, Tanska, Viro, Norja, Puola, Ruotsi ja Sveitsi. Kaksi muuta konetta sijoitetaan Italiaan ja Espanjaan.

Eksa-tason supertietokoneella tarkoitetaan sitä, että koneen prosessorien laskentateho on eksaflopin luokkaa. Tämä vastaa 1018 liukulukulaskutoimitusta sekunnissa, eli triljoona laskutoimitusta sekunnissa. Lumi tulee olemaan lähes tätä teholuokkaa.

Superlaskentaa lääketieteellisen kemian tutkimuksessaan käyttävä professori Antti Poso vertaa uuden supertietokoneen tehoa nyt käytössä olevaan Puhtiin: "Kun lasken esimerkiksi sitä, miten tietty proteiini liikkuu, niin saan siitä vaikkapa 300 teratavua tietoa. Uuden koneen avulla samassa ajassa saisin paljon tarkempaa tietoa noin 150 petatavua."

Vaikka sitä ei helposti hahmota, ovat luvut aivan eri suuruusluokkaa. "Jos 300 teraa vastaisi yhtä tuntia, niin 150 petaa (eli 150 000 teraa) tarkoittaisi lähes 21 vuorokautta."

Poso toteaakin vain puoliksi vitsaillen, että kone tuottaa niin paljon tietoa, että sen käsittelyyn tarvitaan toinen, pienempi supertietokone.

Lääketiede ja biologia ovat tällä hetkellä suurimmat superlaskennan käyttäjät, kun kriteerinä on käyttäjien määrä ja dataintensiivisyys. Laskentakapasiteetin mukaan mitattuna kärkipaikkaa pitävät superlaskennan perinteiset vakiasiakkaat, fyysikot ja tähtitieteilijät. He mm. mallintavat ilmastonmuutosta, hiukkasfysiikan ilmiöitä, ydinreaktioita, kaoottisia ilmiöitä, erilaisia materiaaleja, kosmologisia tapahtumia ja myös avaruussäätä.

Myös humanistiset tieteet hyötyvät supertietokoneista, sillä esimerkiksi väestön kehityskulkuja, sosiologisia ja kielitieteellisiä kysymyksiä sekä yhteiskuntasuunnittelua voidaan hahmottaa erinomaisesti superlaskennalla.

Tekoäly ja koneoppiminen, kuten myös perinteisempi suurten tietomäärien ja jatkuvan datavirran hyödyntäminen vaatii samoin jatkuvasti tehokkaampaa tietokonekapasiteettia.

Suomi on solmukohta

EuroHPC on miljardiluokan investointi, sillä sen budjetti vuosille 2019–2020 on yli 960 miljoonaa euroa. Tässä on mukana hankkeeseen osallistuvien maiden lisäksi rahoitusosuus Euroopan unionilta ja investointeja muun muassa teollisuudelta, joka tulee käyttämään koneita tutkimukseen ja tuotekehitykseen.

Suomen kannalta EuroHPC on tärkeä myös siksi, että Kajaaniin tuleva supertietokone nostaa Suomen varsin suureksi toimijaksi suurteholaskennassa. Työllistämisen lisäksi hanke lisää Suomen houkuttelevuutta kansainvälisten tutkimushankkeiden kohteena ja varmasti myös tuo maahan muitakin datakeskuksia.

Koillisväylän kautta Euroopasta Aasiaan suunniteltava nopea kaapeliyhteys lisää edelleen Suomen merkitystä tulevaisuuden datahankkeissa.

Nyt tilauksessa olevien esi-eksa-tason koneiden jälkeen EuroHPC:n tarkoitus on hankkia Eurooppaan maailman nopeimpiin kuuluva varsinainen eksa-tason supertietokone. Omavaraisuus on tärkeä osa hanketta, sillä vaikka monet Euroopan ulkopuolella olevat supertietokoneet ovat kaupallisesti ja yhteistyökuvioiden kautta myös eurooppalaisten käytössä, voi arkaluontoisten ja tuotesalaisuuksia sisältävien tietojen turvallisuus olla ongelmana. Olisi myös toivottavaa, että tuleva supertietokone perustuisi myös mahdollisimman pitkälle eurooppalaiseen teknologiaan.

Konkreettista apua tutkijoille

Datanhallinnan ja laskennan kehittämisohjelman tarkoituksena on myös parantaa yksittäisten tutkijoiden mahdollisuuksia hyödyntää tehokkaammin tietotekniikkaa arkipäiväisissä asioissa.

Ilmatieteen laitoksella työssä oleva tutkija Anca Hienola koettaa nyt edistää Euroopan avointa tieteen pilvipalvelua (EOSC, eli European Science Open Cloud) omien kokemustensa innostamana.

"Olin julkaisemassa artikkelia Naturessa ja he halusivat, että tutkimuksessani käytetty tutkimustieto olisi avointa ja kaikkien saatavissa. Ongelmana oli kuitenkin se, että dataa oli yli kolme teratavua, eikä minulla ollut paikkaa, mihin olisin voinut laittaa sen saataville. Hermostuin asiaan ja aloin organisoida Ilmatieteen laitokselle järjestelmää, mihin tutkijat voisivat laittaa tutkimustietojaan."

"Toinen jatkuva harmi on ollut datan saaminen eri puolilta maailmaa yhteistyötahoilta. Eräässäkin tutkimuksessa käytin aikaa noin puolitoista kuukautta vain siihen, että sain tutkimustiedot kerättyä yhteen paikkaan."

Nyt Hienolan pääasiallinen tehtävä on edistää Euroopan avointa tieteen pilvipalvelua. Se on tutkijoille ja heidän yhteistyötahoilleen tarkoitettu virtuaalinen ympäristö, missä on helppokäyttöisiä ja avoimia palveluita tutkimustietojen tallentamiseen, hallinnointiin, analysointiin ja uudelleenkäyttöön.

Palvelut toimivat yli rajojen ja tieteenalojen olemassa olevia tieteellisen datan infrastruktuureja hyödyntäen. Palvelu on suunnattu 1,7 miljoonalle eurooppalaiselle tutkijalle ja 70 miljoonalle käyttäjälle ympäri maailman.

"Ongelmana on kuitenkin se, että tutkijat eivät tunne vielä tätä palvelua. Tein pikaisen kyselyn pääkaupunkiseudun yliopistoissa ja tutkimuslaitoksissa sekä Tampereen yliopistossa, ja huomasin, että 85 % tutkijoista ei tiedä Euroopan avoimesta tieteen pilvipalvelusta."

Hienola arvelee, että tutkijoita ei ole otettu tarpeeksi mukaan palvelua rakennettaessa. Hän kollegoineen on kuitenkin muuttamassa tätä asiaa. Se, että tutkimusaineisto on helposti löydettävää, saavutettavaa, yhteensopivaa ja uudelleenkäytettävää, on kaikkien yhteinen etu.

Teksti: Jari Mäkinen


Lue lisää:

Datanhallinnan ja laskennan kehittämisohjelma (DL2021)

DL2021-kehittämisohjelman vuosiseminaarin esitykset EuroHPC:stä ja EOSC:ista

CSC:n tarjoamat datanhallinnan ja laskennan infrastruktuurit ja palvelut (englanniksi)

Lumi-supertietokone (englanniksi)

EOSC-palvelun valmistelu (englanniksi)

Opetus- ja kulttuuriministeriö toteuttaa tutkimus- ja innovaatiotoimijoiden kanssa datanhallinnan ja laskennan tutkimusinfrastruktuurien ja palveluiden kehittämisohjelman vuosina 2017−2021. Kehittämisohjelmassa huomioidaan erityisesti alan eurooppalainen tutkimusinfrastruktuuripolitiikan kehitys.

Korkeakoulutus ja tiede Tiede