Edellisessä blogissa kerroin MCP-palvelun käyttämisestä säätösalaojituksen ohjaustoimenpiteiden avustavana järjestelmänä. MCP-palvelulla voidaan antaa esimerkiksi sääennuste ja säätösalaojituksen ohjeet tekoälyn käyttöön.
Blogissa 22.9. kirjoitin Ilmatieteenlaitoksen avoimen datan sääennusteen tietojen viemisestä MCP-palvelun kautta tekoälyn hyödynnettäväksi. Mutta miten säätösalaojituksen ja -kastelun ohjeistus saadaan tekoälyn käyttöön?
Verkosta löytyy useita palveluja, joiden avulla esimerkiksi PDF-tiedostoja voidaan käyttää tekoälyavusteisesti (suosikkini on Googlen NotebookLM). Automaation ohjaukseen PDF-tiedoston sisältämien tietojen lataaminen ei onnistu verkon palveluilla, jotka on tarkoitettu ns. tutkimuskumppaneiksi.
Automaation ohjeistuksen avustavana järjestelmän PDF-tiedostojen voidaan käyttää esimerkiksi RAG tekoälytekniikan avulla. Retrieval-Augmented Generation (RAG) täydentää generatiivisen tekoälyn hakemalla tietoa ulkoisista tietokannoista ennen vastauksen tuottamista.
RAG
Tiedon siirtäminen pdf-tiedostosta tietokantaan
Tein Seinäjoen Ammattikorkeakoululle (SeAMK) harjoitustyön RAG-tekniikasta. Harjoitustyössä keskityttiin suomenkielisen PDF-tiedoston käyttämiseen tekoälyn tiedonlähteenä. Harjoitustyön tavoitteena oli keskittyä ainoastaan RAG tekniikkaan liittyviin kysymyksiin, joista tärkein on tiedon saaminen tekoälyn RAG-tekniikalla hyödynnettävään muotoon. Automaation käyttöön PDF-tiedostoista saatu tieto yhdistetään MCP-palvelulla.
Harjoitustyössä käytetään upotusmalleja tiedon poimintaa PDF-tiedostoista, joista saat hyvän kuvan ajamalla harjoitustyön esimerkkejä Colab-palvelussa. Tieto viedään PDF-tiedostoista vektoritietokantaan (esim. Chroma), jossa tieto on tekoälylle käyttökelpoisena vektoritietona. Esim. FinBERT upotusmalli (suomenkielinen) tallettaa tiedon 1536 dimension vektoreiksi.
Tietokannan tietojen hyödyntäminen tekoälyssä
Vektoritietokannan tieto on tekoälyn ymmärtämässä muodossa. Hyvin paljon yksinkertaistettuna voidaan sanoa, että samanlaiset asiat ovat samassa suunnassa. Ihminen ymmärtää vain kolmiulotteiset vektorit. Usean sadan ulottuvuuden vektorit ovat tekoälylle erittäin käyttökelpoisia. Käytännössä voidaan ajatella (hyvin paljon yksinkertaistettuna) vektoritietokannan tiedon hakeminen seuraavina vaiheena. 1) Kysymyksestä muodostetaan numeerinen vektori, joka on samassa ulottuvuudessa kuin vektoritietokantaan talletettu tieto. 2) Tietokannasta haetaan kaikki samaan suuntaan osoittavat vektorit. 3) Vektoritietokannan haettu tieto viedään kysymyksen yhteydessä kielimallille, joka antaa vastauksen, missä on alkuperäisen pdf-tiedoston tieto on mukana.
Tiedon hyödyntäminen SSOT-automaatiossa
Tekoälyn tietolähteenä PDF-tiedostosta upotetusta tiedosta saadaan hyvin laadukasta tietoa tekoälyn käyttöön, mikäli tiedoston rakenne on selkeä eikä sisällä monimutkaisia lauseita. Tekoäly on arvauskone ja mikäli arvaus ei pohjaudu laadukkaaseen tietoon, on arvauksen laatu heikko. Automaation ohjauksen avustaminen tulee tehdä laadukkailla tiedoilla ja ohjeilla.
PDF-ohjeistusta tehdessä tulisi nykyään huomioida aina tekoälyn vaatimukset. Samaan tapaan kuin ohjelmistojen API-rajapinnat kommentoitiin aikaisemmin niin, että koodaaja pystyi tekemään kommenttien perusteella ratkaisuja mitä funktiota ohjelmassa kutsutaan. Nyt MCP-palvelun funktioiden kommentointi tehdään niin, että tekoäly pystyy kommenttien perusteella valitsemaan oikean koodin. Esimerkiksi kommentti funktiolle: saaennuste(lat: float, lon: float)
@mcp.tool()
def saaennuste(lat: float, lon: float) -> str:
”””Paikallinen sääennuste (lat, lon) koordinaateilla. Latitude (lat: float) rajat on min 45.0 max 71.0 ja longitude (lon: float) rajat on min 4.0 max 32.0″””
PDF -tiedoston vaatimukset
PDF-tiedoston sisällön tulee olla rakenteeltaan ja esitystavaltaan sellainen, että se tukee tekoälyn kykyä:
- 🧠 Tunnistaa ja jäsentää keskeiset tiedot
- 🧩 Ymmärtää konteksti ja tarkoitus
- 🗂️ Tuottaa johdonmukaisia vastauksia tai tiivistelmiä
- 🔗 Yhdistää tietoa muihin lähteisiin tai kysymyksiin
Käytä PDF-tiedostoissa selkeitä otsikkotasoja, vältä monimutkaista muotoilua
Ennen kuin teet PDF-ohjeen, kysy: Voiko tekoäly jäsentää ja käyttää tätä tietoa tehokkaasti myöhemmin? Jos vastaus on epävarma, korjaa ohjetta.