
Az MI fogalma
A mesterséges intelligencia (MI) olyan számítógépes módszerek és rendszerek összessége, amely emberi intelligenciát igénylő feladatokat automatizál vagy támogat (észlelés, nyelv, következtetés, döntés, tanulás).
A mesterséges intelligencia típusai
ANI
(ARTIFICIAL NARROW INTELLIGENCE)
Vagy másképpen Foundation model. Ma a legtöbb gyakorlati megoldás ide tartozik.
AGI
(ARTIFICIAL GENERAL INTELLIGENCE)
ASI
(ARTIFICIAL SUPERINTELLIGENCE)
Az emberi szintet jelentősen meghaladó intelligencia. Elméleti, spekulatív.

Történeti áttekintés
1947
Holográfia felfedezése
Gábor Dénes a képalkotást forradalmasította, amikor felfedezte a holográfiát.
Ezzel az eljárással háromdimenziós képeket rögzíthetünk és hozhatunk létre.
A felfedezésért 1971-ben fizikai Nobel-díjat kapott.
1948
Információelmélet
Claude Shannon – Bell Labs. „A nyelvünkre lehetne úgy tekinteni, mint valószínűségi események sorozatára, ahol minden szó a tőle eggyel előtti szótól függ."
1950-90
Nyelvmodellezés kezdetei
Nyelvmodellezés Markov- és n-gram modellekkel (pl. Jelinek, Katz).
2003
Neurális nyelvi modell
Első neurális nyelvi modell (Bengio et al.).
2013
Word2vec
Word2vec és modern embeddingek. A vektorizálás alapjait Tomas Mikolov fektette le.
2014-16
Seq2seq és Attention
Seq2seq és attention mechanizmusok (Bahdanau, Luong).
2017
Transformer
„Attention Is All You Need" – a mai LLM-ek alapja. Az „autocomplete" rendszerek (pl. T9) jóval 2017 előtt léteztek; a Transformer a mai skálázhatóságot hozta meg.
2022
A nagy MI boom
A generatív MI nyilvánosan elérhetővé vált.
Definíciók
MULTIMODÁLIS (MULTIMODAL) AI
Többféle bemenetet/kimenetet (pl. szöveg, kép, hang, videó) közösen kezelő modelleket vagy rendszereket nevezünk Multimodális AI-nak. Lehetővé teszik, hogy egy modell képet írjon le szöveggel, szövegből képet/hangot generáljon, vagy több forrást egyesítsen jobb megértéshez.
PROMPT
A modellnek adott utasítás és kontextus, amely meghatározza a feladatot, a stílust és az elvárt kimeneti formátumot. Tartalmazhat példákat, szabályokat és kimeneti sémát.
HALLUCINÁCIÓ (HALLUCINATION)
Az LLM-ek egyik jelentős problémája, amikor téves vagy nem létező információkat generálnak magabiztosan hangzó válaszokban.
COPILOT
Asszisztens jellegű mesterséges intelligencia, amely a felhasználó munkafolyamatába beépülve támogatja a feladatvégzést javaslatokkal, automatikus kiegészítésekkel és részfeladatok átvállalásával (pl. kód-, e-mail- vagy dokumentumírás).
Működése a felhasználó irányításán és jóváhagyásán alapul, így nem tekinthető teljesen autonóm rendszernek.
RAG (RETRIEVAL-AUGMENTED GENERATION)
Keresésen alapuló tudásvisszaadással kiegészített generálás. Fő lépések: dokumentumok darabolása és beágyazása, indexelés; releváns részek visszakeresése a kérdéshez; találatok újrarangsorolása; a visszakeresett kontextus beillesztése a promptba; generálás. Előny: frissebb, forrásolt válaszok és kevesebb hallucináció. Kihívások: minőség az indexelésen/lekérdezésen múlik; prompt és adatvédelmi kockázatok kezelése szükséges.
Generatív AI (GenAI)
Olyan modellek, amelyek új tartalmat hoznak létre a tanult minták alapján.
SZÖVEG
Tipikusan LLM-ek
(transformer-alapú nyelvi modellek)
KÉP/HANG/VIDEÓ
Főként diffúziós modellek,
de GAN-ok és más architektúrák is.
A GenAI tágabb kategória, mint az LLM; az LLM a szöveges ág domináns megoldása.

Nagy nyelvi modellek (LLM-ek)
Nagy méretű, többnyire transformer-alapú modellek, amelyek tokenről tokenre becsülik a következő token valószínűségét; így képesek koherens szöveg generálására.
TANÍTÁS
-
Előtanítás nagy korpuszokon (nyelvi minták), majd gyakran finomhangolás (utasítás-követés, SFT, RLHF/DPO).
ARCHITEKTÚRA
-
Jellemzően „decoder-only" transformer.
KONTEXTUSABLAK
-
Architekturális korlát arra, hány tokent tekintsen egyszerre a modell.
DEKÓDOLÁSI BEÁLLÍTÁSOK (INFERENCE, NEM TRÉNING)
-
Temperature: a kimenet véletlenszerűsége. Azaz mennyire legyen random a szöveg generálásánál.
-
Top-k: a legvalószínűbb tokenre korlátoz. Azaz mennyire hosszan és kreatívan fejtse ki.
-
Top-p: a legkisebb tokenhalmazra korlátoz, amelynek összvalószínűsége p. Azaz mennyire legyen változatos.
-
Presence penalty: ösztönzi új tokenek megjelenését (kevesebb ismétlés).
Egyszerűbben egy utasítás: Ezt a szót már használtad többet ne használd. -
Frequency penalty: visszafogja a gyakran ismételt tokeneket arányosan a gyakorisággal.
Egyszerűbben egy utasítás: Ezt a szót sokszor használtad változtass azon amit mondani akarsz.
Ezek a kimenet diverzitását és ismétléseit befolyásolják;
nem „pontosítják" a modellt és nem növelik a „mélyrehatóságot".
Nagy nyelvi modellek működése
01
TOKENIZÁCIÓ
A szöveg szavakra majd szótagokra bontásának folyamata (alapvető egységek), amelyeket a gépek értelmezni tudnak (token). Gyakori módszerek: BPE (Byte Pair Encoding), WordPiece, SentencePiece.
02
EMBEDDING (VEKTORREPREZENTÁCIÓ)
Tanult vektorok, amelyek a tokenek jelentését hordozzák egy nagy dimenziós térben. A kozinusz-hasonlóság gyakran használt mérőszám hasonlóság-alapú kereséshez, de a tér a tanítás során alakul ki, nem „kézzel" van beállítva.
03
POZÍCIÓS KÓDOLÁS (POSITIONAL ENCODING)
A transzformereknek explicit sorrend-információ kell. Megoldások: szinuszos vagy tanulható abszolút kódolás, illetve relatív megközelítések (pl. RoPE, ALiBi).
04
TRANSZFORMER
Szekvenciákat feldolgozó architektúra, amely rétegenként multi-head self-attentiont és pozíciónkénti FFN-t kombinál, residual kapcsolatokkal és normalizálással. Változatok: encoder-only (megértés), decoder-only (generálás), encoder–decoder (bemenet–kimenet transzformáció).
05
ATTENTION BLOKK
A bemenet vektorait lekérdezés (Q), kulcs (K) és érték (V) terekké képezzük. Minden pozíció a saját lekérdezését az összes kulccsal hasonlítja össze; a normalizált súlyokkal átlagolt értékek adják a kimenetet. Maszk gondoskodik arról, hogy a dekóderben csak a korábbi pozíciókra „figyelhessen". A multi-head változat több, párhuzamos fejjel különféle mintázatokat fog meg.
06
UNEMBEDDING (LM HEAD)
Az utolsó lineáris réteg, amely a rejtett állapotokat token-szintű pontszámokká (logitokká) vetíti. Ezekből softmax ad valószínűségi eloszlást, amelyből kiválasztjuk vagy mintavételezzük a következő tokent. Súlymegosztás (weight tying): gyakori, hogy az unembedding súlyai a bemeneti embedding mátrix transzponáltjával egyeznek, ami csökkenti a paraméterszámot és javíthatja a teljesítményt.
07
SOFTMAX ÉS DEKÓDOLÁS
A softmax a logitokból valószínűségi eloszlást készít (pozitív értékek, összegük 1). Dekódolási stratégiák: temperature, top-k, top-p, presence/frequency penalty. Ezek az eloszlásból történő választást befolyásolják (diverzitás, ismétlés), nem a modell „tudását".
Adatfolyam

Ügynöki AI (Agentic AI)
Olyan rendszerek, amelyek egy vagy több LLM-et cselekvőképessé tesznek: célokat bontanak fel, tervet készítenek, eszközöket hívnak (function/tool calling: API, böngészés, kód-futtatás), memóriát használnak, és visszacsatoltan iterálnak.
Mesterséges neurális hálók
Sok, egymásra rétegzett, nemlineáris egységből álló, gradiensalapú tanulással betanított modellek, amelyek komplex mintázatokat képesek megtanulni adatokból.
Gyakori típusok: MLP, Transformer, autoencoderek, diffúziós modellek, GNN.
Iratkozz fel hírlevelünkre!
Értesülj elsőként az MI újdonságokról és eseményekről.