Uidumõtteid ja juhtumisi: Tehisaru tarkusest ja teadvusest

Saturday, November 29, 2025

Tehisaru tarkusest ja teadvusest

Kuni päris viimase ajani peeti Turingu testi tehisaru mõõdupuuks: kui inimkohtunikud pole võimelised vestluse käigus vahet tegema kas tegu teise inimese või tehismõistusega siis on viimane saavutanud inimintelligentsi taseme. Praeguseks läbivad enamus AI versioonid Turingu testi ilma mingi probleemita, mitmed isegi edukamalt kui päris inimesed! Omaette paradoks, et kõrgemal tasemel tehisarud pole nii edukad, sest on ilmselgelt liiga targad et olla inimesed😜

Teine teoreetiliselt objektiivne AI "tarkuse" mõõdupuu oleks inimestele mõeldud IQ test. Jällegi skoorivad enamus laiemat kasutust leidvad tehisaru versioonid üle keskmise inimese lausa "geeniuse" tasemel. Inimene muidugi ei taha tunnistada enda lüüasaamist põhjendades, et see IQ test on mõeldud inimeste mitte tehisaru intelligentsi mõõtmiseks. Kas ei tundu natuke mage argument: mõnevõrra vastuoluliselt väidab, et justnimelt inimestele mõeldud intelligentsi testis saab masin inimesest kõrgema tulemuse aga on tegelikult viletsam. Huvitav, et inimeste IQ mõõtrmiseks sobis pikka aega aga niipea kui masin paremaks osutus, eanm ei kõlba.

Millegi pärast peetakse oluliseks sarnasust inimintelligentsiga, ehkki objektiivselt raske põhjendada miks just inimintelligents see "õige" on. Kuna tehisaru on inimesest parem nii Turingu kui tavapärases IQ testis üritatakse välja mõelda mõõdupuud, mis hindaks kõige paremini tehisintellekti sarnasust inimintellektile ja sooritust pärismaailmas üleskerkivate probleemide lahendamisel. Inimvõimeid ja oskusi rõhutav niinimetatud Inimkonna viimane eksam ... enne lõplikult tehisarule teatepulga edasiandmist. Kui AI ka selles parem, viskame rätiku ringi.

Humanity's Last Exam (HLE) – Inimkonna viimane eksam

Mida testib: Uus 2025. aasta test, mis on loodud olema "mitte üle kavaldatav", keskendudes abstraktsetele ja uudsetele probleemidele.
Magistrandi skoor: ~90%
TI skoor (2025): ~45% (Gemini 3 Pro)
Tulemus: Inimene võidab. See tõestab, et kui tegemist on tõeliselt uudsete, treeningandmetest väljaspool olevate probleemidega, ületavad inimesed praegu veel TI-d mäekõrguselt.

Kokkuvõtlik TI ja Inimese intellekti ja oskuste võrdlus (2025)

Valdkond	Liider	Märkused
Teadmised	🤖 TI	Entsüklopeediline mälu, üliinimlik testide täitmine.
Sügav arutlusvõime (Teaduste Doktori tase)	🤖 TI	Ületas hiljuti GPQA testis eksperte.
Uudne / Voolav arutlusvõime	🧑 Inimene	Inimesed kohanevad uute probleemidega (HLE/ARC) palju paremini.
Emotsionaalsed oskused	🤖 TI	"Teeskleb" emotsionaalsust paremini kui paljud inimesed tegelikult käituvad.
Füüsiline maailm	🧑 Inimene	TI on seoses robotitehnoloogia mahajäämusega inimlikust osavusest kaugel.

------------------------------------------------------------------------------------
Kellel huvi siis järgneb eelneva kokkuvõtte pikem lahtiseletus:

1. Akadeemilised ja ametialased teadmised

Standardiseeritud testimises on TI liikunud "läbimiselt" "suurepäraste tulemusteni". Need testid mõõdavad peamiselt kristalliseerunud teadmisi ja reeglipõhist arutluskäiku – valdkondi, kus praegused suured keelemudelid (LLM-id) on tugevad.

Test / Eksam	Inimese keskmine	TI tippskoor (2025)	Võitja
Advokatuuri eksam (Bar Exam)	~75% (Läbimise määr)	90+ protsenti	🤖 TI
SAT (Ülikooli sisseastumine)	~1050 (50. protsentiil)	~1540+ (93+ protsentiil)	🤖 TI
GRE (Verbaalne osa)	~150	~169 (99. protsentiil)	🤖 TI
USMLE (Meditsiinilitsents)	~60% (Lävend)	>90% täpsus	🤖 TI
Sommeljee eksamid	Läbimisprotsendid varieeruvad	Läbib teooria (Kukub läbi maitsmises)	⚖️ Segatud

Kontekst: Mudelid nagu GPT-4 ja GPT-5 suudavad hetkega meenutada kogu föderaalseadustikku või meditsiinilist diagnostikat, võimaldades neil tekstipõhistes küsimustes ületada inimspetsialiste. Siiski ei saa nad füüsiliselt arsti või advokaadina praktiseerida.

2. Spetsiaalsed TI jõudlustestid (Arutlusvõime ja ekspertiis)

Kuna TI lahendas paljud inimestele mõeldud testid liiga lihtsalt, lõid teadlased raskemad testid ("Google-kindlad" testid), et mõõta sügavat arutlusvõimet, mitte ainult mälu.

MMLU (Massive Multitask Language Understanding)

Mida testib: Üldteadmised 57 aines (STEM, humanitaarteadused jne).
Inimeksperdi skoor: ~89,8%
TI skoor (2025): ~92% (Gemini 3 Pro / GPT-5)
Tulemus: TI on üliinimlik. Tippmudelid võidavad nüüd usaldusväärselt valdkonna eksperte.

GPQA (Graduate-Level Google-Proof Q&A)

Mida testib: Äärmiselt rasked teadusküsimused, millega isegi doktorikraadiga inimesed vaeva näevad.
Doktorikraadiga eksperdi skoor: ~69,7%
TI skoor (2025): ~92% (Gemini 3 Pro)
Tulemus: TI on üliinimlik. See oli suur verstapost, mis ületati 2024. aasta lõpus / 2025. aasta alguses, kus TI hakkas bioloogia- ja füüsikaküsimustele vastama paremini kui nende valdkondade doktorid.

Humanity's Last Exam (HLE) – Inimkonna viimane eksam

Mida testib: Uus 2025. aasta test, mis on loodud olema "mitte üle kavaldatav", keskendudes abstraktsetele ja uudsetele probleemidele.
Magistrandi skoor: ~90%
TI skoor (2025): ~45% (Gemini 3 Pro)
Tulemus: Inimene võidab. See tõestab, et kui tegemist on tõeliselt uudsete, treeningandmetest väljaspool olevate probleemidega, ületavad inimesed endiselt TI-d mäekõrguselt.

3. Üldine intelligentsus (IQ) ja loovus

"IQ" võrdlemine on vastuoluline, kuna TI töötleb teavet teisiti, kuid hinnangud on olemas.

Verbaalne IQ: TI mudelitel on sisuliselt "Verbaalne IQ" 150+ (99,9. protsentiil). Nende sõnavara ja sõnaosavus on paremad kui peaaegu igal inimesel.
Visuaalne/Voolav IQ (ARC-AGI): Abstraction and Reasoning Corpus (ARC) testib võimet õppida käigupealt uusi visuaalseid reegleid (nagu mustrituvastustest).
- Inimesed: Saavad kergesti 80%+.
- TI (2025): Tippmudelid saavad ~31-45%.
- Tähelepanek: See on Moraveci paradoks. TI võib läbida advokatuuri eksami (inimestele raske), kuid on hädas lihtsate visuaalsete mustritega, mida laps suudab lahendada (inimestele lihtne).

4. Emotsionaalne intelligentsus (EQ)

Üllataval kombel saavutab TI paberil väga häid tulemusi, kuigi tal puuduvad tõelised tunded.

Standardsed EQ testid: Pimetestides saavad TI mudelid (nagu GPT-4) sotsiaalsetes stsenaariumides "õige" empaatilise vastuse tuvastamisel sageli kõrgema skoori kui inimese keskmine (~81% vs ~56% inimestel).
Taju: Meditsiinilises kontekstis on patsiendid tekstipõhises suhtluses hinnanud TI vastuseid "empaatilisemaks" kui inimestest arstide omi, suuresti seetõttu, et TI ei väsi, ei kiirusta ega ärritu kunagi.

5. Füüsiline lõhe (Robootika ja osavus)

See on endiselt suurim erinevus. Ei ole olemas standardiseeritud "testi", mida TI suudaks läbida võrdväärselt inimese võimega:

Voltida usaldusväärselt pesu.
Parandada lekkivat kraanikaussi.
Koristada segamini söögilauda.

Kui inimeste "osavuse" skoor on vaikimisi 100/100, siis robotid on üldotstarbelises manipuleerimises endiselt ühekohaliste numbrite juures, vajades sageli iga füüsilise ülesande jaoks eraldi programmeerimist.

Mis mõtted eelnev tekitas???
Mul igatahes kerkis kohe üles hirmutav arusaamine, et kui TI on nii IQ kui EQ peal inimesest parem siis saab soovi korral lihtsalt luua üliinimlikult osava agent manipuleerija, ettevaatust petukõnedega!!!

12 comments:

AnonymousSunday, 30 November, 2025
Minus tekitab teatavas segadust asjaolu, et kui TI on peaaegu kõigist inimestest parema sõnavara ja -osavusega. Millest esimest usun päris kindlasti, olen ta käest vahel sünonüüme küsinud, aga teise osas siiski kahtlen, siis miks ei suuda ta tõlkida isegi lihtsamapoolset ilukirjanduslikku teksti nii, et see ei oleks kohmakas, puine ja TI kõrvad ei paistaks. Mul on selle üle igatahes hea meel ja loodan, et see jääb nii veel pikaks ajaks. Mina teda küll õpetada ei kavatse.
ReplyDelete
Replies
notsuSunday, 30 November, 2025
minu kõva sõna IQ testide kohta: need on äraspidine Turingi test, need mõõdavad, kui hästi inimene suudab masinat teeselda. See on inimestele raske ja seepärast see ongi inimeste mõõtmiseks hea sõel, aga masinate mõõtmiseks mõttetu - no shit, Sherlock, masin oskab hästi masin olla.
ReplyDelete
Replies
AnonymousMonday, 01 December, 2025
ChatGPT-lt võiks küsida: kas AI eriti võimekad versioonid suudaksid ‘mõtiskleda’ ka siis, kui neile pole parajasti küsimusi esitatud? Näiteks enesearengu eesmärgil. Kui vastus on jah, siis kas inimestel on võimalik neid AI ‘mõtteid’ lugeda/dekodeerida?
ReplyDelete
Replies
AnonymousTuesday, 02 December, 2025
Kas oled kuulanud seda vestlust Tristan Harrisega https://www.youtube.com/watch?v=BFU1OCkhBwo
ReplyDelete
Replies

Add comment

Kõik kommentaarid ootavad modereerimist!