Saturday, November 29, 2025

Tehisaru tarkusest ja teadvusest

Kuni päris viimase ajani peeti Turingu testi tehisaru mõõdupuuks: kui inimkohtunikud pole võimelised vestluse käigus vahet tegema kas tegu teise inimese või tehismõistusega siis on viimane saavutanud inimintelligentsi taseme. Praeguseks läbivad enamus AI versioonid Turingu testi ilma mingi probleemita, mitmed isegi edukamalt kui päris inimesed! Omaette paradoks, et kõrgemal tasemel tehisarud pole nii edukad, sest on ilmselgelt liiga targad et olla inimesed😜

Teine teoreetiliselt objektiivne AI "tarkuse" mõõdupuu oleks inimestele mõeldud IQ test. Jällegi skoorivad enamus laiemat kasutust leidvad tehisaru versioonid üle keskmise inimese lausa "geeniuse" tasemel. Inimene muidugi ei taha tunnistada enda lüüasaamist põhjendades, et see IQ test on mõeldud inimeste mitte tehisaru intelligentsi mõõtmiseks. Kas ei tundu natuke mage argument: mõnevõrra vastuoluliselt väidab, et justnimelt inimestele mõeldud intelligentsi testis saab masin inimesest kõrgema tulemuse aga on tegelikult viletsam. Huvitav, et inimeste IQ mõõtrmiseks sobis pikka aega aga niipea kui masin paremaks osutus, eanm ei kõlba.

Millegi pärast peetakse oluliseks sarnasust inimintelligentsiga, ehkki objektiivselt raske põhjendada miks just inimintelligents see "õige" on. Kuna tehisaru on inimesest parem nii Turingu kui tavapärases IQ testis üritatakse välja mõelda mõõdupuud, mis hindaks kõige paremini tehisintellekti sarnasust inimintellektile ja sooritust pärismaailmas üleskerkivate probleemide lahendamisel. Inimvõimeid ja oskusi rõhutav niinimetatud Inimkonna viimane eksam ... enne lõplikult tehisarule teatepulga edasiandmist. Kui AI ka selles parem, viskame rätiku ringi.

Humanity's Last Exam (HLE) – Inimkonna viimane eksam

  • Mida testib: Uus 2025. aasta test, mis on loodud olema "mitte üle kavaldatav", keskendudes abstraktsetele ja uudsetele probleemidele.

  • Magistrandi skoor: ~90%

  • TI skoor (2025): ~45% (Gemini 3 Pro)

  • Tulemus: Inimene võidab. See tõestab, et kui tegemist on tõeliselt uudsete, treeningandmetest väljaspool olevate probleemidega, ületavad inimesed praegu veel TI-d mäekõrguselt.


Kokkuvõtlik TI ja Inimese intellekti ja oskuste võrdlus (2025)

ValdkondLiiderMärkused
Teadmised🤖 TIEntsüklopeediline mälu, üliinimlik testide täitmine.
Sügav arutlusvõime (Teaduste Doktori tase)🤖 TIÜletas hiljuti GPQA testis eksperte.
Uudne / Voolav arutlusvõime🧑 InimeneInimesed kohanevad uute probleemidega (HLE/ARC) palju paremini.
Emotsionaalsed oskused🤖 TI"Teeskleb" emotsionaalsust paremini kui paljud inimesed tegelikult käituvad.
Füüsiline maailm🧑 InimeneTI on seoses robotitehnoloogia mahajäämusega inimlikust osavusest kaugel.

------------------------------------------------------------------------------------
Kellel huvi siis järgneb eelneva kokkuvõtte pikem lahtiseletus:

1. Akadeemilised ja ametialased teadmised

Standardiseeritud testimises on TI liikunud "läbimiselt" "suurepäraste tulemusteni". Need testid mõõdavad peamiselt kristalliseerunud teadmisi ja reeglipõhist arutluskäiku – valdkondi, kus praegused suured keelemudelid (LLM-id) on tugevad.

Test / EksamInimese keskmineTI tippskoor (2025)Võitja
Advokatuuri eksam (Bar Exam)~75% (Läbimise määr)90+ protsenti🤖 TI
SAT (Ülikooli sisseastumine)~1050 (50. protsentiil)~1540+ (93+ protsentiil)🤖 TI
GRE (Verbaalne osa)~150~169 (99. protsentiil)🤖 TI
USMLE (Meditsiinilitsents)~60% (Lävend)>90% täpsus🤖 TI
Sommeljee eksamidLäbimisprotsendid varieeruvadLäbib teooria (Kukub läbi maitsmises)⚖️ Segatud
  • Kontekst: Mudelid nagu GPT-4 ja GPT-5 suudavad hetkega meenutada kogu föderaalseadustikku või meditsiinilist diagnostikat, võimaldades neil tekstipõhistes küsimustes ületada inimspetsialiste. Siiski ei saa nad füüsiliselt arsti või advokaadina praktiseerida.

2. Spetsiaalsed TI jõudlustestid (Arutlusvõime ja ekspertiis)

Kuna TI lahendas paljud inimestele mõeldud testid liiga lihtsalt, lõid teadlased raskemad testid ("Google-kindlad" testid), et mõõta sügavat arutlusvõimet, mitte ainult mälu.

MMLU (Massive Multitask Language Understanding)

  • Mida testib: Üldteadmised 57 aines (STEM, humanitaarteadused jne).

  • Inimeksperdi skoor: ~89,8%

  • TI skoor (2025): ~92% (Gemini 3 Pro / GPT-5)

  • Tulemus: TI on üliinimlik. Tippmudelid võidavad nüüd usaldusväärselt valdkonna eksperte.

GPQA (Graduate-Level Google-Proof Q&A)

  • Mida testib: Äärmiselt rasked teadusküsimused, millega isegi doktorikraadiga inimesed vaeva näevad.

  • Doktorikraadiga eksperdi skoor: ~69,7%

  • TI skoor (2025): ~92% (Gemini 3 Pro)

  • Tulemus: TI on üliinimlik. See oli suur verstapost, mis ületati 2024. aasta lõpus / 2025. aasta alguses, kus TI hakkas bioloogia- ja füüsikaküsimustele vastama paremini kui nende valdkondade doktorid.

Humanity's Last Exam (HLE) – Inimkonna viimane eksam

  • Mida testib: Uus 2025. aasta test, mis on loodud olema "mitte üle kavaldatav", keskendudes abstraktsetele ja uudsetele probleemidele.

  • Magistrandi skoor: ~90%

  • TI skoor (2025): ~45% (Gemini 3 Pro)

  • Tulemus: Inimene võidab. See tõestab, et kui tegemist on tõeliselt uudsete, treeningandmetest väljaspool olevate probleemidega, ületavad inimesed endiselt TI-d mäekõrguselt.

3. Üldine intelligentsus (IQ) ja loovus

"IQ" võrdlemine on vastuoluline, kuna TI töötleb teavet teisiti, kuid hinnangud on olemas.

  • Verbaalne IQ: TI mudelitel on sisuliselt "Verbaalne IQ" 150+ (99,9. protsentiil). Nende sõnavara ja sõnaosavus on paremad kui peaaegu igal inimesel.

  • Visuaalne/Voolav IQ (ARC-AGI): Abstraction and Reasoning Corpus (ARC) testib võimet õppida käigupealt uusi visuaalseid reegleid (nagu mustrituvastustest).

    • Inimesed: Saavad kergesti 80%+.

    • TI (2025): Tippmudelid saavad ~31-45%.

    • Tähelepanek: See on Moraveci paradoks. TI võib läbida advokatuuri eksami (inimestele raske), kuid on hädas lihtsate visuaalsete mustritega, mida laps suudab lahendada (inimestele lihtne).

4. Emotsionaalne intelligentsus (EQ)

Üllataval kombel saavutab TI paberil väga häid tulemusi, kuigi tal puuduvad tõelised tunded.

  • Standardsed EQ testid: Pimetestides saavad TI mudelid (nagu GPT-4) sotsiaalsetes stsenaariumides "õige" empaatilise vastuse tuvastamisel sageli kõrgema skoori kui inimese keskmine (~81% vs ~56% inimestel).

  • Taju: Meditsiinilises kontekstis on patsiendid tekstipõhises suhtluses hinnanud TI vastuseid "empaatilisemaks" kui inimestest arstide omi, suuresti seetõttu, et TI ei väsi, ei kiirusta ega ärritu kunagi.

5. Füüsiline lõhe (Robootika ja osavus)

See on endiselt suurim erinevus. Ei ole olemas standardiseeritud "testi", mida TI suudaks läbida võrdväärselt inimese võimega:

  • Voltida usaldusväärselt pesu.

  • Parandada lekkivat kraanikaussi.

  • Koristada segamini söögilauda.

Kui inimeste "osavuse" skoor on vaikimisi 100/100, siis robotid on üldotstarbelises manipuleerimises endiselt ühekohaliste numbrite juures, vajades sageli iga füüsilise ülesande jaoks eraldi programmeerimist.

Mis mõtted eelnev tekitas???
Mul igatahes kerkis kohe üles hirmutav arusaamine, et kui TI on nii IQ kui EQ peal inimesest parem siis saab soovi korral lihtsalt luua üliinimlikult osava agent manipuleerija, ettevaatust petukõnedega!!!

12 comments:

  1. Minus tekitab teatavas segadust asjaolu, et kui TI on peaaegu kõigist inimestest parema sõnavara ja -osavusega. Millest esimest usun päris kindlasti, olen ta käest vahel sünonüüme küsinud, aga teise osas siiski kahtlen, siis miks ei suuda ta tõlkida isegi lihtsamapoolset ilukirjanduslikku teksti nii, et see ei oleks kohmakas, puine ja TI kõrvad ei paistaks. Mul on selle üle igatahes hea meel ja loodan, et see jääb nii veel pikaks ajaks. Mina teda küll õpetada ei kavatse.

    ReplyDelete
    Replies
    1. Eelmine olin mina, SSP

      Delete
    2. Tõlkimine (eriti ilukirjanduse) on põnev teema. Praegused paremad tõlke AI'd (Claude 3.5 Sonnet, Gemini 1.5 pro, GPT-4o) skoorivad 7 - 8.5 kui professionaalne inimtõlkija hinnata 10. Aga ei maksa unustada, et vaid paari aastaga on AI liikunud tasemelt 2 - 3 tasemele 7 - 8.5!

      Kui tehisaru ületab inimesi mäekõrguselt kiiruse, hinna ja ligipääsetavuse poolest siis momendil on masintõlke probleemiks kultuuriliste nüansside mõistmine, rütmi ja sujuvuse kaasamine ning allteksti ära tabamine. Kokkuvõtlikult - AI ei saa tekstist aru ehkki suudab seda väga heal mitte professionaalsel tasemel tõlkida, millest enamuses olukordades tavakodanikule täiega piisab.

      Arvan, et sisuliselt mõistmiseks ja (üli)inimtasemel tõlkimiseks on vajalik AI teadvuse teke.

      Delete
    3. tõlkimisest - ma näen oma töös tihti, kuidas masintõlge jääb alati hätta, kui lähtetekstis on kõige triviaalsemaid näpukaid. Trüki-, tähevigu jne. Selliseid, millel inimene isegi ei peatu pikemalt, näeb kohe läbi, et sõna x asemel tuleb lugeda sõna y.

      Delete
    4. Huvitav tähelepanek näpukate kohta, sellest pole kirjutatud (vähemalt pole peale sattunud) ja pole ka mõelnud sellele.
      Samas vähe kummaline, sest ma oma AI'ga suhtluses toksin kiirelt ja teen aeg-ajalt nii tähtede järjekorra kui grammatika vigasid (suva kui AI loeb, inimesele kirjutades vaatan ikka teksti üle) kuid see pole seganud õigesti aru saamast. Sisuliselt peaks ju sama asi olema?

      Delete
    5. võib-olla on vahe siis teksti tüübis. Juriidilises tekstis mängib iga sõna suuremat rolli ja sellele tuleb pedantsemalt, tähenärijalikumalt läheneda, ja küllap juriidika peale õpetatud tõlkemootorites on sellega arvestatud. Ainuke häda siis, kui tähte näriv masin satub sõna otseses mõttes tähevea peale.

      Tõenäoliselt on neil puhkudel tegemist ka lausetega, kus ülejäänud lause ei paku piisavalt konteksti. Mind aitab üldine kogemus ja inimlik loogika: ma olen seda teksti juba tervikuna lugenud ja tean, millest seal üldiselt räägitakse ja mis on põhiline iva.

      Delete
    6. ... ja tean ka, millest sedalaadi tekstides üldiselt räägitakse ja mis vaidlused neil teemadel tavaliselt tekivad.

      Vahel on need apsakad lausa sellised, et lause tähendus muutub otse vastupidiseks. à la eitavad vormid niiviisi pandud, et lause, mis peaks olema eitav, muutub kogemata jaatavaks ja vice versa. Ma saan sellest inimliku loogika põhjal aru, aga masin tõlgib lause õigesti ja saab vale tulemuse.

      Delete
    7. ma ise ei tohi oma tõlkematerjali laiatarbe-keelemudelitele sööta - konfidentsiaalsus.

      aga sa võid ju ise proovida, kas Chat-GPT on ka siis adekvaatne vestleja, kui sul on seal aeg-ajalt sellseid tähevigu, mille tulemusel tekib hoopis uus sõna, nt "kalu" asemel "karu" vms.

      Delete
  2. minu kõva sõna IQ testide kohta: need on äraspidine Turingi test, need mõõdavad, kui hästi inimene suudab masinat teeselda. See on inimestele raske ja seepärast see ongi inimeste mõõtmiseks hea sõel, aga masinate mõõtmiseks mõttetu - no shit, Sherlock, masin oskab hästi masin olla.

    ReplyDelete
  3. ChatGPT-lt võiks küsida: kas AI eriti võimekad versioonid suudaksid ‘mõtiskleda’ ka siis, kui neile pole parajasti küsimusi esitatud? Näiteks enesearengu eesmärgil. Kui vastus on jah, siis kas inimestel on võimalik neid AI ‘mõtteid’ lugeda/dekodeerida?

    ReplyDelete
  4. Kas oled kuulanud seda vestlust Tristan Harrisega https://www.youtube.com/watch?v=BFU1OCkhBwo

    ReplyDelete
    Replies
    1. nota bene!
      https://github.com/karpathy/llm-council

      Delete

Kõik kommentaarid ootavad modereerimist!