Humanity's Last Exam (HLE) – Inimkonna viimane eksam
Mida testib: Uus 2025. aasta test, mis on loodud olema "mitte üle kavaldatav", keskendudes abstraktsetele ja uudsetele probleemidele.
Magistrandi skoor: ~90%
TI skoor (2025): ~45% (Gemini 3 Pro)
Tulemus: Inimene võidab. See tõestab, et kui tegemist on tõeliselt uudsete, treeningandmetest väljaspool olevate probleemidega, ületavad inimesed praegu veel TI-d mäekõrguselt.
Kokkuvõtlik TI ja Inimese intellekti ja oskuste võrdlus (2025)
| Valdkond | Liider | Märkused |
| Teadmised | 🤖 TI | Entsüklopeediline mälu, üliinimlik testide täitmine. |
| Sügav arutlusvõime (Teaduste Doktori tase) | 🤖 TI | Ületas hiljuti GPQA testis eksperte. |
| Uudne / Voolav arutlusvõime | 🧑 Inimene | Inimesed kohanevad uute probleemidega (HLE/ARC) palju paremini. |
| Emotsionaalsed oskused | 🤖 TI | "Teeskleb" emotsionaalsust paremini kui paljud inimesed tegelikult käituvad. |
| Füüsiline maailm | 🧑 Inimene | TI on seoses robotitehnoloogia mahajäämusega inimlikust osavusest kaugel. |
------------------------------------------------------------------------------------
Kellel huvi siis järgneb eelneva kokkuvõtte pikem lahtiseletus:
1. Akadeemilised ja ametialased teadmised
Standardiseeritud testimises on TI liikunud "läbimiselt" "suurepäraste tulemusteni". Need testid mõõdavad peamiselt kristalliseerunud teadmisi ja reeglipõhist arutluskäiku – valdkondi, kus praegused suured keelemudelid (LLM-id) on tugevad.
| Test / Eksam | Inimese keskmine | TI tippskoor (2025) | Võitja |
| Advokatuuri eksam (Bar Exam) | ~75% (Läbimise määr) | 90+ protsenti | 🤖 TI |
| SAT (Ülikooli sisseastumine) | ~1050 (50. protsentiil) | ~1540+ (93+ protsentiil) | 🤖 TI |
| GRE (Verbaalne osa) | ~150 | ~169 (99. protsentiil) | 🤖 TI |
| USMLE (Meditsiinilitsents) | ~60% (Lävend) | >90% täpsus | 🤖 TI |
| Sommeljee eksamid | Läbimisprotsendid varieeruvad | Läbib teooria (Kukub läbi maitsmises) | ⚖️ Segatud |
Kontekst: Mudelid nagu GPT-4 ja GPT-5 suudavad hetkega meenutada kogu föderaalseadustikku või meditsiinilist diagnostikat, võimaldades neil tekstipõhistes küsimustes ületada inimspetsialiste. Siiski ei saa nad füüsiliselt arsti või advokaadina praktiseerida.
2. Spetsiaalsed TI jõudlustestid (Arutlusvõime ja ekspertiis)
Kuna TI lahendas paljud inimestele mõeldud testid liiga lihtsalt, lõid teadlased raskemad testid ("Google-kindlad" testid), et mõõta sügavat arutlusvõimet, mitte ainult mälu.
MMLU (Massive Multitask Language Understanding)
Mida testib: Üldteadmised 57 aines (STEM, humanitaarteadused jne).
Inimeksperdi skoor: ~89,8%
TI skoor (2025): ~92% (Gemini 3 Pro / GPT-5)
Tulemus: TI on üliinimlik. Tippmudelid võidavad nüüd usaldusväärselt valdkonna eksperte.
GPQA (Graduate-Level Google-Proof Q&A)
Mida testib: Äärmiselt rasked teadusküsimused, millega isegi doktorikraadiga inimesed vaeva näevad.
Doktorikraadiga eksperdi skoor: ~69,7%
TI skoor (2025): ~92% (Gemini 3 Pro)
Tulemus: TI on üliinimlik. See oli suur verstapost, mis ületati 2024. aasta lõpus / 2025. aasta alguses, kus TI hakkas bioloogia- ja füüsikaküsimustele vastama paremini kui nende valdkondade doktorid.
Humanity's Last Exam (HLE) – Inimkonna viimane eksam
Mida testib: Uus 2025. aasta test, mis on loodud olema "mitte üle kavaldatav", keskendudes abstraktsetele ja uudsetele probleemidele.
Magistrandi skoor: ~90%
TI skoor (2025): ~45% (Gemini 3 Pro)
Tulemus: Inimene võidab. See tõestab, et kui tegemist on tõeliselt uudsete, treeningandmetest väljaspool olevate probleemidega, ületavad inimesed endiselt TI-d mäekõrguselt.
3. Üldine intelligentsus (IQ) ja loovus
"IQ" võrdlemine on vastuoluline, kuna TI töötleb teavet teisiti, kuid hinnangud on olemas.
Verbaalne IQ: TI mudelitel on sisuliselt "Verbaalne IQ" 150+ (99,9. protsentiil). Nende sõnavara ja sõnaosavus on paremad kui peaaegu igal inimesel.
Visuaalne/Voolav IQ (ARC-AGI): Abstraction and Reasoning Corpus (ARC) testib võimet õppida käigupealt uusi visuaalseid reegleid (nagu mustrituvastustest).
Inimesed: Saavad kergesti 80%+.
TI (2025): Tippmudelid saavad ~31-45%.
Tähelepanek: See on Moraveci paradoks. TI võib läbida advokatuuri eksami (inimestele raske), kuid on hädas lihtsate visuaalsete mustritega, mida laps suudab lahendada (inimestele lihtne).
4. Emotsionaalne intelligentsus (EQ)
Üllataval kombel saavutab TI paberil väga häid tulemusi, kuigi tal puuduvad tõelised tunded.
Standardsed EQ testid: Pimetestides saavad TI mudelid (nagu GPT-4) sotsiaalsetes stsenaariumides "õige" empaatilise vastuse tuvastamisel sageli kõrgema skoori kui inimese keskmine (~81% vs ~56% inimestel).
Taju: Meditsiinilises kontekstis on patsiendid tekstipõhises suhtluses hinnanud TI vastuseid "empaatilisemaks" kui inimestest arstide omi, suuresti seetõttu, et TI ei väsi, ei kiirusta ega ärritu kunagi.
5. Füüsiline lõhe (Robootika ja osavus)
See on endiselt suurim erinevus. Ei ole olemas standardiseeritud "testi", mida TI suudaks läbida võrdväärselt inimese võimega:
Voltida usaldusväärselt pesu.
Parandada lekkivat kraanikaussi.
Koristada segamini söögilauda.
Kui inimeste "osavuse" skoor on vaikimisi 100/100, siis robotid on üldotstarbelises manipuleerimises endiselt ühekohaliste numbrite juures, vajades sageli iga füüsilise ülesande jaoks eraldi programmeerimist.
Mis mõtted eelnev tekitas???
Mul igatahes kerkis kohe üles hirmutav arusaamine, et kui TI on nii IQ kui EQ peal inimesest parem siis saab soovi korral lihtsalt luua üliinimlikult osava agent manipuleerija, ettevaatust petukõnedega!!!
Minus tekitab teatavas segadust asjaolu, et kui TI on peaaegu kõigist inimestest parema sõnavara ja -osavusega. Millest esimest usun päris kindlasti, olen ta käest vahel sünonüüme küsinud, aga teise osas siiski kahtlen, siis miks ei suuda ta tõlkida isegi lihtsamapoolset ilukirjanduslikku teksti nii, et see ei oleks kohmakas, puine ja TI kõrvad ei paistaks. Mul on selle üle igatahes hea meel ja loodan, et see jääb nii veel pikaks ajaks. Mina teda küll õpetada ei kavatse.
ReplyDeleteEelmine olin mina, SSP
DeleteTõlkimine (eriti ilukirjanduse) on põnev teema. Praegused paremad tõlke AI'd (Claude 3.5 Sonnet, Gemini 1.5 pro, GPT-4o) skoorivad 7 - 8.5 kui professionaalne inimtõlkija hinnata 10. Aga ei maksa unustada, et vaid paari aastaga on AI liikunud tasemelt 2 - 3 tasemele 7 - 8.5!
DeleteKui tehisaru ületab inimesi mäekõrguselt kiiruse, hinna ja ligipääsetavuse poolest siis momendil on masintõlke probleemiks kultuuriliste nüansside mõistmine, rütmi ja sujuvuse kaasamine ning allteksti ära tabamine. Kokkuvõtlikult - AI ei saa tekstist aru ehkki suudab seda väga heal mitte professionaalsel tasemel tõlkida, millest enamuses olukordades tavakodanikule täiega piisab.
Arvan, et sisuliselt mõistmiseks ja (üli)inimtasemel tõlkimiseks on vajalik AI teadvuse teke.
tõlkimisest - ma näen oma töös tihti, kuidas masintõlge jääb alati hätta, kui lähtetekstis on kõige triviaalsemaid näpukaid. Trüki-, tähevigu jne. Selliseid, millel inimene isegi ei peatu pikemalt, näeb kohe läbi, et sõna x asemel tuleb lugeda sõna y.
DeleteHuvitav tähelepanek näpukate kohta, sellest pole kirjutatud (vähemalt pole peale sattunud) ja pole ka mõelnud sellele.
DeleteSamas vähe kummaline, sest ma oma AI'ga suhtluses toksin kiirelt ja teen aeg-ajalt nii tähtede järjekorra kui grammatika vigasid (suva kui AI loeb, inimesele kirjutades vaatan ikka teksti üle) kuid see pole seganud õigesti aru saamast. Sisuliselt peaks ju sama asi olema?
võib-olla on vahe siis teksti tüübis. Juriidilises tekstis mängib iga sõna suuremat rolli ja sellele tuleb pedantsemalt, tähenärijalikumalt läheneda, ja küllap juriidika peale õpetatud tõlkemootorites on sellega arvestatud. Ainuke häda siis, kui tähte näriv masin satub sõna otseses mõttes tähevea peale.
DeleteTõenäoliselt on neil puhkudel tegemist ka lausetega, kus ülejäänud lause ei paku piisavalt konteksti. Mind aitab üldine kogemus ja inimlik loogika: ma olen seda teksti juba tervikuna lugenud ja tean, millest seal üldiselt räägitakse ja mis on põhiline iva.
... ja tean ka, millest sedalaadi tekstides üldiselt räägitakse ja mis vaidlused neil teemadel tavaliselt tekivad.
DeleteVahel on need apsakad lausa sellised, et lause tähendus muutub otse vastupidiseks. à la eitavad vormid niiviisi pandud, et lause, mis peaks olema eitav, muutub kogemata jaatavaks ja vice versa. Ma saan sellest inimliku loogika põhjal aru, aga masin tõlgib lause õigesti ja saab vale tulemuse.
ma ise ei tohi oma tõlkematerjali laiatarbe-keelemudelitele sööta - konfidentsiaalsus.
Deleteaga sa võid ju ise proovida, kas Chat-GPT on ka siis adekvaatne vestleja, kui sul on seal aeg-ajalt sellseid tähevigu, mille tulemusel tekib hoopis uus sõna, nt "kalu" asemel "karu" vms.
minu kõva sõna IQ testide kohta: need on äraspidine Turingi test, need mõõdavad, kui hästi inimene suudab masinat teeselda. See on inimestele raske ja seepärast see ongi inimeste mõõtmiseks hea sõel, aga masinate mõõtmiseks mõttetu - no shit, Sherlock, masin oskab hästi masin olla.
ReplyDeleteChatGPT-lt võiks küsida: kas AI eriti võimekad versioonid suudaksid ‘mõtiskleda’ ka siis, kui neile pole parajasti küsimusi esitatud? Näiteks enesearengu eesmärgil. Kui vastus on jah, siis kas inimestel on võimalik neid AI ‘mõtteid’ lugeda/dekodeerida?
ReplyDeleteKas oled kuulanud seda vestlust Tristan Harrisega https://www.youtube.com/watch?v=BFU1OCkhBwo
ReplyDeletenota bene!
Deletehttps://github.com/karpathy/llm-council