Gemini 3 Flash е брз и паметен. Но, ако го прашате нешто што всушност не го знае, нешто нејасно или нешто што е надвор од неговото знаење, речиси секогаш ќе се обиде да измисли нешто, според неодамнешната евалуација од независната група за тестирање Artificial Analysis.
Gemini 3 Flash очигледно постигна 91 процент на делот за „стапка на халуцинации“ од тестот AA-Omniscience. Тоа значи дека дури и кога немал одговор, сепак дал одговор, еден што бил целосно измислен.
Измислувањето работи преку вештачка интелигенција е проблем од самиот почеток. Знаењето кога да се запре и да се каже „Не знам“ е исто толку важно како и знаењето како да се одговори на прво место.
Во моментов, вештачката интелигенција во Google Gemini 3 Flash не го прави тоа баш добро. Затоа е тестот – да се види дали моделот може да разликува вистинско знаење од претпоставки.
За да не го одвлекува вниманието од реалноста, вреди да се напомене дека високата стапка на халуцинации на Gemini не значи дека 91 процент од неговите вкупни одговори се лажни.
Наместо тоа, тоа значи дека во ситуации каде што точниот одговор би бил „Не знам“, тој го сочинувал одговорот во 91 процент од случаите.
Тоа е суптилна, но важна разлика, која има импликации во реалниот свет, особено затоа што Gemini е интегриран во повеќе производи како Google Search.
Овој резултат не ја намалува моќта и корисноста на Gemini 3. Моделот останува најдобар изведувач во тестовите за општа намена, рангирајќи се заедно, или дури и пред, најновите верзии на ChatGPT и Claude.
Тоа е само преуверено кога треба да биде скромно.
Преуверената самодоверба во одговарањето се појавува и кај конкурентите на Gemini. Она што ги издвојува бројките на Gemini е колку често се појавуваат во овие сценарија на неизвесност, каде што едноставно нема точен одговор во податоците за обука или нема дефинитивен јавен извор на кој би се посочил.
Дел од проблемот е едноставно тоа што генеративните модели на вештачка интелигенција се претежно алатки за предвидување зборови, а предвидувањето нов збор не е исто што и проценка на вистината.
OpenAI почна да се справува со ова прашање и им дава инструкции на своите модели да препознаат што не знаат и тоа јасно да го кажат.
Пронајдете не на следниве мрежи:


