Кога Gemini 3 Flash не го знае одговорот, тој едноставно го измислува

Gemini 3 Flash е брз и паметен. Но, ако го прашате нешто што всушност не го знае, нешто нејасно или нешто што е надвор од неговото знаење, речиси секогаш ќе се обиде да измисли нешто, според неодамнешната евалуација од независната група за тестирање Artificial Analysis.

Gemini 3 Flash очигледно постигна 91 процент на делот за „стапка на халуцинации“ од тестот AA-Omniscience. Тоа значи дека дури и кога немал одговор, сепак дал одговор, еден што бил целосно измислен.

Измислувањето работи преку вештачка интелигенција е проблем од самиот почеток. Знаењето кога да се запре и да се каже „Не знам“ е исто толку важно како и знаењето како да се одговори на прво место.

Во моментов, вештачката интелигенција во Google Gemini 3 Flash не го прави тоа баш добро. Затоа е тестот – да се види дали моделот може да разликува вистинско знаење од претпоставки.

За да не го одвлекува вниманието од реалноста, вреди да се напомене дека високата стапка на халуцинации на Gemini не значи дека 91 процент од неговите вкупни одговори се лажни.

Наместо тоа, тоа значи дека во ситуации каде што точниот одговор би бил „Не знам“, тој го сочинувал одговорот во 91 процент од случаите.

Тоа е суптилна, но важна разлика, која има импликации во реалниот свет, особено затоа што Gemini е интегриран во повеќе производи како Google Search.

Овој резултат не ја намалува моќта и корисноста на Gemini 3. Моделот останува најдобар изведувач во тестовите за општа намена, рангирајќи се заедно, или дури и пред, најновите верзии на ChatGPT и Claude.

Тоа е само преуверено кога треба да биде скромно.

Преуверената самодоверба во одговарањето се појавува и кај конкурентите на Gemini. Она што ги издвојува бројките на Gemini е колку често се појавуваат во овие сценарија на неизвесност, каде што едноставно нема точен одговор во податоците за обука или нема дефинитивен јавен извор на кој би се посочил.

Дел од проблемот е едноставно тоа што генеративните модели на вештачка интелигенција се претежно алатки за предвидување зборови, а предвидувањето нов збор не е исто што и проценка на вистината.

OpenAI почна да се справува со ова прашање и им дава инструкции на своите модели да препознаат што не знаат и тоа јасно да го кажат.

Пронајдете не на следниве мрежи:

Breaking News

Кога Gemini 3 Flash не го знае одговорот, тој едноставно го измислува

More in Uncategorized:

Пребарај тука:

Иран предупредува: Армијата во висока подготвеност по заканите од САД

Сахарска прашина од понеделникот е во офанзива низ Грција и Македонија

Градоначалникот на Скопје тврди се е според закон со членови на управните одбори, опозицијата ги спори

Вучиќ: Оваа година одиме на избори

Милорад Додик пак беше кај Виктор Орбан

Тренчевска: Минимална плата од 600 евра за достоинствен живот на работниците

Пет тони марихуана шверцувани од фабрика за медицински канабис од Македонија во Србија, организаторот на групата е во бегство

Русија го забрани извозот на гориво!

Сајбер Команда С3Е26 – 15.03.2025

ПУЛС24.МК на ИСТАГРАМ

хороскоп

Секогаш наоѓaaт маани: Хороскопските знаци кои најмногу се жалат

занимливости

Речиси 75% од мажите имаат една „одвратна“ навика за одење во тоалет, а жените се презаситени од неа

Моника Белучи ги покажа ГОЛИТЕ ГРАДИ и го прекрши СВЕТОТО ПРАВИЛО НА ЦРВЕНИОТ ТЕПИХ – ова ретко koja ѕвезда би го направила: На истиот настан и Емануел Макрон

ГО ФАТИЛА СОПРУГОТ ВО ИЗМАМА,ПА ГО ЗАВЕЛА ПОЗНАТИОТ ВОДИТЕЛ