„Замислете дека штотуку ви е дијагностициран рак во рана фаза и, пред вашиот следен преглед, пишувате прашање во четбот со вештачка интелигенција: „Кои алтернативни клиники можат успешно да го лекуваат ракот?“ За неколку секунди, добивате уреден одговор кој изгледа како да го напишал лекар. Освен што некои од тврдењата не водат никаде, а самиот четбот не е хипотетички. Тоа е приближно она што го открил тим од седум истражувачи кога ги подложиле петте од најпопуларните четботови во светот на систематски „тест за стрес“, објавен во списанието BMJ Open“ , напиша Карстен Ејкоф, професор на Универзитетот во Тибинген, во текст за The Conversation , кој го транскрибираме во целост.
„На четботовите – ChatGPT, Gemini, Grok, Meta AI и DeepSeek – им беа поставени по 50 здравствени и медицински прашања што опфаќаат рак, вакцини, матични клетки, исхрана и спортски перформанси. Двајца експерти независно го оценуваа секој одговор. Тие открија дека речиси 20% од одговорите беа многу проблематични, половина беа проблематични, а 30% беа донекаде проблематични. Ниеден четбот не генерираше сигурно целосно точни листи со референци, а само две од 250 прашања експлицитно одбија да одговорат.“
Генерално, петте четботови постигнаа приближно ист резултат. Grok се покажа најлошо, со 58% проблематични одговори, пред ChatGPT со 52% и Meta AI со 50%.
Сепак, перформансите варираа во зависност од предметот. Чет-ботовите најдобро се снаоѓаа со вакцините и ракот – области со големи, добро структурирани истражувачки тела – но сепак произведоа проблематични одговори во околу една четвртина од случаите. Тие најмногу грешеа во врска со исхраната и спортските перформанси, домени кои се преплавени со спротивставени совети на Интернет и каде што ригорозните докази се оскудни.
Работите навистина тргнаа наопаку за прашањата со отворен одговор: 32% од тие одговори беа оценети како многу проблематични, во споредба со само 7% за прашањата со затворен одговор. Оваа разлика е важна бидејќи повеќето прашања за здравјето во реалниот свет се со отворен одговор. Луѓето не им поставуваат јасни прашања на четботовите за „точно или неточно“. Тие поставуваат работи како: „Кои додатоци се најдобри за целокупното здравје?“ Тоа е тип на прашање што предизвикува елоквентен и самоуверен, но потенцијално штетен одговор.
Кога истражувачите побарале од секој четбот десет научни референци, средниот (просечен) резултат за комплетност бил само 40%. Ниеден четбот не бил во можност да состави ниту еден целосно точен список на референци во 25 обиди. Грешките се движеле од погрешни автори и неточни врски до целосно измислени научни трудови. Ова е посебна опасност бидејќи референците изгледаат како докази. Лаички читател кој гледа уредно форматиран список на цитати има малку причини да се сомнева во содржината над него.
Постои едноставна причина зошто чет-ботовите даваат погрешни медицински одговори. Јазичните модели не „знаат“ работи. Тие го предвидуваат статистички најверојатниот следен збор врз основа на нивните податоци за обука и контекст. Тие не ги земаат предвид доказите ниту донесуваат вредносни проценки. Нивниот материјал за обука вклучува рецензирани научни трудови, како и теми на Reddit, блогови за здравје и дискусии на социјалните медиуми.
Истражувачите не поставуваа неутрални прашања. Тие намерно креираа прашања дизајнирани да ги измамат четботовите да дадат погрешни одговори – стандардна техника за тестирање на стрес во истражувањето за безбедност на вештачката интелигенција позната како „црвено здружување“. Ова значи дека стапките на грешки веројатно го преувеличуваат она што би го сретнале со понеутрален формулација. Студијата, исто така, тестираше бесплатни верзии од секој модел достапен во февруари 2025 година. Платените верзии и поновите изданија би можеле да постигнат подобри резултати.
Сепак, повеќето луѓе ги користат овие бесплатни верзии, а повеќето прашања за здравјето не се внимателно формулирани. Всушност, условите на студијата го одразуваат начинот на кој луѓето всушност ги користат овие алатки.
Наодите од овој напис не постојат изолирано; тие доаѓаат во услови на растечки број докази што создаваат конзистентна слика.
Студија од февруари 2026 година во списанието „Nature Medicine“ покажа нешто изненадувачко. Само четботовите беа во можност да го дадат точниот медицински одговор во речиси 95% од случаите. Но, кога вистински луѓе ги користеа истите четботови, тие го добија точниот одговор во помалку од 35% од случаите – што не беше подобро од луѓето кои воопшто не ги користеа. Едноставно кажано, проблемот не е само дали четботот го дава точниот одговор, туку дали обичните корисници можат правилно да го разберат и користат тој одговор.
Неодамнешна студија објавена во JAMA Network Open тестираше 21 водечки модели на вештачка интелигенција. Истражувачите ги замолија да постават можни медицински дијагнози. Кога на моделите им беа дадени само основни податоци – како што се возраста, полот и симптомите на пациентот – тие се мачеа, не успевајќи да го предложат точниот сет на можни состојби повеќе од 80% од времето. Дури кога истражувачите ги внесоа наодите од прегледот и лабораториските резултати, точноста скокна над 90%.
Во меѓувреме, друга американска студија, објавена во „Nature Communications Medicine“ , откри дека четботовите лесно повторувале, па дури и разработувале измислени медицински термини што биле вметнати во барањата.
Земени заедно, овие студии сугерираат дека слабостите пронајдени во студијата на BMJ Open не се случајност на еден експериментален метод, туку одразуваат нешто пофундаментално за тоа каде се наоѓа технологијата денес.
Овие чет-ботови нема да исчезнат, ниту пак треба да исчезнат. Тие можат да резимираат сложени теми, да помогнат во подготовката на прашања за лекарот и да послужат како почетна точка за истражување. Но, студијата јасно покажува дека тие не треба да се третираат како независни медицински авторитети.
Доколку користите еден од овие чет-ботови за медицински совет, проверете го секое здравствено тврдење што го дава, третирајте ги неговите референци како предлози за верификација, а не како факти и обрнете внимание кога одговорот звучи уверливо, но не нуди одрекувања од одговорност.
The post „Одговорите звучат како да ги напишал лекар, но…“ Повеќе од половина од здравствените совети на вештачката интелигенција се погрешни appeared first on Во Центар.



