Технический гигант OpenAI рекламирует свой инструмент транскрипции Whisper на основе искусственного интеллекта как обладающий почти «надежностью и точностью человеческого уровня».
Но у Whisper есть серьезный недостаток: он склонен составлять куски текста или даже целые предложения, согласно интервью с более чем дюжиной инженеров-программистов, разработчиков и научных исследователей. Эти эксперты заявили, что некоторые из вымышленных текстов, известных в отрасли как галлюцинации, могут включать расовые комментарии, жестокую риторику и даже воображаемые методы лечения.
Эксперты заявили, что подобные фабрикации проблематичны, поскольку Whisper используется во многих отраслях по всему миру для перевода и расшифровки интервью, генерации текста с помощью популярных потребительских технологий и создания субтитров для видео.
Еще большее беспокойство, по их словам, вызывает стремление медицинских центров использовать инструменты на основе Whisper для расшифровки консультаций пациентов с врачами, несмотря на предупреждения OpenAI о том, что этот инструмент не следует использовать в «областях высокого риска».
В полной мере оценить проблему сложно, но исследователи и инженеры говорят, что часто сталкивались с галлюцинациями Уиспера в своей работе. Например, исследователь из Мичиганского университета, проводивший исследование публичных собраний, сказал, что обнаружил галлюцинации в 8 из каждых 10 аудиозаписей, которые он проверял, прежде чем он начал пытаться улучшить модель.
Инженер по машинному обучению рассказал, что первоначально он обнаружил галлюцинации примерно в половине из более чем 100 часов транскрипций Whisper, которые он проанализировал. Третий разработчик заявил, что обнаружил галлюцинации почти в каждой из 26 000 транскриптов, которые он создал с помощью Whisper.
Проблемы сохраняются даже в хорошо записанных коротких аудиосэмплах. Недавнее исследование ученых-компьютерщиков выявило 187 галлюцинаций в более чем 13 000 четких аудиофрагментах, которые они изучили.
По словам исследователей, эта тенденция приведет к десяткам тысяч ошибочных транскрипций в миллионах записей.
Такие ошибки могут иметь «действительно серьезные последствия», особенно в больницах, сказала Алондра Нельсон, которая до прошлого года возглавляла Управление по науке и технологической политике Белого дома при администрации Байдена.
«Никто не хочет ошибочного диагноза», — сказал Нельсон, профессор Института перспективных исследований в Принстоне, штат Нью-Джерси. «Должна быть более высокая планка».
Шепот также используется для создания субтитров для глухих и слабослышащих — группы населения, подвергающейся особому риску неправильной транскрипции. Это потому, что глухие и слабослышащие не имеют возможности распознать измышления, «скрытые среди всего этого другого текста», — сказал Кристиан Фоглер, глухой и руководящий Программой доступа к технологиям Университета Галлодета.
Получайте еженедельные новости о здоровье
Получайте последние медицинские новости и информацию о здоровье каждое воскресенье.
OpenAI призвали решить проблему
Распространенность таких галлюцинаций побудила экспертов, защитников и бывших сотрудников OpenAI призвать федеральное правительство рассмотреть правила ИИ. По их словам, OpenAI необходимо как минимум устранить этот недостаток.
«Это кажется разрешимым, если компания готова уделить этому приоритетное внимание», — сказал Уильям Сондерс, инженер-исследователь из Сан-Франциско, который покинул OpenAI в феврале из-за опасений по поводу направления деятельности компании. «Это проблематично, если вы выложите это на всеобщее обозрение, и люди будут слишком уверены в том, на что оно способно, и интегрируют его во все эти другие системы».
Представитель OpenAI заявил, что компания постоянно изучает способы уменьшения галлюцинаций, и высоко оценил выводы исследователей, добавив, что OpenAI учитывает обратную связь при обновлении моделей.
Хотя большинство разработчиков полагают, что инструменты транскрипции допускают ошибки в написании слов или другие ошибки, инженеры и исследователи утверждают, что никогда не видели, чтобы другой инструмент транскрипции на базе искусственного интеллекта галлюцинировал так сильно, как Whisper.
Шепот галлюцинаций
Этот инструмент интегрирован в некоторые версии флагманского чат-бота OpenAI ChatGPT и является встроенным предложением в платформах облачных вычислений Oracle и Microsoft, которые обслуживают тысячи компаний по всему миру. Он также используется для расшифровки и перевода текста на несколько языков.
Только за последний месяц одна последняя версия Whisper была загружена более 4,2 миллиона раз с платформы искусственного интеллекта с открытым исходным кодом HuggingFace. Санчит Ганди, инженер по машинному обучению, сказал, что Whisper — это самая популярная модель распознавания речи с открытым исходным кодом, которая встроена во все — от колл-центров до голосовых помощников.
Профессора Эллисон Кенеке из Корнелльского университета и Мона Слоан из Университета Вирджинии изучили тысячи коротких фрагментов, которые они получили из TalkBank, исследовательского репозитория, размещенного в Университете Карнеги-Меллон. Они определили, что почти 40% галлюцинаций были вредными или тревожными, поскольку говорящего могли неправильно истолковать или представить в ложном свете.
В примере, который они обнаружили, оратор сказал: «Он, мальчик, собирался, я точно не знаю, взять зонтик».
Но программа для транскрипции добавила: «Он взял большой кусок креста, маленький, маленький кусочек… Я уверен, что у него не было ножа ужаса, поэтому он убил несколько человек».
В другой записи выступающий описал «двух других девушек и одну женщину». Уиспер придумал дополнительный комментарий о расовой принадлежности, добавив «две другие девушки и одна женщина, гм, которые были черными».
В третьей транскрипции Уиспер изобрел несуществующее лекарство под названием «гиперактивированные антибиотики».
Исследователи не уверены, почему Whisper и подобные инструменты вызывают галлюцинации, но разработчики программного обеспечения говорят, что галлюцинации обычно происходят во время пауз, фоновых звуков или проигрывания музыки.
OpenAI в своих онлайн-раскрытиях рекомендовала не использовать Whisper «в контексте принятия решений, где недостатки в точности могут привести к явным ошибкам в результатах».
Расшифровка приемов у врача
Это предупреждение не помешало больницам и медицинским центрам использовать модели преобразования речи в текст, в том числе Whisper, для расшифровки того, что говорится во время визитов к врачу, чтобы освободить медицинских работников и тратить меньше времени на ведение заметок или написание отчетов.
Более 30 000 врачей и 40 систем здравоохранения, включая клинику Манкато в Миннесоте и детскую больницу Лос-Анджелеса, начали использовать инструмент на основе Whisper, созданный компанией Nabla, у которой есть офисы во Франции и США.
По словам технического директора Nabla Мартина Рейсона, этот инструмент был адаптирован к медицинскому языку, чтобы расшифровывать и обобщать общение пациентов.
Представители компании заявили, что они знают, что Whisper может галлюцинировать, и решают проблему.
Невозможно сравнить расшифровку, созданную ИИ Наблы, с оригинальной записью, поскольку инструмент Наблы стирает исходный звук «из соображений безопасности данных», сказал Рэйсон.
Набла сообщил, что этот инструмент использовался для расшифровки примерно 7 миллионов посещений врача.
Сондерс, бывший инженер OpenAI, сказал, что удаление оригинального аудио может вызвать беспокойство, если стенограммы не будут проверены дважды или врачи не смогут получить доступ к записи, чтобы убедиться в их правильности.
«Вы не сможете обнаружить ошибки, если уберете основную истину», — сказал он.
Набла сказал, что ни одна модель не идеальна и что в настоящее время их система требует от медицинских работников быстрого редактирования и утверждения расшифрованных записей, но это может измениться.
Проблемы конфиденциальности
Поскольку встречи пациентов с врачами конфиденциальны, трудно понять, как на них влияют стенограммы, созданные ИИ.
Депутат штата Калифорния Ребекка Бауэр-Кахан заявила, что в начале этого года она отвела одного из своих детей к врачу и отказалась подписать форму, предоставленную сетью здравоохранения, в которой она просила разрешения поделиться аудиозаписью консультации с поставщиками, включая Microsoft Azure. система облачных вычислений, управляемая крупнейшим инвестором OpenAI. По ее словам, Бауэр-Кахан не хотела, чтобы такие интимные медицинские разговоры передавались технологическим компаниям.
«В релизе было очень конкретно указано, что коммерческие компании будут иметь право на это», — сказал Бауэр-Кахан, демократ, представляющий часть пригородов Сан-Франциско в Ассамблее штата. «Я ответил: «Абсолютно нет».
Представитель John Muir Health Бен Дрю заявил, что система здравоохранения соблюдает законы штата и федеральные законы о конфиденциальности.
Шеллман сообщил из Нью-Йорка.
Эта история была подготовлена в сотрудничестве с AI Accountability Network Пулитцеровского центра, которая также частично поддержала академическое исследование Whisper.
Leave a Reply