Amazon переводит Alexa на LLM. Но есть нюансы.

Вот вам история про легаси системы и сложности, которые возникают при попытке их немного взбодрить. Старая Alexa была построена на базе стартапа Evi, который Амазон купил в 2012 году. Основная идея – решить задачу ответа на голосовой вопрос из узкого пула фактологической информации типа прогноза погоды, даты рождения звезд кино или запуска навыков. 

После появления последнего поколения LLMок стало понятно, что их естественным применением могли бы стать голосовые помощники. Самый крупный из них – это Alexa. Понимая это Амазон несколько раз инвестировал в Anthropic и сейчас активно работает над интеграцией их моделей в помощника. 

Но вся затея встретила как ряд ожидаемых проблем, типа старого, кривого, плоходокументированного кода, так и ряд новых. 

Галлюцинации

Во-первых модели галлюцинируют. Все еще, эта проблема стала меньше, но никуда не ушла. А теперь представьте, что даже если модель галлюцинирует раз в год по обещанию, если смасштабировать это на всех пользователей амазоновского помощника вы получите сотни проблем в день, которые будут медленно подрывать доверие и к продукту и к основному бренду. 

Скорость и человекоподобность

Во-вторых голосовой помощник должен быть быстрым и должен поддерживать диалог. Здесь как матрешка еще две проблемы внутри. Скорость реакции является функцией как самой модели, так и железа для инференса, так и железа самого помощника. Проблема перебивания (то есть нормального ведения человеческого диалога, когда не дослушивают) решена еще не у всех и даже у решений есть свои нюансы. 

Стоимость против прибыли

В-третьих, мне видится, есть еще и чисто бизнесовая проблема. Каждый запрос стоит денег. Но даже прежде чем сделать этот запрос – нужно построить огромный и дорогой дата-центр, который будет эти запросы обрабатывать. А на выходе у вас должна быть прибыль. И вопрос встает таким образом – будет ли Алекса на LLM приносить кратно больше денег, чем та Алекса, которая есть сейчас. А еще у разных моделей разная стоимость инференса и так далее.

стоимость инференса моделей gpt-4, gpt-4o, Claude 3 opus, Claude 3.5 sonnet, llama
Стоимость разных больших языковых моделей за миллион токенов

Так и получается, что чем ты больше, тем сложнее переехать на новые LLM рельсы. Именно поэтому мы не видим больших амбициозных проектов от Apple или других лидеров отрасли. Пробуют и рискуют тащить LLM к пользователям только маленькие ребята, которым по большому счету нечего терять.

Ссылки по теме: