Мы все еще ищем реальный кейс для LLM там, где решают цифры, а не слова.
В этом году мы решили провести бенчмаркинг некоторых LLM, чтобы понять, какие из них подходят для задач нефтегазовой отрасли. В качестве тестов мы использовали задания, которые обычно даем новым инженерам на собеседованиях. Некоторые из них были достаточно простыми, например, по транспортировке по трубопроводам. А некоторые более сложными, применяемыми в интегрированном моделировании.
Результаты оказались ожидаемыми. Простейшие вопросы, которые можно нагуглить и которые не требуют расчетов, модели решали с 100% точностью. Вопросы, требующие математики и более глубокого понимания предметной области, давались сложнее, и производительность зависела от конкретной модели.
Лучше всего показала себя o1 от OpenAI. Не идеально. Но близко.

Мы сделали вывод, что главными препятствиями для прогресса LLM в технических областях остаются математика и специализированные знания. И поскольку эта проблема до сих пор не решена, мы остались пессимистично настроены в отношении применения LLM в таких отраслях, как нефтегаз. Надеюсь, Иван найдет время, чтобы написать более подробный разбор нашего подхода к бенчмаркингу.
А сегодня я наткнулся на этот пост о o3.
o3, судя по заявлениям OpenAI, превосходит все существующие модели. И не на чуть-чуть, а значительно.




(Изображения из поста выше)
Самые интересные примеры связаны с тем, как o3 справляется с более сложными тестами, такими как FrontierMath и ARC-AGI.
С учетом недавних разговоров о замедлении прогресса LLM сам факт того, что приходится изобретать новые бенчмарки, чтобы они могли их преодолеть, уже говорит о многом. Похоже, что традиционный подход к масштабированию базовых моделей действительно наткнулся на ограничения. Но COT (chain-of-thought) и масштабирование вывода (inference scaling) пока справляются с этими барьерам.
А самое главное, что я вижу, что AGI, или по крайней мере его «мягкая» версия с инженерными способностями, может появиться в ближайшем будущем

Добавить комментарий