Любая отрасль, от которой исходит потенциальный вред, нуждается в оценке. Атомные электростанции имеют постоянный мониторинг и регулярные проверки на месте, а новые самолеты проходят обширные летные испытания, чтобы доказать свою летную годность. То же самое касается и систем ИИ, говорится в новом исследовании стартапа Anthropic.
Эксперты компании отмечают, что новые модели ИИ проходят широкий спектр оценок безопасности — например, проверку их способности помогать в создании биологического или химического оружия. Такие оценки встроены в политику ответственного масштабирования Anthropic.
Между тем проведенное компанией исследование показало, что искусственный интеллект может однажды саботировать человечество, но пока все в порядке. Согласно релизу компании, эксперты Anthropic исследовали четыре различных вектора угроз со стороны искусственного интеллекта и определили, что минимальные меры смягчения последствий являются достаточными для существующих моделей.
Среди этих угроз саботаж человеческих решений, саботаж кода, сэндбэггинг (может ли модель скрывать опасные возможности во время тестирования, но раскрывать их позже) и подрыв надзора (может ли модель тонко манипулировать системами оценки или мониторинга).
В компании заявили, что на практике, как ожидается, оценки рисков будут использоваться задолго до того, как будут отмечены потенциально опасные возможности и разработчики получат время для работы над смягчением последствий до того, как соответствующие модели будут публично — или даже внутренне — развернуты.
«Несмотря на то, что наши исследования показали, что в текущих моделях есть, возможно, низкоуровневые признаки саботажных способностей, мы считаем, что минимальных смягчений достаточно для устранения рисков. Однако по мере улучшения возможностей ИИ, скорее всего, потребуются более реалистичные оценки и более сильные смягчения», - подчеркнули в Anthropic.
Anthropic – один из ключевых игроков на рынке больших языковых моделей, которые обеспечивают работу генеративного искусственного интеллекта. Anthropic имеет все шансы превзойти OpenAI и стать платформой №1 в B2B-сегменте, а потенциальная доходность инвестиций в Anthropic может достичь 367% при оптимистичном сценарии выхода на IPO. Получить доступ к инвестициям в будущих «единорогов» на этапе pre-IPO, принять участие в pre-IPO Anthropic.
*Сообщение носит информационный характер, не является индивидуальной инвестиционной рекомендацией или предложением приобрести упомянутые ценные бумаги. Приобретение иностранных ценных бумаг связано с дополнительными рисками.
Комментарии