Несмотря на заявления ведущих компаний из сферы искусственного интеллекта о том, что создание современных языковых моделей невозможно без обучения на авторском контенте, группа исследователей доказала обратное. Как пишет The Washington Post, им удалось создать полноценную LLM, используя исключительно открытые данные и произведения из общественного достояния.
В проекте приняли участие ученые из 14 учреждений, в том числе MIT, Университета Карнеги-Меллона, Торонтского университета, а также некоммерческие организации - Vector Institute и Институт ИИ Аллена. Для обучения модели они собрали 8 терабайт этически полученных данных, среди которых - 130 тысяч книг из Библиотеки Конгресса США.
Модель, которую они создали, имеет 7 миллиардов параметров и по уровню производительности приближается к Llama 2-7B, выпущенной Meta в 2023 году. В то же время команда не сравнивала ее напрямую с флагманскими коммерческими системами.
Один из самых больших вызовов заключался в подготовке данных. Многие материалы были несовместимы с автоматическими инструментами, поэтому их пришлось проверять вручную. «Мы использовали автоматизированные средства, но в итоге все проверяли люди», - пояснила исследовательница Стелла Бидерман. Также осложнения вызвала проверка правового статуса каждого источника.
Хотя эта модель уступает по мощности новейшим разработкам от технологических гигантов, она становится важным контраргументом в дискуссии о законности использования авторских материалов в обучении ИИ. Исследование доказывает: создание этического ИИ - сложное, но вполне возможное дело.
Подписывайтесь на наш Тelegram-канал t.me/sudua и на Google Новости SUD.UA, а также на наш VIBER, страницу в Facebook и в Instagram, чтобы быть в курсе самых важных событий.