- Поиск новых данных для обучения ИИ стал навязчивой идеей для компаний, стремящихся к доминированию в области высоких технологий.
- OpenAI, Google, Amazon, Meta и другие настолько отчаянно нуждались в данных, что рисковали нарваться на множественные иски о защите авторских прав, чтобы получить больше материала.
- Теперь же генеральный директор Meta считает, что для обучения моделей ИИ более важными станут петли обратной связи (Feedback loops).
«Я думаю, что более ценной будет обратная связь, а не какие-то предварительные массивы данных, – сказал он в интервью изданию Command Line, – … Мы видим, как люди используют его [ИИ], и можем на основе этого улучшать его».
- Эти алгоритмы, использующиеся для переобучения и улучшения моделей ИИ на основе их предыдущих результатов, позволяют моделям понять, когда они совершают ошибку, – для будущей корректировки.
Таким образом, происходит создание новых, «синтетических» данных.
- Синтетические данные создаются искусственно и призваны имитировать данные, полученные в результате реальных событий.
«Я думаю, что появится много синтетических данных, когда модели будут пытаться решить различные проблемы и смотреть, какие пути в итоге сработают, а затем использовать это для усиления», – добавил Цукерберг.
- Компания Anthropic, создатель чатбота Claude, уже использует в своих моделях данные, полученные изнутри. OpenAI тоже рассматривает такую возможность, хотя её генеральный директор Сэм Альтман признаёт, что главное, чтобы модель была достаточно умной, чтобы создавать хорошие синтетические данные.
Полагаться на синтетические данные может быть достаточно рискованно, поскольку они могут усилить некоторые из существующих ошибок, ограничений и предубеждений, если модели изначально не были обучены на «хороших данных».