NLP (Natural Language Processing, обработка естественного языка) в искусственном интеллекте (ИИ) – это область компьютерных наук и искусственного интеллекта, направленная на взаимодействие между компьютерами и человеческими (естественными) языками.
Естественный язык – это язык, на котором говорят люди, например, русский, английский, китайский и другие.
Цель технологии NLP – разработка алгоритмов, которые позволяют компьютерам понимать, интерпретировать и генерировать человеческий язык. Простыми словами, это математические правила и инструкции, которые использует компьютер, чтобы перевести наш вопрос, устный или письменный, на свой «компьютерный» язык и наоборот – перевести свой ответ с «компьютерного» языка на человеческий.
К основным задачам NLP относятся:
-
-
— Морфологический анализ: Разбор слов по их составляющим частям (например, префиксам, корням, суффиксам). Всё как в начальной школе 😉.
— Синтаксический анализ: Определение грамматической структуры предложения.
— Семантический анализ: Определение смысла и значения слов и предложений.
— Распознавание именованных сущностей: Выделение из текста имён, дат, организаций и других сущностей.
— Распознавание и синтез речи: Преобразование устной речи в текст и наоборот.
— Анализ эмоциональной окраски текста: Выделение из текста его субъективных характеристик, например эмоциональной составляющей.
— Машинный перевод: Перевод текста с одного языка на другой.
-
Сегодняшний уровень технологий ИИ – это дети 7–10 лет. Они знают отдельные слова, могут строить предложения, но путают значения слов, неправильно ставят ударения при произношении, неправильно подбирают окончания слов и прочие прелести, которые умиляют при общении с детьми и раздражают при общении с ИИ.
Углубимся в историю.
В 1950 году математик Алан Тьюринг представил свою знаменитую статью «Вычислительные машины и разум» (оригинальное название «Computing Machinery and Intelligence»).
Алан Тьюринг – выдающийся британский математик, логик, криптограф и один из основателей компьютерных наук. Родился 23 июня 1912 года в Лондоне, Великобритания. Учился в Королевской школе в Кенте, затем в Кембриджском университете, где изучал математику. Получил степень доктора философии в Принстонском университете.
В 1936 году Тьюринг опубликовал статью «On Computable Numbers, with an Application to the Entscheidungsproblem», в которой предложил концепцию «машины Тьюринга» – абстрактного устройства, способного выполнять любые вычисления, которые могут быть описаны алгоритмом. Это стало фундаментом для теоретической информатики.
Во время Второй мировой войны Тьюринг работал в правительственном учреждении Bletchley Park, где он разработал методы для расшифровки сообщений, закодированных немецкой машиной «Энигма». Его работа значительно ускорила окончание войны и спасла множество жизней.
После войны Тьюринг продолжил работу над проектами в области компьютерных наук, включая разработку одного из первых проектов цифрового компьютера.
Тьюринг умер 7 июня 1954 года при загадочных обстоятельствах, официальной причиной смерти стало отравление цианидом. Рядом с телом Алана Тьюринга было найдено надкушенное яблоко, и это обстоятельство, по бытующей версии, легло в основу логотипа всемирно известной компании Apple. Официальные представители компании Apple никогда не подтверждали, что логотип был создан как дань уважения Алану Тьюрингу. Легенда о связи логотипа с Тьюрингом остаётся популярным мифом, не имея документальных доказательств.
В своей статье «Вычислительные машины и разум», опубликованной в 1950 году, Тьюринг начинает с обсуждения вопроса «Могут ли машины мыслить?» и предлагает переформулировать его в более конкретную форму «Есть ли у машин разум?». Алан Тьюринг предлагает замену вопроса о мышлении машин на «Игру в имитацию», так называемый тест Тьюринга. В этой игре человек задаёт вопросы как компьютеру, так и человеку, не зная, кто из них кто. Если машина сможет вести диалог таким образом, что её нельзя будет отличить от человека, то можно считать, что машина прошла тест Тьюринга и обладает разумом.
Сегодня программы и системы ИИ значительно продвинулись и многие из них могут успешно имитировать беседу живого человека в ограниченных контекстах. Однако полноценное прохождение теста Тьюринга, при котором машина была бы неотличима от человека в широком спектре диалогов и ситуаций, всё ещё остаётся вызовом.
Некоторые, но значимые этапы прохождения теста Тьюринга.
1966 год. Один из первых примеров программы, прошедшей примитивный вариант теста Тьюринга, – это программа ELIZA, разработанная Джозефом Вейценбаумом. ELIZA могла имитировать поведение психотерапевта, и некоторые пользователи считали, что общаются с реальным человеком.
1972 год. PARRY – алгоритм, разработанный Кеннетом Колби, был более продвинутой программой, имитирующей параноидного шизофреника. В неформальных тестах психиатры часто не могли отличить его от реальных пациентов.
2000 год. В честь 50-летия публикации статьи Тьюринга был проведён очередной тест Тьюринга. Программа A.L.I.C.E. (Artificial Linguistic Internet Computer Entity) была признана одной из лучших, но не смогла полностью убедить жюри.
2014 год. Программа под названием Eugene Goostman, разработанная Владимиром Веселовым и Евгением Демченко, стала первым чат-ботом, который, как было заявлено, «прошёл» тест Тьюринга. В ходе эксперимента 33% жюри приняли программу за 13-летнего мальчика. Однако этот результат вызвал споры в научном сообществе из-за условий тестирования и интерпретации результатов.
Марвин Мински, американский учёный, один из основателей и пионеров в области искусственного интеллекта, в 2014 году сказал: «Из плохо разработанных «экспериментов» ничему не научишься. Спросите программу, можете ли вы толкать машину с помощью верёвки. И, если нет, то почему бы и нет?». Кстати, можете проверить и спросить об этом любой GPT! ИИ не может определить разницу между «тянуть» и «толкать». Я провёл свой тест и спросил GPT: «Можно ли косить траву заплетённой косой украшенной бантиком?». Ответ:
«Коса для стрижки волос»!!!😂 Однако GPT вывернулся, на всякий случай уточнив про причёску 😉, но тест Тьюринга он явно не прошёл!
Теперь вернёмся к NLP. Технологии NLP используются в различных приложениях, таких как чат-боты, виртуальные ассистенты, системы машинного перевода, поиск информации, пересказ текстов и многие другие.
Сегодня мы встречаемся с технологиями NLP повсеместно: и в Интернете, и в повседневной жизни. Хотите смотреть ролик на родном языке – получите синхронный перевод видео, нет желания читать статью – получите её пересказ, можно просто поболтать с ИИ или узнать какие-то сведения. Это прогресс, и он сегодня активно меняет многие сферы нашей жизни, делая взаимодействие с технологиями более естественным и удобным. Многие скажут: «Это зло, которое мешает!». Да, любая технология работает как для пользы, так и во вред. Достаточно вспомнить открытие ядерного синтеза и то, к чему это привело.
Новые технологии в ИИ сегодня ставят новые задачи:
· Проблемы предвзятости и справедливости в моделях NLP
· Вопросы конфиденциальности и безопасности данных
· Этические аспекты использования NLP в различных сферах
Все эти задачи крайне важны, и над ними работают учёные крупных университетов. Например, 26 июня 2024 года Учёный совет НИУ ВШЭ утвердил «Декларацию этических принципов использования ИИ». Декларация охватывает ряд ключевых принципов, направленных на этичное и ответственное использование ИИ.
Жаркие споры о вопросах конфиденциальности и безопасности данных, применяемых в ИИ, прошли на Петербургском международном экономическом форуме в 2024 году.
Всё это уже реальность! Скажу вам честно, что ещё в 2014 году применение ИИ в технических задачах вызывало бурю споров и возмущений. Я, будучи в то время молодым специалистом в этой области, с трудом защищал свои научные труды. Сейчас же ИИ стараются использовать даже в самых сложных технологических задачах. Вот яркий пример: 18 июня базирующаяся в Дубае компания объявила об успешном тестовом запуске жидкостного ракетного двигателя LEAP 71 с 3D-печатью hot-fires, разработанного с использованием вычислительной модели Noyron. Видео тут. Круто, и добавить нечего!
Я убеждён, что ИИ сыграет немалую роль в технологическом и социальном прогрессе этого столетия.
© Автор статьи: Широков Павел, руководитель компании Интеллектуальные продукты и системы