iPavlov Media

iPavlov NLP: О тайнах мира Искусственного Интеллекта и Цифровизации!

NLP расшифровывается как Natural Language Processing (обработка естественного языка) - общее направление технологий Искусственного Интеллекта и компьютерной лингвистики. NLP изучает проблемы компьютерного анализа и синтеза текстов на естественных языках для реализации более удобной формы человеко-компьютерного взаимодействия.  

Язык - уникальное свойство высокоуровневых систем, которое фактически является “протоколом” для коммуникации между людьми. Мысли преобразуются в текст с помощью данного протокола, который передается с помощью речи или символов таким образом, чтобы смысл был понятен другому человеку. Мы разговариваем на том или ином языке не задумываясь, для нас это что-то естественное. А как с этим справляется компьютер, процессор которого - это не живой организм, а подложка из неорганических соединений: кремния и его оксида?

Работу искусственного интеллекта по анализу естественной речи можно сравнить с написанием диктанта по русскому языку в школьные годы :) Устную речь переводим в письменную (технология преобразования речи в текст, Speech-to-Text), проверяем орфографию и пунктуацию (spell-checking, autocorrect - автоисправление слов), выделяем основы и корни, подчеркиваем главные члены предложения и определяем основную мысль и цель текста. Все перечисленное можно структурировать на последовательность уровней, на которых решаются задачи NLP:

  1. Вход (input): считывание текста (буквы по порядку), распознавание речи (приём и обработка звуковой волны), Optical Character Recognition (оптическое распознавание символов) - начальный этап. Нужно перевести информацию в формат, удобный для NLP (символы, слова).
  2. Морфология (Morphology): понимание структуры слова из символов. Проверка текста, (spell checker), поиск по словам (выключение окончаний, падежи привести), stemming (выделение основы).
  3. Синтаксис (Syntax): проверка текста с пунктуацией: подлежащее и сказуемое. Разделение текста на основную часть и второстепенную - следующий уровень над словами. Парсинг и crawling - хотим вычленить ключевые слова.
  4. Семантика (Semantics): машинный перевод (с одного языка на другой) на основе одного предложения, Question Answering (QA). Важен смысл фразы.
  5. Контекст (Context). Чат-боты, AI-ассистенты должны еще запоминать информацию, которую ты говорил раньше. Анализ тональности текста.

iPavlov.ai - SYNTAX - SEMANTICS - CONTEXT
iPavlov.ai - SYNTAX - SEMANTICS - CONTEXT

На IV и V ступенях работают Чат-боты и Цифровые ассистенты, самые высокоуровневые технологии NLP.

Воспроизвести каждый из этапов процесса NLP с помощью программного кода - одна из самых больших и интересных задач для наших разработчиков!
iPavlov (ООО "Айпавлов" спин-офф от МФТИ)

www.ipavlov.ai 

iPavlov NLP: 
Часть 1.
iPavlov NLP: о тайнах в мире Искусственного Интеллекта и Цифровизации!
https://zen.yandex.ru/media/id/5fb59c3be146c2727a6f5f68/ipavlov-nlp-o-tainah-v-mire-iskusstvennogo-intellekta-i-cifrovizacii-606de08cdcd0546954398081
Часть 2.
iPavlov NLP: Word embedding: word2vec или one-hot encoding?
https://zen.yandex.ru/media/id/5fb59c3be146c2727a6f5f68/ipavlov-nlp-word-embedding-word2vec-ili-onehot-encoding-6076be8f8360a20f2fe69194
Часть 3.
iPavlov NLP: Recurrent Neural Networks (RNNs)
https://zen.yandex.ru/media/id/5fb59c3be146c2727a6f5f68/ipavlov-nlp-recurrent-neural-networks-rnns-610d0f3a6a385b554230dff5
Часть 4.
iPavlov NLP: RNNs - генерация текста
https://zen.yandex.ru/profile/editor/id/5fb59c3be146c2727a6f5f68/610d1817e54ec275aceba141/edit

Articles IVA NLP ABI