...Сколько языков ты знаешь - столько раз ты - человек...
Карл Маркс
Первая часть этого материала была задумана и начала нами писаться около 3,5 лет назад. Когда мы готовили её с моим соавтором В. Мейлицевым, лично я завершал разработку, на которую потратил к тому времени пять лет. Затем два года ушло на патентование. Всего, значит, семь лет. И теперь я намерен постепенно рассказать о своём изобретении. Для начала я позволю себе порассуждать- "поумничать" о том, что было изложено в материале, который мы создали совместно с В. Мейлицевым. Полагаю, это хорошо подготовит читателей к восприятию того, что я потом расскажу о сути моего изобретении. Итак.
История машинного перевода (МП) началась сразу же с появлением первых компьютеров в сороковые годы прошлого века. Этой теме уделил внимание даже сам Норберт Винер, основатель кибернетики. Первые переводческие программы были созданы для того, чтобы помочь переводчикам быстрее и, следовательно, производительнее переводить горы документов, добытых американской разведкой о Советском Союзе. Затем, когда СССР стал ведущей научной державой мира, эти программы приспособили, чтобы оперативно переводить нескончаемый поток научных публикаций на русском языке. Затем начался стремительный рост международной торговли и технологического обмена, взрывной спрос на туризм и путешествия создали гигантский рынок переводческих услуг, который стало невозможно удовлетворить усилиями только людей-переводчиков. Перевод стал индустрией массового спроса и производства, в ней закрутились солидные денежные потоки, за них началась конкуренция, что вызвало потребность в техническом оснащении и автоматизации переводческого труда. Параллельно стремительно росли возможности компьютерной техники: гигантски увеличилась скорость работы, аппаратура стала миниатюрной, программы невероятно усовершенствовались, а вычислительные мощности фантастически выросли! На этом фоне возникли и всерьёз идут разговоры о создании в недалёком будущем искусственного интеллектв (ИИ). А вот развитие МП почему-то застопорилось... Нет, по сравнению с прошлым, двадцатым веком отрыв конечно гигантский! В помощь переводчикам созданы и отработаны несколько сложнейших методик, которые вполне себе работоспособны при использовании вычислительных мощностей нынешних серверов и компьютерных сетей. Инженерная реализация распознавания образов позволила создать программы, которые слышат устную речь, преобразуют её в письменную на экранах гаджетов, а потом пытаются перевести её тоже письменно-устно на тот язык, который запросит пользователь. В общем, как говаривал когда-то незабвенный Аркадий Райкин: "...Есть, есть кое-что, но -- не то!!". Все эти, казалось бы, гигантские возможности смогли всего лишь несколько облегчить труд переводчиков специализированной литературы и документации, да кое-как обеспечить общение разноязычных людей через гаджеты на уровне "твоя-моя понимай", но все это делается приемлемым только после тщательной настройки программного обеспечения на постоянную и повторяющуюся тематику специальной литературы-документации или через трудное и долгое приспособление друг к другу разноязыких людей, общающихся через гаджеты. Компании машинного перевода, специалисты которых отвечали на вопросы в первой части этой публикации, постоянно и квалифицированно занимаются тем, что либо подстраивают под запросы клиентов открытые источниковые программы машинного перевода, которые выложили в интернет компьютерные гиганты типа Гугла и Майкрософта(open source-"движки"!), либо сами создают свои похожие программы. И все такие программы реализуют практически одинаковый способ перевода текстов, в котором в разных пропорциях представлены грамматический анализ, анализы смысловой и экстралингвистический, но основной-базовый анализ это статистический! То есть постоянно копится база данных из переведённых текстов, которая сравнивается с новыми текстами для перевода, и эти новые тексты, исходя из их тематики, сравниваются с похожими и переводятся, исходя из наибольшей вероятности того или иного перевода уже имеющихся в базе переведённых фрагментов. После этого готовый машинный перевод текста смотрят люди-переводчики и вносят окончательные поправки. Правильные переводы после этого передаются клиентам, а их фрагменты закладываются в памяти систем машинного перевода для пополнения сравнительной статистики в базах данных. Так создаётся и пополняется то, что называется языковыми парами, которыми впоследствии обмениваются и пользуются все переводческие компании. Есть ещё более простая компьютерная методика, которой достаточно успешно пользуются переводчики-профессионалы, специализирующиеся на переводах по небольшому количеству постоянных тем. Эта технология называется "память переводов". Такие программы просто извлекают заготовленные в базах данных фрагменты похожих переводов, а переводчик просто смотрит, вставлять ему этот переведенный фрагмент в свой перевод полностью или с какими-то поправками. Вот на таких методиках сейчас работают все системы машинного перевода, и он уже много лет практически не развивается и не в состоянии предложить то, что могло бы стать личным переводчиком для абсолютно каждого человека наподобие человека-переводчика, сопровождающего путешественников или переговорщиков. Лавинообразно растут вычислительные и скоростные мощности компьютерных систем, на этой базе изощрённо совершенствуются программы, а прорыва как не было, так и нет. В последнее время заговорили о новой технологии построения самообучающихся компьютерных сетей, в том числе в сфере машинного перевода. Эти сети назвали нейронными. Они состоят из соединённых между собой достаточно простых небольших процессоров, как бы моделирующих отдельные нейроны головного мозга. По специально созданным программам эти "нейроны", подобно клеткам головного мозга , как бы "самостоятельно" выстраивают между собой связи в ответ на сигналы, получаемые нейронной сетью извне, запоминают эти сигналы и как на них реагировать в дальнейшем, программа на первый раз дает им такую информацию. Вот и всё "самообучение". Компании машинного перевода уже попробовали нейронные сети , что называется "на зуб". Выяснилось следующее... Такие схемы дали заметное, но не абсолютное улучшение качества общего перевода, то есть улучшили возможности разговора разноязычных собеседников. Но при этом нейронные сети показали более худшие характеристики при работе с различными специализированными текстами. Прежние статистические системы на подобные тексты настраиваются гораздо быстрее чем нейронные при равных вычислительных мощностях. К тому же нейронные сети более расточительны в потреблении электроэнергии, следовательно - дороже в эксплуатации. К тому же сейчас даже улучшение характеристик общего перевода с их помощью недоступно в использовании с помощью смартфонов и даже ноутбуков. Так что нейронное решение ничего особенно не прибавило в решении задач машинного перевода. И, осмелюсь утверждать, никакие технические усовершенствования не смогут решить этих задач, пока в базовой основе этого перевода будет лежать статистический метод. Потому что человеческая речь есть модель живого организма, она развивается и изменяется буквально с каждой микросекундой, рождая гигантские множества новых слов, оборотов, понятий и смыслов. Особенно это характерно для нашего времени, когда глобализация не оставила мест, где можно хоть что-то уберечь от развития, вызванного внешним влиянием. И никакие статистические накопления с самой совершенной программной обработкой никогда не угонятся за живым речевым развитием. На это способен только сам человек. Именно поэтому человек-переводчик был и остаётся незаменимым. Более того, я решительно отметаю все рассуждения о том, что искусственный интеллект, каких бы высот он ни достигал, способен сравняться даже со средним интеллектом живого человека. Это убедительно демонстрирует как раз вся нынешняя история машинного перевода.
Есть в кибернетике раздел, который называется теорией конечных автоматов. Коне́чный автома́т — абстрактный автомат, число возможных внутренних состояний которого конечно. Такой вот условный термин, математическая модель. Но эта математическая модель является базисом всего программирования. То есть программированию поддаются только такие устройства: механические, типа часовых механизмов, электрические, типа сложных переключателей или электронные, типа компьютеров - число внутренних состояний у которых конечно, а значит - предсказуемо. Система, имеющая бесконечное число состояний, непредсказуема, её невозможно программировать, с ней можно взаимодействовать только вероятностно-статистическим способом. А такое взаимодействие не может быть абсолютно управляемым. Но все живые организмы, от простейшей клетки до человека к классу конечных автоматов не относятся. Невозможно создать их математические модели. Число их внутренних состояний бесконечно. Их реакции на сигналы можно предсказать только на основе вероятностного опыта. Их нельзя запрограммировать. Они сами себя обучают-программируют. Вот поэтому никакой самый мощный искусственный интеллект никогда не угонится за человеческим, ибо число его внутренних состояний конечно, а работает он только в рамках заданных программ. И создание человеком искусственного интеллекта, равного его собственному, на сегодняшний день такая же невыполнимая задача, сколь и создание самого простейшего живого организма из неживого вещества. Наиболее продвинутые читатели мне могут возразить, указав на то, что уже есть компьютеры, обыгрывающие в шахматы чемпионов мира. Да, это так... И система шахматной игры, как порождение человеческого ума, показала, что число её внутренних состояний, то бишь игровых комбинаций, подсчёту не поддаётся. Но теория конечных автоматов неумолима и даёт достаточно простое объяснение. История шахматной мысли гласит, что каждый шахматный гений в начале пути, опираясь на свою память, аналитику и скорость мысли, быстро изучал все выигрышные партии своих выдающихся предшественников. Используя эти знания легко побеждал более слабых соперников, а когда сталкивался с теми, кто обладал не меньшим багажом знаний и опыта, то придумывал свои личные приёмы игры, создавая свои победные партии. Но затем этот опыт приучал его действовать автоматически, пока не появлялся новый соперник, который своей личной манерой игры преодолевал победоносный опыт предыдущего чемпиона. То есть можно сказать, что на каком-то этапе своего развития, победоносный опыт шахматных чемпионов стирает ту живость мысли, которая когда-то и вывела их в чемпионы. Они продолжают играть блистательно, сложно, но в чём-то - предсказуемо... То есть в какой-то степени превращаются в конечные автоматы. Именно это и использовали программисты шахматного суперкомпьютера. Они заложили в его программу все имеющиеся победоносные партии великих шахматных чемпионов всех времен и народов. Такой умственный багаж не под силу никакому человеческому уму, в этой же программе были заложены все возможные переходы от розыгрыша одной партии к другой в зависимости от действий соперника. После этого пригласили к игре чемпионов мира. И получилась игра двух конечных автоматов, только один в процессе игры способен уставать, волноваться, забывать, терять сосредоточенность, долго раздумывать, а другому всё это чуждо. Вот и "подмялся" человек машиной! Но я абсолютно уверен, что если бы собралась группа великих шахматистов, поиграла бы с компьютерным монстром, спокойно проанализировала все свои партии и в конце концов нашла способ его обыграть, причём потом сами шахматисты удивлялись бы, сколь легко это можно было сделать, нащупав серию нестандартных комбинаций, не имевшихся в памяти компьютера. Правда эта серия в следущей игре уже бы не помогла, ибо сразу вбилась в компьютерную память вместе с нужными ответными ходами, которые программисты выспросили бы у тех же шахматистов. Вот так, осознав всё сказанное выше, я и осмелился предложить тот способ машинного перевода, который в качестве изобретения недавно мною запатентован.
(Продолжение следует)
Опубликовано в июньском номере "Техника молодёжи"