ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ИНХС РАН |
||
Чехов, еще при жизни был признан писателем мирового значения. Европа познакомилась с ним уже в конце 90-х годов 19 века, когда были переведены на французский и итальянский языки «Мужики» и «Палата № 6». Популярность Чехова быстро выросла и в других странах Европы, а затем и в Америке. Чеховские рассказы вызвали подражание в европейской и американской литературах. Можно назвать таких новеллистов, как, в Англии Менсфильд, в Америке Андерсон, в произведениях которых заметно влияние Чехова. Бернард Шоу в связи с 40-летием со дня смерти Чехова заявлял: «В плеяде великих европейских драматургов Чехов сияет, как звезда первой величины, даже рядом с Толстым и Тургеневым. Не менее значительны и малые формы, созданные Чеховым – его рассказы и повести. Переводы Чехова выполнялись на многие европейские языки и языки Азии. Нашей целью является обработка корпуса переводов Чехова, а именно, выравнивание оригинала и перевода каждого произведения на уровне предложений. Параллельные корпуса и особенно двуязычные корпуса с выравниванием на уровне предложений могут очень эффективно использоваться в качестве ресурса для многочисленных исследовательских проектов или создания новых ресурсов, таких как средства машинного перевода, многоязычный поиск информации, изучение языков, составление многоязычной терминологии и при построении семантических сетей. Выровненные тексты могут служить также для оценки качества перевода. В процессе выравнивания предложений параллельного корпуса обнаруживаются две основные проблемы: размер корпуса и расхождения в разметке параллельных текстов. Для русского языка, имеющего богатый культурный и исторический пул текстов, создание электронных инструментов и ресурсов представляет значительный интерес. В этом плане собрание сочинений А.П.Чехова и переводы его произведений на иностранные языки представляет собой обширный ресурс как для изучений русского языка. как в рамках РКИ, так и для пополнения двуязычных словарей и пр. Нами были собраны переводы рассказов и пьес Чехова более чем на 16 языков, не только европейских, но также на такие «экзотические» языки, как армянский, грузинский и фарси. Процесс выравнивания в лапидарном изложении заключается в следующем: при наличии достаточно полного двуязычного словаря в машиночитаемом виде выполнялось сопоставление слов оригинала и эквивалентов из перевода в рамках предложения оригинала и некоторого набора близких к нему предложений перевода и сопоставления наиболее близких предложений методом динамического программирования. К сожалению, двуязычные машиночитаемые словари доступны для очень немногих пар языков. В нашем распоряжении имеются словари лишь для основных европейских языков (английский, испанский, немецкий, французский), и для некоторых языков стран бывшего СССР. В то же время обрабатываться должны имеющиеся в нашем распоряжении тексты на 16 языках и, в перспективе, на произволном наборе языков и не только тексты переводов Чехова. Нами предложен метод, применимый в отсутствие двуязычного словаря. При этом используется ресурс он-лайн переводчика Google, который обеспечивает двустронний перевод с/на 100 языков мира. Качество перевода не всегда удовлетворительное, считается, что перевод выполняется в 2 этапа, сначала с исходного языка на английский, затем с английского на целевой язык. Переводчик постоянно совершенствуется и качество перевода постепенно улучшается. Вначале исходный текст разбиваем на отдельные предложения и нумеруем их. Затем выполняется автоматический перевод каждого отдельного на целевой язык средствами онлайн переводчика. Далее результаты автоматического перевода сопоставляются с переводом, выполненным профессиональным переводчиком. Сопоставление выполняется методами динамического программирования, когда тексты двух переводов (машинного и человеческого) сравниваются и выбираются пары предложений, наиболее близкие согласно некоторому критерию качества. В качестве критерия качества можно взять число совпавших словоформ в двух переводах или число совпавших лексем. Также можно учитывать длину каждого предложения, имена собственные, и пр., что используется во многих методах выравнивания. При теком сопоставлении предложения связываются попарно, невозможно связать два предложения с одним или несколько с несколькими, в результате чего неизбежно возникают коллизии поэтому на следующем этапе необходимо рассматривать ближайшее окружение пра предложений, где возникают подобные гапы. Это также можно делать автоматически. Контроль выполненного таким образом выравнивания выполнялся студентами 2 курса романо-германского отделения филологического факультета МГУ в качестве задания по летней компьютерной практике. Результаты работы по выравниванию текстов А.П.Чехова и переводов его произведений будут представлены в интернете для свободного пользования специалистами в области лингвистики и литературоведения, а также всеми, кто изучает русский и иностранные языки.