ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ИНХС РАН |
||
Цель проекта – создание мультимедийного размеченного корпуса текстов на говорах западных эвенков, в рамках которого обеспечивается хранение языковой и метаязыковой информации и осуществляется поиск информации по различным параметрам (эвенкийское слово или словосочетание, корневая, словообразовательная или словоизменительная морфема, морфологическая характеристика, наличие кодовых переключений, русский переводной эквивалент эвенкийского слова, говор, информант, текстовой жанр), а также исследование проблем, возникающих в ходе работы над подобным корпусом. В корпус должны войти записанные в последнее десятилетие тексты разных жанров, отражающие современное состояние говоров западных эвенков (будут представлены как северное, так и южное наречия). Каждый текст корпуса будет представлен звуковым файлом, графическим файлом в принятой эвенкийской орфографии, графическим файлом в фонетической транскрипции, близкой к фонологической, но отражающей специфику каждого из говоров, а также пофразовым переводом на русский язык. Часть текстов будет представлена также видеофайлами, отснятыми в ходе записи текстов. Разметка корпуса будет состоять из характеристик, приписываемых каждому тексту как целостной единице, и внутренней разметки каждого из текстов. Тексты корпуса будут снабжены поморфемными грамматическими индексами. В качестве базового программного обеспечения предполагается использовать систему ELAR. Данная системы позволяет легко и наглядно представить в синхронизированном виде видео-, аудио- и графическую информацию и вести поиск по выделенным параметрам. Стоит также отметить, что данное программное обеспечение широко применяется в документационных проектах во многих странах мира для архивации текстов на языках, находящихся под угрозой исчезновения, к каковым относится и эвенкийский. Пользователями корпуса могут стать исследователи, представляющие разные направления гуманитарной науки: лингвисты - тунгусоведы, типологи, компаративисты, социолингвисты, специалисты по малым языкам Сибири, фольклористы, этнологи, историки. Корпус будет размещен в сети Интернет.
В ходе реализации проекта были получены следующие важные, на наш взгляд, результаты: 1) Выполнена морфологическая разметка (глоссирование) 30 текстов корпуса, представляющих сымский диалект, четыре говора северного наречия (чириндинский, экондинский, тутончанский и кислоканский) и один говор южного наречия (говор Стрелки-Чуни). Накопленный опыт работы с эвенкийскими текстами, на наш взгляд, сам по себе является одним из важных результатов работы над проектом. Первый этап работы с записанным текстом – это полевая расшифровка (транскрибирование и перевод текста. Здесь требуется помощь носителя языка. Очевидно, что чем лучше сам лингвист знает язык, на котором сделана аудиозапись текста, тем больше он может понять непосредственно из аудиозаписи, но даже в случае хорошего практического знания исследуемого языка вряд ли разумно пренебрегать помощью носителя языка на первом этапе расшифровки. В языках без письменной традиции локальная и индивидуальная вариативность произношения столь велика, что помощь носителя того же локального говора, что и рассказчик, позволит избежать многих неточностей при расшифровке. Кроме того, расшифровщик иногда проясняет то, что в аудиозаписи практически не слышится, например, окончания глаголов и имен в эвенкийском языке, что вряд ли может ответственно сделать сам лингвист. К этому стоит добавить русские вкрапления, обильно рассеянные по эвенкийским текстам и с трудом опознаваемые в случае, если они фонетически адаптированы, как это бывает у пожилых рассказчиков. Следующим, уже послеэкспедиционным этапом работы с текстом является уточнение полевой транскрипционной записи путем неоднократного пофрагментного прослушивания аудиозаписи теперь уже самим лингвистом. Задача состоит в том, чтобы графически представить исходный текст рассказчика, отделив его от повтора и вариаций расшифровщика. При этом нередко камнем преткновения бывают фонетически адаптированные русские вкрапления, не опознанные во время полевой расшифровки. Параллельно с уточнением транскрипционной записи текста уточняется деление текста на предложения, что нередко оказывается далеко не тривиальным, а также его пофразовый перевод на русский язык. Очередной этап работы с текстом – это понимание того, как текст устроен, его лингвистический анализ: морфологический анализ словоформ и анализ используемых в тексте синтаксических структур. Наконец, дискурсивный анализ текста помогает понять стратегии, используемые рассказчиком при изложении событий. На каждом этапе может уточняться транскрипционная запись текста (очевидно, что мы не только понимаем то, что слышим, но и слышим то, что понимаем), а в связи с этим иногда и его пофразовый перевод на русский язык. Работая с текстами в процессе грамматической разметки, мы время от времени наталкиваемся на ранее не описывавшиеся или не совсем, на наш взгляд, адекватно описанные грамматические феномены. Так, процессе морфологического индексирования текстов на чириндинском говоре выявлены и частично проанализированы фонетические и грамматические особенности современных текстов на этом диалекте (к таковым особенностям относится, например, наличие в текстах противопоставления форм минимального и расширенного инклюзивного личного местоимения 1 лица множественного числа). В ходе работы с сымскими текстами был обнаружен нестандартный (с точки зрения существующих грамматик, большинство которых ориентировано на литературный вариант языка) грамматический глагольный показатель, ранее не описывавшийся словообразовательный аффикс. По ходу работы с чириндинскими текстами выявлены и частично проанализированы фонетические и грамматические особенности современных текстов на этом диалекте (к таковым особенностям относится, например, наличие в текстах противопоставления форм минимального и расширенного инклюзивного личного местоимения 1 лица множественного числа). Анализ особенностей современных текстов из Тутончан показывает, что эвенкийские идиомы, используемые жителями поселка, не однородны; в 1970-е гг. после закрытия фактории Агата в Тутончаны была переселена часть жителей этой фактории, примерно в то же время был закрыт поселок в низовьях Нижней Тунгуски, и его жители тоже частично переехали в Тутончаны. Почти четыре десятилетия тесных контактов, по меньшей мере, трех говоров в рамках одного поселка не могли не отразиться на этих говорах. Поэтому современные тутончанские тексты – это прежде всего объект для изучения различных контактных явлений на примере контактирующих говоров одного наречия. Похожую картину дают нам кислоканские тексты: уже на первом этапе анализа получило подтверждение наше предположение о говорной неоднородности поселка. В случае Кислокана нельзя не учитывать еще и то, что поселок находится почти на границе северного и говоров южного наречия. Наличии морфологически проиндексированных текстов дает возможность скрупулезного исследования грамматических тонкостей этих текстов и обнаружения порой неожиданных типологических параллелей. В этом мы видим один из важных результатов нашей работы. 2) Вторым важным результатом работы этого года стала подготовленная и проведенная экспедиция к таймырским эвенкам в поселки Хантайское Озеро и Потапово и те материалы, которые мы привезли из этой экспедиции. Во время экспедиции нам удалось записать 46 эвенкийских текстов на четырех таймырских говорах и расшифровать (затранскрибировать и перевести) большую их часть. Кроме того, мы привезли большой объем озвученных эвенкийских лексических материалов (около 100 часов). В поселках, где работала экспедиция, было проведено социолингвистическое обследование, частью которого было анкетирование жителей поселков (всего мы заполнили 244 анкеты, в каждой анкете по 34 вопроса). Проведенное социолингвистическое обследование показало, что во всех этнолокальных группах автохтонного населения Потапова и Хантайского Озера развивается процесс языкового сдвига (перехода с этнического языка на русский), передача этнического языка от родителей к детям прекратилась в Потапове уже не менее 30 лет назад, в Хантайском Озере – не менее 25 лет назад у эвенков и несколько позже у долган. В Потапове с населением 335 человек, по данным районной администрации, живут 138 ненцев, 10 энцев, 8 нганасан, 17 долган и 20 эвенков. Среди ненцев цифры эти весьма приблизительны: энцев (тех, кто осознает себя энцами) в поселке примерно в четыре раза больше, а ненцев, соответственно, меньше, при этом многие из них имеют ненецких предков. Эвенкийским языком в Потапове владеют в разной степени человек 5, все старше 45 лет. Энецким языком владеют в разной степени едва ли более 15 человек, свободно владеют 6 человек, все старше 45 лет. Долганским языком владеют не более 5-6 человек, свободно владеют двое (старше 50 лет). Нганасанским языком в Потапове владеют двое (старше 45 лет). Наконец, разная степень владения ненецким языком в Потапове встречается не только у ненцев старше 30 лет, но и у пожилых энцев, реже у эвенков. В Потаповской средней школе спорадически преподается энецкий и ненецкий язык, насколько можно судить, не слишком эффективно. Население Хантайского Озера - 355 человек, из них 144 эвенка, 177 долган и 4 энца. Сегодня эвенкийские жители Хантайского Озера – это собственно хантайские эвенки, а также выходцы из фактории Камень, ликвидированной в 1980 г., фактории Агата, ликвидированной в 1970-е гг., с. Потапова и окрестностей Игарки. В Хантайском Озере эвенкийским языком в разной степени владеют человек 40 (все они старше 30 лет), свободно владеют человек 10-15 (все старше 60 лет). Долганским языком в разной степени владеют человек 100 (все они старше 25 лет), свободно владеют человек 40-45 (все старше 50 лет). Исключение составляет приехавшая из Хатангского района 27-летняя учительница долганского языка, свободно говорящая на хатангском диалекте (что свидетельствует о гораздо лучшей сохранности хатангского диалекта в сравнении с каменским, хантайским и прочими говорами долган Хантайского Озера). Факторию Камень ликвидировали, а ее жителей (эвенков и долган) переселили в Хантайское Озеро, бывшее на тот момент практически мононациональным эвенкийским поселком, в 1980 г. Многие хантайские эвенки считают, что утрата их языка началась с приходом людей из Камня. Стоит заметить, что в Камне, по-видимому, происходило вытеснение эвенкийского языка долганским; Проводя анкетирование, мы обнаружили следы этого вытеснения: некоторые пожилые выходцы из Камня, этнически идентифицирующие себя с эвенками, эвенкийским языком не владеют, а родным языком называют долганский. В неполной средней школе Хантайского Озера преподаются энецкий и долганский языки, однако пока что эффективность преподавания оставляет желать лучшего. Однако изменение ситуации всегда возможно. Картина невеселая. И она лишний раз убеждает в необходимости документации говоров автохтонных языков: не записал сегодня, возможно, не запишешь уже никогда. Увы! 3) В этом году морфологическая разметка текстов была дополнена разметкой другого уровня – дискурсивной 7. Была разработана система дискурсивной разметки текстов. Предлагаемая нами на данном этапе дискурсивная разметка довольно проста: в соответствии с тремя выделяемыми функциями дискурсивных маркеров - упорядочение фрагментов текста и обеспечение его (текста) связности; заполнение пауз; указание на источник информации и/или степень достоверности сообщаемого – в текстах специальными глоссами в отдельной строке (ELAN обеспечивает возможность использования нескольких строк для разного типа разметки текста) отмечаются три типа дискурсивных маркеров: связки (LINK), заполнители пауз (JOKER), и указатели источника информации (INFORM). Выполнена пробная разметка 5 текстов с морфологическими глоссами. 4) Важнейший результат для развития эвенкийской текстовой базы, которая перестает быть лишь игрушечным пилотным проектом: осуществлен импорт 30 проиндексированных (отглоссированных) в этом году и 6 отглоссированных в прошлом году текстов в ELAN, проведена синхронизация видео и звукового ряда с графической записью текстов и размещение синхронизированных текстов на Московском сервере языковых архивов LangueDOC http://languedoc.philol.msu.ru. 5) Фольклорные тексты составляют примерно половину нашего эвенкийского корпуса. Работа с ними – важная часть нашей работы над проектом. В этом году проведен анализ фольклорных сюжетов и мотивов, представленных в текстах корпуса. Прозаические фольклорные материалы, вошедшие в наш корпус, представлены текстами разных жанров. Это мифы, сказки, былички, исторические предания и шаманские легенды. В их мотивном составе выделяются две группы мотивов: этиологические и приключенческие. Первые, как правило, встречаются в мифах (мифологических сказках), а вторые – в сказках, быличках, преданиях и легендах о шаманах. Этиологические мотивы концентрируются вокруг следующих тем: происхождение лунных пятен; появление животных, объяснение особенностей их внешнего облика и внутреннего строения; появление первых людей и болезней. С луной связаны два мотива: 1) лунные пятна – это девушка, отправленная за водой (1998 Sovrechka Davinduk F-M 2), 2) лунные пятна – большой человек с одной рукавицей, ушедший с земли, потому что у него украли вторую (2007 Chirinda Eldogir Valentina F-M 4). Большинство этиологических мотивов связано с животными. Первые комары вылетели из тела сожженной на костре ведьмы (1998 Sovrechka Saygotina Oksana F-M 2). Красные цвет глаз сороги (1998 Sovrechka Davinduk F-M 1) и красные пятнышки около глаз глухаря (2007 Chirinda Eldogir Valentina F-M 10) объясняются тем, что когда-то они сильно плакали. Два этиологических мотива связаны с происхождением красной окраски лисы. Первый содержится в нескольких текстах и состоит из следующих эпизодов: лиса просится к женщинам на лодку, съедает их запасы и убегает; они отправляются в погоню за ней, поджигают дерево, на котором сидела лиса; шкура лисы становится красной (2007 Chirinda Eldogir Valentina F-M 8; 2007 Ekonda Udygir Viktor F-Sk 2; 2008 Kislokan Udygir Valentina F-M) (ср. 2007 Mutoray Yastrikova F-Sk 4). Ранее аналогичный нарратив был записан у илимпийских эвенков Г.М. Василевич в 1920-1930-е гг. и опубликован ею в 1936 г. Что касается второго мотива, то он связывает происхождение красной окраски с усталостью, которую лиса испытывала после соревнований в беге с налимом (2005 Poligus Archemku F-M) (ср. 2007 Mutoray Dmitriev F-Sk; 2008 Kislokan Mongo F-M). Вариант данного текста был записан Г.М. Василевич в Нгоконно (верховья Нижней Тунгуски, Иркутская обл.) и опубликован в Сборнике материалов по эвенкийскому фольклору (1936). Плоская форма, присущая телу карася, объясняется тем, что эта рыба дразнила лося и тот, разозлившись, раздавил её (2007 Chirinda Eldogir Iliya L & F; 2007 Chirinda Khutokogir Dmitriy L & F). В Чиринде была записана мифологическая сказка о том, как воевали куропатка и щука. Они стреляли друг в друга стрелами; с тех пор у куропатки в ногах, а у щуки в спине много костей (это оставшиеся стрелы) (2007 Chirinda Eldogir Valentina F-M 3). Данный мотив происхождения рыбьих костей хорошо известен в Западной и Восточной Сибири, на Дальнем Востоке и в Северо-Восточной Азии (Берёзкин 2011: мотив B64), однако у эвенков зафиксирован, по-видимому, впервые. То же относится и к мотиву появления косточек в птичьих ногах, который ранее был известен только у долган, якутов, юкагиров и тагиш (Берёзкин 2011: мотив B64). Особый интерес представляют и тексты с приключенческими мотивами. Так, в Полигусе записана сказка о лисе, которая, чтобы переправится через реку, обманула налимов – предложила их сосчитать, и в результате перебралась на другой берег по их спинам (2005 Poligus Archemku F-Sk). Среди эвенков мотив «Живая цепь» был зафиксирован прежде только у аянской группы (Левин 1936: 221-224; Берёзкин 2011: мотив М3), следовательно, текст из Полигуса является первой фиксацией этого мотива у носителей западных диалектов. Другой редкий для эвенков мотив содержит шаманская легенда, записанная в Эконде [2007 Ekonda Udygir Viktor F-Sham]. В ней повествуется о том, как шаман поймал духа болезни в мешок, начал его бить, в итоге болезнь ушла. Варианты этой легенды не встречаются среди опубликованных эвенкийских записей. Ближайшая аналогия обнаруживается у географически близких вилюйских якутов (Эргис 1960: 297-301) и по своему распространению мотив духа в ловушке тяготеет именно к тюрко-монгольским традициям (Дувакин 2011: 76-80, 388-393). 6) На сайте лаборатории автоматизированных лексикографических систем НИВЦ МГУ создан специальный раздел, посвященный работе над проектом. http://lcl.srcc.msu.ru/mainstream_pages/project.htm. 7) Полученные результаты частично отражены в пяти опубликованных и двух принятых к печати работах.
грант РФФИ |
# | Сроки | Название |
2 | 1 января 2011 г.-31 декабря 2011 г. | Мультимедийный размеченный корпус текстов на говорах западных эвенков |
Результаты этапа: Целью настоящего проекта является построение мультимедийного размеченного корпуса текстов на говорах западных эвенков, в котором обеспечивается хранение языковой и метаязыковой информации и осуществляется поиск информации по различным параметрам, а также анализ проблем, возникающих в процессе работы над подобным корпусом. За второй год работы над проектом был проделан значительный объем работы, в целом соответствующий намеченной программе: Проект рассчитан на три года. За второй, 2011, год нам удалось выполнить все поставленные на этот год задачи: 1) было выполнено морфологическое индексирование 5 текстов на сымском диалекте; по ходу работы проанализированы особенности современных текстов на этом диалекте; 2) было выполнено морфологическое индексирование 5 текстов на чириндинском говоре; по ходу работы выявлены и частично проанализированы фонетические и грамматические особенности современных текстов на этом диалекте (к таковым особенностям относится, например, наличие в текстах противопоставления форм минимального и расширенного инклюзивного личного местоимения 1 лица множественного числа); 3) было выполнено морфологическое индексирование 5 текстов на тутончанском говоре; анализ особенностей современных текстов из Тутончан показывает, что эвенкийские идиомы, используемые жителями поселка, не однородны; 4) была подготовлена и проведена экспедиция к таймырским эвенкам в поселки Хантайское Озеро и Потапово, в ходе которой была сделана аудио- и видеозапись 36-и эвенкийских текстов на четырех таймырских говорах, большая часть текстов расшифрована, записан значительный объем озвученных лексических материалов и проведено социолингвистическое обследование поселков для получения адекватного представления о наличествующей в них языковой ситуации; 5) было выполнено морфологическое индексирование 5 текстов, записанных в Кислокане; начат анализ особенностей кислоканских текстов; уже на первом этапе анализа получило подтверждение наше предположение о говорной неоднородности поселка; 6) было выполнено морфологическое индексирование 5 текстов, записанных в Стрелке-Чуне; ведется анализ особенностей этих текстов; 7) была разработана система дискурсивной разметки текстов; сделана пробная дискурсивная разметка 5 текстов с морфологическими глоссами; 8) был осуществлен импорт 36 проиндексированных (отглоссированных) текстов в ELAN, проведена синхронизация видео- и звукового ряда с графической записью текстов и размещение синхронизированных текстов на Московском сервере языковых архивов LangueDOC http://languedoc.philol.msu.ru; 9) был проведен предварительный анализ фольклорных мотивов, представленных в текстах корпуса; 10) на сайте лаборатории автоматизированных лексикографических систем НИВЦ МГУ было продолжено ведение раздела, посвященного работе над проектом. http://lcl.srcc.msu.ru/mainstream_pages/project.htm; 11) полученные в ходе работы над проектом результаты частично отражены в опубликованных и принятых к печати работах. |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".