Компьютерная лингвистика: методы, ресурсы, приложения. Компьютерная лингвистика

Новоселова Ирина

Почему не все машинные переводы совершенны? От чего зависит качество перевода? Достаточно ли автору знаний, чтобы использовать и дополнять существующие компьютерные словари? Ответы на эти вопросы автор стремилась представить в своей работе. Отчет по теме - в прикрепленном файле, продукт проектной деятельности - на школьном портале

Скачать:

Предварительный просмотр:

Открытая

Международная

научно-исследовательская

конференция

старшеклассников и студентов

«Образование. Наука. Профессия»

Секция «Лингвистика иноязычная»

«Компьютерная лингвистика»

Выполнила Новосёлова Ирина

МОУ гимназия № 39 «Классическая»

10 «Б» класс

Научные руководители:

Чигринёва Татьяна Дмитриевна,

учитель английского языка высшей категории

Осипова Светлана Леонидовна,

учитель информатики высшей категории

г. Отрадный

2011

  1. Англоязычные слова в ИКТ

Смотрите на сайте

  1. Мой эксперимент

Одна из задач – провести эксперимент, который заключен в сравнении возможностей различных компьютерных лингвистических словарей, по более точно-приближенному переводу с английского на русский.

Были протестированы следующие сайты:

  1. http://translate.eu/
  2. http://translate.google.ru/#ru
  3. http://www.langinfo.ru/index.php?div=6
  4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

Для чистоты эксперимента, я выбирала предложения с разной степенью сложности стилистического перевода. Фразы для ввода следующие:

1. A new report says today’s teenagers are more selfish than they were 20 years ago

(Новый доклад говорит, что современные подростки более эгоистичны, чем они были 20 лет назад)

2. She believes video games and the Internet are the biggest reasons for this increased selfishness.

(Она верит, что видео игры и Интернет являются наиболее значимыми причинами для этой возрастающей эгоистичности)

3. They want to be better than others

(Они хотят быть лучше, чем остальные)

4. She found the big increase started from the year 2000, which is when violent video games became really popular.

(Она нашла большой рост, начавшийся с 2000 года, когда жестокие видео игры стали действительно популярны)

Переведя эти предложения на сайтах онлайн-переводчиков, я получила следующие результаты:

  1. http://translate.eu/

Лингвистическая информатика является частью теории информационного обслуживания. Теория информационного обслуживания возникла в связи с компьютеризацией речи, то есть в связи с применением ЭВМ как средства записи, учета и хранения языковой информации. Благодаря технике удалось совместить функции библиотеки, архива и канцелярии.

Большие классы текстов обрабатываются путем автоматического реферирования. Непрерывно растущий объем научно-технической информации, поиск которой становится все более трудоемким, вызвал идею вести поиск по так называемым вторичным текстам, представляющим собой свернутую информацию первичного документа: библиографическое описание, аннотация, реферат, научный перевод.

Свертывание первичного текста осуществляется путем его сжатия, компрессии. Разработаны специальные методы свертывания первичного текста:

а) статистико-дистрибутивные методы заключаются в том, что выделяются наиболее информативные предложения, в которых сосредоточены наиболее значимые для данного текста языковые знаки;

б) методы использования смысловых индикаторов, когда отмечаются наиболее содержательные «точки» текста - предмет исследования, цель, методы, актуальность, область применения, выводы, результаты); в) метод текстовых связей, который заключаются в том, что учет межфразовых связей делает реферат целостным.

3. Практическое терминоведение.
Практическое терминоведение включает разделы:

а) лексикографическая терминология, которая занимается теорией и практикой создания специальных словарей, унификацией терминосистем, переводом терминов, созданием терминологических банков данных, автоматизацией их хранения и обработки.

б) предметом прикладной лингвистики стала и сама лексикография как один из самых трудоемких видов практического языковедения. Словари создаются десятилетиями. Поэтому вполне объяснимо стремление ученых автоматизировать лексикографическую деятельность. Появились автоматические словари. Их предназначение - повысить производительность труда при работе с текстами, по сбору, хранению и обработке различных единиц языка. Словари такого типа используются в системах автоматической переработки текстов.

Автоматический перевод.

В основе автоматического, или машинного, перевода лежит предположение о возможности приведения в соответствие типологически разных языковых структур (словаря, порядка слов, словоизменения, синтаксических структур). Лингвистический принцип перевода заключается в сопоставлении эквивалентных по смыслу языковых единиц двух и более языков.

В разработках систем автоматического перевода выделяют два этапа. На первом этапе решались такие фундаментальные проблемы машинного перевода, как создание автоматических словарей, разработка языка- посредника, формализация грамматики, преодоление омонимии, обработка идиоматических образований. На втором этапе продолжают достаточно плодотворно развиваться и воплощаться в практике теоретико-множественные модели грамматик, модели грамматик зависимостей, непосредственно составляющих, моделей порождающей грамматики. В этот период все более активно в прикладную лингвистику вовлекается семантика по модели «смысл - текст». Возникшие в отечественных и зарубежных университетах центры прикладной лингвистики разрабатывают стратегии машинного перевода. К ним относятся лаборатория математической лингвистики в Санкт-Петербургском университете, в Институте прикладной математики РАН; Всесоюзный центр перевода; группа «Статистика речи» в Ленинградском пединституте под руководством Раймонда Генриховича Пиот­ровского; группа по исследованию синтаксического моделирования «смысл - текст» под руководством Игоря Александровича Мельчука.

Новый этап совершенствования машинного перевода связан с использованием языка-посредника - языка представления знаний. В его основе лежит анализ значения предложения, получаемого при осмыслении входного предложения, дополненного и размеченного с помощью информации из базы знаний и в ее терминах. Процесс перевода представляет собой преобразование входного предложения языка X в выходную структуру языка У. Иными словами, результатом машинного перевода является скорее не собственно перевод, а пересказ исходного текста (X). Качество перевода зависит от эффективности языка представления знаний. Высокое качество машинного перевода может быть обеспечено только созданием надежных лингвистических основ и программных средств для построения мощных семантических сетей на основе автоматизированных лексиконов.

IV. Этнолингвистика.

Этнолингвистика (этносемантика, антрополингвистика) – это область языкознания, изучающая язык в его взаимоотношении с культурой определенного этноса. Основы этнолингвистики были заложены в работах Франца Боаса и Эдварда Сепира в первой четверти 20 века. Во второй половине 20 в. этнолингвистика оформилась в самостоятельный раздел языкознания. Этнолингвистические исследования второй половины 20 в. характеризуются такими чертами, как: привлечение методов экспериментальной психологии; сопоставление семантических моделей разных языков; изучение проблем народной таксономии; паралингвистические исследования; реконструкция духовной этнической культуры на основе данных языка; оживление внимания к фольклористике.

Центральными для этнолингвистики являются две тесно взаимосвязанных проблемы, которые можно назвать «когнитивной» и «коммуникативной»:

1. Каким образом, с помощью каких средств и в какой форме в языке находят отражение культурные (бытовые, религиозные, социальные и пр.) представления народа, говорящего на этом языке, об окружающем мире и о месте человека в этом мире?

2. Какие формы и средства общения – в первую очередь, языкового общения – являются специфическими для данной этнической или социальной группы?

В соответствии с этими проблемами в этнолинвистике выделились два направления: когнитивно ориентированная этнолингвистика и коммуникативно ориентированная лингвистика.

а) Когнитивно ориентированная этнолингвистика.

Когнитивно ориентированная этнолингвистика характерна для американского языкознания. Она называется антропологической лингвистикой. Первоначально антропологическая лингвистика была ориентирована на изучение культуры народов, резко отличающихся от европейских, прежде всего – американских индейцев. Установление родственных связей между этими языками и описание их современного состояния подчинялись задаче комплексного описания культуры этих народов и реконструкции их истории, в том числе путей миграции. Запись и интерпретация бытовых и фольклорных текстов была неотъемлемым компонентом антропологического описания.

Вслед за Францем Боасом в антропологической лингвистике считается, что более дробные фрагменты классификации действительности в языке соответствуют более важным аспектам данной культуры. Как замечает американский лингвист и антрополог Гарри Хойер, «народы, живущие охотой и собирательством, как, например, племена апачей на юго-западе Америки, обладают обширным словарем названий животных и растений, а также явлений окружающего мира. Народы же, основным источником существования которых является рыбная ловля (в частности, индейцы северного побережья Тихого океана), имеют в своем словаре детальный набор названий рыб, а также орудий и приемов рыбной ловли».

Наибольшее внимание этнолингвистов привлекали такие таксономические системы, как обозначения частей тела, термины родства, так называемые этно-биологические классификации, то есть названия растений и животных (английский ученый Б.Берлин, Анна Вежбицкая), – и особенно цветообозначения (Б.Берлин и П.Кей, А.Вежбицкая).

В современной антропологической этнолингвистике можно условно выделить «релятивистское» и «универсалистское» направления: для первого приоритетным является изучение культурной и языковой специфики в картине мира говорящего, для второго – поиск универсальных свойств лексики и грамматики естественных языков.

Примером исследований релятивистского направления в этнолингвистике могут служить работы Юрия Дерениковича Апресяна, Нины Давидовны Арутюновой, Анны Вежбицкой, Татьяны Вячеславовны Булыгиной, Алексея Дмитриевича Шмелева, Е.С.Яковлевой, посвященные особенностям русской языковой картины мира. Эти авторы анализируют значение и употребление слов, которые либо обозначают уникальные понятия, не характерные для концептуализации мира в других языках (тоска и удаль, авось и небось), либо соответствуют понятиям, существующим и в других культурах, но особенно значимым именно для русской культуры или получающим особую интерпретацию (истина и правда, свобода и воля, судьба и доля). Приведем для примера фрагмент описания слова «авось» из книги Т.В.Булыгиной и А.Д.Шмелева «Языковая концептуализация мира»:

«<...> авось значит вовсе не то же, что просто „возможно“ или „может быть“. <...> чаще всего авось используется как своего рода оправдание беспечности, когда речь идет о надежде не столько на то, что случится некоторое благоприятное событие, сколько на то, что удастся избежать какого-то крайне нежелательного последствия. О человеке, который покупает лотерейный билет, не скажут, что он действует на авось. Так, скорее, можно сказать о человеке, который <...> экономит деньги, не покупая медицинской страховки, и надеется, что ничего плохого не случится <...> Поэтому надежда на авось – не просто надежда на удачу. Если символ фортуны – рулетка, то надежду на авось может символизировать „русская рулетка“».

Примером исследований универсалистского направления в этнолингвистике являются работы польского ученого Анны Вежбицкой, посвященные принципам описания языковых значений. Цель многолетних исследований А.Вежбицкой и ее последователей – установить набор так называемых «семантических примитивов», универсальных элементарных понятий, комбинируя которые каждый язык может создавать бесконечное число специфических для данного языка и культуры конфигураций. Семантические примитивы являются лексическими универсалиями, иначе говоря, это такие элементарные понятия, для которых в любом языке найдется обозначающее их слово. Эти понятия интуитивно ясны носителю любого языка, и на их основе можно строить толкования любых сколь угодно сложных языковых единиц. Изучая материал генетически и культурно различных языков мира, в том числе языков Папуа – Новой Гвинеи, австронезийских языков, языков Африки и аборигенов Австралии, А.Вежбицкая постоянно уточняет список семантических примитивов. В ее работе «Толкование эмоциональных концептов» приводится следующий их список:

«субстантивы» – я, ты, кто-то, что-то, люди;
«детерминаторы и квантификаторы» – этот, тот же, самый, другой, один, два, много, все/весь;
«ментальные предикаты» – думать (о), говорить, знать, чувствовать, хотеть;
«действия и события» – делать, происходить/случаться;
«оценки» – хороший, плохой;
«дескрипторы» – большой, маленький;
«время и место» – когда, где, после/до, под/над;
«метапредикаты» – не/нет/отрицание, потому что/из-за, если, мочь;
«интенсификатор» – очень;
«таксономия и партономия» – вид/разновидность, часть;
«нестрогость/прототип» – подобный/как.

Из семантических примитивов, как из «кирпичиков», А.Вежбицкая складывает толкования даже таких тонких понятий, как эмоции. Так, например, ей удается продемонстрировать трудноуловимое различие между понятием американской культуры, обозначаемым словом «happy», и понятием, обозначаемым русским словом «счастливый» (и близкими ему по смыслу польским, французским и немецким прилагательными). Слово «счастливый», как пишет А.Вежбицкая, хотя и считается обычно словарным эквивалентом английского слова «happy», в русской культуре имеет более узкое значение, «обычно оно употребляется для обозначения редких состояний полного блаженства или совершенного удовлетворения, получаемого от таких серьезных вещей, как любовь, семья, смысл жизни и т.п.». Вот как формулируется это отличие на языке семантических примитивов (компоненты толкования В, отсутствующие в толковании А, выделяются заглавными буквами).

Толкование А: X feels happy
X чувствует что-то
со мной произошло что-то хорошее
я хотел этого
я не хочу ничего другого
Х чувствует что-то похожее

Толкование B: X счастлив
X чувствует что-то
иногда человек думает примерно так:
со мной произошло что-то ОЧЕНЬ хорошее
я хотел этого
ВСЕ ХОРОШО
я не МОГУ ХОТЕТЬ ничего другого
поэтому этот человек чувствует что-то хорошее
Х чувствует что-то похожее

Для исследовательской программы А.Вежбицкой принципиально, что поиск универсальных семантических примитивов осуществляется эмпирическим путем, с применением методик полевой лингвистики – работой с информантом: во-первых, в каждом отдельном языке выясняется роль, которую играет данное понятие в толковании других понятий, и, во-вторых, для каждого понятия выясняется множество языков, в которых данное понятие лексикализовано, то есть имеется специальное слово, выражающее это понятие.

Б) Коммуникативно ориентированная этнолингвистика.

Наиболее значительные результаты в коммуникативно ориентированной этнолингвистике связаны с направлением, именуемым «этнографией речи» или «этнографией коммуникации». Этнография речи как теория и метод анализа языкового употребления в социокультурном контексте была предложена в начале 60-х гг. в работах Д. Хаймза и Джона Дж. Гамперца и развита в работах американского ученого Арона Сикурела, Дж. Баумана, А.У. Корсаро. Высказывание исследуется только в связи с каким-либо речевым или коммуникативным событием, в рамках которого оно порождается. Подчёркивается культурная обусловленность любых речевых событий (проповедь, судебное заседание, телефонный разговор и т.д.). Устанавливаются правила языкового употребления путём присутствующего наблюдения (соучастие в речевом событии), анализа спонтанных данных, интервьюирования носителей данного языка как родного.

В рамках этого направления изучаются модели речевого поведения, принятые в той или иной культуре, в той или иной этнической или социальной группе. Так, например, в культуре «среднеевропейского стандарта» неформальная беседа нескольких человек предполагает, согласно принятым в данном сообществе правилам хорошего тона, что участники не будут перебивать друг друга, всем поочередно предоставляется возможность высказываться, желающий высказаться обычно сигнализирует об этом словами «позвольте заметить», «разрешите спросить» и т.п. Желающий выбыть из числа участников беседы объявляет о своем намерении словами «к сожалению, мне пора», «я должен ненадолго отлучиться» и так далее. Совсем иные нормы публичного речевого поведения приняты, например, в ряде культур аборигенов Австралии. Соблюдение индивидуальных прав отдельного участника разговора в этих сообществах не является обязательным правилом: несколько собеседников могут говорить одновременно, реагировать на высказывание другого не обязательно, говорящий высказывается, ни к кому специально не обращаясь, собеседники могут не смотреть друг на друга и т.д. Такая модель речевого поведения строится на исходной предпосылке, что все высказывания так или иначе аккумулируются в окружающем мире, и поэтому «прием» сообщения не обязательно должен непосредственно следовать за его «передачей».

Актуальной темой этнографии коммуникации является также изучение языкового выражения относительного социального статуса собеседников: правила обращения к собеседнику, в том числе использование титулов, обращений по имени, фамилии, имени и отчеству, профессиональные обращения (например, «доктор», «товарищ майор», «профессор»), уместность обращений «на ты» и «на Вы» и т.д. Особенно пристально исследуются такие языки, в которых соотношение социального положения говорящего и слушающего закрепляется не только в лексике, но и в грамматике. Примером может служить японский язык, где выбор грамматической формы глагола зависит от того, стоит ли слушающий выше говорящего в социальной иерархии или ниже, а также от того, входят ли говорящий и слушающий в одну социальную ячейку или нет. Кроме того, учитываются и отношения между говорящим и лицом, о котором идет речь. В результате комплексного действия этих ограничений один и тот же человек употребляет разные формы глагола при обращении к подчиненному и при обращении к начальнику, при обращении к сослуживцу и при обращении к незнакомому человеку, при обращении к своей жене и к жене соседа.

В грамматике находит отражение и такая особенность речевого этикета японцев, как стремление избежать вторжения в сферу мыслей и чувств собеседника. В японском языке существует особая грамматическая форма глагола – так называемое «желательное наклонение». С помощью суффикса желательного наклонения –tai говорящий выражает желание совершить действие, обозначенное исходным глаголом: "читать" + tai = "хочу читать", "уйти" + tai = "хочу уйти". Однако формы желательного наклонения возможны, только если говорящий описывает собственное желание. Желание собеседника или третьего лица выражается с помощью особой конструкции, приблизительно означающей "по внешним признакам можно заключить, что лицо X хочет совершить действие Y". Таким образом, подчиняясь требованиям грамматики, говорящий на японском языке может высказывать суждения лишь о собственных намерениях. Делать же прямые утверждения о внутреннем состоянии другого человека, например о его желаниях, язык просто не позволяет. Можно сказать «Я хочу...», но нельзя сказать «Вы хотите...» или «Он хочет...», а лишь «Мне кажется (у меня такое впечатление), что Вы хотите...» или «Мне кажется (у меня такое впечатление), что он хочет...».

Помимо норм речевого этикета, этнография коммуникации изучает также ритуализованные в тех или иных культурах речевые ситуации, такие, как заседание суда, защита диссертации, торговая сделка и тому подобные; правила выбора языка при межъязыковом общении; языковые конвенции и клише, сигнализирующие о принадлежности текста к определенному жанру («жили-были» – в сказках, «слушали и постановили» – в протоколе заседания).

Современная этнолингвистика тесно связана с социологией, психологией, семиотикой. В российской этнолингвистике особое место занимают исследования на стыке этнолингвистики, фольклористики и сравнительно-исторического языкознания. В первую очередь это исследовательская программа, посвященная этноязыковой и этнокультурной истории славянских народов (Никита Ильич Толстой, Светлана Михайловна Толстая, Владимир Николаевич Топоров). В рамках этой программы составляются этнолингвистические атласы, картографируются обряды, верования, фольклор; изучается структура кодифицированных славянских текстов определенных жанров, в том числе заговорных текстов, загадок, погребальных и строительных ритуалов и т.д., в соотнесении с данными сравнительно-исторических и археологических исследований.

  • Систематизация в языкознании и лингвистическая классификация народов мира
  • Социолингвистическая (или функциональная) классификация языков и форм речи

  • лингвистика статистический языкознание программный

    История развития компьютерной лингвистики

    Процесс становления и формирования современной лингвистики как науки о естественном языке представляет собой длительное историческое развитие лингвистического знания. В основе лингвистического знания лежат элементы, формирование которых происходило в процессе деятельности, неразрывно связанной с освоением структуры устной речи, появлением, дальнейшим развитием и совершенствованием письма, обучением письму, а также толкованием и расшифровкой текстов.

    Естественный язык как объект лингвистики занимает центральное место в этой науки. В процессе развития языка менялись и представления о нем. Если раньше не придавалось особого значения внутренней организации языка, и он рассматривался, прежде всего, в контексте взаимосвязи с внешним миром, то, начиная с конца XIX - начала XX вв., особая роль отводится внутреннему формальному строению языка. Именно в этот период известным швейцарским лингвистом Фердинандом де Соссюром были разработаны основы таких наук, как семиология и структурная лингвистика, и подробно изложены в его книге «Курс общей лингвистики» (1916).

    Ученому принадлежит идея рассмотрения языка как единого механизма, целостной системы знаков, что в свою очередь дает возможность описать язык математически. Соссюр первым предложил структурный подход к языку, а именно: описание языка посредством изучения соотношений между его единицами. Под единицами, или «знаками» он понимал слово, которое объединяет в себе и смысл, и звучание. В основе концепции, предложенной швейцарским ученым, лежит теория языка как системы знаков, состоящей из трех частей: языка (от фр. langue), речи (от фр. parole) и речевой деятельности (от фр. langage).

    Сам ученый определял создаваемую им науку семиологию как «науку, изучающую жизнь знаков в рамках жизни общества». Поскольку язык - это знаковая система, то в поиске ответа на вопрос о том, какое место лингвистика занимает среди других наук, Соссюр утверждал, что лингвистика - это часть семиологии. Принято считать, что именно швейцарский филолог заложил теоретический фундамент нового направления в лингвистике, став основоположником, «отцом» современного языкознания.

    Концепция, выдвинутая Ф. де Соссюром, получила дальнейшее развитие в работах многих выдающихся ученых: в Дании - Л. Ельмслев, в Чехии - Н. Трубецкой, в США - Л. Блумфилд, 3. Харрис, Н. Хомский. Что касается нашей страны, то здесь структурная лингвистика начала свое развитие примерно в тот же период времени, что и на Западе, - на рубеже XIX-XX вв. - в трудах Ф. Фортунатова и И. Бодуэн де Куртенэ. Следует отметить, что И. Бодуэн де Куртенэ тесно сотрудничал с Ф. де Соссюром. Если Соссюр заложил теоретический фундамент структурной лингвистики, то Бодуэн де Куртенэ может считаться человеком, заложившим основы практического применения методов, предложенных швейцарским ученым. Именно он определил лингвистику как науку, использующую статистические методы и функциональные зависимости, и отделил ее от филологии. Первым опытом применения математических методов в языкознании стала фонология - наука о структуре звуков языка.

    Следует отметить, что постулаты, выдвинутые Ф. де Соссюром, смогли найти отражение в проблемах лингвистики актуальных в середине XX века. Именно в это период и намечается явная тенденция к математизации науки о языке. Практически во всех крупных странах начинается бурное развитие науки и вычислительной техники, что в свою очередь потребовало все более новых лингвистических основ. Результатом всего этого стало быстрое сближение точных и гуманитарных наук, а также активное взаимодействие математики и лингвистики нашло практическое применение при решении актуальных научных проблем.

    В 50-е годы XX века на стыке таких наук, как математика, лингвистика, информатика и искусственный интеллект, возникло новое направление науки - компьютерная лингвистика (известной также под названием машинная лингвистика или автоматическая обработка текстов на естественном языке). Основные этапы развития этого направления происходили на фоне эволюции методов искусственного интеллекта. Мощным толчком к развитию компьютерной лингвистики послужило создание первых ЭВМ. Однако с появлением в 60-х годах нового поколения компьютеров и языков программирования начинается принципиально новый этап в развитии этой науки. Также следует отметить, что истоки компьютерной лингвистики восходят к трудам известного американского ученого-лингвиста Н. Хомского в области формализации структуры языка. Результаты его исследований, полученные на стыке лингвистики и математики, сформировали основу для развития теории формальных языков и грамматик (порождающих, или генеративных, грамматик), которая широко применяется для описания как естественных, так и искусственных языков, в частности языков программирования. Если говорить точнее, то эта теория является вполне математической дисциплиной. Ее можно считать одной из первых в таком направлении прикладной лингвистики, как математическая лингвистика.

    Первые эксперименты и первые разработки в компьютерной лингвистике относятся к созданию систем машинного перевода, а также систем, моделирующих языковые способности человека. В конце 80-х годов с появлением и активным развитием сети Интернет произошел бурной рост объемов текстовой информации, доступной в электронном виде. Это привело к тому, что технологии информационного поиска перешли на качественно новую ступень своего развития. Возникла необходимость автоматической обработки текстов на естественном языке, появились совершенно новые задачи и технологии. Ученые столкнулись с такой проблемой, как быстрая обработка огромного потока неструктурированных данных. С целью найти решение для данной проблемы большое значение стало уделяться разработке и применению статистических методов в области автоматической обработки текстов. Именно с их помощью оказалось возможным решение таких задач, как разбиение текстов на кластеры, объединенные общей тематикой, выделение в тексте определенных фрагментов и т.д. Кроме этого, применение методов математической статистики и машинного обучения позволило решить задачи распознавания речи и создания поисковых систем.

    Ученые не останавливались на достигнутых результатах: они продолжали ставить перед собой все новые цели и задачи, разрабатывать новые приемы и методы исследования. Все это привело к тому, что языкознание стало выступать в качестве прикладной науки, объединяющей в себе ряд других наук, ведущая роль среди которых принадлежала математике с ее многообразием количественных методов и возможностью их применять для более глубокого осмысления изучаемых явлений. Так начала свое формирование и развитие математическая лингвистика. На данный момент это достаточно «молодая» наука (существует около пятидесяти лет), однако, несмотря на свой весьма «юный возраст», она представляет собой уже сложившуюся область научных знаний с множеством успешных достижений.

    КУРСОВАЯ РАБОТА

    по дисциплине «Информатика»

    по теме: «Компьютерная лингвистика»


    ВВЕДЕНИЕ

    1. Место и роль компьютерной лингвистики в лингвистических исследованиях

    2. Современные интерфейсы компьютерной лингвистики

    ЗАКЛЮЧЕНИЕ

    ЛИТЕРАТУРА


    Введение

    В жизни современного общества важную роль играют автоматизированные информационные технологии. С течением времени их значение непрерывно возрастает. Но развитие информационных технологий происходит весьма неравномерно: если современный уровень вычислительной техники и средств связи поражает воображение, то в области смысловой обработки информации успехи значительно скромнее. Эти успехи зависят, прежде всего, от достижений в изучении процессов человеческого мышления, процессов речевого общения между людьми и от умения моделировать эти процессы на ЭВМ.

    Когда речь идет о создании перспективных информационных технологий, то проблемы автоматической обработки текстовой информации, представленной на естественных языках, выступают на передний план. Это определяется тем, что мышление человека тесно связано с его языком. Более того, естественный язык является инструментом мышления. Он является также универсальным средством общения между людьми – средством восприятия, накопления, хранения, обработки и передачи информации. Проблемами использования естественного языка в системах автоматической обработки информации занимается наука компьютерная лингвистика. Эта наука возникла сравнительно недавно – на рубеже пятидесятых и шестидесятых годов прошлого столетия. За прошедшие полвека в области компьютерной лингвистики были получены значительные научные и практические результаты: были созданы системы машинного перевода текстов с одних естественных языков на другие, системы автоматизированного поиска информации в текстах, системы автоматического анализа и синтеза устной речи и многие другие. Данная работа посвящена построению оптимального компьютерного интерфейса средствами компьютерной лингвистики при проведении лингвистических исследований.


    В современном мире при проведении различных лингвистических исследований все более активно используется компьютерная лингвистика.

    Компьютерная лингвистика – это область знаний, связанная c решением задач автоматической обработки информации, представленной на естественном языке. Центральными научными проблемами компьютерной лингвистики являются проблема моделирования процесса понимания смысла текстов (перехода от текста к формализованному представлению его смысла) и проблема синтеза речи (перехода от формализованного представления смысла к текстам на естественном языке). Эти проблемы возникают при решении ряда прикладных задач и, в частности, задач автоматического обнаружения и исправления ошибок при вводе текстов в ЭВМ, автоматического анализа и синтеза устной речи, автоматического перевода текстов с одних языков на другие, общения с ЭВМ на естественном языке, автоматической классификации и индексирования текстовых документов, их автоматического реферирования, поиска документов в полнотекстовых базах данных.

    Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике, можно условно разделить на две части: декларативную и процедурную. К декларативной части относятся словари единиц языка и речи, тексты и различного рода грамматические таблицы, к процедурной части – средства манипулирования единицами языка и речи, текстами и грамматическими таблицами. Компьютерный интерфейс относится к процедурной части компьютерной лингвистики.

    Успех в решении прикладных задач компьютерной лингвистики зависит, прежде всего, от полноты и точности представления в памяти ЭВМ декларативных средств и от качества процедурных средств. На сегодняшний день необходимый уровень решения этих задач пока еще не достигнут, хотя работы в области компьютерной лингвистики ведутся во всех развитых странах мира (Россия, США, Англия, Франция, Германия, Япония и др.).

    Тем не менее, можно отметить серьезные научные и практические достижения в области компьютерной лингвистики. Так в ряде стран(Россия, США, Япония, и др.) построены экспериментальные и промышленные системы машинного перевода текстов с одних языков на другие, построен ряд экспериментальных систем общения с ЭВМ на естественном языке, ведутся работы по созданию терминологических банков данных, тезаурусов, двуязычных и многоязычных машинных словарей (Россия, США, Германия, Франция и др.), строятся системы автоматического анализа и синтеза устной речи (Россия, США, Япония и др.), ведутся исследования в области построения моделей естественных языков.

    Важной методологической проблемой прикладной компьютерной лингвистики является правильная оценка необходимого соотношения между декларативной и процедурной компонентами систем автоматической обработки текстовой информации. Чему отдать предпочтение: мощным вычислительным процедурам, опирающимся на относительно небольшие словарные системы с богатой грамматической и семантической информацией, или мощной декларативной компоненте при относительно простых компьютерных интерфейсах? Большинство ученых считают что, второй путь предпочтительнее. Он быстрее приведет к достижению практических целей, так как при этом меньше встретится тупиков и трудно преодолимых препятствий и здесь можно будет в более широких масштабах использовать ЭВМ для автоматизации исследований и разработок.

    Необходимость мобилизации усилий, прежде всего, на развитии декларативной компоненты систем автоматической обработки текстовой информации подтверждается полувековым опытом развития компьютерной лингвистики. Ведь здесь, несмотря на бесспорные успехи этой науки, увлечение алгоритмическими процедурами не принесло ожидаемого успеха. Наступило даже некоторое разочарование в возможностях процедурных средств.

    В свете вышеизложенного, представляется перспективным такой путь развития компьютерной лингвистики, когда основные усилия будут направлены на создание мощных словарей единиц языка и речи, изучение их семантико-синтаксической структуры и на создание базовых процедур морфологического, семантико-синтаксического и концептуального анализа и синтеза текстов. Это позволит в дальнейшем решать широкий спектр прикладных задач.

    Перед компьютерной лингвистикой стоят, прежде всего, задачи лингвистического обеспечения процессов сбора, накопления, обработки и поиска информации. Наиболее важными из них являются:

    1. Автоматизация составления и лингвистической обработки машинных словарей;

    2. Автоматизация процессов обнаружения и исправления ошибок при вводе текстов в ЭВМ;

    3. Автоматическое индексирование документов и информационных запросов;

    4. Автоматическая классификация и реферирование документов;

    5. Лингвистическое обеспечение процессов поиска информации в одноязычных и многоязычных базах данных;

    6. Машинный перевод текстов с одних естественных языков на другие;

    7. Построение лингвистических процессоров, обеспечивающих общение пользователей с автоматизированными интеллектуальными информационными системами (в частности, с экспертными системами) на естественном языке, или на языке, близком к естественному;

    8. Извлечение фактографической информации из неформализованных текстов.

    Подробно остановимся на проблемах, наиболее относящихся к теме исследования.

    В практической деятельности информационных центров есть необходимость решения задачи автоматизированного обнаружения и исправления ошибок в текстах при их вводе в ЭВМ. Эта комплексная задача может быть условно расчленена на три задачи – задачи орфографического, синтаксического и семантического контроля текстов. Первая из них может быть решена с помощью процедуры морфологического анализа, использующей достаточно мощный эталонный машинный словарь основ слов. В процессе орфографического контроля слова текста подвергаются морфологическому анализу, и если их основы отождествляются с основами эталонного словаря, то они считаются правильными; если не отождествляются, то они в сопровождении микроконтекста выдаются на просмотр человеку. Человек обнаруживает и исправляет искаженные слова, а соответствующая программная система вносит эти исправления в корректируемый текст.

    Задача синтаксического контроля текстов с целью обнаружения в них ошибок существенно сложнее задачи их орфографического контроля. Во-первых, потому, что она включает в свой состав и задачу орфографического контроля как свою обязательную компоненту, а, во-вторых, потому, что проблема синтаксического анализа неформализованных текстов в полном объеме еще не решена. Тем не менее, частичный синтаксический контроль текстов вполне возможен. Здесь можно идти двумя путями: либо составлять достаточно представительные машинные словари эталонных синтаксических структур и сравнивать с ними синтаксические структуры анализируемого текста; либо разрабатывать сложную систему правил проверки грамматической согласованности элементов текста. Первый путь нам представляется более перспективным, хотя он, конечно, не исключает и возможности применения элементов второго пути. Синтаксическая структура текстов должна описываться в терминах грамматических классов слов (точнее – в виде последовательностей наборов грамматической информации к словам).

    Задачу семантического контроля текстов с целью обнаружения в них смысловых ошибок следует отнести к классу задач искусственного интеллекта. В полном объеме она может быть решена только на основе моделирования процессов человеческого мышления. При этом, по-видимому, придется создавать мощные энциклопедические базы знаний и программные средства манипулирования знаниями. Тем не менее, для ограниченных предметных областей и для формализованной информации эта задача вполне разрешима. Она должна ставиться и решаться как задача семантико-синтаксического контроля текстов.

    КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА (калька с английского computational linguistics), одно из направлений прикладной лингвистики, в котором для исследования языка и моделирования функционирования языка в тех или иных условиях, ситуациях и проблемных сферах разрабатываются и используются компьютерные программы, компьютерные технологии организации и обработки данных. С другой стороны, это область применения компьютерных моделей языка в лингвистике и смежных с ней дисциплинах. Как особое научное направление компьютерная лингвистика оформилась в европейских исследованиях в 1960-х годах. Поскольку английское прилагательное computational может переводиться и как «вычислительный», в литературе встречается также термин «вычислительная лингвистика», однако в отечественной науке он приобретает более узкое значение, приближающееся к понятию «квантитативная лингвистика».

    Часто к компьютерной лингвистике относят термин «квантитативная лингвистика», который характеризует междисциплинарное направление в прикладных исследованиях, где в качестве основного инструмента изучения языка и речи используются количественные или статистические методы анализа. Иногда квантитативная (или количественная) лингвистика противопоставляется комбинаторной лингвистике. В последней доминирующую роль занимает «неколичественный» математический аппарат - теория множеств, математическая логика, теория алгоритмов и т. д. С теоретической точки зрения использование статистических методов в языкознании позволяет дополнить структурную модель языка вероятностным компонентом, т. е. создать теоретическую структурно-вероятностную модель, обладающую значительным объяснительным потенциалом. В прикладной области квантитативная лингвистика представлена, прежде всего, использованием фрагментов этой модели, используемых для лингвистического мониторинга функционирования языка, дешифровки кодированного текста, авторизации/атрибуции текста и т. п.

    Термин «компьютерная лингвистика» и проблематика этого направления часто связываются с моделированием общения, и прежде всего - с обеспечением взаимодействия человека с ЭВМ на естественном или ограниченном естественном языке (для этого создаются специальные системы обработки естественного языка), а также с теорией и практикой информационно-поисковых систем (ИПС). Обеспечение общения человека с ЭВМ на естественном языке иногда обозначается термином «обработка естественного языка» (перевод с английского языка термина Natural Language Processing). Это направление компьютерной лингвистики возникло в конце 1960-х годов за рубежом и развивалось в рамках научно-технологической дисциплины, именуемой искусственным интеллектом (работы Р. Шенка, М. Лебовица, Т. Винограда и др.). По своему смыслу словосочетание «обработка естественного языка» должно охватывать все области, в которых компьютеры используются для обработки языковых данных. На практике, однако, закрепилось более узкое понимание термина - разработка методов, технологий и конкретных систем, обеспечивающих общение человека с ЭВМ на естественном или ограниченном естественном языке.

    К компьютерной лингвистике в определённой степени могут быть отнесены работы в области создания гипертекстовых систем, рассматриваемых как особый способ организации текста и даже как принципиально новый вид текста, противопоставленный по многим своим свойствам обычному тексту, сформированному в гутенберговской традиции книгопечатания (смотри Гутенберг).

    К компетенции компьютерной лингвистики относится и автоматический перевод.

    В рамках компьютерной лингвистики возникло и сравнительно новое, активно развивающееся с 1980-90-х годов направление - корпусная лингвистика, где разрабатываются общие принципы построения лингвистических корпусов данных (в частности, корпусов текстов) с использованием современных компьютерных технологий. Корпуса текстов - это коллекции специально подобранных текстов книг, журналов, газет и т.д., перенесённые на машинные носители и предназначенные для автоматической обработки. Один из первых корпусов текстов был создан для американского варианта английского языка в Брауновском университете (так называемый Брауновский корпус) в 1962-63 под руководством У. Френсиса. В России с начала 2000-х годов в Институте русского языка имени В. В. Виноградова РАН разрабатывается Национальный корпус русского языка, состоящий из представительной выборки русскоязычных текстов объёмом порядка 100 миллионов словоупотреблений. Кроме собственно конструирования корпусов данных, корпусная лингвистика занимается созданием компьютерных инструментов (компьютерных программ), предназначенных для извлечения разнообразной информации из текстовых корпусов. С точки зрения пользователя, к корпусам текстов предъявляются требования представительности (репрезентативности), полноты и экономичности.

    Компьютерная лингвистика активно развивается и в России, и за рубежом. Поток публикаций в этой области очень велик. Кроме тематических сборников, в США с 1984 ежеквартально выходит журнал «Computational Linguistics» («Компьютерная лингвистика»). Большую организационную и научную работу проводит Ассоциация по компьютерной лингвистике (The Association for Computational Linguistics), которая имеет региональные структуры по всему миру (в частности, европейское отделение). Каждые два года проходят международные конференции КОЛИНТ (в 2008 конференция проходила в Манчестере). Основные направления компьютерной лингвистики обсуждаются также на ежегодной международной конференции «Диалог», организуемой Российским НИИ искусственного интеллекта, филологическим факультетом МГУ, Яндексом и рядом других организаций. Соответствующая проблематика широко представлена также на международных конференциях по искусственному интеллекту разных уровней.

    Лит.: Звегинцев В. А. Теоретическая и прикладная лингвистика. М., 1968; Пиотровский Р. Г., Бектаев К. Б., Пиотровская А. А. Математическая лингвистика. М., 1977; Городецкий Б. Ю. Актуальные проблемы прикладной лингвистики // Новое в зарубежной лингвистике. М., 1983. Вып. 12; Кибрик А. Е. Прикладная лингвистика // Кибрик А. Е. Очерки по общим и прикладным вопросам языкознания. М., 1992; Kennedy G. An introduction to corpus linguistics. L., 1998; Bolshakov I.А., Gelbukh А. Computational linguistics: models, resources, applications. Мех., 2004; Национальный корпус русского языка: 2003-2005. М., 2005; Баранов А. Н. Введение в прикладную лингвистику. 3-е изд. М., 2007; Компьютерная лингвистика и интеллектуальные технологии. М., 2008. Вып. 7.

    Поделиться: