Первая страница
Наша команда
Контакты
О нас

    Главная страница


Выпускная работа по «Основам информационных технологий»




Скачать 143.93 Kb.
Дата03.07.2017
Размер143.93 Kb.
ТипВыпускная работа


БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Выпускная работа по

«Основам информационных технологий»


Магистрантка кафедры современной

белорусской литературы и культуры

филологического факультета

Мацук Юлия Богуславовна

Руководитель:

Науменко П.И.

Руководитель практики:

Позняков А.М.



Минск 2007

ОГЛАВЛЕНИЕ




Перечень условных обозначений……………………………………………...3

Реферат «Применение ИТ при исследовании белорусской сатиры 20-х годов»……………………………………………………………………………...4Введение…………………………………………………………………………..4

Глава 1 Обзор литературы………………………………………………………..5

Глава 2 Методика исследования…………………………………………………6

Глава 3 История проблемы……………………………………………………….7

Глава 4 Программы-атрибуторы и использование их при исследовании белорусской сатиры 20-хгодов 20века…………………………………………10

Обсуждение результатов………………………………………………………13

Заключение……………………………………………………………………...14

Библиографический список…………………………………………………..15

Интернет-ресурсы в предметной области…………………………………..16

Действующий личный сайт…………………………………………………..18

Граф научных интересов……………………………………………………...19

Презентация магистерской диссертации…………………………………....20

Приложение……………………………………………………………………..21

ПЕРЕЧЕНЬ УСЛОВНЫХ ОБОЗНАЧЕНИЙ

БД база данных

ИТ информационные технологии

МГУ-- Московский государственный университет

ЭВМ – электронно-вычислительные машины

ВВЕДЕНИЕ

На сегодняшний день, в эпоху всеобщей информатизации и глобализации, необходимость и возможность применения информационных технологий в работе литературоведа не вызывает сомнений. С помощью компьютера современный исследователь, в частности литературовед, может:



  • расширить кругозор с помощью мультимедийных энциклопедий;

  • с помощью разнообразных поисковых систем в интернете найти необходимые сведения по исследуемой тематике, а также, пользуясь электронными каталогами библиотек, найти необходимое издание какого-либо автора и воспользоваться нужной цитатой;

  • принять участие в обсуждении актуальных проблем по исследуемой теме посредством онлайн конференций, форумов;

  • сделать подстрочный перевод произведения с помощью автоматического переводчика;

  • создать частотный словарь произведения;

  • провести компьютерный анализ текста и многое другое.

Последней разновидности использования информационных технологий в литературоведении и попыткам и перспективам их применения при исследовании белорусской сатиры 20-х годов 20 века и посвящено данное исследование.

В данной работе акцент делается на одном из видов компьютерного анализа текстов, в частности, на особенностях работы и возможностях применения литературоведом таких достижений ИТ, как компьютерные программы, используемые для атрибуции текстов.


ГЛАВА 1

ОБЗОР ЛИТЕРАТУРЫ

Компьютерный анализ текстов в последние годы привлекает всё большее число исследователей. Соответственно, появляется и литература, посвящённая данной проблематике. Как правило, большое её количество представлено в электронной версии в интернете. Однако собственно проблеме атрибуции литературных текстов посредством компьютерных программ посвящено не так уж много литературы. В данной работе одним из основных источников стала научно-популярная статья В.Воронько и А.Костинского «Компьютерный анализ текстов», где рассказывается о истории возникновения идеи атрибуции текстов с помощью информационных технологий и одной из таких программ-атрибуторов «Лингвоанализаторе». Литература же, непосредственно посвящённая применению ИТ при исследованию белорусской сатиры 20-х годов 20 века, к сожалению, отсутствует.


ГЛАВА 2

МЕТОДИКА ИССЛЕДОВАНИЯ

В общем методика исследования проблемы использования ИТ при исследовании белорусской сатиры 20-х годов 20 века включала два этапа: теоретический и практический. Как на первом этапе, так и на втором использовались такие логические методы, как анализ и синтез, аналогия и сравнение, а также обобщение. Из общенаучных методов применялись приёмы теоретического и экспериментального исследования.

В методологическом плане работа основана на принципах объективности и комплексного подхода. Первый из них обеспечивается единством и взаимосвязью использованных методов, второй основан на изучении и анализе объекта исследования.


ГЛАВА 3

ИСТОРИЯ ПРОБЛЕМЫ

Идея автоматической обработки, а также анализа текста возникла ещё на начальном этапе развития вычислительной техники и кибернетики. Первоначально разработчики информационных технологий ставили целью техническую помощь: так, первые текстовые редакторы появились, когда к большим электронно-вычислительным машинам подключили печатные терминалы для ввода-вывода информации. Благодаря этим редакторам стало возможным несколькими нажатиями клавиш менять куски текста местами, вставлять в текст другие фрагменты и т.д. Большим достижением явилось автоматическое распознавание печатных текстов, введенных в компьютер с помощью сканера. Таким образом, стало возможным получать и редактировать любые ранее напечатанные тексты, и не вводить их руками с клавиатуры. Следующим шагом стала автоматизация проверки грамотности. Причём процедура проверки орфографии оказалась довольно проста: слово во всех его формах сравнивается с эталоном. Эталоном служит заранее внесенный 10-мегабайтный словарь. С его помощью удается правильно находить и исправлять почти все орфографические ошибки, что очень удобно, поскольку от опечаток не застрахован никто. Вдобавок можно пополнять эталонный словарь недостающими словами. В текстовом редакторе Word программисты применили такие инновации, что программе стало возможным оценивать удобочитаемость и благозвучность текстов. Безусловно, массовый текстовый редактор не решает всех задач, как, например, пунктуационных, и может предлагать исправить то, что в исправлении не нуждается. Однако в целом он существенно облегчает корректорскую работу исследователя.

Особый же интерес для литературоведов представляют программы, которые претендуют на большее, чем просто техническая помощь пользователю и помогают решить специфические проблемы, связанные именно с областью литературы.

Одной из актуальных задач литературоведения была и остаётся проблема атрибуции текстов. Основная её цель – определение авторства литературного текста, а также установление жанра, время и места его написания. Первые таковые попытки проводились в рамках палеографии —науки, которая изучала древние рукописи преимущественно по внешним характеристикам: способу написания, формам букв, особенностям материала, на котором писали, составу чернил и т.д. С помощью такой методики исследования текста в конце 17 века учёный-бенедектинец Жан Мабильон доказал в споре с иезуитами подлинность старых документов, закрепляющих права собственности его ордена на монастырь Сен-Дени, а филолог Йозеф Добровский пришёл к выводу, что древние чешские литературные памятники «Краледворскую рукопись» и «Зеленогорскую рукопись» подделали Вацлав Ганка и Йозеф Линде.

Появление массовой печати потребовало новых методик атрибуции текстов, так как рукописи стали восприниматься даже самими авторами как промежуточный вариант и часто не сохранялись, а в последнее время многие современные авторы вообще не использую ручку и бумагу для создания произведений, имея под рукой компьютер. Таким образом, на первое место вышел анализ внутренних характеристик текста. Первые методики опирались на следующие качественные характеристики стиля автора: словарный запас, использование терминов, устойчивых выражений и фраз вероятного писателя, а также на мировоззрение, широту охвата текста и глубину проработки темы. Несмотря на некоторую субъективность данного метода, он всё же никогда не потеряет своей значимости, так как позволяет увидеть всё произведение целиком. Однако с развитием качественных методик возникла идея, что существуют существуют некоторые неизменные во времени количественные характеристики письма данного автора, которые позволили бы проводить атрибуцию текстов с максимальной достоверностью.

Так возникла статистическая стилистика, которая берёт начало в работах де Моргана, высказавшего в 1851г. предположение, что длина слов может быть доказательством различия стилей писателей. Позже в России Николай Морозов в своей статье 1915г. "Лингвистические спектры: средство для отличения плагиатов от истинных произведений того или иного неизвестного автора» проанализировал употребление служебных частиц и предлогов в произведениях русских классиков и, как ему показалось, нашёл у каждого из авторов характерные особенности. Исследования Н.Морозова заинтересовали математика академика Андрея Макарова. Он проверил результаты подсчётов и, как оказалось, цифры математика сильно отличались от морозовских. Макаров показал, что у Морозова слишком мала база измерений и его результаты статистически необоснованны - по крайней мере, необходимо увеличить выборку. Было очевидно, что подобная методика требует трудоёмкой обработки больших массивов информации, и это стало возможным только с появлением компьютеров и массовым представлением текстов в оцифрованном виде.

С появлением ЭВМ возникла реальная возможность проводить атрибуцию текста с помощью информационных технологий. На данный момент существует две русскоязычные программы, позволяющие заниматься такими исследованиями посредством использования компьютера. Это программы «Лингвоанализатор» Дм. Хмелёва http://www.rusf.tu/books/analysis/ и «Атрибутор. Версия 1.01» http://www.textology.ru/art_resum.html. Они доступны для бесплатного скачивания и тестирования в интернене и любой пользователь может на практике воспользоваться этими программами.

ГЛАВА 4

ПРОГРАММЫ-АТРИБУТОРЫ И ПРИМЕНЕНИЕ ИХ ПРИ ИССЛЕДОВАНИИ БЕЛОРУССКОЙ САТИРЫ 20-Х ГОДОВ 20 века

Программа «Лингвоанализатор», определяет авторство любого текста, то есть, вычисляет вероятность того, что предлагаемый для анализа текст принадлежит данному автору. Программе можно послать любой текстовый фрагмент, и через несколько секунд она сообщит вероятное имя автора. Особенность «Лингвоанализатора» в том, что он определяет возможного писателя, опираясь на базу данных авторских текстов, уже внесенных в программу. В результате анализа сообщается имя не одного, а трёх возможных авторов, выстроенных в порядке убывания вероятности. Рядом с именами этих авторов программа в процентах указывает вероятность написания ими данного текста. Посылать можно любые тексты, даже свои собственные, чтобы посмотреть, насколько и к кому из внесенных в базу данных они близки. При определении текстов программа не пытается найти дословное совпадение текстов с теми, что имеются в её базе. Она не анализирует сюжет текста, его фабулу и непосредственно содержание. Можно изменять, например, имена собственные, но «Лингвоанализатор» всё равно в тройке возможных авторов на первое место поставит того, кто был изначально. Также программа находит три произведения каждого из авторов, которые наиболее близки данному тексту.

Важно отметить, что работа «Лингвоанализатора», как и других подобных программ, зависит от длины анализируемого фрагмента. По одной фразе или абзацу программа определить автора не может, потому что она «вычисляет» писателей. Поэтому объём текста, который исследователь желает проанализировать, должен быть больше 10 кб, а для второй программы, «Атрибутора», он должен быть не менее 20 кб.

Принцип работы программы «Лингвоанализатор» основывается на следующей гипотезе: некоторые стилистические авторские инварианты неизменны в большинстве его текстов и, применив математическую обработку произведений, можно с высокой долей вероятности установить авторство спорных текстов. В математической модели, используемой при анализе произведения, учитываются следующие формальные характеристики языка автора:



  • число служебных слов (предлогов, союзов, частиц);

  • используемые морфемы и их последовательность;

  • сложность используемых грамматических конструкций;

  • собственно словарь, используемый автором.

Модель, используемая в программе, прошла проверку на достаточно объёмном материале (более 80-ти авторов с общим объёмом произведений 128 Мб) и после испытаний в МГУ выяснилось, что четыре указанные выше характеристики позволяют с вероятностью более 50% определить авторов, которые уже занесены в базу. Как видно, она оказалась достаточно эффективна, однако некоторые изъяны при её работе всё же имеются. Так, «Лингвоанализатор» произведения различных жанров одного автора может отнести к разным писателям. Однако даже при таком отрицательном нюансе он остаётся первой в мире программой, которая атрибутирует текст с большой долей вероятности.

Вторая программа, «Атрибутор», работат по тому же принципу, что и «Лингвоанализатор». Отличие её в том, что в базе данных программы –103 автора, и представлены только их произведения крупных форм, в основном, романы.

К сожалению, на сегодняшний день не существует подобных программ для определения авторства белорусскоязычных авторов. Нами была проведена попытка воспользоваться программой «Атрибутор» для установления авторства сатирического романа 20-х годов 20 века «Записки Самсона Самасуя» А.Мрыя. После ввода отрывка романа (существует электронная версия на сайте www.knihi.com) и анализа его программой в течение нескольких секунд, «Атрибутор» резюмировал: «Автора этого текста в нашей БД нет. Если вы пришлёте нам полный текст романа, мы, возможно, включим его в нашу выборку.» Таким образом, попытка оказалась неудачной, однако заставила задуматься над проблемой отсутствия подобных программ для атрибуции белорусских текстов. К тому же, выявилась ещё одна проблема: малое количество переводной белорусской литературы в электронных библиотеках (предложенный для анализа роман существует в русском переводе, однако в электронной версии не представлен).

ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ

То, что существование такой компьютерной программы в белорусском литературоведении необходимо, очевидно. Взять, для примера, хотя бы весьма актуальную для современного белорусского литературоведения проблему определения авторства анонимной сатирической поэмы 60-х годов 20 века «Лысая Гора». Думается, наличие программы-атрибутора позволило бы во многом прояснить этот вопрос. Что же касается помощи компьютера при исследовании белорусской сатиры 20-х годов, то, несмотря на то, что проблема установления непосредственного авторства таких произведений данного периода перед литературоведами не стоит, часто поднимаются вопросы о степени влияния того или иного автора на своего товарища по перу. Так, например, автора «Записок..» А.Мрыя одни литературоведы сравнивают с М.Зощенко, другие же говорят о большем сходстве стиля белорусского прозаика со стилем М.Булгакова. И здесь опять же появляется возможность прибегнуть к услугам программы-атрибутора.



ЗАКЛЮЧЕНИЕ

Как видно из данной работы, необходимость в создании программы-атрибутора для белорусскоязычных текстов весьма актуальна. Существование подобной программы позволило бы прояснить многие вопросы в белорусском литературоведении. Безусловно, такие достижения ИТ, как программы-атрибуторы не должны считаться эталоном и бесспорным авторитетом при атрибуции текстов, однако их помощь при исследованиях такого рода немаловажна. Хочется надеяться, что в скором времени такая программа появится и для атрибуции текстов белорусских авторов, и литературоведы, занимающиеся исследованиями в области белорусской литературы, в том числе и те, кто исследует белорусскую сатиру 20-х годов 20 века, смогут воспользоваться ею в своей работе.


БИБЛИОГРАФИЧЕСКИЙ СПИСОК К РЕФЕРАТУ





  1. Баркоўская Т.П. Сучасныя інфармацыйныя тэхналогіі ў літаратуразнаўстве // Роднае слова. – 2001. - № 4. - С. 78 – 83.

  2. Бородин Л.И. Математические методы и компьютер в задачах атрибуции текстов. www.textology.ru

  3. Виноградов В.В. Проблема авторства и теории стилей. М.,1961

  4. Воронько В., Костинский А. Компьютерный анализ текстов. www.svoboda.org

  5. Мінскевіч С.Л. Літаратурны працэс і інфармацыйныя тэхналогіі // Роднае слова. – 2005. - № 6. - С. 74 – 76.

  6. Марусенко М.А. Атрибуция анонимных и псевдоанонимных текстов методами прикладной лингвистики // Прикладное языкознание. СПб.,1996

  7. Петров А.Н. Компьютерный анализ текста: историография метода.www.ab.ru

  8. Степанов А. Эвристика стиля — атрибуция авторства //Литературная учёба.—1998.-№ 2.- С.155-160

  9. Тарнопольская И.О. Диаграмная энтропия и атрибуция анонимных текстов: результаты тестирования методики. www.hist.asu.ru

  10. Шварц Л.С. К вопросу о применении специальных средств для атрибуции текстов // Системы специальных коммуникаций в современном русском языке. Днепропетровск, 1990

  11. www.attribution.karelia.ru

  12. www.rusf.tu/books/analysis

  13. www.textology/art_resum.html


ИНТЕРНЕТ-РЕСУРСЫ В ПРЕДМЕТНОЙ ОБЛАСТИ ИССЛЕДОВАНИЯ


1.http://www.magazines.russ.ru -- сайт, на котором размещаются электронные версии крупнейших российских толстых литературных журналов «Иностранная литература», «Новое литературное обозрение», «Новый мир» и т.д. Данный проект является очень полезным, т.к. на нём представлен архив журналов, начиная с середины девяностых годов, а также большое количество ссылок на литературные сайты. К тому же сайт постоянно обновляется, на его страницах всегда можно найти актуальную информацию, рецензии на литературные новинки и т.д.

2.http://www.arche.bymedia.net -- электорнная версия крупного белорусского литературно-философского журнала «Arche». Данный сайт постоянно обновляется, существует полнотекстовый архив номеров с начала выхода журнала. Новые номера журнала на сайте размещаются только через два-три месяца после выхода в продажу бумажной версии.

3.http://dziejaslou.by — сайт литературного журнала «Дзеяслоў», где можно найти свежие новости литературной жизни, ознакомиться с книжными новинками, рецензиями на новые книги.

4.http://www.lib.ru – самая крупная электронная русскоязычная библиотека в сети Максима Мошкова. Здесь можно найти электронные тексты художественной литературы от первого письменного памятника «Эпос о Гильгамеше» до последнего непереведённого романа У. Эко.

5.http://litara.net – самый популярный сайт белорусскоязычного байнета. Здесь ведутся дискуссии на актуальные темы современной литературной жизни, литераторы знакомятся друг с другом, имеют возможность создать свой профайл, разместить своё фото, свои литературные или критические тексты. Постоянно создаются новые темы форумов, объявляются конкурсы .

6.http://www.knihi.com — на сайте имеется виртуальная библиотека, где можно найти произведения многих белорусских авторов, в том числе и сатириков 20-х годов, в частности, несколько рассказов К.Крапивы и роман А.Мрыя.

7.http://www.bk.baj.by—сайт «Беларускага калегіюму», где размещаются статьи преподавателей. В одном из артикулов П.Васюченко «Недапраўлены апазыцыянізм» рассматривается эстетика литературной организации «Узвышша», куда входили сатирики 20-х.

8.http://www.belruss.com — на сайте размещена биографии К.Крапивы, содержание некоторых его произведений («Хто смяецца апошні», “Брама неўміручасці”, а также сочинения по ним.

9.http://www.wikipedia.org — популярная электронная энциклопедия, белорусский вариант. Есть биографии сатириков К.Крапивы, А.Мрыя. К сожалению, нигде не упоминаются Л.Калюга и М.Лужанин.

10.http://www.aiv.by—сайт издательства “Адукацыя і выхаванне”, где можно отследить содержание журнала “Беларуская мова і літаратура” с 2003г., в котором периодически появляются статьи, посвящённые творчеству писателей-сатириков 20 годов 20 века.


ДЕЙСТВУЮЩИЙ САЙТ

http://www.lingviston.narod.ru

Граф (круг) научных интересов

Магистрантки Мацук Ю.Б. филологический факультет

Специальность литературоведение





Смежные специальности

  • 10.01.08. Теория литературы




  1. Литературные жанры

  2. Изобразительные средства

  3. Проблемы литературных взаимосвязей



  • 10.01.02. Русская литература

1. Взаимодействие и взаимосвязь русской литературы с другими литературами

2.Родово-жанрово-стилевые процессы в историко-литературном контексте



Основная специальность


10.01.01. Белорусская литература

  1. Літаратурныя кірункі і плыні у нацыянальным гісторыка-літаратурным кантэксце

  2. Творчыя метады і мастацкія стылі і іх функцыянаванне у гісторыі беларускай літаратуры






Сопутствующие

  • 07.00.02. Отечественная история

1.Социально-экономическое развитие общества на территории Беларуси

2.Материальная и духовная культура, просвещение и наука





  • 09.01.11. Социальная философия

1.Социально-политическая организация общества и её роль в общественном бытии

2.Культура общества и личность.







ПРЕЗЕНТАЦИЯ


Презентация размещена на сайте www.lingviston.narod.ru, слайды в приложении.


  • Интернет-ресурсы в предметной области…………………………………..16
  • ПЕРЕЧЕНЬ УСЛОВНЫХ ОБОЗНАЧЕНИЙ
  • ГЛАВА 1
  • ГЛАВА 2
  • ГЛАВА 3
  • ГЛАВА 4
  • ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ
  • БИБЛИОГРАФИЧЕСКИЙ СПИСОК К РЕФЕРАТУ
  • ИНТЕРНЕТ-РЕСУРСЫ В ПРЕДМЕТНОЙ ОБЛАСТИ ИССЛЕДОВАНИЯ
  • ДЕЙСТВУЮЩИЙ САЙТ