Использование частотных словарей при изучении иностранных языков

Вы не зарегистрированы

Авторизация

Ресурсы сайта

Предметный каталог

Использование частотных словарей при изучении иностранных языков

Автор:

Константин Алексеевич Попов, кандидат физико-математических наук, доцент кафедры теории и методики обучения физике и информатике

Место работы:

Волгоградский государственный педагогический университет

Контакты:

[email protected]

http://www.openclass.ru/sites/default/files/popov_4.jpg " alt="" />

Изучение иностранных языков – труд нелегкий, независимо от того, самостоятельно ли учится человек или под руководством преподавателя. Последний вариант, безусловно, представляется более предпочтительным, поскольку преподаватель, даже не являясь носителем языка, является носителем культуры изучения языков (или какого-либо конкретного иностранного языка), отражающей громадный опыт предыдущих поколений, тщательно выбиравших наиболее оптимальный путь для достижения поставленной цели. Тем не менее, современные технологии способны внести определенные новшества, оптимизирующие процессы запоминания иностранных слов, чтения оригинальных текстов, обучения воспроизведению отдельных звуков, слов, фраз и т.д.

В данной статье мы остановимся на возможностях использования в учебном процессе генераторов частотных словарей. Частотные словари отражают относительную частоту использования слова в каком-либо тексте или в разговорной практике. Internet содержит довольно много сайтов с частотными словарями (в основном даются ссылки на словари русского языка). Но найти в сети генератор частотного словаря не слишком просто.

Чем же может помочь частотный словарь учителю, ученику, исследователю иностранного языка? Прежде всего частотный словарь, полученный путем анализа достаточно большого текстового фрагмента (повести, романа), демонстрирует богатство лексикона автора и его отличие от словаря Эллочки-людоедки. Так, например, если мы возьмемся проанализировать и сравнить словарные запасы Вальтера Скотта, Рафаэля Сабатини (для него английский язык был не родной, так как Сабатини по происхождению итальянец) и Джоанны Роулинг по их произведениям «Ivanhoe», «Captain Blood. His Odyssey» и «Harry Potter and the Philosopher ’s Stone» соответственно, то должны будем заметить, что « Ivanhoe» содержит 13227 разных словоформ (слова могут быть в различных формах, например, use, using, used будут разными словоформами), «Captain Blood. His Odyssey» – 9498, а «Harry Potter and the Philosopher’ s Stone» – только лишь 6015, не смотря на фантастическую речь Хагрида (его язык существенно отличается от стандартного английского). О чем говорит данная статистика? Это говорит о том, что человек со словарным запасом 2 – 4 тысячи слов без особых проблем сможет читать «Гарри Поттера» в оригинале. С «Капитаном Бладом» дело будет обстоять несколько сложнее, не говоря уже о доблестном рыцаре Айвенго (он же Иванко).

Также легко преподаватель, используя частотный словарь, может определить необходимый словарный запас своих учеников для более-менее успешного чтения текста. При этом, если текст достаточно большой, ученику (читателю) вполне достаточно будет знаний слов, встречающихся в тексте более 2-3 раз, тогда как именно последние придают тексту тот самый окрас, который может быть характерным только для определенного автора.

Частотный словарь также может указать на особенности письменной речи автора анализируемых строк. Если мы говорим о тексте на английском языке, то в нем, очевидно доминирующую позицию по частоте использования будут занимать артикль «the» и предлоги, местоимения. Подобный вывод подтверждается уже приведенным анализом трех выше названных произведений. Действительно, лидерами являются (по «Айвенго»).

1	the
2	of
3	and
4	to
5	a
6	in
7	his
8	i
9	he
10	with

Примерно аналогичную картину мы можем наблюдать и на примере «Капитана Блада». Но отличительной чертой «Гарри Поттера», как образца современной английской речи, является присутствие уже в первой десятке имени Harry. Также близко к вершине подиума стоят имена Ron, Hagrid, и, в некотором отдалении, Hermione. Здесь мы уже подходим к функциям исследователя языка, поскольку частое использование в тексте имен может говорить либо о большом количестве диалогов, когда герои обращаются друг к другу по имени, либо о повествовании в жанре «Action», когда в тексте в изобилии содержатся выражения типа «Гарри пошел», «Рон сделал» и т.п.

Кроме того, частотный словарь способен помочь исследователю в определении часто употребляемых групп слов, выделяемых по какому-либо дополнительному признаку. Например, нам необходимо узнать: какие определения использовали писатели для указания «нехорошего» человека? Обычный словарь нам может дать примерно следующий список: cad, git, heel, knave, rascal, rogue, scamp, scoundrel, villain – негодяй, мерзавец, подлец. Создавая частотный словарь, мы выявляем все нюансы употребления слов данной группы в произведениях выбранных авторов. Здесь можно проследить зависимость речи от времени жизни, места проживания, жанра, социального статуса автора.

В частности, слово «git» встречается только в произведениях Дж. К. Роулинг, слово «scoundrel» характерно лишь для Сабатини, тогда как «knave» встречается в «Айвенго» 33 раза, у Сабатини – лишь 2 раза и не встречается в «Гарри Поттере» совсем.

Программа, генерирующая частотный словарь, не должна быть особенно сложной, хотя желательным был бы отсев форм слова, отличающихся от основной лишь окончанием. Но даже не обладающая подобным инструментом программа вполне может удовлетворить потребности пользователя, заинтересованного в получении общей статистической картины исследуемого произведения (или ряда произведений). В Internet мы нашли два образца генераторов. Один из них – полностью завершенная «Программа-составитель частотных словарей. Версия 2.6 Final» Владимира Пузанова. Другая – демо-версия «Частотный словарь. Версия 1.01», работающая только с текстами существенно ограниченного объема.

В принципе, обе программы довольно успешно справляются со своей задачей, но сравнение результатов их работы показывает, что в демо-версии отсутствуют некоторые слова, нашедшие отражение в словаре Владимира Пузанова (см. Приложение). Впрочем, это нельзя назвать кардинальным недостатком, делающим невозможным использование данного генератора для создания частотных словарей, хотя данный факт указывает на предпочтение в использовании «Программы-составителя…»

Осталось лишь указать на особенности генерации частотных словарей по текстам, содержащим не только английский и русский языки. На данном этапе демо-версия «Частотного словаря» сразу отпадает, так как она работает только с файлами в кодировке ANSI, которая не поддерживает западноевропейский алфавит (сохранение текстового файла с кодировкой ANSI автоматически заменяет буквы со знаками типа «умлаута» меняются на их латинские аналоги). Впрочем и с «Программой-составителем…» не все гладко, хотя с ее помощью и можно создавать частотные словари французских, немецких и других текстов на европейских языках.

Положим, нам необходимо создать частотный словарь романа «20 тысяч лье под водой», написанного Верном, очевидно, на французском языке. В Блокноте файл с кодировкой ANSI будет выглядеть следующим образом:

http://www.openclass.ru/sites/default/files/angl1.jpg " alt="" />

Легко заметить, что в тексте встречаются буквы как латиницы, так и кириллицы. Данную проблему легко решить, преобразованием текстового файла в MS Word:

http://www.openclass.ru/sites/default/files/angl2.jpg " alt="" />

Таким образом, мы получим нормально отформатированный текст, который можно читать. Но, к сожалению, подобное преобразование, делая текст «читабельным», не решает нашей проблемы, поскольку формат MS Word не может быть обработан средствами выделенных нами программ. Открыв текстовый файл в «Программе-составителе…», мы обнаружим возможность его деления на кириллический и некириллический, то есть он отображается в точности как в Блокноте. Далее необходимо создать частотный словарь для исходного (!) текста.

Получив словарь, его надо сохранить в формате html -документа, поскольку именно этот формат позволит нам не только изменить кодировку текста, но и оставить текст в табличной форме, удобной для дальнейшей работы. Можно также сохранить в формате txt, но при этом теряется табличный порядок расположения статей словаря. Далее html-документ транслируется в редактор MS Word. Так мы получим удобный для использования частотный словарь (его первые 33 строки):

1	de	6300	0,044877228724276
2	le	3884	0,027667167676998
3	et	3266	0,023264925240236
4	la	3214	0,022894510019019
5	a	2803	0,019966805097483
6	les	2582	0,018392540407314
7	je	2282	0,016255529515682
8	des	2015	0,014353589822129
9	que	1609	0,011461501748787
10	du	1422	0,010129431626337
11	il	1416	0,010086691408504
12	un	1349	0,009609425642706
13	ne	1300	0,009260380530406
14	en	1286	0,009160653355463
15	qui	1279	0,009110789767992
16	une	1205	0,008583660414723
17	se	1113	0,007928310407955
18	nous	1104	0,007864200081206
19	ce	1073	0,007643375622404
20	dans	1054	0,007508031599268
21	pas	1028	0,007322823988660
22	au	899	0,006403909305258
23	par	828	0,005898150060905
24	sur	825	0,005876779951988
25	capitaine	748	0,005328280489803
26	mais	738	0,005257046793415
27	plus	712	0,005071839182807
28	vous	712	0,005071839182807
29	me	706	0,005029098964974
30	ces	694	0,004943618529309
31	cette	663	0,004722794070507
32	nautilus	630	0,004487722872428
33	pour	521	0,003711275581801

Здесь сохранились все нюансы форматирования букв французского языка. При этом, использование таблицы позволяет работать со словарем как в текстовом режиме, так и транслировать его в MS Excel.

Таким образом, сделаем следующий вывод. Частотный словарь может стать для преподавателя, исследователя языка источником информации для принятия необходимых решений и коррекции ставших уже традиционными действий. Особенно актуальным частотный словарь может стать для любителя чтения оригинальных текстов, поскольку знание часто употребляемых слов становится очевидно необходимым, а освоение словарного запаса, состоящего из редко употребляемых слов, может придать процессу чтения статус более глубокого, насыщенного красками, позволяет прочувствовать язык автора.

Приложение. Отрывок из романа В. Скотта «Айвенго»

В таблице (таблица в формате MS Word, упаукованная в архив .zip) приведены результаты работы программ «Частотный словарь. Версия 1.01» и «Программа-составитель частотных словарей. Версия 2.6 Final ».

» Тэги к этому документу: