Головна Філологія Вісник Київського національного університету імені Тараса Шевченка ПРИНЦИПИ УКЛАДАННЯ ЧАСТОТНОГО СЛОВНИКА ГАЗЕТНОЇ ЛЕКСИКИ СУЧАСНОЇ ПЕРСЬКОЇ МОВИ
joomla
ПРИНЦИПИ УКЛАДАННЯ ЧАСТОТНОГО СЛОВНИКА ГАЗЕТНОЇ ЛЕКСИКИ СУЧАСНОЇ ПЕРСЬКОЇ МОВИ
Філологія - Вісник Київського національного університету імені Тараса Шевченка

Стаття присвячена визначенню основних принципів укладання першого частотного словника слів (лексем) газе­тної лексики сучасної перської мови на основі корпусу. Зокрема, визначено основні етапи укладання частотного слов­ника на базі корпусу, визначено принципи добору лексем до частотного словника, принципи лематизації слів, що на­лежать різних частин мови.

The article deals with determining the main principles of composing the first word-usage frequency dictionary of modern Persian newspapers based on the Corpus (Persian Language Database). Attention is concentrated on determining the main steps of composing the word-usage frequency dictionary based on the Corpus. The article shows principles of including words to the frequency dictionary and the lemmatization principles for different parts of speech.



Теорія і практика укладання частотних словників у мовознавстві не є новою і характеризується значни­ми досягненнями. Найновіші праці, присвячені укла­данню частотних словників [1; 4; 14; 27], підтверджу­ють, що ця галузь мовознавства на сьогодні є актуа­льною і активно розвивається. Наголошується на то­му, що "одним із першочергових завдань сучасного українського сходознавства має стати укладання ча­стотних словників" [11, с. 183]. Проте усі відомі нам частотні словники укладені вручну чи напівавтомати­чно на окремо підібраному для цього матеріалі. Як правило, формується вибірка, обсяг якої автори сло­вника вважають достатньо великим та репрезентати­вним для обраної мови чи субмови, і достатньо ма­лим, аби його опрацювати за певний осяжний промі­жок часу [2; 21]. Щодо перської лексикографії, то тут зовсім відсутній досвід укладання частотних словни­ків [17, с. 7], якщо не говорити про словники мови окремих письменників (напр., Унсурі [13], Гафеза [32]) чи окремих творів (напр., "Шахнаме" [29]). Проте завдання частотних словників такого типу "переваж­но історично-літературні, а не лінгвістичні" [13, с. 3].

Емпіричну базу лексикостатистики складає викори­стання величезних вибірок текстів [8, с. 5]. Застосу­вання автоматизації обробки тексту - необхідна умова розвитку і лексикостатистики, і лексикографії [7, с. 101-102]. У даний час, у зв'язку з розповсюдженістю персональних комп'ютерів, укладання частотних слов­ників не викликає особливих труднощів: так, напри­клад, для укладання словника за текстами обсягом у десятки мільйонів слів потрібно не більше кількох го­дин [3, с. 127]. Проте дане твердження стосується ли­ше добре вивчених і опрацьованих мов, таких як, на­приклад, російська [16] чи англійська [31]. Програмне забезпечення і стан вивчення ж перської мови тим ча­сом цього зробити не дозволяють. Ми маємо доступ до корпусу перської мови [30], укладеного на базі мови останніх 75 років [25]. Дослідні можливості сучасних електронних текстових корпусів загалом мають такі основні напрями [6]: 1) власне лінґвістичні синхронні та діахронні дослідження; 2) статистичні дослідження; 3) методика викладання мови. Корпус перської мови є репрезентативним для статистичного дослідження - укладання частотного загальномовного чи галузевого словника словоформ.

Під час укладання частотного словника важливо враховувати принцип однорідності матеріалу, тому за­звичай обмежуються дослідженням якоїсь однієї суб­мови [19, с. 55]. Оскільки газета є одним із наймасові - ших засобів писемної комунікації, лексикостатистичне дослідження перської мови розпочато з субмови публі­цистики, а саме - газети.

Метою даної статті є визначити основні принципи укладання частотного словника слів (лексем) газетної лексики сучасної перської мови на основі корпусу.

Процедура укладання частотних словників перед­бачає послідовність певних етапів [1; 8; 12; 15]. З ви­користанням корпусу для укладання частотного сло­вника газетної лексики перської мови ці етапи набули такого вигляду.

1) За одиницю підрахунку спершу ми обирали словоформу, оскільки розмітка корпусу перської мови наразі не є завершеною. Словоформою ми вважали послідовність літер між двома пропусками чи розді­ловими знаками.

2) Укомплектували вибірковий корпус обсягом 3 044 009 слововживань з шести наявних у корпусі перської мови неспеціальних газетних текстів (див. Таблицю 1). Оскільки у частотних списках за матері­алами кожної газети наводилися абсолютні частоти, то об'єднання списків звелося до додавання цих час­тот [15, с. 77].

Таблиця 1. Джерела частотного словника газетної лексики сучасної перської мови

Назва газети

Кількість

Слововживань

Кількість

Словоформ

Hamshahri 1381/01

796 879

34 155

Ettelaat 1383/01

214 392

13 981

Jamejam 1383/01

247 214

18 112

Hamshahri 1381/02-Alef

979 597

36 650

Hamshahri 1381/02-Be

755 654

31 882

Iran Amuzeshi 1

50 273

6 225

3) Автоматично підрахували абсолютну частоту од­накових словоформ у новоствореному корпусі. Підраху­нок здійснено за допомогою спеціально написаного мак­росу для програми Microsoft Excel (автор - Б. Рудий, нау­ковий співробітник Лінгвістичного музею при Київському національному університеті імені Тараса Шевченка). Ко­рпус налічував 69 300 словоформ. Нелітерні символи (цифри, розділові знаки, слова, написані не перською графікою тощо) зі списку було вилучено, і в результаті ми одержали список обсягом 59 215 словоформ.

Зважаючи на незавершеність розмітки перського кор­пусу та на відсутність відповідного комп'ютерного програ­много забезпечення, лематизацію і морфологічну кваліфі­кацію словоформ списку доводилося робити вручну. Не було можливості, відповідно, автоматично врахувати жо­ден з трьох можливих видів омонімії (омографії).

Проблема розмежування омографів у частотному словнику постала уже давно. Під час ручного розпису­вання текстів цю проблему вирішують відносно просто

- укладач завжди має перед собою контекст. Однак на практиці частотних семантичних словників, які б реєст­рували лексичні значення вхідних одиниць існує неба­гато. Вони складають окрему галузь статистичної лек­сикографії. Лише окремі частотні словники вказують ле­ксико-граматичні значення своїх вхідних одиниць. У них або кожне слово, або тільки ті слова, які збігаються за написанням, одержують індекс частини мови. Майже всі іноземні частотні словники не повідомляють ніякої ін­формації стосовно належності слів до певних частин мови чи граматичних категорій, тобто не враховують ні лексико-граматичних, ні граматичних значень [1; 8; 24]. На жаль, для перської мови неможливо укласти список омонімів за певними джерелами, як це було зроблено під час укладання частотних словників української чи російської мов [4, с. 9; 8, с. 21] - ні словника омонімів, ні певних списків у підручниках не існує, автори розділів, присвячених омонімії, обмежуються наведенням декі­лькох прикладів. "На матеріалі перської мови питання про виділення омонімів у теоретичному плані ніколи не було предметом спеціального дослідження" [17, с. 187]. Укладання списку омонімів могло б стати предметом окремого дослідження. Ми обмежилися розрізненням тих слів, які у тлумачних словниках сучасної перської мови [23; 33] подаються у різних словникових статтях. Тобто різними словами вважалися ті слова, які відпові­дають заголовним словам зазначених словників персь­кої мови. Винятки зроблено для порядкових числівників (напр., j dovvom 'другий' зводилося до j do 'два') і форм ступенів порівняння деяких слів (напр., J*kamtar 'менше, менший' і ¿¿-І kamtarin 'найменше, най­менший’ зводилися до * kam 'мало, рідко'), оскільки словники їх фіксують, але це залишається супровідною граматичною інформацією до відповідних лексем, ново­го лексичного значення у цих випадках немає, що під­тверджується способом дефініції слів такого типу - від­силанням до лексем, від яких вони утворилися або тлумаченням з використанням цих лексем.

Отож, для того, щоб розпізнати омографи під час укладання частотного словника газетної лексики сучасної перської мови на базі нерозміченого корпусу треба або розробляти складні алгоритми, або значення кожної по­тенційно можливої омоформи визначати вручну на основі конкордансів. Оскільки "обсяг словника з урахуванням омографів збільшується несуттєво" [12, с. 57], основна маса загальновживаних слів була розпізнана надійно, а решту слів, які складають меншу частку словника будь - якого тексту, ми контролювали шляхом перегляду в кон­кордансах і прийняття рішень у кожному випадку окремо (такий шлях пропонується, наприклад, у [10; 20]). Також ефективним для зняття омографії виявилося використан­ня макро - і мікроконтекстів [9, с. 349]. Наприклад, ураху­вання макроконтексту допомогло визначити критерії ви­бору неоднозначної словоформи: а) частотність відповід­ної леми (¿1 еу у значенні вигука чи звертання малоймо­вірне для газетного стилю, тому дану форму класифікує­мо як морфему - суфікс другої особи однини дієслова чи артикль невизначеності); б) відносна частотність конкрет­ної форми (напр., форма ^ у значенні тікопаС 'ро­бить' чи компонента складних дієслів у газетному мов­ленні вживаніша, ніж у значенні тікапаС 'копає', оскільки найчастотніша форма слова кагСап 'робити'-Ц^ - кагСапС 'зробили' має частоту 2706, тоді як найчастотніша форма слова ¿-—'<* капСап 'копати', власне -—¿, зу­стрілася 11 разів) [22]. Використання мікроконтекстів до­помогло зменшити кількість опрацьованих конкордансів, необхідних для співвіднесення певної словоформи із за­головним словом (напр., у списку словоформ з частотою 811 було зафіксоване слово >-^, яке не має лексичного значення. Для того, щоб обґрунтувати, що це окреме на­писання компонента складного слова дой-о-ди 'діалог, розмова' нам достатньо було обмежитися опрацюванням сорока контекстів). Завдяки аналітичній будові перської мови і обмеженості субмови словника (макроконтексту) до конкордансів доводилося звертатися не надто часто. Фактично, лише з метою визначення, яке саме значення даного омографа є частотним (напр., Уїаг виявилося частотним у значенні суфікса вищого ступеня порівняння, а не 'вологий, свіжий1).

Лексико-граматична омонімія, як правило, не врахо­вувалася (напр., не розмежовувалися вживання сло­ва ^у>-кЬиЬ 'добрий, добре' як прикметника і як прислівника), адже у словниках різні частиномовні варіанти того самого слова реєструються у межах однієї словникової статті.

Враховуючи існуючу різницю в принципах укладання частотних і тлумачних чи перекладних словників, лек­семи до реєстру частотного словника включалися та­ким чином.

• Дотримання алфавіту і визначення орфографіч­но правильного написання слів під час укладання час­тотного словника газетної лексики сучасної перської мови здійснювалося відповідно до правопису [26] та найновішого доступного нам правописного словника перської мови [34]. Правопис перської мови перебуває на етапі становлення, і, з навчальною метою, у частот­ному словнику поряд з найчастотнішим нормативним варто фіксувати можливі реально вживані варіанти на­писання слів. Різні варіанти написання одного і того са­мого слова, а також фонетичні варіанти підраховували­ся разом, проте, як і у випадку з ламаною арабською множиною, у дужках подається менш уживаний варіант написання з метою фіксації (напр., (У^)

(оо). Те саме стосується і розмовних варіантів слів.

• Незважаючи на те, що "специфіка граматичної будови і словотвірної системи перської мови така, що робить необхідним виокремлення як окремих вокабул деяких граматичних форм і повнозначних морфем - ос­нов теперішнього часу простих і прийменникових дієслів та відповідних словотвірних елементів - дієслівних на - півафіксів" [17, с. 85], афікси, які фіксуються у словниках лише з цим значенням, зводилися до слів, від яких вони походять (напр., афіксі dar звели до дієслова cfi^- dashtan 'мати') або вилучалися зовсім (напр., ) ha су­фікс множини). Вважаємо, що наведене твердження справедливе для усіх типів словників, окрім частотних словників лексики. Це пов'язано в першу чергу з тим, що частотний словник лексики покликаний реєструвати у першу чергу лексеми, а не похідні від них словотвірні чи граматичні елементи мови. Інформацію такого типу легко виокремити за частотним словником словоформ.

• Складні слова вважалися неподільною одини­цею і на частини не розділялися, навіть якщо словники їх не фіксують (напр., futbalzadegi 'гра у фут­бол'). Виняток зроблено для очевидних огріхів друку - якщо складне слово не зафіксовано у жодному словни­ку та не можливо вивести його єдине лексичне значен­ня, то воно розділялося на частини і частотність кожної з них підраховувалася окремо (напр., ^J було розді­лено на окремі лексеми J az 'з, від, про...' та ^ yek 'один'). Особливо це стосується написання сполучників (були укладені цілі списки, які починалися на сполучник, напр. jva і, та, а', Jaz 'з, від, про.', а після нього йшло повнозначне слово).

• Стійкі словосполучення розчленовувалися на окремі лексеми (напр., уhar-gune 'будь-яким чином'

— — + у).

• Прийменниково-іменні словосполучення, компо­ненти яких повністю або частково переосмислилися (напр., dar hal 'відразу, негайно') фіксувалися як одне слово у разі фіксування таких у фразеологічній частині словників перської мови.

• Оскільки у перському письмі відсутнє протистав­лення мала-велика літера, то власні назви (услід за укла­дачами частотного словника арабської мови [28, с. ХІІІ] обліковувалися на загальних підставах як звичайні слова.

• Похідні іменники з суфіксом ї—i (ya-ye masdari) та прикметники з суфіксом її—i (ya-ye nesbat), разом із графічним відображенням показника ізафета i (ya-ye ezafe) та невизначеності i (ya-ye nakare) були предметом особливої уваги, тут найчастіше доводилося проводити перевірку за конкордансами, бо "строгих закономірностей у можливості творення відповідних форм не існує" [17, с. 90].

• Виведення заголовної форми слова (лематиза - ція) базується на принципах графічної та семантичної еквівалентності. Усе формозмінювання словникового складу, яке не впливає на єдність лексичного значен­ня, знімається (зводиться до одного слова у початко­вій формі усі його похідні, утворені за допомогою формотворчих афіксів, які не вносять нового лексич­ного значення; якщо похідне слово фіксується у тлу­мачних словниках перської мови, то його частотність підраховували окремо). До морфологічних варіантів одного слова зараховуємо, слідом за І. Р. Вихованцем, "словоформи, у яких наявне ідентичне речове значен­ня пов'язане з тією самою реалією або класом одна­кових реалій, і у яких словозмінний афікс виражає синтаксичні зв'язки і семантико-синтаксичні відношен­ня слів у реченні" [5, с. 18]. Виходячи з цих положень, словоформи у списку об'єднувалися під лемою вручну за такими принципами:

Для дієслова:

- заголовна форма - стверджувальна форма інфіні­тива;

- часові, особові, заперечні форми та форми нака­зового способу зводилися;

- складні дієслова вважали двочленними фразеоло­гічними одиницями, компоненти яких зберігають слове­сну автономність, а не складними словами [див. 18, с. 114-116], і кожен їх член, відповідно, реєстрували як окреме слово;

- префіксальні дієслова реєструвалися як одне слово;

- дієприкметники, каузативні форми фіксувалися окремо;

- якщо дієслово вживається і у правильній, і у не­правильній формі (напр., дагСіСап / ¿¿Щ}авМап 'крутитися, ставатися'), то його частотність сумуєть - ся, а менш вживаний варіант подається у дужках;

- зв'язка азї вважалася формою дієслова ЬиСап; якщо ж брала участь в утворенні часових форм, то формотворчим афіксом, відповідно, такі випадки її вжи­вання не реєструвалися.

Для іменника:

- заголовна форма - однина, визначений, без по­казника ізафета і займенникових енклітик;

- форми регулярної (утвореної за допомогою формотворчих афіксів ^—Ьа, о[1]- - ап (й&- - дап), ^і—аї тощо) і арабської ламаної множини (напр., - У. тауагеС 'випадки' ^ у. тошгеС 'випадок'), а також двоїни (на­пр., Сошіаїеуп 'обидві держави' ^ ^Сом/іаї 'держава') зводилися докупи. З метою фіксації і з на­вчальною метою вважаємо за потрібне у дужках біля відповідних іменників наводити зафіксовані форми арабської множини;

- частоту множинних іменників (напр., -^тагбот 'люди, народ ) підраховано окремо;

- імена, які сприймаються і як іменники, і як при­кметники чи інші частини мови (напр., і-<тоЬіі 'сере­довище; оточуючий') розглядаються як полісемантичні лексеми і усі їхні значення реєструються під одним за­головним словом.

Для прикметника та прислівника:

- вищий і найвищий ступені порівняння зводилися докупи;

- слова, утворені за моделлю "префікс Ьа + іменник" чи "префікс Ьі + іменник" і т. ін., реєструвалися як окре­мі лексеми якщо: а) вони наявні у словниковій статті на відповідний префікс у словотвірному за своїм скеру­ванням словнику Афшара [33]; б) у похідному слові не­можливо відокремити префікс від лексичної основи шляхом утворення паузи [17, с. 90]; в) можливо утвори­ти ступені порівняння від даного слова; г) це слово мо­жна вжити у ролі означення у складі складного слово­сполучення - ізафетного ланцюга; д) використовуючи це слово у ролі означення, видільний артикль - і ста­виться після нього. Решту випадків написання разом префікса та іменника вважали огріхом друку і реєстру­вали їх як окремі одиниці.

Для займенника:

- реєструвалися усі самостійні форми - особові, вказівні, означальні та ін. займенники. Займенникові ен­клітики не реєструвалися.

Для числівника:

- заголовна форма - кількісний числівник;

- порядкові числівники зводилися до кількісних, су­плетивні форми подавалися в дужках біля відповідного кількісного числівника (напр.: (йА*^ ¡¿,1) лй уек (атаі, атаііп; покЬовї, покЬоэПп) 'один (перший)');

- складені та дробові числівники фіксувалися поко­мпонентно окремо (напр., у Ьізі-о-зе 'двадцять


Три' — ¿¿ці bist 'двадцять' + jva 'і'+ se 'три'), оскільки вони утворюються строго за правилами і не завжди послідовно пишуться разом без пробілів;

- числівники, записані цифрами, із тексту вилучалися.

Для прийменника:

- відіменникові прийменники (напр., yJ zir-e 'під') фіксувалися як відповідні іменники.

Усі інші частини мови (післяйменник, вигук, сполуч­ник, частка) реєструються як окремі лексеми.

Пропоновані принципи укладання частотного словника слів (лексем) газетної лексики сучасної перської мови мож­на застосовувати для укладання частотного словника будь - якої субмови на базі корпусу. Зрозуміло, що вироблення цих принципів є пілотним і не може претендувати на повно­ту і всеохопність - розглянуто тільки основні питання.

Визначити статистичні параметри частотного слов­ника (коефіцієнт кореляції, відносну чи середню часто­ти та ін.) і укласти таблиці статистичних розподілів ста­не можливим після остаточного завершення етапу ле- матизації та редагування словника. Результатом робо­ти має стати публікація частотного словника газетної лексики сучасної перської мови.

Даний словник може бути корисним для таких цілей:

1. Викладання перської мови як іноземної, а саме: укладання лексичних мінімумів, навчальних словників- мінімумів, підручників, посібників, тестових завдань, адаптації текстів, підбору слів для викладання безпосе­редньо в аудиторії.

2. Розробки комп'ютерних програм з метою автома­тичної обробки перської мови (розпізнавання мовлення, комп'ютерний переклад тощо).

3. Виявлення етноспецифіки лексичної системи перської мови.

Гов Г. Г. Компьютерная лингвистика и перспективные информационные технологии. - М., 2004; 4. Бук С. 3000 найчастотніших слів розмовно - побутового стилю сучасної української мови. - Львів, 2006; 5. Вихова­нець І. Р. Частини мови в семантико-граматичному аспекті. - К., 1988; 6. Демська-Кульчицька О. Основи Національного корпусу української мо­ви. - К., 2005; 7. Дубичинский В. В. Теоретическая и практическая лек­сикография. - Вена-Харьков, 1998; 8. Засорина Л. Н. Автоматизация и статистика в лексикографии. - Ленинград, 1966; 9. Зубов А. В. Перера­ботка текста естественного языка в системе "человек-машина" // Ста­тистика речи и автоматический анализ текста. - Ленинград, 1971; 10. Использование ЭВМ в лингвистических исследованиях / Т. А. Грязнухи - на, Н. П. Дарчук, Н. Ф. Клименко и др.; Отв. ред. В. И. Перебейнос. - К., 1990; 11. Мартинюк С. Вживання частотних словників у вивченні схід­них мов // Мовні і концептуальні картини світу. - 2003. - № 9; 12. Нелю - бин Л. Л. Компьютерная лингвистика и машинный перевод. - М., 1991;

13. Османов М.-Н. О. Частотный словарь Унсури. - М., 1970; 14. Пере - бийніс В. І. Статистичні методи для лінгвістів. - Вінниця, 2002; 15. Пере - бийніс В. С., Муравицька М. П., Дарчук Н. П. Частотні словники та їх вико­ристання. - К., 1985; 16. Поликарпов АА. Компьютерный корпус текстов русских га­зет конца ХХого века // http:/M/ww. philol. msu. ru/~lex/coipus/coip_descr. html (скопійо­вано 01.04.2008); 17. Рубинчик Ю. А. Лексикография персидского языка.

- М., 1991; 18. Рубинчик Ю. А. Основы фразеологии персидского языка.

- М., 1981; 19. Тулдава Ю. Проблемы и методы квантитативно­системного исследования лексики. - Таллин, 1987; 20. Фрэнсис У. Н. Проблема формирования и машинного представления большого кор­пуса текстов // Новое в зарубежной лингвистике. - 1983. - № 14; 21. Частотный словарь русского языка. Около 40 000 слов. / Л. Н.Засорина.

- М., 1977; 22. Шаров С. А. Частотный словарь. Вторая версия частот­ного списка // Http://corpus. leeds. ac. uk/serge/ (скопійовано 08.10.2008); 23. Anvari H. Farhang-e ruz-e sokhan. - Tehran, 1383; 24. Arabic Word Frequency Counts // Http://www. qamus. org/wordlist. htm (скопійовано 01.04.2008); 25. Дssi M. Pдygдhdдdehд-ye zaban-e farsi dar internet // Http://pldb. ihcs. ac. ir/Files/PLDB-REP. pdf (скопійовано 01.04.2008); 26. Dastur-e khatt-e farsi / Mosavvab-e farhangestan-e zaban va adab-e farsi. - Tehran, 1384; 27. Frequency and the Emergence of Linguistic Structure / Ed. by J. Bybee, P. Hopper. - Amsterdam, 2001; 28. Fromm W.-D. Haufigkeitsworterbuch der modernen arabischen Zeitungssprache. - Leipzig, 1982; 29. http://fa. wiHionaiy. org/wiki/(^j^>_^bbiї_^:J^_ciu1j^:ciu1j;u; 30. Http://pldb. ihcs. ac. ir/ (скопійовано 01.04.2008); 31. Meyer Ch. English Corpus Linguistics. An introduction. - Cambridge, 2004; 32. Sadiqiyan M. D. Farhang-e vajenama-ye hafez be enzemam-e farhang-e basamadi. - Tehran, 1378; 33. Sadri Afshar G. Farhang-e farsi-ye emruz. - Tehran, 1377; 34. Shear J. Farhang-e emlayi va dastur-e khatt va emla-ye farsi bar paye-ye mosavvabat-e farhangestan-e zaban va adab-e farsi. - Tehran, 1378.

Надійшла до редколегії 10.10.08.



В. Жила, асист.