Тезаурус: какво е това. Речник на тезаурус, който е нещо повече от речник. Тезаури Алгоритъм за съставяне на тезаурус на речник

ПРИМЕР

Syn: модел, образец, пример, проба, стандарт, норма, измерване, образец, стандарт, типичен представител, шаблон, шаблон, прототип, чертеж, конструкция, чертеж, модел, гещалт, рамка

Тезаурус на руския език. 2012

Вижте също тълкуванията, синонимите, значенията на думата и какво представлява ПРОБАТА на руски в речници, енциклопедии и справочници:

  • ПРИМЕР
    HAFDASA 1927 - Аржентински автоматичен пистолет 22 калибър. Армия ли беше ...
  • ПРИМЕР в илюстрованата енциклопедия на оръжията:
    ЕКСПЕРИМЕНТАЛНО - единични копия на всеки дизайн на огнестрелно оръжие, неприети за серийно ...
  • ПРИМЕР в илюстрованата енциклопедия на оръжията:
    MUSHKETA - американска капсулна пушка от 1849-1855 г. 58 калибър с цев. Дължина 1016 ...
  • ПРИМЕР в илюстрованата енциклопедия на оръжията:
    ПУШКА - американска капсулна пушка 1849-1855 58 калибър. Дължина 838 ...
  • ПРИМЕР в илюстрованата енциклопедия на оръжията:
    70 - Чехословашки автоматичен пистолет, калибър 7, 65 ...
  • ПРИМЕР в илюстрованата енциклопедия на оръжията:
    63- Полски автомат с петнадесет и двадесет и пет изстрела с калибър 9 мм. Дължина със запас 583 мм, без запас 330 мм. Теглото …
  • ПРИМЕР в илюстрованата енциклопедия на оръжията:
    61- Чехословашки автомат с десет и двадесет изстрела калибър 7, 65 мм. Дължина със запас 513 мм, без запас 269 мм. ...
  • ПРИМЕР в илюстрованата енциклопедия на оръжията:
    58 P - Чехословашки тридесет изстрел картечница с калибър 7,62 мм. Дължина 820 мм. Тегло 3140 ...
  • ПРИМЕР в илюстрованата енциклопедия на оръжията:
    58 V - Чехословашки тридесет изстрел картечница с калибър 7,62 мм. Дължина със запас 820 мм, без запас 635 мм. Теглото …
  • ПРИМЕР в илюстрованата енциклопедия на оръжията:
    52 —1. Вижте CHZET-513. 2. Чехословашката десет изстрела автоматична самозареждаща се карабина от 7,62 мм. Дължина 1003 мм. Тегло 4100 ...
  • ПРИМЕР в илюстрованата енциклопедия на оръжията:
    50 - Чехословашки автоматичен пистолет, калибър 7, 62 мм. Намалено копие на CHZET-513. Беше на служба ...
  • ПРИМЕР в илюстрованата енциклопедия на оръжията:
    25-1. Чехословашки двадесет и четири и четиридесет изстрела автомат с калибър 9 мм. Дължина със запас 686 мм, без запас 445 мм. Теглото …
  • ПРИМЕР в илюстрованата енциклопедия на оръжията:
    23-Чехословашки двадесет и четири и четиридесет изстрела автомат с калибър 9 мм. Дължина 686 мм. Тегло 3270 ...
  • ПРИМЕР в илюстрованата енциклопедия на оръжията:
    16/33 - Чехословацка карабина с пет изстрела от 7, 92 мм. Дължина без щик 995 мм, с щик 1305 мм. Теглото …
  • ПРИМЕР
    ИНДУСТРИАЛЕН - вижте ИНДУСТРИАЛЕН МОДЕЛ ...
  • ПРИМЕР в Речника на икономическите термини:
    - представително единично копие на продукта, използван за реклама, на изложби, с цел запознаване, показване на потенциал ...
  • ПРИМЕР в енциклопедичния речник:
    , -зца, м. 1. Индикативен или пробен продукт; проба (в 2 стойности). 06 почвени проби. Проби от минерали. Проби от продукти. Индустриални около. (нов, ...
  • ПРИМЕР в Големия руски енциклопедичен речник:
    ПРОМИШЛЕН ИНДУСТРИАЛ, вижте Индустриален ...
  • ПРИМЕР в пълната подчертана парадигма от Зализняк:
    проба "c, проби", проба ", проба" v, проба ", проба" m, проба "c, проби", проба "m, проби" mi, проба ", ...
  • ПРИМЕР в Популярния обяснителен и енциклопедичен речник на руския език:
    -zts "a, m. 1) (обикновено какво) Показателно или пробно копие на продукт, материал; част от... вещество, продукт, даване на идея ...
  • ПРИМЕР в Речника за решаване и съставяне на сканворди:
    … за …
  • ПРИМЕР в тезауруса на руския бизнес речник:
  • ПРИМЕР в Речника на синонимите на Абрамов:
    проба, прототип, прототип, тип, прототип, идеал, модел, оригинал, пример; модел. Прот. ... Вижте идеал, например, ...
  • ПРИМЕР в речника на синонимите на руския език:
    Syn: модел, образец, пример, проба, стандарт, норма, измерване, проба, стандарт, типичен представител, шаблон, шаблон, прототип, чертеж, дизайн, рисунка, модел, ...
  • ПРИМЕР в Новия обяснителен и производен речник на руския език от Ефремова:
    м. 1) Приблизително, ориентировъчно или пробно копие на л. продукт, материал и др. 2) а) Показателно пример за smth.... (какви качества, поведение, ...

Една от новите основни концепции, които се появиха в резултат на развитието на машинни методи за обработка на информация, по -специално при превод от един език на друг, търсене на научна и техническа информация и създаване на информационен модел на предприятие в автоматизирани системи за управление , беше концепцията за тезаурус на информационна система. Терминът "тезаурус" предполага съвкупност от знания за външния свят - това е така нареченият тезаурус на света Т. Всички понятия за външния свят, изразени с помощта на естествен език, представляват тезаурус, от който могат да се разграничат частните тезауруси чрез йерархично разделение, като се отчита подчинението на отделни понятия или чрез отделяне на части общ тезаурус на света. Тезаурусът в системите за извличане на информация играе важна роля в търсенето необходимия документпо ключови думи. Следователно изграждането на тезаурус е трудна и решаваща задача. Но тази задача може да бъде и автоматизирана.

Класификацията в най -общото си определение е разделяне и подреждане на множества. Нарича се разпределение на обекти в класове въз основа на обща черта, присъща на тези явления или обекти и ги различава от обекти и явления, които съставляват други класове. Всеки клас може да бъде разделен според нуждите. Рубрикаторът е специален вид класификация. Следователно те са създадени въз основа на общи разпоредби:
 научна основа за изграждане на класификация;
 отражение на настоящото ниво на развитие на науката;
 наличие на система от връзки и препратки, както и справочно -справочен апарат (CCA).

Рубрикаторът обаче е прагматична класификация, основана на информационните потоци и нуждите на специалисти. Ето как се различава от априорните класификации като UDC и IPC.

Основните функции на класификациите и по -специално на рубрикатора са следните:
 тематично разграничаване на информационните подсистеми;
 формиране на информационни масиви по всякакви критерии;
Систематизиране на информационни материали и публикации;
 текущо и ретроспективно търсене;
Индексиране на документи и заявки;
 връзка с други класификационни схеми;
 нормативни функции.

Те се изграждат чрез разделяне на понятия - обекти на класификация въз основа на установени връзки между атрибутите на тези обекти в съответствие с определени логически принципи. Критерият, по който се прави класификацията, се нарича основа за разделяне на класификацията. В класификациите широко се използват методи за дедукция и индукция за фиксиране на групи, класове и идентифициране на връзки между тях. Това е типично за йерархичните класификации. Дълбочината на класификация (броят на нивата в йерархията) може да варира в зависимост от целта. Една от широко използваните рубрики е държавният рубрикатор на научна и техническа информация (SRSTI).

Рубрикаторът GRNTI е проектиран по такъв начин, че е възможно споделянес други класификации като UDC и IPC. Универсалната десетична класификация (UDC) съществува повече от 70 години, но все още няма равна по широта на разпространение и се използва в много страни по света. UDC обхваща цялата вселена от знания и се използва успешно за систематизиране и последващо търсене на голямо разнообразие от източници на информация.

В допълнение към UDC, библиотечно -библиографската класификация (LBC) е широко използвана в практиката. LBC е изграден на принципите на логическото подчинение и представлява класификация на приложен тип.
V Руска федерацияза класификацията на изобретенията и систематизирането на вътрешни колекции с описания на изобретения се използва международната патентна класификация - доста сложна многоизмерна класификация, изградена според функционалния и секторния принцип. Същите технически концепции могат да бъдат намерени в IPC или специални класове (според индустрията) или във функционални класове (според принципа на действие). Клонният принцип на разпределение на понятията включва класифицирането на обекти в зависимост от приложението в определен исторически установен клон на технологиите и технологиите.

Сравнителните характеристики на рубрикатора GRNTI, UDC, LBC и IPC са показани в Таблица 1.

маса 1
Характеристики на рубрикатора GRNTI, UDC, BBK и MPK

Име

Структура

Принципът на подреждане на разделенията

Схема на разделяне

Йерархичен

Индустрия

От общо към конкретно

Йерархичен

Тематични

Йерархичен

Функционални и индустриални

От общо към конкретно

LBC за научни библиотеки

Йерархичен

Индустрия

От общо към специфично, по видове


По този начин могат да се идентифицират основните отличителни черти на рубрикаторите и класификаторите:
 характеризират се с приложен характер и секторна насоченост;
 това са отворени системи, които зависят от развитието на науката и технологиите, нуждите и исканията на специалисти;
 неорганични системи, тъй като обектите възникват и се развиват в околната среда и от нея навлизат в тях. Елементите могат да съществуват независимо извън системата. Тази функция е тясно свързана с втората характеристика;
 минималният елемент е концепцията, свързана с околната среда. Концепцията представлява система от дефиниции;
Between Съществуват връзки между понятията както вертикално (род-вид, цяла част), така и хоризонтално (тип-вид, част-част), което показва йерархията на системите.

Следователно структурата и принципите на организиране на класификации и рубрики дават възможност за автоматизиране на процеса на изграждане на тезауруси на предметната област, използвайки метода на приспадане. Алгоритъмът за конструиране на тезаурус по метода на приспадане е показан на фиг. 1.

Основата за формирането на тезауруса е изображението за търсене на документ, задача или приложение за търсене на информация, попълнено от оператора. Следователно първата стъпка е да се проучи и анализира приложението. На първия етап операторът посочва темата или проблема, който представлява интерес, възможните ключови думи и техните синоними. В резултат на това получаваме повърхностно разбиране на предметната област.

Ориз. 1. Алгоритъм за конструиране на тезаурус по метода на приспадане

В допълнение, тезаурусът на ключовите думи на KS се формира чрез метода на приспадане, за който е необходимо:
 KS масив, който е зададен от самия потребител, обозначен на фигура 1 като MP;
Масив от KS, извлечен от задачата за търсене, съответно MZ.

Въпреки това, за по-пълно и задълбочено разбиране на предметната област, ние използваме съществуващите рубрикатори и схеми за класификация (GRNTI, UDC, LBC, MPK). За да увеличите максимално обхвата на предметната област, е необходимо да видите всички налични. Масивът на рубрикатора представлява MR. Алгоритъмът за търсене на приспадане се състои от две стъпки:
1. Намиране на родови понятия (фиг. 2);
2. Намиране на конкретни термини в рамките на родови понятия (фиг. 3).


Ориз. 2. Обработка на родово понятие

Зареждаме първия рубрикатор от масива и организираме цикъл за проверка на наличието на KS във въведените от потребителя рубрикатори. Всяка KS се търси в заглавния списък и се сравнява с обща концепция или „гнездо“, след което се проверява условието - има ли препратка към конкретни термини. Ако има такова позоваване, тогава KS се сравнява с термините за вида. Ако не са намерени връзки, преминете към следващата обща концепция. Когато се видят въведените от оператора ключови думи KS, отиваме към масива KS, извлечен от задачата. Процедурата за проверка е подобна - търсим COP, които съответстват на общи понятия, а след това връзките им към конкретни термини.


Ориз. 3. Обработка на видове термини

Имайте предвид, че във всяка родова концепция е важно да се преразгледат всички налични видове термини, за да се получи максимално разбиране на проблемната зона. Резултатът от тези действия е формирането на масив от ключови думи на KS, който представлява пълен тезаурус, съответстващ на задача за търсене на информация или изображение за търсене на документ.

Въз основа на пълен набор от изображения за търсене на документи (означават) е възможно да се създаде тезаурус на клон и унифициран класификатор на библиотеката. Очевидно пълният комплект  представлява най -простият тезаурус.

Използвайки обаче критерия за подбор
, (1)
можем да изградим специфични за индустрията тезауруси. В същото време съвкупността от всички специфични за индустрията тезауруси образува завършен тезаурус
, (2)
чиито раздели могат да бъдат йерархично структурирани в съответствие с изискванията на ГОСТ според основните класификатори (GRNTI, UDC, BBK, MPK) или според вътрешен единен класификатор.

Автоматизирането на процеса на изграждане на тезаурус и класификацията дава възможност за максимално улесняване на работата на оператор, работещ с разпределени информационни ресурси.

В допълнение към изграждането на тезаурус, въз основа на изображение за търсене на документи, предложеният подход може да се използва за автоматично обобщаване на документи и групиране на текст.

Позоваването на документи е една от задачите, насочени към предоставяне на експертни специалисти с надеждна информация, необходима за вземане на управленско решение относно стойността на документите, получени от Интернет. Позоваването е процесът на трансформиране на документална информация, завършващ с изготвянето на резюме, а резюмето е семантично адекватно представяне на основното съдържание на първичния документ, характеризиращо се с икономично форматиране на знаци, постоянството на езиковите и структурни характеристикии е предназначена да изпълнява разнообразни информационни и комуникационни функции в системата на научната комуникация. Алгоритъмът за обобщаване на документи е показан на фиг. 4.


Ориз. 4. Алгоритъм за обобщаване на документи

Като цяло алгоритъмът включва следните основни етапи.
1. Изборът на изречения от документа, качени от Интернет и разположени в хранилището на данни, се извършва чрез маркиране на препинателни знаци и запазване в масива.
2. Всяко изречение се разделя на думи чрез разделяне на разделители и ги записва в масив, като масивът е различен за всяко изречение.
3. За всяко изречение, за всяка дума от това изречение, пребройте броя на думите в други изречения (преди и след). Сумата от повторения за всяка дума (преди и след) ще бъде тежестта на даденото изречение.
4. Посоченият брой изречения с максималния коефициент на тежест и изберете в резюмето по реда на появяване в текста.

Предложеният модел за изграждане на тезаурус и тематични каталози на информационна система е теоретична основа за автоматизиране на семантичното търсене и позволява на експерт не само да извършва търсене, но и в автоматизиран режим, да абстрахира документи, получени в резултат на търсене в разпределени информационни системи в Интернет.

Литература:
1. Барушкова Р.И. Класификационни схеми на научна и техническа информация. Учебник. надбавка. - М., 1981.- 80-те.
2. Барушкова Р.И. Рубрикатор като класификационна схема на научна и техническа информация. Инструментариум. - М., 1980.- 38стр.
3. Трусов А.В., Бабарикин Е.П. Оценка на границите на областта на заявка за тематична информация в разпределени информационни системи. Материали на Всеруската (с международно участие) конференция "Информация, иновации, инвестиции", 24-25 ноември 2004 г., Пермски / Пермски център за наука и технологии. - Перм, 2004. - с. 76-79.
4. Яцко В.А. Логически и езикови проблеми при анализа и реферирането на научен текст. - Абакан: издателство на държавата Хакас. Университет, 1996.- 128 стр.

Изчислителна технология

Том 12, специален брой 2, 2007

ТЕХНОЛОГИЯ ЗА СЪЗДАВАНЕ НА ТЕЗАВРУС НА ПРЕДМЕТНА ОБЛАСТ НА ОСНОВА НА ПРЕДМЕТНИЯ ИНДЕКС НА ЕНЦИКЛОПЕДИЯ

В. Б. Барахнин

Институт за изчислителни технологии СО РАН, Новосибирск, Русия

електронна поща: [защитен имейл]

Новосибирски държавен университет на В. А. Нехаева, Русия e-mail: [защитен имейл]

Тази работа описва технология за създаване на тезаурус на предметната област, която се основава на предметната рубрика за специализирана енциклопедия. Подобна технология предлага висококачествено описание на предметната област, използвайки надеждни термини, като по този начин позволява да се изгради първи етап от тезауруса с минимално ангажиране на експерти в тази конкретна област на знанието. Предложената технология също съдържа алгоритъм за изграждане на тезаурус и уеб базирано приложение, прилагащо този алгоритъм.

Въведение

Един от най -важните фактори, осигуряващи успешното изпълнение на интеграционни изследователски проекти, е ефективната научна и информационна подкрепа. По -специално, съвместната работа на изследователи от няколко (освен това, не винаги свързани) специалности изисква внимателна координация на използваната терминология, тъй като едно и също понятие може да бъде обозначено в различни области на науката с различни термини, а с един термин - различни понятия.

Още едно предизвикателство информационна поддръжкапроекти - създаване на интегрирана картотека на библиографски описания на документи (т.е. статии, книги и т.н.) по темата на проекта, съставена чрез комбиниране на ресурсите на сътрудничещи изследователи, всеки от които вече е натрупал картотека на конкретна тема през годините (понастоящем такива картотеки обикновено се съхраняват на електронни носители). За да се улесни търсенето в картотеката, е желателно ключовите думи, характеризиращи документите, да бъдат избрани, когато е възможно, от един речник. За автоматична класификация на документи, включени в картотеката или потенциално въведени в нея от електронни бази данни

© Институт за изчислителни технологии, Сибирски клон на Руската академия на науките, 2007.

научни публикации като база данни с абстрактни списания, „Текущо съдържание“ и т.н., изглежда подходящо да се използва алгоритъмът за координирано индексиране. Този алгоритъм се основава на отчитане на класификационните характеристики на термините (думи и фрази), включени в текста, характеризиращи определена предметна област.

Решаването на всички проблеми, изброени по -горе, е невъзможно без създаване на речник на термините от предметната област и в този речник трябва да се установят връзки между термините и да се извърши класификацията на термините. Такъв речник се нарича тезаурус (вижте подробности в). Тезаурус (или нормативен тезаурус) е референтен речник, съдържащ всички лексикални единици на език за извличане на информация - дескриптори (заедно с ключови думи, които в тази система за извличане на информация се считат за синоними на тези дескриптори), а дескрипторите в речника трябва да бъдат систематизирани според смисъла, а семантичните връзки между тях са изрично изразени.

Съставянето на тезауруса „с чиста плоча"може да изисква много значителен труд на експерти, които трябва да съберат всички термини, които обхващат предметната област, достатъчно пълноценно, да се споразумеят за техните значения, да установят връзки и да извършат класификация. Подобни трудности, възникващи при решаването на важна, но все пак помощна задача, са оказват негативно влияние върху перспективите за неговото решаване.

Ние разработихме и внедрихме технология за създаване на тезаурус въз основа на предметния индекс на специализирани енциклопедии. Тази технология предоставя високо квалифицирано описание на предметната област, използвайки надеждно проверени термини, което позволява Първи етапизграждане на тезаурус с минимално участие на специалисти - експерти в дадената предметна област. Подробно представяне и обосновка на алгоритъма са дадени в работата. По -долу е кратко описание на алгоритъма, както и на уеб приложението, което го прилага.

1. Алгоритъм за създаване на тезаурус

Предлага се да се използва предметният индекс на специализирана енциклопедия (или няколко енциклопедии) като списък с ключови думи и фрази за тезауруса. Изборът на конкретна енциклопедия се прави от специалист по тематика и този избор зависи от целите, преследвани при създаването на тезауруса. Така че, за да се решат сложни екологични проблеми, е препоръчително да се използват енциклопедии (или, в тяхно отсъствие, енциклопедични речници) във физиката, химията, геологията, биологията, медицината, математиката и т.н., след това поне като основен списък на ключови думи, които ще бъдат допълнени, ако е необходимо.

Предметните индекси на повечето енциклопедии са структурирани по подобен начин - те съдържат термини, които са наименованията на статиите на енциклопедията, термини, чиито определения са дадени в статиите, както и най -важните резултати, споменати в статиите.

Имената на статиите на енциклопедията се приемат като дескриптори (т.е. термини, които са имената на класове от подобни понятия), а думите от предметния индекс се намират в съответните

статии. Основното предимство на този метод е, че не е нужно да сте експерт в дадена предметна област, за да установите видовете взаимоотношения между термините - общи познания са достатъчни, за да разберете текста на енциклопедията - по -конкретна информация, необходима в процеса на класифициращите понятия винаги могат да бъдат събрани от конкретна статия ...

Тъй като създаденият тезаурус е проектиран да работи по протокол Z39.50, типовете връзки се установяват в съответствие с препоръките на схемата / l lie, която разграничава следните типове:

BT - връзка с родителски термин, тоест с термин с по -широко значение;

NT е връзка с дъщерно понятие, тоест с термин с по -тесен смисъл. Връзката BT - NT е реципрочна;

USE - връзка към термина, който се използва вместо това;

UF - ИЗПОЛЗВАЙТЕ взаимна обратна връзка;

RT е връзка, която определя свързан термин;

LE - връзка между езиково еквивалентни термини;

FE са напълно идентични термини.

Освен това класификацията на дескрипторите се извършва в съответствие с разделите на тази предметна област. Изборът на конкретен класификатор, както и изборът на енциклопедия, се извършва от експерт, а в случай на използване на няколко енциклопедии от различни предметни области е възможно да се използват няколко специализирани класификатора. Връзки от формата NT, RT, LE (FE) се установяват между дескрипторите и разделите на класификатора, докато класификацията трябва да използва, ако е възможно, секции от възможно най -ниското ниво.

След това ключовите думи, свързани с дескриптора чрез отношения BT, USE, RT, LE и FE, получават същия класификационен номер като дескриптора. Това обаче не изключва такава ситуация, че ако дескрипторът е присвоен на клас, който не е от най -ниското ниво, тогава в последващата работа на експерта термините, свързани с дескриптора чрез BT и USE отношения, могат да бъдат присвоени на класа на по -ниско ниво. В този случай посочените термини сами ще станат дескриптори.

В резултат на това всички термини, включени в предметния индекс, са класифицирани в съответствие с разделите на тази предметна област.

2. Описание на операцията на уеб приложението

Независимо от това, процесът на изграждане на тезаурус в съответствие с тази методология включва голямо количество рутинна работа и освен това изисква участието на човек с умения за програмиране. Следователно, в допълнение към методологията, е разработено уеб приложение, което има удобен за потребителя интерфейс и поддържа следните функции:

1) автоматичен превод на информация от дигитализирани страници на предметния индекс в таблица на база данни;

2) подчертаване на дескриптори в общия списък на термините;

3) търсене на термини, свързани с даден дескриптор и задаване на типовете връзки в съответствие със схемата Zthes.

Важно е да се отбележи, че уменията за програмиране не се изискват, за да завършите всички горепосочени операции.

Разработеното приложение е универсално, т.е. може да се използва за създаване на тезауруси на различни тематични области. В момента програмистът извършва преобразуването на програмата от предметния индекс на една енциклопедия в предметния индекс на друга (и само на този етап процесите на изграждане на тезауруси от различни предметни области могат да се различават), но работата е в ход е допълването на програмата с функции, които позволяват на потребителя да извърши тази операция. без умения за програмиране.

Приложението функционира по следния начин. Дигитализираните индексни страници се обработват автоматично. Потребителят посочва местоположението на текстовия файл с данните, след което се чете ред по ред и самите термини се въвеждат в базата данни, както и информация за номерата на страниците на енциклопедията, където се намират (фиг. .1).

Дескрипторите от общия списък с ключови думи се избират от самия потребител, маркирайки думите за търсене в списъка, показан на екрана. \ ¥ ob-assignpio също поддържа функцията за фиксиране възможни грешки(фиг. 2). Припомнете си, че всички термини, намерени в статията на енциклопедията, посветена на нея, се считат за свързани с този дескриптор.

За да се улесни търсенето на сродни термини, на потребителя се представя само списък с ключови думи, разположени на същата страница с дескриптора, който е избрал (всъщност за това въведохме само термини в базата данни и информация за pomors на страниците ). Разбира се, тъй като статията може да не заема цялата страница като цяло, ненужните термини ще бъдат включени в списъка. Потребителят, който прави връзки,

Ориз. 1. Влизане текстови файловес термини от индекса

№ Създаване на дескрипционен речник - Microsoft Internet Explorer!

Редактиране на файлове Преглед на Предпочитани услуги Помощ

Q Назад "©" @ | í | & uR Търсене ^ Любими -. v

Адрес; | ¡J§ http: ^ localhost / math_dict / Deskj-_Slovar / Descr / gen_ss.phtml; V ¡¿3 Преходни връзки y>

fiBár JOQQ- © - I * 1] 0 l de: * - F

1 Абакус | 1, 13 1111111

2 абелов автомат | 1, 67 1111111

3 обект на абелова група | 1, 1149 111 1 | |

4 Абелов диференциал 11.13-15 I 2, 240 111111

5 абелов диференциал, основа | 1, 13 1111111

6 абелов диференциал, делител | 1, 15 | | | | | 1 |

7 Абелова диференциална норма | 1, 14 1111111

8 абелов диференциал, нормализиран | 1, 14 1111111

9 абелов диференциал, полярен период | 1, 14 | | | | | | |

10 абелов диференциал, цикличен период | 1, 14 1111111

11 Абелов идемпотент 14, 941 1111111

12 Абелов интеграл 11.15-17 1111111

13 Абелов интеграл, теоремата на Абел | 1, 17 1111111

14 Абелов интегрален каноничен | 1.16 ||||||

16 Абелов интеграл, матрица на периоди | 1.16 ||||||

15 Абелова интегрална нормал. 1, 16 |||||||

17 Абелов интеграл, полярен период | 1,16 |||||||| 1S абелов интеграл, цикличен период | 1, 16 | | | | |

19 Абелов потенциал | 2, 239 1111111

20 Абелев група 11.17-20 1111111

21 Напълно разложима абелова група | 1,19 ||||||

22 Абелова група делима | 1, 19 |||||||

23 Крайно генерирана абелова група | 1,18 1111111

24 Абелова група, критерий на Куликов | 1, 18 | | | | | |

25 абелова група, нула | 3.1082 1111111

26 Абелова група, периодична част | 1, 18 111 | |

http: // locdlhostymath_dict / Deskr_Slovar / Descr / goto, phtml? ss 1 + 4 + 1 + A + 1 + 3

j 5tartApache.bat

I Svoj.NET: PHP Edit

J Adobe Photoshop || w

^ Локален интранет

EN Sch / m K 21: 0;

Ориз. 2. Списък с ключови думи и подчертаващи дескриптори

Ориз. 3. Избор на свързани термини

Ориз. 4. Установяване на видовете връзки.

ще избере само част от ключовите думи от предложения списък, но такава автоматизация значително намалява обема на рутинната работа (фиг. 3).

Тин на връзката между дескриптора и ключовата дума се уточнява чрез попълване на съответния формуляр (фиг. 4).

Заключение

Работата на този алгоритъм и уеб приложението беше тествана чрез създаване на тезаурус от редица секции от предметна област „Математика“ („Диференциални уравнения“, „Частични диференциални уравнения“, „Числен анализ“, „Механика на флуидите“ и др. .) въз основа на предметния индекс "Енциклопедия по математика". Установено е, че за класификацията на термините и установяването на връзки между тях е достатъчна бакалавърска квалификация (при условие, че в редки случаи в консултации се включва експерт с научна степен). Това доказва високата ефективност на разработения алгоритъм.

Библиография

Михайлов А.И., Черни А.И., Гиляревски П.Ц. Основи на информатиката. Москва: Наука, 1968.

Барахнин В.Б. Развитие на тезауруса на предметна област "Математика" // Матер, конф. „Изчислителни и информационни технологиив науката, технологиите и образованието ". Част 1. Новосибирск; Алмати; Уст-Каменогорск, 2003. С. 111-115.

Zthes: Профил Z39.50 за навигация в тезаурус

http://lcweb.loe.gov/z3950/agency/profiles/zthes-04.html

3.1. Концепция на тезауруса

Тезаурус (от гръцки θήσαϋροξ - съкровище, резерват) или идеографски речник (от гръцката идея - концепция, представяне, идея и графо - пиша, описвам) - в съвременната лингвистика: 1) специален вид речници от общ или специален речник, който показва семантични отношения между лексикалните единици; 2) речник за търсене на дума по нейната семантична връзка с други думи; 3) определен начин за организиране (позициониране) на думи в речника; 4) начин за организиране на лексикалния състав, който ви позволява икономически да „моделирате света“.

В първия, първичен, означаващ - хранилище, съкровище, терминът тезаурус е използван от Л.В. Щерба в статията „Опит в общата лексикография“ (третото противопоставяне: тезаурусът е обикновен (обяснителен или преведен) речник). Ученият пише: „Когато казват тезаурус, днес най -често имат предвид„ Thesaurus linguae latinae “, предприятие от пет германски академии, започнато през 1900 г. и все още доведено до пропуски само до буквата М. Характерна особеност Този тип речници се състои в това, че те съдържат всички решително думи, които са се появили на даден език поне веднъж, и че под всяка дума има решително всички цитати от текстовете, налични на дадения език. Горното противопоставяне - тезаурус - обикновен (обяснителен или преводачески) речник - се основава на противопоставянето на „езиков материал“ и „езикова система“ - концепциите, които се опитах да обоснова в моята статия „За тройния аспект на езиковите явления и относно експеримента в лингвистиката. "

Второто значение на този термин е свързано с широко известния речник-тезаурус „Тезаурус Английски думии изрази „П.М. Роже (Тезаурусът на английските думи и фрази на Роже, 1852) и неговото продължение, речникът на О. В. Баранов.

В това тълкуване терминът тезаурус обозначава определен начин на организиране, поставяйки лексикалния състав в речника (виж третото значение на термина).

Четвъртото значение на термина тезаурус е свързано с общото признаване на такъв начин на организиране на лексикалния състав, който прави възможно икономическото „моделиране на света“. От тази гледна точка тезаурусът -речник е „систематично подреждане на речника на която и да е научна или техническа област, а в най -общата форма - общолитературен речник и освен това на целия речник на даден език“.

Според Ю.Н. Караулов, общ езиков тезаурус, фиксиращ в структурата и взаимоотношенията на своите заглавия, раздели, зони, области широките възможности за невербално свързване на идеи, гарантира, че се вземат предвид човешките ценности.

A.N. Баранов и Д.О. Доброволски в предговора „От редакцията“ до своя „Речник -тезаурус на съвременните руски идиоми“ дава на тезауруса следната дефиниция - специален видречник, който се различава от другите (по -специално, обяснителен, двуезичен и т.н.) по начина на организиране на езиков материал. В тезауруса езиковите единици не са представени по азбучен ред, както в обикновен речник, а са групирани според тяхното значение.

Л.П. Крисин нарича тезауруса (идеографски речник) обяснителен речник от особен вид, речник „напротив“. „Ако в обяснителен речник, пише ученият,„ входът “в речник е дума, а съдържанието на речник е интерпретация на значението на тази дума, то в идеографския речник„ входа “е значение, идея (оттук и името на този тип речници - идеографски), а съдържанието на речникова статия е списък с думи, изразяващи даденото значение. И ако обяснителният речник е незаменим инструмент за разбиране на текста, тогава идеографският речник може да се използва при генерирането на текста: много често човек иска да изрази определена мисъл, но не може да намери подходящи думи за това; идеографски речник улеснява тези търсения. Има два основни типа тезауруси:

езиков тезаурус - речник, съдържащ списък с думи от естествен език, подбрани в резултат на смислен анализ на текстове и систематизирани в съответствие с възприетата система за класификация;

статистически тезаурус е речник за извличане на информация, съдържащ списък с думи, избрани в резултат на статистически анализ на текстове по конкретна тема и групирани в речникови записи въз основа на честотата на съвместното появяване на тези думи в същите текстове.

Тезаурусите за извличане на информация (IPT) улесняват търсенето на информация по време на автоматичната й обработка. IPT максимално разкрива семантичните отношения между лексикалните единици. Както е посочено в Държавния стандарт за IPT, „едноезичният тезаурус за извличане на информация е контролиран и променящ се речник на лексикални единици, базиран на речника на един естествен език, показващ семантични отношения между лексикалните единици и предназначен за обработка и извличане на информация“.

Основната единица на IPT са дескрипторните термини. Азбучната, лексикалната и семантичната част на IPT е колекция от дескрипторни записи.

Описателните речници са предназначени за пълно описание на речника на определена област и фиксиране на всички употреби там; те записват всички налични съответни случаи. Типичен пример за описателен речник е Обяснителният речник на живия велик руски език от В.И. Дал (първото издание в четири тома е публикувано през 1863-1866 г.). Целта на създателя му не е да стандартизира езика, а да опише изцяло цялото разнообразие на великоруската реч, включително нейните диалектни форми на народен език.

Всеки запис в речника на дескриптора започва с дескриптор, в който по -долу в статията на GOST са дадени синонимите на този дескриптор, както и други лексикални единици, свързани с основния дескриптор, родови или асоциативни отношения.

По този начин тезаурусите, особено в електронен формат, са един от най -ефективните инструменти за описване на отделни предметни области.

Чистият тезаурус е рядкост. В реалните тезауруси първоначалната идея се опростява или се добавя допълнителна информация, която е потенциално необходима за потребителя. Най -известните днес са „Руски семантичен речник“ на Ю.Н. Караулова, „Речник на идентичното име“ Н.Ю. Шведова, „Тематичен речник на руския език“ от Л.Г. Смехова и др.

Резюме. Терминът тезаурус Л.В. Щерба го използва по отношение на речника, който записва, когато е възможно, всички контексти, в които се среща дадената дума. Характерна особеност на тезаурусите е, че те съдържат всички думи, възникнали в даден език поне веднъж, а под всяка дума са всички цитати от текстовете, налични на дадения език. Съдържанието на речника на тезауруса е езиков материал, а съдържанието на обикновен речник е езиков материал и езикова система (термини на Л. В. Щерба).

Тази характеристика се допълва от всякакви кръстосани връзки - по -често парадигматични (синонимични или антонимични), които показват общото или противопоставянето на значенията. В допълнение, различни видове доц. връзки (т.е. синтагма. връзки).

Така задачата на тезауруса (идеографски речник) е да даде представа за семантичната организация на определена част от езиков материал, показваща основните семантични полета, тяхната вътрешна структура и външни връзки. Тезаурусът е ясна демонстрация на системната природа на езика, позволявайки ви да видите многото видове отношения, които свързват отделни езикови единици и групи единици.

3.2. Историята на представянето на концептуални знания за света под формата на тезаурус

Необходимостта да се подреждат думите по сходство, съседство, аналогия на техните значения се усеща през цялата наблюдаема история на човешката мисъл.

За да проследим произхода на идеята за представяне на концептуални знания за света под формата на тезаурус, ще ни помогне, като се позовем на историята на съставянето на тезауруси (идеографски речници).

И така, в зората на цивилизацията, когато хората можеха да изразяват мислите си писмено само с помощта на идеограми и символи, единственият възможен речник вероятно беше този, в който думите бяха подредени в тематични групи. За лексикографа по онова време беше просто трудно да намери друг критерий за класификацията на думите, с изключение на съществуващите в самата реалност отношения.

За съжаление нямаме доказателства дали народите, използвали идеографската писменост, наистина са имали такива речници. Сред най -древните опити за идеографска класификация, известни ни, се нарича Атикай Лексей от гръцката граматика, директор на Александрийската библиотека Аристофан от Византия (починал 180 г. пр. Хр.).

През II век. н. NS. се появява голямо произведение "Ономастикон", съставено върху материала на гръцкия език от лексикографа и софист Юлий Полкс (истинско име Полидевкус), родом от египетския град Навкратис. Й. Полукс е написал няколко произведения, но до нас е оцелял само „Ономастикон“ (Pollux Y. Onomasticon. М., 1956).


Onomasticon се състои от 10 книги. Книгите са по същество отделни трактати и съдържат най -важните думи, свързани с определена тема. Така първата книга говори за богове и царе; във втория - за хората, техния живот и физиологична структура; в третия - за родство и граждански отношения и пр. Думите в речника са придружени с кратки обяснения. В съвременността речникът е публикуван за първи път през 1502 г. във Венеция.

Между 2 -ри и 3 -ти век н. NS. излиза чудният санскритски речник "Амаракоша" (Amarakosha. Париж, 1839). Негов автор е древноиндийският поет, граматика и лексикограф Амара Сина, наречена „една от деветте перли, които украсяват трона на Викрамадитя“. Амаракоша, в превод на руски, означава съкровищницата на Амар. Речникът съдържа 10 хиляди думи. За по -добро запаметяване на тълкуването на значенията на думите, речниковите записи са изградени под формата на стихове. Целият материал на речника е разделен на 3 книги. Всяка книга съдържа няколко глави, а главата от своя страна, ако е необходимо, е разделена на няколко раздела. Първата книга е посветена на небето, боговете и всичко, което е пряко свързано с тях. Втората книга съдържа думи, свързани със земята, населените места, растенията, животните и човека (първо, човекът се разглежда като живо същество, а след това като социално същество; цялата кастова структура на съвременното общество се появява пред очите ни; свещеници, като Божиите доверени лица, са на самия връх, а отдолу са военните и царете, дори отдолу са собствениците на земя, а на дъното са занаятчии, жонгльори, слуги и т.н.). Третата книга всъщност е езикова, както е видно от заглавията на шестте й глави.

Речникът става известен на европейските учени едва в края на 18 век, когато през 1798 г. първата му част е публикувана в Рим. Той е публикуван изцяло с превод на английски език през 1808 г. от английския санскритолог Г.Т. Коулбрук. През 1839 г. неговият френски превод от A.L. Делоншан (A.L. Deslongchamps). По-нататъчно развитиеидеи за семантична класификация на речника, свързани с проблема за т. нар. световен език.

Резюме. Това е най -общо казано първият етап в развитието на традицията на идеографската класификация на лексиката. Този етап може да се нарече предистория на идеографските речници. Сега е препоръчително да се обърнете към съвременната класификация на речниците на тезауруса.

Лесно е да се види колко различни са описаните произведения от азбучните речници. Ако в азбучните речници представянето на думите се регулира от такъв условен и силно неутрален инструмент като азбуката, то при изграждането на идеографски речник мирогледът на самия лексикограф придобива решаващо значение.

3.3. Принципи за класификация на речниците на тезаурусите

Както вече беше показано по -горе, проблемът с съставянето на класификация на тезаурусите не е нов и в продължение на няколко десетилетия привлича вниманието на редица местни и чуждестранни лингвисти (К. Марело, В. В. Морковкин, Л. П. Ступин, В. В. Дубичински и др.). Резултатът от изследванията в тази област е създаването на алтернативни класификации на тези лексикографски произведения. Една от най -новите класификации се основава на следните критерии: а) вида на семантичните връзки между речниковите единици; 2) обемът на речника; 3) обобщен речник; 4) развитие на значението на лексемите; 5) граматическа и стилистична квалификация на лексемите; 6) демонстрация на функционирането на лексемите; 7) броят на представените езици; 8) вида на семиотичните средства, използвани за семантизиране на лексеми. Посочената класификация се основава на класификациите, създадени по -рано от О.М. Карпова и И. Бурханов (Бурчанов И. За идеографското описание на стилистично и прагматично релевантни аспекти на лексикалните значения. Лондон, 1996); използваната в класификацията терминология е въведена в лексикографския апарат


В.В. Морковкин, Ю.Н. Караулов, К. Марело. Критериите за класификация са формулирани от O.M. Карпова. В същото време К. Марело разграничава три вида тезауруси:

кумулативни, които са групиране на думи, без да се определят техните значения;

дефинитивно, тълкуващо всяка лексикална единица на групиране на думи;

двуезични и многоезични тезауруси за пътешественици (Marello C. Thesaurus // W.D.D. 1990. V. 2. P. 1083).

Кумулативните тезауруси не само дават възможност да се намери по -разбираема, точна, стилистично правилна дума в ситуация на попадане в определено семантично поле, но също така стават основа за формирането на тематични компютърни банки от данни.

Окончателните тезауруси могат да включват, наред с дефиницията на смисъла, етимологична информация и цитати от литературни произведения, което показва пряката енциклопедична ориентация на този тип тезауруси. В допълнение, речници от този тип запознават потребителя с необходимата система от понятия, обясняват същността, приликите и различията на понятията, техните парадигматични и синтагматични връзки, понякога предоставят информация за произношението, граматиката, словообразуването и други възможности на лексикалните единици, обозначаващи тези понятия.

Двуезичните и многоезичните тезауруси за пътуващи обикновено се създават според тематични раздели: номера, храна, транспорт, хотел и т.н. с превод на еквиваленти на два или повече езика.

За най -пълно представяне на типовете съществуващи речници на тезаурус е създадена многостепенна класификация. Първо, според типа семантични връзки между единици от речника, тезаурусите са разделени на три големи класа:

1. Асоциативен тезаурус (терминология на Ю. Н. Караулов

2. Подобен тезаурус (терминология на В. В. Морковкин

3. Идеографски (идеологически) тезаурус (терминология на Л. В. Щерба, В. В. Морковкин. Посочените три типа тезауруси отразяват съответно следните типове семантични връзки на лексемите:

1. Семантично-синтактични отношения, на базата на които
думите се комбинират в групи или двойки, предварително определени в техния произход и съществуване чрез двойни връзки: семантични и синтактични. Семантичните връзки на думите се установяват главно между глаголи и прилагателни, които изпълняват предикативна функция в изречение, и съществителни, например:

а) между действието и органа (инструмента), с помощта на който се извършва: хванете - ръка, вижте - око, плувайте - лодка и др.;

б) между глаголите на действие, изискващи един субект, и субекта: лай - куче, съсед - кон и др .; в) между глаголи и определено граматическо допълнение, което първите изискват: цепене на дърва, ядене на храна и т.н.

Следователно асоциативният тезаурус е речник-тезаурус, който организира лексикални единици въз основа на съществуващи между тях семантични и синтаксични връзки и подрежда групи в съответствие с графичната форма на центровете на думите.

2. Лексикални и семантични връзки. Обединяването в групи с този тип връзка става според основния атрибут за думите - лексикално значение. Това отчита и лексико-граматическите връзки, под формата на които се реализират отделните значения на думите.

Така аналогичен тезаурус е лексикографски справочник, чиято основна единица от макроструктурата е лексикално-семантичната група; групите са систематизирани по азбучен ред на семантичните доминанти.

3. Предметни или тематични връзки, при които комбинацията от думи в една група възниква поради сходството или общото на функциите на обекти и процеси, обозначени с думи: обекти
предмети от бита, части от тялото, видове облекло, сгради и др.

По този начин идеографският тезаурус е лексикографско произведение, което представлява лексикални единици в рамките на предметни (тематични) групи и ги организира в йерархична структура, предназначена да представя концептуализираните знания за света.

В рамките на същия критерий ние извършваме допълнително подразделяне на типове. По този начин идеографският тезаурус е представен от следните 4 типа:


Самият идеографски тезаурус.

Тематичен речник.

Систематичен речник.

Предметно-систематичен речник


Самият идеографски тезаурус е специален тип идеографски речник, чиято макроструктура е организирана в съответствие с априорна синоптична карта, наслагвана върху лексикалния състав на езика. За разлика от други видове идеографски речник, самият идеографски тезаурус се характеризира с логична и строго подредена класификационна структура, основана на научна таксономия, дори ако общата лексика подлежи на лексикографско описание (New Webster "Thesaurus. Landoll, 1991).

Тематичният речник е особен вид идеографски тезаурус, чиято основна единица от макроструктурата е тематична група, която включва лексеми, обединени въз основа на класификацията на техните денотати (референти) и разгледани от гледна точка на тяхната значимост към определена тема.

Систематичният речник е специален тип идеографски тезаурус, чиято класификационна структура има за цел да представи действителните семантични отношения, които съществуват между лексикалните единици на езика. В основата си класификационната структура представлява лексикалната и граматическата класификация на речника, с други думи, неговата парадигматична структура, описана от подчинение и състав.

Тематично-систематичен речник е особен вид идеографски речник, който представлява комбинация от тематичен и систематичен речник.

Резюме. Разглежданата класификация на езиковите тезауруси включва следните типове речници: аналогичен тезаурус (терминология на В. В. Морковкин); идеографски (идеологически) тезаурус (терминология на Л. В. Щерба и В. В. Морковкин); доц. тезаурус (терминология от Ю. Н. Караулов). Поп ще бъде представен по -нататък. тезаурусите и техните характеристики се разкриват.

3.4. Популярни тезауруси и техните характеристики

Най -известният от наличните речници на тезаурус, на който самият този термин дължи своето съществуване, е създаден въз основа на на английски език; това е постоянно препечатан тезаурус от П.М. Тезаурусът на английските думи и фрази на Роджър Роже (1852).

Важно е да се отбележи, че авторът на „Тезаурус на английски думи и изрази“ използва пълноценно своя опит по това време. „Принципът, който ме ръководеше при класифицирането на думи“, пише П.М. Роджър е същият, който се използва за класифициране на индивиди в различни области на естествената история. Следователно откроените от мен секции съответстват на естествените семейства на ботаниката и зоологията, а редовете от думи са циментирани от същите отношения, които обединяват естествените редове растения и животни. "

П.М. Роджър вярва, че убедителната класификация на думите според техните значения е невъзможна, докато обектите на реалността, наречени тези думи, не бъдат правилно проучени и организирани. Затова той започва своята работа, като разделя концептуалното поле на английския език на четири големи класа: абстрактни отношения, пространство, материя и дух (ум, воля, чувства). Тези класове са допълнително разделени на редица родове, които от своя страна са разделени на определен брой видове.

Сред недостатъците на идеографския речник на П.М. Учените на Роджър приписват следното: 1) не съвсем убедителна номенклатура от основни концептуални класове; 2) абстрактната последователност надделява над естествените връзки на думите; 3) относителното неудобство при използване (до голяма степен този недостатък се коригира в следващите издания).

В съвременната руска лексикография има няколко речника, които трябва да бъдат класифицирани като речници на тезауруса (идеографски речници). Това, например, създадено под ръководството на Ю.Н. Караулов „Руски семантичен речник“, „Руски семантичен речник“ под редакцията на Н.Ю. Шведова, „Тематичен речник на руския език“ от Л.Г. Саяхова, Д.М. Хасанова и В.В. Морковкина, „Речник на лексикално-семантични групи от руски глаголи“, изд. Е.В. Кузнецова, „Идеографски речник на руския език“ от О.С. Баранов, "Концепцията за вътрешния свят на човека в руския език" V.I. Убийко, цялостен образователен речник „Лексикални основи на руския език“ под ръководството на В.В. Морковкин.

Нека се запознаем с някои от тях.

Речник-тезаурус на съвременните руски идиоми “под редакцията на A.N. Баранова и Д.О. Доброволски включва четири основни части: 1) резюме; 2) легенда; 3) основната част на Речника на тезауруса; 4) указатели. Целта на синопсиса е да предостави преглед на структурата на главния корпус на тезауруса. Той изброява всички таксони с подтаксони и съответни парадигматични препратки. Основният корпус на Речника на тезауруса е колекция от речникови записи, обединени в групи (таксони) и подгрупи (подтаксони) в съответствие със значението на описаните в тях идиоми. Всяка статия съдържа идиом и примери за използването му в съвременния руски език. Синопсис, Легенда, Указатели са сервизни части на гореспоменатия Речник-тезаурус, които предоставят на потребителя възможност да работи бързо и ефективно. Легендата се използва в случаите, когато примери за използване на идиоми не са необходими, т.к възпроизвежда цялата информация, с изключение на примери. Всъщност това е речникът на Речника. Единиците на речника са леми. В този случай лемата е идиом в оригиналната си (речникова) форма и включва, ако е възможно, всички нейни съществени варианти. Например, идиомът да стои неподвижен е част от лемата за отбелязване на времето, стоене неподвижно и приплъзване на място.

Речникът съдържа две указания. В края на книгата има статия „Теоретичната концепция на Речника-тезаурус на съвременната руска идеоматика“, която анализира подробно научните особености на този проект.

"Руски семантичен речник", създаден под ръководството на Ю.Н. Караулова включва 10 хиляди руски думи, които са разделени на 1600 концептуални групи. Изборът на групи се основава на повтарящи се елементи от тълкуването на думи в обяснителни речници: например „действие“, „свойство“, „инструмент“ и т.н.

"Руски семантичен речник", създаден под ръководството на академик Н.Ю. Шведова, се основава на малко различни принципи, характерни за съставянето както на идеографски, така и на обяснителни речници. Първо, всички думи на езика са разделени тук на четири класа: 1) обозначаващи единици (местоимения), 2) наименуване (значими думи), 3) действително свързващи (съюзи, предлози, свързващи глаголи), 4) класифициране (модални думи, частици, междуклинове). Второ, във всеки клас всички думи са разделени на части от речта. Трето, във всяка част на речта множествата и подмножествата се идентифицират въз основа на тематична близост или, обратно, противопоставяне на значенията на думите.

DUDEN е книга със снимки (чертежи) от лявата страна (според различен софтуер) с номерирани детайли (до най -малките). От дясната страна този номериран списък е придружен от заглавия (дори на два езика). Например цяла страница съдържа железопътно оборудване, гари, коловози. Вдясно са имената на стрелки, семафори, патерици и т.н.

"Тематичен речник на руския език" Л.Г. Саяхова, Д.М. Хасанова и В.В. Морковкина съдържа 25 хиляди лексикални единици, групирани в три големи класа: „Човек“, „Общество“, „Природа“, които се разклоняват поетапно на по -малки подкласове. Например в клас „Човек“ подкласове „Човешко тяло и организъм“, „Човешки живот“, „ Външен вид, човешки външен вид "," Емоционален външен вид на човек "и пр. Всеки от подкласовете от своя страна се разделя на още по-конкретни:" Емоционалният свят на човек "-" Психични свойства на човек "-" Темперамент "," Характер "-" Общи черти на характера "и др. Значението и употребата на думи, принадлежащи към всеки клас, са илюстрирани с най -често срещаните фрази. Например думата „смях“, която е в подгрупата „изразяване на чувства, емоции“ от клас „Лице“, е придружена от посочването на такива комбинации с тази дума като весел смях, радостен смях, детски смях, избухване в смях и т.н.

Резюме. Един от най -ефективните инструменти за описание на отделни предметни области, особено в електронен формат, са тезаурусите.

Терминът тезаурус отдавна е широко използван в езикознанието за означаване специален типречници, в една или друга степен отразяващи „картината на света“, „езиковия модел на света“ (според Ю. Н. Караулов). Тезаурусът като „съкровищница“ нараства в своя семантичен обем и придобива ново значение. Те започнаха да наричат ​​речник, който не само поема цялото лексикално богатство на езика, но ги организира по определен логико-системен начин. В речника на тезауруса думите се събират в групи и тази комбинация възниква въз основа на способността на една дума да предаде определена концепция.

Речникът на тезауруса винаги е бил разглеждан в лингвистиката като един вид универсална система, която осигурява съхранението на колективни (за определено общество) знания за света в словесна форма. За разлика от други речници, речникът на тезауруса съхранява тези знания в структурирана форма, която отразява представите ни за „структурата на света“.

Най -известните и популярни тезауруси в момента са английският Роджър Тезаурус, Идеографският речник на руския език от О.В. Баранова, Руски семантичен речник Ю.Н. Караулова, Руски семантичен речник на академик Н.Ю. Шведова, DUDEN, Тематичен речник на руския език Л.Г. Саяхова, Д.М. Хасанова и В.В. Морковкин.

В съответствие със заключенията от глава 1, тезаурусът, на чието съставяне и изучаване е посветена нашата работа, е идеографският тематичен речник „Планински и пешеходен туризъм“. Той ще се състои от речника на руския и испанския език.

По този начин, за да се състави тезаурус, е необходимо да се решат редица проблеми:

Маркирайте термини, които описват предметната област;

Извършете логическо разделение на термините на семантични групи;

Сравнете термините на руския и испанския език;

Подредете групите по азбучен ред.

Методи и алгоритъм за ръчно съставяне на тезаурус

Тезаурусът за извличане на информация е речник, съставен на ръка от експерт -лингвист, експерт в областта на изграждането на речници и семантични ресурси. При съставянето на такъв речник задачата е да се получи описание на тезаурус на една или няколко предметни области, докато често има корпус от текстове, който е основата за създаване на речник. Експертът анализира текстовия корпус и, ръководен от технологията за ръчно изграждане на тезауруса, съставя списък с термини, описващи дадена предметна област и включва техния тезаурус като дескриптори. След това термините се групират в понятия и между тях се установяват йерархични и асоциативни отношения.

Процесът на ръчно създаване на тезаурус се характеризира с такива недостатъци като високата цена и продължителността на създаването на ресурс, обусловеността на резултата от квалификацията на експерт, невъзможността за ръчен анализ на целия корпус от текстове и някои други. Очевидно, когато ръчно съставя тезаурус, експертът трябва да използва съществуващите методи за извличане на информация и интернет търсачки- системи.

На първо място, двуезичният тезаурус не представлява превод по думи, неговата структура представлява списък с лексеми на руски език, организиран въз основа на близостта на семантичното значение - определение на понятие на руски език - определение на понятие в чужд език- списък с опции за текст на чужд език. В този случай списъците с лексикални единици трябва да бъдат възможно най -пълни от всяка страна, включително тези изрази, които обикновено не са представени в речниците, тъй като изглеждат очевидни за човек.

При създаването на традиционни двуезични речници основната цел е да се осигури набор от най -честите преводи на дума в различни текстове. Преводите се дават сякаш с марж, списъкът с преводи включва както точни преводи, така и преводи с по-тесен смисъл и с по-широк смисъл (затова испано-руският и руско-испанският речник не са обратими). Предполага се, че читателят ще разбере контекста на кой превод да избере.

Основните стъпки при съставянето на тезаурус са следните:

1) Предварителна обработка на текстовия корпус с цел подчертаване на ключови думи.

2) Формиране на набор от думи и фрази за включване в тезауруса и изучаване на взаимоотношенията между дескрипторите на тезауруса. Експертът, ръководен от този набор, прави списък на ключовите понятия от предметната област.

3) Разпределение на йерархични отношения между дескрипторите (в нашия случай - азбучен ред) и тяхната класификация (в нашето изследване класификацията се основава на семантични отношения между дескрипторите).

4) Изграждане на набор от асоциативни отношения между дескрипторите на руски и испански език.