Tezaurus: čo to je. Slovník tezauru, ktorý je viac ako slovník. Tezauriho algoritmus na zostavenie synonymického slovníka

VZORKA

Syn: model, vzor, ​​príklad, vzorka, štandard, norma, meranie, vzorka, štandard, typický zástupca, šablóna, šablóna, prototyp, kresba, konštrukcia, kresba, vzor, ​​gestalt, rám

Tezaurus ruského jazyka. 2012

Pozrite si tiež interpretácie, synonymá, významy slova a to, čo je Ukážka v ruštine v slovníkoch, encyklopédiách a referenčných knihách:

  • VZORKA
    HAFDASA 1927 - argentínska automatická pištoľ 22. Bola armáda ...
  • VZORKA v Ilustrovanej encyklopédii zbraní:
    EXPERIMENTÁLNE - jednotlivé kópie akéhokoľvek dizajnu strelných zbraní, neakceptované pre sériové ...
  • VZORKA v Ilustrovanej encyklopédii zbraní:
    MUSHKETA - americká kapsulová puška z rokov 1849-1855. Kaliber 58 s hlavňou. Dĺžka 1016 ...
  • VZORKA v Ilustrovanej encyklopédii zbraní:
    Puška - americká kapsulová puška 1849-1855 Kaliber 58. Dĺžka 838 ...
  • VZORKA v Ilustrovanej encyklopédii zbraní:
    70 - československá automatická pištoľ, kaliber 7, 65 ...
  • VZORKA v Ilustrovanej encyklopédii zbraní:
    63- Poľský pätnásť- a dvadsaťpäťstrelný samopal kalibru 9 mm. Dĺžka s pažbou 583 mm, bez pažby 330 mm. Váha …
  • VZORKA v Ilustrovanej encyklopédii zbraní:
    61- Československý desať a dvadsaťstrelový samopal kalibru 7, 65 mm. Dĺžka s pažbou 513 mm, bez pažby 269 mm. ...
  • VZORKA v Ilustrovanej encyklopédii zbraní:
    58 P - československý tridsaťstrelový guľomet kalibru 7,62 mm. Dĺžka 820 mm. Hmotnosť 3140 ...
  • VZORKA v Ilustrovanej encyklopédii zbraní:
    58 V - československý tridsaťstrelový guľomet kalibru 7,62 mm. Dĺžka so zásobou 820 mm, bez pažby 635 mm. Váha …
  • VZORKA v Ilustrovanej encyklopédii zbraní:
    52 —1. Pozri CHZET-513. 2. Československá desaťstrelová automatická samonabíjacia karabína 7,62 mm. Dĺžka 1003 mm. Hmotnosť 4100 ...
  • VZORKA v Ilustrovanej encyklopédii zbraní:
    50 - československá automatická pištoľ, kaliber 7, 62 mm. Zmenšená kópia CHZET-513. Bol v službe ...
  • VZORKA v Ilustrovanej encyklopédii zbraní:
    25-1. Československý dvadsaťštyri a štyridsaťstrelový samopal kalibru 9 mm. Dĺžka s pažbou 686 mm, bez pažby 445 mm. Váha …
  • VZORKA v Ilustrovanej encyklopédii zbraní:
    23-Československý dvadsaťštyri a štyridsaťstrelový samopal kalibru 9 mm. Dĺžka 686 mm. Hmotnosť 3270 ...
  • VZORKA v Ilustrovanej encyklopédii zbraní:
    16/33 - Československá päťstrelová zásobníková karabína 7,92 mm. Dĺžka bez bajonetu 995 mm, s bajonetom 1305 mm. Váha …
  • VZORKA
    PRIEMYSELNÝ - pozri PRIEMYSELNÝ MODEL ...
  • VZORKA v slovníku ekonomických pojmov:
    - reprezentatívna jediná kópia výrobku používaného na reklamu, na výstavách, na účely zoznámenia, predvádzania potenciálnym ...
  • VZORKA v encyklopedickom slovníku:
    , -ztsa, m. 1. Orientačný alebo skúšobný výrobok; vzorka (v 2 hodnotách). 06 vzoriek pôdy. Ukážky minerálov. Ukážky produktov. Priemyselné o. (Nový, ...
  • VZORKA vo Veľkom ruskom encyklopedickom slovníku:
    VZORKA PRIEMYSELNÉ, pozri Priemyselné ...
  • VZORKA v Úplnej zvýraznenej paradigme od Zaliznyaka:
    vzorka "c, vzorky", vzorka ", vzorka" v, vzorka ", vzorka" m, vzorka "c, vzorky", vzorka "m, vzorky" mi, vzorka ", ...
  • VZORKA v Populárnom vysvetľujúcom a encyklopedickom slovníku ruského jazyka:
    -zts "a, m. 1) (spravidla čo) orientačná alebo skúšobná kópia výrobku, materiálu; časť... látka, produkt, dáva nápad ...
  • VZORKA v Slovníku na riešenie a zostavovanie skenovaných slov:
    … Za…
  • VZORKA v tezaure ruského obchodného slovníka:
  • VZORKA v Abramovovom slovníku synoným:
    ukážka, prototyp, prototyp, typ, prototyp, ideál, model, originál, príklad; Model. Prot. ... Pozrite sa ideálne, napríklad ...
  • VZORKA v slovníku synoným ruského jazyka:
    Syn: model, vzor, ​​príklad, vzorka, štandard, norma, meranie, vzorka, štandard, typický zástupca, šablóna, šablóna, prototyp, kresba, dizajn, kresba, vzor, ​​...
  • VZORKA v Novom vysvetľovacom a odvodzovacom slovníku ruského jazyka od Efremovej:
    m. 1) Približná, orientačná alebo skúšobná kópia písmena l. výrobok, materiál a pod. 2) a) Orientačné príklad niečoho... (aké vlastnosti, správanie, ...

Jeden z nových základných konceptov, ktorý sa objavil v dôsledku vývoja strojových metód spracovania informácií, najmä pri preklade z jedného jazyka do druhého, hľadaní vedeckých a technických informácií a vytváraní informačného modelu podniku v automatizovaných riadiacich systémoch , bol koncept tezauru informačného systému. Termín „tezaurus“ znamená súbor znalostí o vonkajšom svete - jedná sa o takzvaný tezaurus sveta T. Všetky koncepty vonkajšieho sveta vyjadrené prirodzeným jazykom predstavujú tezaurus, z ktorého je možné rozlíšiť súkromných tezauri. hierarchickým členením s prihliadnutím na podriadenosť jednotlivých pojmov alebo oddelením častí všeobecného tezauru sveta. Tezaurus v systémoch získavania informácií hrá dôležitú úlohu pri vyhľadávaní požadovaný dokument podľa kľúčových slov. Preto je konštrukcia tezauru náročnou a zásadnou úlohou. Ale táto úloha môže byť tiež automatizovaná.

Klasifikácia v najobecnejšej definícii je rozdelenie a usporiadanie množín. Hovorí sa tomu distribúcia predmetov do tried na základe spoločného znaku, ktorý je súčasťou týchto javov alebo predmetov, a ich odlíšenia od predmetov a javov, ktoré tvoria iné triedy. Každú triedu je možné podľa potreby podtriediť. Rubrikátor je špeciálny druh klasifikácie. Preto sú vytvorené na základe všeobecných ustanovení:
 vedecký základ pre budovanie klasifikácie;
 reflexia súčasnej úrovne rozvoja vedy;
 dostupnosť systému odkazov a odkazov, ako aj referenčného a referenčného zariadenia (CCA).

Rubricator je však pragmatická klasifikácia založená na informačných tokoch a potrebách špecialistov. Toto je rozdiel od apriori klasifikácií, ako sú UDC a IPC.

Hlavné funkcie klasifikácií, a najmä rubrikátor, sú tieto:
 tematické vymedzenie informačných subsystémov;
 vytváranie informačných polí podľa akýchkoľvek kritérií;
 systematizácia informačných materiálov a publikácií;
 aktuálne a retrospektívne vyhľadávanie;
 indexovanie dokumentov a dopytov;
 vzťah s inými klasifikačnými schémami;
 normatívne funkcie.

Sú konštruované delením konceptov - predmetov klasifikácie na základe stanovených vzťahov medzi atribútmi týchto objektov v súlade s určitými logickými zásadami. Kritérium, podľa ktorého sa klasifikácia robí, sa nazýva základ pre rozdelenie klasifikácie. V klasifikáciách sa metódy dedukcie a indukcie široko používajú na fixáciu skupín, tried a identifikáciu spojení medzi nimi. To je typické pre hierarchické klasifikácie. Hĺbka klasifikácie (počet úrovní v hierarchii) sa môže líšiť v závislosti od účelu. Jednou z široko používaných rubrík je štátna rubrika vedeckých a technických informácií (SRSTI).

Rubrikátor GRNTI je navrhnutý tak, aby to bolo možné zdieľanie s inými klasifikáciami, ako sú UDC a IPC. Univerzálna desatinná klasifikácia (UDC) existuje už viac ako 70 rokov, ale v šírke distribúcie stále nemá obdoby a používa sa v mnohých krajinách sveta. UDC pokrýva celý vesmír znalostí a úspešne sa používa na systematizáciu a následné vyhľadávanie najrozmanitejších informačných zdrojov.

V praxi je okrem MDT široko využívaná knižničná a bibliografická klasifikácia (LBC). LBC je postavený na princípoch logickej podriadenosti a predstavuje klasifikáciu aplikovaného typu.
V. Ruská federácia na klasifikáciu vynálezov a systematizáciu domácich zbierok popisov vynálezov sa používa medzinárodná patentová klasifikácia - pomerne komplexná viacrozmerná klasifikácia postavená na funkčnom a sektorovom princípe. Rovnaké technické koncepcie nájdete v IPC alebo špeciálnych triedach (podľa priemyslu) alebo vo funkčných triedach (podľa princípu činnosti). Sektorový princíp distribúcie konceptov zahŕňa klasifikáciu objektov v závislosti od aplikácie v konkrétnom historicky založenom odvetví technológie a technológie.

Porovnávacie charakteristiky rubrikátora GRNTI, UDC, LBC a IPC sú uvedené v tabuľke 1.

stôl 1
Charakteristika rubrikátora GRNTI, UDC, BBK a MPK

názov

Štruktúra

Princíp usporiadania divízií

Schéma rozdelenia

Hierarchické

Priemyslu

Od všeobecných po konkrétne

Hierarchické

Tematické

Hierarchické

Funkčné a priemyselné

Od všeobecných po konkrétne

LBC pre vedecké knižnice

Hierarchické

Priemyslu

Od všeobecných po konkrétne, podľa druhov


Možno teda identifikovať hlavné charakteristické znaky rubikátorov a klasifikátorov:
 vyznačujú sa aplikovanou povahou a sektorovým zameraním;
 ide o otvorené systémy, ktoré závisia od rozvoja vedy a techniky, potrieb a požiadaviek špecialistov;
 anorganické systémy, pretože objekty vznikajú a vyvíjajú sa v prostredí a z neho do neho vstupujú. Prvky sú schopné existovať nezávisle mimo systému. Táto funkcia úzko súvisí s druhou funkciou;
 minimálnym prvkom je koncept týkajúci sa životného prostredia. Tento koncept predstavuje systém definícií;
Between Medzi pojmami existujú prepojenia vertikálne (rod-druh, celá časť) aj horizontálne (typ-druh, časť časť), čo naznačuje hierarchiu systémov.

V dôsledku toho štruktúra a zásady organizácie klasifikácií a rubrík umožňujú zautomatizovať proces budovania predmetových oblastí tezauri pomocou metódy dedukcie. Algoritmus na konštrukciu tezauru pomocou metódy dedukcie je znázornený na obr. 1.

Základom pre vytvorenie tezauru je vyhľadávací obrázok dokumentu, úlohy alebo aplikácie na vyhľadávanie informácií, vyplnený operátorom. Prvým krokom je preto výskum a analýza aplikácie. V prvej fáze operátor uvedie tému alebo problém záujmu, možné kľúčové slová a ich synonymá. Výsledkom je povrchné porozumenie predmetnej oblasti.

Ryža. 1. Algoritmus na zostavenie tezauru pomocou metódy odpočtu

Okrem toho je tezaurus kľúčových slov KS tvorený pomocou metódy odpočtu, pre ktorú je potrebné:
Array pole KS, ktoré si nastavil sám používateľ, označené na obrázku 1 ako MP;
 pole KS, extrahované z vyhľadávacej úlohy, respektíve MZ.

Na úplnejšie a hlbšie pochopenie predmetnej oblasti však používame existujúce rubrikátory a klasifikačné schémy (GRNTI, UDC, LBC, MPK). Aby bolo pokrytie predmetnej oblasti maximalizované, je potrebné zobraziť všetky dostupné. Pole rubrikátora predstavuje MR. Algoritmus hľadania odpočtu pozostáva z dvoch krokov:
1. Nájdenie generických konceptov (obr. 2);
2. Nájdenie konkrétnych pojmov v rámci generických konceptov (obr. 3).


Ryža. 2. Spracovanie generického konceptu

Načítame prvý rubrikátor z poľa a zorganizujeme cyklus na kontrolu prítomnosti KS v rubrikátoroch zadaných používateľom. Každý KS sa vyhľadá v zozname nadpisov a porovná sa s generickým konceptom alebo „hniezdom“ a potom sa skontroluje podmienka - existuje odkaz na konkrétne výrazy. Ak existuje taká referencia, potom sa KS porovná s pojmami druhu. Ak nenájdete žiadne odkazy, prejdite na nasledujúci generický koncept. Keď sú zobrazené kľúčové slová KS, zadané operátorom, prejdite na pole KS extrahované z úlohy. Postup overovania je podobný - hľadáme COP, ktoré zodpovedajú generickým konceptom, a potom ich odkazy na konkrétne termíny.


Ryža. 3. Spracovanie druhových pojmov

Všimnite si toho, že v rámci každého generického konceptu je dôležité preskúmať všetky dostupné pojmy o druhoch, aby ste čo najlepšie pochopili problémovú oblasť. Výsledkom týchto akcií je vytvorenie radu kľúčových slov KS, čo je úplný tezaurus zodpovedajúci úlohe na vyhľadávanie informácií alebo vyhľadávacieho obrázku dokumentu.

Na základe kompletnej sady vyhľadávacích obrázkov dokumentov (označovať) je možné vytvoriť vetvené tezauri a jednotný klasifikátor knižnice. Kompletná sada  samozrejme predstavuje najjednoduchší tezaurus.

Avšak pomocou kritéria výberu
, (1)
môžeme postaviť tezauri špecifické pre dané odvetvie. Súbor všetkých tezauri špecifických pre dané odvetvie zároveň tvorí úplný tezaurus
, (2)
ktorých sekcie môžu byť hierarchicky štruktúrované v súlade s požiadavkami GOST podľa hlavných klasifikátorov (GRNTI, UDC, BBK, MPK) alebo podľa vnútorného jediného klasifikátora.

Automatizácia procesu budovania tezauru a klasifikácie umožňuje maximálne uľahčiť prácu operátora pracujúceho s distribuovanými informačné zdroje.

Okrem zostavenia tezauru založeného na vyhľadávacom obraze dokumentu je možné navrhovaný prístup použiť aj na automatickú sumarizáciu dokumentu a zoskupovanie textov.

Odkazovanie na dokumenty je jednou z úloh, ktorých cieľom je poskytnúť odborným odborníkom spoľahlivé informácie potrebné na to, aby sa manažérske rozhodnutie rozhodlo o hodnote dokumentov prijatých z internetu. Referencovanie je proces transformácie dokumentárnej informácie, končiaci sa prípravou abstraktu, a abstrakt je sémanticky adekvátnou prezentáciou hlavného obsahu primárneho dokumentu, charakterizovaného ekonomickým formátovaním znakov, stálosťou jazykových a štrukturálne charakteristiky a je navrhnutý tak, aby vykonával rôzne informačné a komunikačné funkcie v systéme vedeckej komunikácie. Algoritmus pre sumarizáciu dokumentov je znázornený na obr. 4.


Ryža. 4. Algoritmus pre sumarizáciu dokumentov

Algoritmus vo všeobecnosti zahŕňa nasledujúce hlavné fázy.
1. Výber viet z dokumentu nahraného z internetu a umiestneného v úložisku údajov sa vykoná zvýraznením interpunkčných znamienok a ich uložením do poľa.
2. Každá veta je rozdelená na slová oddelením oddeľovačov a ich uložením do poľa a pole je pre každú vetu odlišné.
3. Pre každú vetu, pre každé slovo tejto vety spočítajte počet slov v ostatných vetách (pred a za). Súčet opakovaní pre každé slovo (pred a po) bude hmotnosťou danej vety.
4. Uvedený počet viet s maximálnym váhovým faktorom a vyberte ich abstraktne v poradí podľa vzhľadu v texte.

Navrhovaný model konštrukcie tezauru a tematických katalógov informačného systému je teoretickým základom automatizácie sémantického vyhľadávania a umožňuje odborníkovi nielen vykonávať pátracie práce, ale aj automatizovaný režim, abstraktovať dokumenty získané v dôsledku vyhľadávanie v distribuovaných informačných systémoch na internete.

Literatúra:
1. Barushkova R.I. Klasifikačné schémy vedeckých a technických informácií. Učebnica. príspevok. - M., 1981- 80. roky.
2. Barushkova R.I. Rubikátor ako klasifikačná schéma vedeckých a technických informácií. Sada nástrojov. - M., 1980.- 38 s.
3. Trusov A.V., Babarykin E.P. Vyhodnotenie hraníc oblasti tematickej žiadosti o informácie v distribuovaných informačných systémoch. Materiály celo ruskej (s medzinárodnou účasťou) konferencie „Informácie, inovácie, investície“, 24.-25. novembra 2004, Perm / Perm Center for Science and Technology. - Perm, 2004. - S.76-79.
4. Yatsko V.A. Logické a jazykové problémy analýzy a abstrakcie vedeckého textu. - Abakan: vydavateľstvo štátu Khakass. Univerzita, 1996- 128 s.

Výpočtová technika

Zväzok 12, špeciálne číslo 2, 2007

TECHNOLÓGIA NA VYTVORENIE TÉSAURU OBLASTI PREDMETU NA ZÁKLADE PREDMETU ENCYKLOPÉDIE

V. B. Barakhnin

Ústav výpočtových technológií SB RAS, Novosibirsk, Rusko

e-mail: [chránené e -mailom]

Štátna univerzita V. A. Nekhaevu v Novosibirsku, Rusko e-mail: [chránené e -mailom]

Táto práca popisuje technológiu na tvorbu tezauru objektovej domény, ktorá je založená na predmete odbornej encyklopédie. Takáto technológia ponúka vysokokvalitný popis objektovej domény pomocou spoľahlivých výrazov, čo umožňuje vybudovať prvú fázu tezauru s minimálnym zapojením odborníkov v tejto konkrétnej oblasti znalostí. Navrhovaná technológia tiež obsahuje algoritmus pre stavbu tezauru a webovú aplikáciu, ktorá tento algoritmus implementuje.

Úvod

Jedným z najdôležitejších faktorov zaisťujúcich úspešnú implementáciu projektov integračného výskumu je účinná vedecká a informačná podpora. Najmä spoločná práca výskumníkov z niekoľkých (navyše nie vždy príbuzných) odborov si vyžaduje starostlivú koordináciu použitej terminológie, pretože ten istý koncept je možné v rôznych oblastiach vedy označovať rôznymi pojmami a jedným pojmom - rôznymi pojmami.

Ďalšia výzva informačnú podporu projekty - vytvorenie integrovaného kartového registra bibliografických popisov dokumentov (tj. článkov, kníh atď.) na tému projektu, zostaveného kombináciou zdrojov spolupracujúcich výskumných pracovníkov, z ktorých každý už nazhromaždil kartový index na konkrétnom projekte téma (v súčasnosti sú tieto kartové indexy spravidla uložené v elektronických médiách). Aby sa uľahčilo vyhľadávanie v indexe kariet, je žiaduce, aby boli kľúčové slová charakterizujúce dokumenty vybrané vždy, keď je to možné, z jedného slovníka. Automatická klasifikácia dokumentov zahrnutých v registri kariet alebo do nich potenciálne vstupujúcich z elektronických databáz

© Ústav výpočtových technológií, Sibírska pobočka Ruskej akadémie vied, 2007.

vedeckých publikácií, ako je databáza abstraktných časopisov, „Aktuálny obsah“ atď., sa javí ako vhodné použiť algoritmus indexovania súradníc. Tento algoritmus je založený na zohľadnení klasifikačných znakov zahrnutých v texte výrazov (slov a fráz), ktoré charakterizujú konkrétnu oblasť predmetu.

Riešenie všetkých vyššie uvedených úloh je nemožné bez vytvorenia slovníka pojmov z predmetnej oblasti a v tomto slovníku by sa mali vytvoriť väzby medzi výrazmi a mala by sa vykonať klasifikácia pojmov. Takýto slovník sa nazýva tezaurus (podrobnosti nájdete v časti). Tezaurus (alebo normatívny tezaurus) je referenčný slovník obsahujúci všetky lexikálne jednotky jazyka na vyhľadávanie informácií - deskriptory (spolu s kľúčovými slovami, ktoré sa v tomto systéme získavania informácií považujú za synonymá týchto deskriptorov), a deskriptory v slovníku musia byť systematizované podľa zmyslom a sémantické súvislosti medzi nimi sú výslovne vyjadrené.

Zostavenie tezauru „s prázdna bridlica"môže vyžadovať veľmi značný pracovný vstup odborníkov, ktorí musia zozbierať všetky výrazy, ktoré dostatočne pokrývajú predmetnú oblasť, zhodnúť sa na ich význame, nadviazať väzby a vykonať klasifikáciu. Podobné ťažkosti súvisiace s riešením dôležitej, ale stále pomocnej úlohy, sú negatívne." ovplyvniť vyhliadky na jeho riešenie.

Vyvinuli sme a implementovali technológiu na vytvorenie tezauru na základe vecného registra špecializovaných encyklopédií. Táto technológia poskytuje vysoko kvalifikovaný popis predmetu pomocou spoľahlivo overených výrazov, čo umožňuje Prvé štádium budovanie tezauru s minimálnym zapojením špecialistov - odborníkov v danej tematickej oblasti. V práci je podrobná prezentácia a zdôvodnenie algoritmu. Nasleduje stručný popis algoritmu a webovej aplikácie, ktorá ho implementuje.

1. Algoritmus na vytvorenie tezauru

Navrhuje sa použiť predmetový register špecializovanej encyklopédie (alebo niekoľkých encyklopédií) ako zoznam kľúčových slov a fráz pre tezaurus. Výber konkrétnej encyklopédie vykonáva odborník na túto tému a táto voľba závisí od cieľov, ktoré sa sledujú pri vytváraní tezauru. Na vyriešenie komplexných environmentálnych problémov je vhodné použiť encyklopédie (alebo v ich neprítomnosti encyklopedické slovníky) vo fyzike, chémii, geológii, biológii, medicíne, matematike atď., Potom aspoň ako základný zoznam kľúčové slová, ktoré sa v prípade potreby doplnia.

Predmetové indexy väčšiny encyklopédií sú štruktúrované podobným spôsobom - obsahujú výrazy, ktoré sú názvami článkov encyklopédie, termíny, ktorých definície sú uvedené v článkoch, ako aj najdôležitejšie výsledky uvedené v článkoch.

Názvy článkov encyklopédie sa berú ako deskriptory (t. J. Termíny, ktoré sú názvami tried podobných konceptov) a slová z predmetového indexu sa nachádzajú v príslušných

článkov. Hlavnou výhodou tejto metódy je, že na stanovenie typov vzťahov medzi pojmami nemusíte byť odborníkom v danej oblasti - všeobecné znalosti stačia na pochopenie textu encyklopédie - konkrétnejšie informácie požadované v procese klasifikačné pojmy je vždy možné získať z konkrétneho článku ...

Pretože vytvorený tezaurus je navrhnutý tak, aby pracoval s protokolom Z39.50, typy odkazov sú stanovené v súlade s odporúčaniami schémy / l lies, ktorá rozlišuje nasledujúce typy:

BT - spojenie s rodičovským výrazom, to znamená s pojmom širšieho významu;

NT je spojenie s detským výrazom, to znamená s výrazom užšieho významu. Vzťah BT - NT je vzájomný;

USE je odkaz na výraz, ktorý sa namiesto toho používa;

UF - POUŽÍVAJTE vzájomnú spätnú väzbu;

RT je odkaz, ktorý definuje príbuzný výraz;

LE - vzťah medzi jazykovo ekvivalentnými pojmami;

FE sú úplne identické pojmy.

Klasifikácia deskriptorov sa ďalej vykonáva v súlade s časťami tejto oblasti. Voľbu konkrétneho klasifikátora, ako aj výber encyklopédie, vykonáva odborník a v prípade použitia viacerých encyklopédií z rôznych tematických oblastí je možné použiť niekoľko špecializovaných klasifikátorov. Väzby vo formáte NT, RT, LE (FE) sa nadväzujú medzi deskriptormi a časťami klasifikátora, pričom pri klasifikácii by sa podľa možnosti mali používať sekcie najnižšej úrovne.

Potom je kľúčovým slovám priradeným k deskriptoru vzťahmi BT, USE, RT, LE a FE priradené rovnaké klasifikačné číslo ako deskriptoru. To však nevylučuje takú situáciu, že ak je deskriptor zaradený do triedy, ktorá nie je na najnižšej úrovni, potom v nasledujúcej práci odborníka možno termíny súvisiace s deskriptorom priradiť vzťahmi BT a USE nižšej úrovne. V takom prípade sa uvedené výrazy samy stanú deskriptormi.

Výsledkom je, že všetky výrazy zahrnuté v predmetovom indexe sú klasifikované v súlade s časťami tejto predmetovej oblasti.

2. Popis činnosti webovej aplikácie

Napriek tomu proces konštrukcie tezauru v súlade s touto metodikou zahŕňa veľké množstvo rutinnej práce a navyše vyžaduje účasť osoby s programátorskými schopnosťami. Okrem metodiky bola preto vyvinutá aj webová aplikácia, ktorá má užívateľsky prívetivé rozhranie a podporuje nasledujúce funkcie:

1) automatický preklad informácií z digitalizovaných stránok predmetového indexu do databázovej tabuľky;

2) zvýraznenie deskriptorov vo všeobecnom zozname výrazov;

3) vyhľadajte výrazy súvisiace s daným deskriptorom a nastavte typy odkazov v súlade so schémou Zthes.

Je dôležité poznamenať, že na dokončenie všetkých vyššie uvedených operácií nie sú potrebné znalosti programovania.

Vyvinutá aplikácia je univerzálna, t.j. môžu byť použité na vytvorenie tezauri rôznych tematických oblastí. V súčasnej dobe programátor vykonáva rekonfiguráciu programu z vecného indexu jednej encyklopédie na vecný register inej (ale iba v tomto štádiu sa môžu procesy konštrukcie tezauri rôznych predmetových oblastí líšiť), práca prebieha doplnenie programu o funkcie, ktoré umožňujú užívateľovi vykonať túto operáciu. bez znalosti programovania.

Aplikácia funguje nasledovne. Digitalizované indexové stránky sa spracujú automaticky. Užívateľ určí umiestnenie textového súboru údajmi, po ktorých sa bude čítať riadok po riadku a do databázy sa zadajú samotné výrazy, ako aj informácie o číslach stránok encyklopédie, kde sa nachádzajú (obr. 1).

Popisovače zo všeobecného zoznamu kľúčových slov si vyberie sám používateľ a označí hľadané výrazy v zozname zobrazenom na obrazovke. \ ¥ ob-appopio tiež podporuje funkciu opráv možné chyby(obr. 2). Pripomeňme, že všetky výrazy nachádzajúce sa v článku encyklopédie, ktorý je mu venovaný, sa považujú za súvisiace s týmto deskriptorom.

Aby sa uľahčilo vyhľadávanie súvisiacich výrazov, používateľovi sa zobrazí iba zoznam kľúčových slov umiestnených na tej istej stránke ako deskriptor, ktorý si vybral (v skutočnosti sme preto do databázy zadali iba výrazy a informácie o podobách stránok ). Pretože článok nemusí zaberať celú stránku ako celok, do zoznamu budú zahrnuté nepotrebné výrazy. Užívateľ nadväzovaním spojení,

Ryža. 1. Vstup textové súbory s výrazmi z indexu

№ Vytvorenie slovníka deskriptorov - Microsoft Internet Explorer!

Upraviť súbor Zobraziť obľúbené služby Pomocník

Q Späť "©" @ | í | & uR Hľadať ^ Obľúbené -. v

Adresa; | ¡J§ http: ^ localhost / math_dict / Deskj-_Slovar / Descr / gen_ss.phtml; V ¡¿3 prechodové odkazy y>

fiBár JOQQ- © - I * 1] 0 l de: * - F

1 Abakus | 1, 13 1111111

2 Abelianov automat | 1, 67 1111111

3 Objekt skupiny Abelian | 1, 1149 111 1 | |

4 Abelianov diferenciál 11,13-15 I 2, 240 111111

5 Abelianov diferenciál, základ | 1, 13 1111111

6 Abelianov diferenciál, deliteľ | 1, 15 | | | | | 1 |

7 Abelianov diferenciál normálny | 1, 14 1111111

8 Abelianov diferenciál, normalizovaný | 1, 14 1111111

9 Abelianov diferenciál, polárne obdobie | 1, 14 | | | | | | |

10 Abelianov diferenciál, cyklické obdobie | 1, 14 1111111

11 Abelian idempotent 14, 941 1111111

12 Abelianov integrál 11.15-17 1111111

13 Abelianov integrál, Ábelova veta | 1, 17 1111111

14 Abelianov integrálny kanonický | 1.16 ||||||

16 Abelianov integrál, dobová matica | 1.16 ||||||

15 Abelianov integrál normálny | 1, 16 |||||||

17 Abelianov integrál, polárne obdobie | 1.16 ||||||| 1S Abelianov integrál, cyklické obdobie | 1, 16 | | | | |

19 Abelianov potenciál | 2, 239 1111111

20 Abelev a skupina 11.17-20 1111111

21 Úplne rozložiteľná abelianska skupina | 1.19 ||||||

22 Abelianova skupina deliteľná | 1, 19 |||||||

23 Abelianova skupina konečne vygenerovaná | 1,18 1111111

24 Abelianova skupina, Kulikovovo kritérium | 1, 18 | | | | | |

25 Abelianova skupina, nula | 3.1082 1111111

26 Abelianova skupina, periodická časť | 1, 18 111 | |

http: // locdlhostymath_dict / Deskr_Slovar / Descr / prejsť, phtml? ss 1 + 4 + 1 + A + 1 + 3

j 5tartApache.bat

I Svoj.NET: Úpravy PHP

J Adobe Photoshop || w

^ Miestny intranet

EN Sch / m K 21: 0;

Ryža. 2. Zoznam kľúčových slov a zvýrazňovače deskriptorov

Ryža. 3. Voľba súvisiacich výrazov

Ryža. 4. Vytvorenie typov spojení.

vyberie z navrhovaného zoznamu iba časť kľúčových slov, taká automatizácia však výrazne znižuje množstvo rutinnej práce (obr. 3).

Cín vzťahu medzi deskriptorom a kľúčovým slovom je špecifikovaný vyplnením príslušného formulára (obr. 4).

Záver

Operabilita tohto algoritmu a webovej aplikácie bola testovaná vytvorením tezauru z niekoľkých sekcií predmetu „Matematika“ („Diferenciálne rovnice“, „Čiastkové diferenciálne rovnice“, „Numerická analýza“, „Mechanika tekutín“ atď. .) na základe predmetového indexu „Encyklopédia matematiky“. Ukázalo sa, že na klasifikáciu pojmov a vytváranie väzieb medzi nimi stačí bakalárska kvalifikácia (za predpokladu, že v zriedkavých prípadoch sa do konzultácií zapája odborník s vedeckým vzdelaním). To dokazuje vysokú účinnosť vyvinutého algoritmu.

Bibliografia

Mikhailov A.I., Chernyi A.I., Gilyarevsky P.C. Základy informatiky. Moskva: Nauka, 1968.

Barakhnin V.B. Vývoj tezauru predmetovej oblasti „Matematika“ // Mater, konf. „Počítače a informačné technológie vo vede, technike a vzdelávaní “. Časť 1. Novosibirsk; Almaty; Ust-Kamenogorsk, 2003. S. 111-115.

Zthes: Profil Z39.50 pre navigáciu k tezauru

http://lcweb.loe.gov/z3950/agency/profiles/zthes-04.html

3.1. Koncept tezauru

Tezaurus (z gréckeho θήσαϋροξ - poklad, rezerva) alebo ideografický slovník (z gréckeho nápadu - koncept, prezentácia, myšlienka a grafo - píšem, opisujem) - v modernej lingvistike: 1) špeciálny druh slovníkov všeobecného alebo špeciálneho slovná zásoba, v ktorej sémantické vzťahy medzi lexikálnymi položkami; 2) slovník na hľadanie slova podľa sémantického spojenia s inými slovami; 3) určitý spôsob organizácie (umiestnenia) slov v slovníku; 4) spôsob organizácie lexikálnej kompozície, ktorý umožňuje ekonomicky „modelovať svet“.

V prvom, prvotnom, význame - úložisku, poklade, termín tezaurus používal L.V. Shcherba v článku „Skúsenosti so všeobecnou lexikografiou“ (tretia opozícia: tezaurus je obyčajný (vysvetľujúci alebo prekladaný) slovník). Vedec píše: „Keď sa povie tezaurus, v dnešnej dobe to najčastejšie znamená„ Thesaurus linguae latinae “, podnik piatich nemeckých akadémií, ktorý sa začal v roku 1900 a stále prinášal s vynechaním iba písmeno M. Charakteristický znak Tento typ slovníkov pozostáva z v tom, že obsahujú všetky rozhodujúce slová, ktoré sa vyskytli v danom jazyku aspoň raz, a že pod každým slovom sú rozhodne všetky citáty z textov dostupných v danom jazyku. Uvedený protiklad - tezaurus - obyčajný (vysvetľujúci alebo prekladový) slovník - je založený na protiklade „lingvistického materiálu“ a „lingvistického systému“ - konceptov, ktoré som sa pokúsil podložiť vo svojom článku „O trojakom aspekte jazykových javov a o experimente v lingvistike. “

Druhý význam tohto pojmu je spojený so široko známym slovníkom-tezaurus „Tezaurus Anglické slová a výrazy „P.M. Roget (Rogetov tezaurus anglických slov a fráz), 1852) a jeho pokračovanie, slovník OV Baranov.

V tejto interpretácii výraz tezaurus označuje určitý spôsob organizácie, umiestnenia lexikálnej kompozície do slovníka (pozri tretí význam pojmu).

Štvrtý význam pojmu tezaurus je spojený so všeobecným uznaním takého spôsobu organizácie lexikálnej kompozície, ktorý umožňuje ekonomicky „modelovať svet“. Z tohto pohľadu je tezaurus -slovník „systematické usporiadanie slovnej zásoby akéhokoľvek vedného alebo technického odboru a v najobecnejšej forme všeobecná literárna slovná zásoba a navyše celá slovná zásoba daného jazyka“.

Podľa Yu.N. Karaulov, všeobecný tezaurus, fixujúci v štruktúre a vzťahoch svojich nadpisov, sekcií, zón, oblastí široké možnosti neverbálneho prepojenia myšlienok, zaisťuje, že sa berú do úvahy ľudské hodnoty.

A.N. Baranov a D.O. Dobrovolskij v predhovore „Od redaktorov“ k svojmu „Slovníku -tezaurus moderných ruských idiómov“ dáva tezauru nasledujúcu definíciu - zvláštny druh slovník, ktorý sa líši od ostatných (najmä vysvetľujúcich, dvojjazyčných atď.) spôsobom organizácie lingvistického materiálu. V tezaure nie sú jazykové jednotky uvedené v abecednom poradí ako v bežnom slovníku, ale sú zoskupené podľa ich významu.

L.P. Krysin nazýva tezaurus (ideografický slovník) vysvetľujúci slovník špeciálneho druhu, slovník „naopak“. „Ak vedec píše, že vo vysvetľujúcom slovníku je„ vstupom “do slovníkového slova slovo a obsahom slovníkového záznamu je interpretácia významu tohto slova, potom v ideografickom slovníku je„ vstup “ význam, myšlienka (odtiaľ názov tohto typu slovníkov - ideografický) a obsah položky v slovníku je zoznam slov vyjadrujúcich daný význam. A ak je vysvetľujúci slovník nepostrádateľným nástrojom na porozumenie textu, potom pri generovaní textu možno použiť ideografický slovník: človek často chce vyjadriť určitú myšlienku, ale nemôže na to nájsť vhodné slová; ideografický slovník uľahčuje tieto vyhľadávania. Existujú dva hlavné typy tezauri:

lingvistický tezaurus - slovník obsahujúci zoznam slov v prirodzenom jazyku vybraný ako výsledok zmysluplnej analýzy textov a systematizovaný v súlade s prijatým klasifikačným systémom;

statistický tezaurus je slovník na vyhľadávanie informácií, ktorý obsahuje zoznam slov vybraných ako výsledok štatistickej analýzy textov na konkrétnu tému a zoskupených do slovníkových záznamov na základe frekvencie spoločného výskytu týchto slov v rovnakých textoch.

Informačné tezauri (IPT) uľahčujú vyhľadávanie informácií počas ich automatického spracovania. IPT maximálne odhaľuje sémantické vzťahy medzi lexikálnymi jednotkami. Ako uvádza štátny štandard pre IPT, „tezaurus jednojazyčného získavania informácií je kontrolovaný a meniaci sa slovník lexikálnych jednotiek založený na slovníku jedného prirodzeného jazyka, ktorý zobrazuje sémantické vzťahy medzi lexikálnymi jednotkami a je určený na spracovanie a vyhľadávanie informácií“.

Základnou jednotkou IPT sú pojmy deskriptora. Abecedná, lexikálna a sémantická časť IPT je zbierka záznamov deskriptorov.

Popisné slovníky sú určené na úplný opis slovníka určitej oblasti a stanovenie všetkých použití v ňom. zaznamenávajú všetky dostupné relevantné prípady. Typickým príkladom popisného slovníka je Vysvetľujúci slovník živého veľkého ruského jazyka od V.I. Dahl (prvé vydanie v štyroch zväzkoch vyšlo v rokoch 1863-1866). Cieľom jeho tvorcu nebola štandardizácia jazyka, ale úplný opis celej rozmanitosti veľkoruskej reči vrátane jej nárečových foriem ľudovej reči.

Každý záznam slovníka deskriptora začína deskriptorom, v ktorom sú nižšie v článku GOST uvedené synonymá tohto deskriptora, ako aj ďalších lexikálnych jednotiek spojených s hlavným deskriptorom, generických alebo asociatívnych vzťahov.

Teda tezauri, najmä v elektronický formát, sú jedným z najúčinnejších nástrojov na opis jednotlivých tematických oblastí.

Čistý tezaurus je vzácny. V skutočných slovníkoch je počiatočná myšlienka zjednodušená alebo sú pridané ďalšie informácie, ktoré sú však pre používateľa potenciálne nevyhnutné. Najslávnejšie dnes sú "ruský sémantický slovník" od Yu.N. Karaulova, „Slovník rovnakého mena“ N.Yu. Shvedova, „Tematický slovník ruského jazyka“ od L.G. Smekhova a ďalší.

Zhrnutie. Termín tezaurus L.V. Shcherba ho používal vo vzťahu k slovníku, ktorý zaznamenával, kedykoľvek to bolo možné, všetky súvislosti, v ktorých sa dané slovo vyskytuje. Charakteristickým znakom tezauri je, že obsahujú všetky slová, ktoré sa vyskytli v danom jazyku najmenej raz, a pod každým slovom sú všetky citáty z textov dostupných v danom jazyku. Obsahom slovníka tezauru je lingvistický materiál a obsahom bežného slovníka je lingvistický materiál a lingvistický systém (pojmy L.V. Shcherba).

Túto charakteristiku dopĺňajú krížové väzby všetkých druhov - častejšie paradigmatické (synonymné alebo antonymické), ktoré naznačujú zhodnosť alebo protiklad významov. Okrem toho rôzne assoc. odkazy (t. j. syntagm. odkazy).

Úlohou tezauru (ideografického slovníka) je teda poskytnúť predstavu o sémantickej organizácii určitého výseku jazykového materiálu a ukázať hlavné sémantické polia, ich vnútornú štruktúru a vonkajšie súvislosti. Tezaurus je jasnou ukážkou systémovej povahy jazyka a umožňuje vám vidieť mnoho typov vzťahov, ktoré spájajú jednotlivé jazykové jednotky a skupiny jednotiek.

3.2. História prezentácie koncepčných poznatkov o svete formou tezauru

Potreba usporiadať slová podľa podobnosti, súvislosti a analógie ich významov bola cítiť v celej pozorovateľnej histórii ľudského myslenia.

Pri pátraní po pôvode myšlienky reprezentácie konceptuálnych znalostí o svete formou tezauru nám pomôže odkaz na históriu zostavovania tezauri (ideografické slovníky).

Keď teda na úsvite civilizácie mohli ľudia vyjadrovať svoje myšlienky písomne ​​iba pomocou ideogramov a symbolov, jediným možným slovníkom bol pravdepodobne ten, v ktorom boli slová usporiadané do tematických skupín. V tej dobe bolo pre lexikografa jednoducho ťažké nájsť ďalšie kritérium klasifikácie slov, okrem vzťahov existujúcich v samotnej realite.

Žiaľ, nemáme dôkaz o tom, či ľudia, ktorí používali ideografické písmo, skutočne mali také slovníky. Medzi najstaršie nám známe ideografické klasifikácie patria Attikai Lexeis z gréckej gramatiky, riaditeľ Alexandrijskej knižnice Aristofanes z Byzancie (zomrel 180 pred Kr.).

V II. n. NS. objavuje sa hlavné dielo „Onomasticon“, ktoré na materiál gréckeho jazyka zostavil lexikograf a sofista Julius Pollux (vlastným menom Polidevkus), rodák z egyptského mesta Navcratis. Y. Pollux napísal niekoľko diel, ale zachoval sa nám len „Onomasticon“ (Pollux Y. Onomasticon. M., 1956).


Onomasticon pozostáva z 10 kníh. Knihy sú v podstate samostatnými pojednaniami a obsahujú najdôležitejšie slová súvisiace s konkrétnou témou. Prvá kniha teda hovorí o bohoch a kráľoch; v druhom - o ľuďoch, ich živote a fyziologickej štruktúre; v treťom - o príbuzenských a občianskych vzťahoch atď. Slová v slovníku sú sprevádzané stručným vysvetlením. V modernej dobe bol slovník prvýkrát publikovaný v roku 1502 v Benátkach.

Medzi 2. a 3. storočím n. NS. je vydaný nádherný sanskrtský slovník „Amarakosha“ (Amarakosha. Paris, 1839). Jej autorkou je staroindická básnička, gramatika a lexikografka Amara Sina, ktorú nazývali „jednou z deviatich perál, ktoré zdobia trón Vikramaditya“. Amarakosha, v preklade do ruštiny, znamená Amarova pokladnica. Slovník obsahuje 10 000 slov. Pre lepšie zapamätanie si interpretácie významov slov sú slovníkové záznamy postavené vo forme veršov. Všetok materiál slovníka je rozdelený do 3 kníh. Každá kniha obsahuje niekoľko kapitol a kapitola je podľa potreby v prípade potreby rozdelená do niekoľkých sekcií. Prvá kniha je venovaná oblohe, bohom a všetkému, čo s nimi priamo súvisí. Druhá kniha obsahuje slová týkajúce sa Zeme, osád, rastlín, zvierat a človeka (najskôr je človek považovaný za živú bytosť a potom za sociálnu bytosť; pred očami sa nám objavuje celá kastová štruktúra modernej spoločnosti; kňazi ako Boží dôverníci sú na samom vrchole a dole sú armáda a králi, dokonca nižšie sú majitelia pôdy a úplne dole sú remeselníci, žongléri, sluhovia atď.). Tretia kniha je vlastne lingvistická, ako je zrejmé z názvov jej šiestich kapitol.

Európsky slovník sa slovník dostal do povedomia európskych učencov až na konci 18. storočia, keď v roku 1798 vyšla v Ríme jeho prvá časť. V plnom rozsahu bol publikovaný s prekladom do angličtiny v roku 1808 anglickým sanskritológom G.T. Colebrooke. V roku 1839 jeho francúzsky preklad A.L. Delonshan (A.L. Deslongchamps). Ďalší vývoj predstavy o sémantickej klasifikácii slovnej zásoby súvisiace s problémom takzvaného svetového jazyka.

Zhrnutie. Toto je vo všeobecnejšom zmysle prvá etapa vývoja tradície ideografickej klasifikácie slovnej zásoby. Túto fázu možno nazvať prehistoriou ideografických slovníkov. Teraz je vhodné obrátiť sa na modernú klasifikáciu slovníkov tezauru.

Z abecedných slovníkov je ľahké zistiť, na rozdiel od opísaných diel. Ak je v abecedných slovníkoch prezentácia slov regulovaná takým podmieneným a vysoko neutrálnym nástrojom, akým je abeceda, potom pri konštrukcii ideografického slovníka nadobúda rozhodujúci význam svetonázor samotného lexikografa.

3.3. Zásady klasifikácie slovníkov tezauru

Ako už bolo uvedené vyššie, problém zostavenia klasifikácie tezauri nie je nový a už niekoľko desaťročí púta pozornosť mnohých domácich a zahraničných jazykovedcov (K. Marello, V. V. Morkovkin, L. P. Stupin, V. V. Dubichinsky atď.). Výsledkom výskumu v tejto oblasti bolo vytvorenie alternatívnych klasifikácií týchto lexikografických prác. Jedna z najnovších klasifikácií je založená na nasledujúcich kritériách: a) typ sémantických spojení medzi jednotkami slovnej zásoby; 2) objem slovnej zásoby; 3) zovšeobecnená slovná zásoba; 4) vývoj významu lexém; 5) gramatická a štylistická kvalifikácia lexém; 6) ukážka fungovania lexém; 7) počet zastúpených jazykov; 8) typ semiotických prostriedkov používaných na sémantizáciu lexém. Pomenovaná klasifikácia je založená na klasifikáciách, ktoré predtým vytvoril O.M. Karpova a I. Burkhanov (Burchanov I. K ideografickému popisu štylisticky a pragmaticky relevantných aspektov lexikálnych významov. London, 1996); terminológia použitá pri klasifikácii je zavedená do lexikografického aparátu


V.V. Morkovkin, Yu.N. Karaulov, K. Marello. Kritériá klasifikácie formuloval O.M. Karpova. K. Marello zároveň rozlišuje tri typy tezauri:

kumulatívne, čo sú zoskupenia slov bez definovania ich významov;

definitívne, interpretujúce každú lexikálnu jednotku zoskupovania slov;

dvojjazyčné a viacjazyčné tezauri pre cestovateľov (Marello C. TheThesaurus // W.D.D. 1990. V. 2. S. 1083).

Kumulatívne tezauri nielenže poskytujú príležitosť nájsť zrozumiteľnejšie, presnejšie, štylisticky správnejšie slovo v situácii, keď sa nachádzajú v určitej sémantickej oblasti, ale tiež sa stávajú základom pre formovanie tematických počítačových databáz.

Definitívne tezauri môžu zahŕňať, spolu s definíciou významu, etymologické informácie a citácie z literárnych diel, ktoré ukazujú priamu encyklopedickú orientáciu tohto typu tezauri. Slovníky tohto typu navyše uvádzajú používateľa do potrebného systému pojmov, vysvetľujú podstatu, podobnosti a odlišnosti pojmov, ich paradigmatické a syntagmatické súvislosti, niekedy poskytujú informácie o výslovnosti, gramatických, slovotvorných a iných možnostiach lexikálu jednotky označujúce tieto pojmy.

Dvojjazyčné a viacjazyčné tezaury pre cestovateľov sa spravidla vytvárajú podľa tematických sekcií: čísla, jedlo, doprava, hotel atď. s prekladom ekvivalentov dvoch alebo viacerých jazykov.

Na najkompletnejšie zobrazenie typov existujúcich slovníkov tezauru je vytvorená viacúrovňová klasifikácia. Po prvé, podľa typu sémantických spojení medzi jednotkami slovníka sú tezauri rozdelené do troch veľkých tried:

1. Asociatívny tezaurus (terminológia Yu.N. Karaulov

2. Podobný tezaurus (terminológia V. V. Morkovkina

3. Ideografický (ideologický) tezaurus (terminológia L. V. Schera, V. V. Morkovkina. Uvedené tri typy tezauru odrážajú nasledujúce typy sémantických spojení lexém, respektíve:

1. Sémanticko-syntaktické vzťahy, na základe ktorých
slová sú kombinované do skupín alebo dvojíc, ktoré sú vopred určené svojim pôvodom a existenciou dvojitými väzbami: sémantickými a syntaktickými. Sémantické spojenia slov sa zakladajú hlavne medzi slovesami a prídavnými menami, ktoré vo vete vykonávajú predikatívnu funkciu, a podstatnými menami, napríklad:

a) medzi činom a orgánom (nástrojom), pomocou ktorého sa vykonáva: chytiť - ruka, vidieť - oko, plávať - ​​čln atď .;

b) medzi slovesami deja vyžadujúcimi jeden predmet a predmetom: kôra - pes, sused - kôň atď .; c) medzi slovesami a určitým gramatickým doplnkom, ktoré prvé vyžadujú: rúbať drevo, jesť jedlo atď.

Asociatívny tezaurus je teda slovník-tezaurus, ktorý organizuje lexikálne jednotky na základe sémantických a syntaktických spojení, ktoré medzi nimi existujú, a zaraďuje skupiny podľa grafickej podoby centier slov.

2. Lexikálne a sémantické súvislosti. Zjednotenie do skupín s týmto typom spojenia nastáva podľa hlavného atribútu pre slová - lexikálneho významu. Berú sa do úvahy aj lexiko-gramatické súvislosti, v podobe ktorých sa realizujú jednotlivé významy slov.

Analogickým tezaurom je teda lexikografická príručka, ktorej základnou jednotkou makroštruktúry je lexikálno-sémantická skupina; skupiny sú systematizované v abecednom poradí sémantických dominánt.

3. Predmetové alebo tematické súvislosti, kde ku kombinácii slov do jednej skupiny dochádza z dôvodu podobnosti alebo zhodnosti funkcií predmetov a procesov označených slovami: objekty
domáce potreby, časti tela, druhy oblečenia, budovy atď.

Ideografický tezaurus je teda lexikografické dielo, ktoré predstavuje lexikálne jednotky v rámci predmetových (tematických) skupín a organizuje ich do hierarchickej štruktúry, ktorá má reprezentovať konceptualizované znalosti o svete.

V rámci toho istého kritéria vykonávame ďalšie rozdelenie typov. Ideografický tezaurus je teda reprezentovaný nasledujúcimi 4 typmi:


Samotný ideografický tezaurus.

Tematický slovník.

Systematický slovník.

Predmetovo-systematický slovník


Samotný ideografický tezaurus je špeciálnym typom ideografickej slovnej zásoby, ktorej makroštruktúra je usporiadaná v súlade s apriori synoptickou mapou prekrývajúcou lexikálnu kompozíciu jazyka. Na rozdiel od iných typov ideografickej slovnej zásoby sa samotný ideografický tezaurus vyznačuje logickou a striktne usporiadanou klasifikačnou štruktúrou založenou na vedeckej taxonómii, aj keď všeobecná slovná zásoba podlieha lexikografickému popisu (New Webster „Thesaurus. Landoll, 1991).

Tematický slovník je špeciálnym typom ideografického tezauru, ktorého hlavnou jednotkou makroštruktúry je tematická skupina, ktorá obsahuje lexémy kombinované na základe klasifikácie ich denotátov (referentov) a posudzované z hľadiska ich relevantnosti. na konkrétnu tému.

Systematický slovník je špeciálnym typom ideografického tezauru, ktorého klasifikačná štruktúra má reprezentovať skutočné sémantické vzťahy, ktoré existujú medzi lexikálnymi jednotkami jazyka. Klasifikačná štruktúra v jadre predstavuje lexikálno-gramatickú klasifikáciu slovnej zásoby, inými slovami jej paradigmatickú štruktúru, opísanú z hľadiska podriadenosti a kompozície.

Tematicko-systematický slovník je špeciálny typ ideografického slovníka, ktorý je kombináciou tematického a systematického slovníka.

Zhrnutie. Uvažovaná klasifikácia lingvistických tezauri zahŕňa nasledujúce typy slovníkov: analogický tezaurus (terminológia VV Morkovkina); ideografický (ideologický) tezaurus (terminológia L. V. Scherba a V. V. Morkovkina); assoc. tezaurus (terminológia od Yu.N. Karaulov). Ďalej sa predstaví pop. tezauri a ich vlastnosti sú odhalené.

3.4. Populárne tezauri a ich vlastnosti

Najslávnejší z dostupných slovníkov tezauru, ktorým tento termín sám vďačí za svoju existenciu, bol vytvorený na základe anglického jazyka; je to neustále dotlačený tezaurus od P.M. Tezaurus anglických slov a fráz Rogera Rogeta (1852).

Je dôležité poznamenať, že autor tezauru anglických slov a výrazov v tej dobe naplno využil svoje skúsenosti. „Zásada, ktorú som dodržal pri triedení slov,“ píše P.M. Roger je ten istý, ktorý sa používa na klasifikáciu jednotlivcov v rôznych oblastiach prírodnej histórie. Preto mnou zvýraznené časti zodpovedajú prirodzeným rodinám botaniky a zoológie a rady slov sú upevnené rovnakými vzťahmi, ktoré spájajú prirodzené rady rastlín a zvierat. “

POPOLUDNIE. Roger veril, že presvedčivá klasifikácia slov podľa ich významu je nemožná, pokiaľ nie sú objekty reality nazývané tieto slová poriadne študované a organizované. Preto svoju prácu začína rozdelením koncepčného poľa anglického jazyka do štyroch veľkých tried: abstraktné vzťahy, priestor, hmota a duch (myseľ, vôľa, pocity). Tieto triedy sú ďalej rozdelené do niekoľkých rodov, ktoré sú ďalej rozdelené do určitého počtu druhov.

Medzi nedostatky ideografického slovníka P.M. Vedci spoločnosti Roger pripisujú nasledovné: 1) nie celkom presvedčivé názvoslovie základných koncepčných tried; 2) abstraktná konzistencia prevláda nad prirodzenými spojeniami slov; 3) relatívne nepohodlie pri používaní (do značnej miery je tento nedostatok opravený v nasledujúcich vydaniach).

V modernej ruskej lexikografii existuje niekoľko slovníkov, ktoré by mali byť klasifikované ako slovníky tezauru (ideografické slovníky). Toto napríklad vzniklo pod vedením Yu.N. Karaulova „Ruský sémantický slovník“, „Ruský sémantický slovník“ vydaný N.Yu. Shvedova, „Tematický slovník ruského jazyka“ od L.G. Sayakhova, D.M. Khasanova a V.V. Morkovkina, „Slovník lexikálno-sémantických skupín ruských slovies“, vyd. E.V. Kuznetsova, „Ideografický slovník ruského jazyka“ od O.S. Baranov, „Pojem vnútorného sveta človeka v ruskom jazyku“ V.I. Ubiyko, komplexný vzdelávací slovník „Lexikálny základ ruského jazyka“ pod vedením V.V. Morkovkin.

Zoznámime sa s niektorými z nich.

Slovník-tezaurus moderných ruských idiómov “, editoval A.N. Baranova a D.O. Dobrovolsky obsahuje štyri hlavné časti: 1) synopsa; 2) legenda; 3) hlavné telo slovníka tezauru; 4) ukazovatele. Cieľom synopsie je poskytnúť prehľad o štruktúre hlavného korpusu tezauru. Obsahuje zoznam všetkých taxónov s podtaxónmi a zodpovedajúcimi paradigmatickými odkazmi. Hlavný korpus slovníka Thesaurus je súbor slovníkových záznamov kombinovaných do skupín (taxónov) a podskupín (podtaxónov) v súlade s významom v nich popísaných frazém. Každý článok obsahuje idiom a príklady jeho použitia v modernej ruštine. Synopsa, Legenda, Ukazovatele sú servisnými súčasťami vyššie uvedeného slovníka-tezauru, ktoré poskytujú používateľovi možnosť pracovať rýchlo a efektívne. Legenda sa používa v prípadoch, keď nie sú potrebné príklady použitia frazém, pretože reprodukuje všetky informácie okrem príkladov. V skutočnosti je to slovník slovníka. Jednotkou slovníka sú lemmy. Lema je v tomto prípade idióm v pôvodnej (slovníkovej) forme a zahŕňa, pokiaľ je to možné, všetky jeho základné varianty. Idiom stáť na mieste je napríklad súčasťou lemmy na označenie času, státia na mieste a skĺznutia na mieste.

Slovník obsahuje dve rady. Na konci knihy je článok „Teoretický koncept slovníka-tezauru modernej ruskej ideomatiky“, ktorý podrobne analyzuje vedecké črty tohto projektu.

„Ruský sémantický slovník“, vytvorený pod vedením Yu.N. Karaulova obsahuje 10 000 ruských slov, ktoré sú rozdelené do 1600 konceptuálnych skupín. Výber skupín je založený na opakujúcich sa prvkoch interpretácie slov vo vysvetľujúcich slovníkoch: napríklad „akcia“, „vlastnosť“, „nástroj“ atď.

„Ruský sémantický slovník“, vytvorený pod vedením akademika N. Yu. Shvedova, vychádza z trochu odlišných princípov typických pre zostavovanie ideografických aj vysvetľujúcich slovníkov. Po prvé, všetky slová jazyka sú tu rozdelené do štyroch tried: 1) označujúce jednotky (zámená), 2) pomenovanie (významné slová), 3) skutočne spájajúce (spojky, predložky, spájajúce slovesá), 4) klasifikujúce (modálne slová, častice, citoslovcia). Za druhé, v každej triede sú všetky slová rozdelené na časti reči. Po tretie, v rámci každej časti reči sú množiny a podskupiny identifikované na základe tematickej blízkosti alebo naopak v opozícii voči významom slov.

DUDEN je kniha s obrázkami (kresbami) na ľavej strane (podľa iného softvéru) s očíslovanými podrobnosťami (až po najmenšie). Na pravej strane je k tomuto číslovanému zoznamu priložený názov (dokonca aj v dvoch jazykoch). Celá stránka napríklad obsahuje železničné zariadenie, stanice, trate. Vpravo sú názvy šípov, semaforov, bariel atď.

„Tematický slovník ruského jazyka“ L.G. Sayakhova, D.M. Khasanova a V.V. Morkovkina obsahuje 25 tisíc lexikálnych jednotiek, zoskupených do troch veľkých tried: „Človek“, „Spoločnosť“, „Príroda“, ktoré sa postupne vetvia do menších podtried. Napríklad v triede „Človek“ podtriedy „Ľudské telo a organizmus“, „Ľudský život“, „ Vzhľad„ľudský vzhľad“, „emocionálny vzhľad osoby“ atď. Každá z podtried je zase rozdelená na ešte konkrétnejšie: „Emocionálny svet človeka“-„Duševné vlastnosti človeka“-„Temperament “,„ Charakter “-„ Všeobecné charakterové vlastnosti “atď. Význam a použitie slov patriacich do každej triedy sú ilustrované najbežnejšími frázami. Napríklad slovo „smiech“, ktoré je v podskupine „vyjadrenie pocitov, emócií“ triedy „osoba“, sprevádza uvedenie takých kombinácií s týmto slovom ako veselý smiech, radostný smiech, detský smiech, praskanie do smiechu a pod.

Zhrnutie. Jedným z najefektívnejších nástrojov na opis jednotlivých tematických oblastí, najmä v elektronickom formáte, sú tezauri.

Termín tezaurus je v lingvistike dlho používaný na označenie špeciálny typ slovníky, do istej miery odrážajúce „obraz sveta“, „lingvistický model sveta“ (podľa Yu.N. Karaulov). Tezaurus ako „pokladnica“ sa rozrástol o sémantický objem a získal nový význam. Začali nazývať slovník, ktorý nielen absorbuje celé lexikálne bohatstvo jazyka, ale ich organizuje určitým logicko-systémovým spôsobom. V slovníku tezauru sa slová spájajú do skupín a táto kombinácia sa vyskytuje na základe schopnosti slova sprostredkovať určitý pojem.

Slovník tezauru bol v lingvistike vždy považovaný za druh univerzálneho systému, ktorý zaisťuje ukladanie kolektívnych (pre konkrétnu spoločnosť) poznatkov o svete vo verbálnej forme. Na rozdiel od iných slovníkov, tezaurus-slovník ukladá tieto znalosti v štruktúrovanej forme, ktorá odráža naše predstavy o „štruktúre sveta“.

Najslávnejšími a najpopulárnejšími tezauri v súčasnosti sú anglický Roger Thesaurus, Ideografický slovník ruského jazyka od O.V. Baranova, ruský sémantický slovník Yu.N. Karaulova, ruský sémantický slovník akademika N. Yu. Shvedova, DUDEN, Tematický slovník ruského jazyka L.G. Sayakhova, D.M. Khasanova a V.V. Morkovkin.

V súlade so závermi kapitoly 1 je tezaurus, ktorého zostaveniu a štúdiu sa naša práca venuje, ideografický tematický slovník „Horský a turistický turizmus“. Bude pozostávať zo slovníka ruského a španielskeho jazyka.

Na zostavenie tezauru je teda potrebné vyriešiť niekoľko problémov:

Zvýraznite termíny, ktoré opisujú predmetnú oblasť;

Vykonajte logické rozdelenie pojmov do sémantických skupín;

Porovnajte výrazy v ruštine a španielčine;

Usporiadajte skupiny podľa abecedy.

Metódy a algoritmus pre ručnú kompiláciu tezauru

Tezaurus na získavanie informácií je slovník zostavený ručne odborným lingvistom, odborníkom v oblasti budovania slovníkov a sémantických zdrojov. Pri zostavovaní takéhoto slovníka je úlohou získať tezaurus popis jednej alebo viacerých predmetových oblastí, pričom často existuje korpus textov, ktorý je základom pre vytvorenie slovníka. Expert analyzuje textový korpus a riadený technológiou ručnej konštrukcie tezauru zostavuje zoznam výrazov popisujúcich danú oblasť a zahrňuje ich tezaurus ako deskriptory. Potom sú termíny zoskupené do konceptov a vytvoria sa medzi nimi hierarchické a asociačné vzťahy.

Proces ručného vytvárania tezauru je charakterizovaný takými nevýhodami, akými sú vysoké náklady a trvanie vytvorenia zdroja, podmienenosť výsledku z kvalifikácie odborníka, nemožnosť manuálnej analýzy celého korpusu textov a niektoré ďalšie. Pri manuálnom zostavovaní tezauru musí expert evidentne použiť existujúce metódy získavania informácií a internetové vyhľadávače- systémy.

V prvom rade, dvojjazyčný tezaurus nereprezentuje preklady od slova k slovu, jeho štruktúra je zoznam lexém v ruštine organizovaný na základe blízkosti sémantického významu - definícia pojmu v ruštine - definícia pojmu v cudzí jazyk- zoznam textových možností v cudzom jazyku. V tomto prípade by mali byť zoznamy lexikálnych jednotiek čo najkompletnejšie na každej strane vrátane tých výrazov, ktoré zvyčajne nie sú zastúpené v slovníkoch, pretože sa človeku zdajú zrejmé.

Pri vytváraní tradičných dvojjazyčných slovníkov je hlavným cieľom poskytnúť súbor najčastejších prekladov slova v rôznych textoch. Preklady sú uvedené akoby s okrajom, zoznam prekladov obsahuje jednak presné preklady, jednak preklady s užším a širším významom (preto nie sú španielsko-ruské a rusko-španielske slovníky reverzibilné). Predpokladá sa, že čitateľ porozumie kontextu, ktorý preklad si zvolí.

Hlavné kroky pri zostavovaní tezauru sú tieto:

1) Predbežné spracovanie textového korpusu na zvýraznenie kľúčových slov.

2) Vytvorenie súboru slov a fráz na zaradenie do tezauru a štúdium vzťahov medzi deskriptormi tezauru. Expert, vedený touto sadou, zostavuje zoznam kľúčových konceptov predmetnej oblasti.

3) Rozdelenie hierarchických vzťahov medzi deskriptory (v našom prípade - abecedné poradie) a ich klasifikácia (v našej štúdii je klasifikácia založená na sémantických vzťahoch medzi deskriptormi).

4) Budovanie súboru asociatívnych vzťahov medzi deskriptormi v ruštine a španielčine.