Tezaurus: što je to. Rječnik tezaurusa koji je više od rječnika. Algoritam tezaurusa za sastavljanje tezaurusa rječnika

UZORAK

Syn: model, uzorak, primjer, uzorak, standard, norma, mjerenje, uzorak, standard, tipični predstavnik, predložak, šablona, ​​prototip, crtež, dizajn, crtež, uzorak, geštalt, okvir

Tezaurus ruskog jezika. 2012

Također pogledajte tumačenja, sinonime, značenja riječi i ono što je UZORAK na ruskom u rječnicima, enciklopedijama i priručnicima:

  • UZORAK
    HAFDASA 1927 - Argentinski automatski pištolj kalibra 22. Bila vojska ...
  • UZORAK u Ilustriranoj enciklopediji oružja:
    EKSPERIMENTALNO - pojedinačne kopije bilo kojeg dizajna vatrenog oružja, nisu prihvaćene za serijsku ...
  • UZORAK u Ilustriranoj enciklopediji oružja:
    MUSHKETA - američka kapsule puška 1849-1855. 58 kalibra sa cijevi. Duljina 1016 ...
  • UZORAK u Ilustriranoj enciklopediji oružja:
    PUŠKA - američka kapsula puška 1849-1855 Kalibra 58. Dužina 838 ...
  • UZORAK u Ilustriranoj enciklopediji oružja:
    70 - Čehoslovački automatski pištolj, kalibar 7, 65 ...
  • UZORAK u Ilustriranoj enciklopediji oružja:
    63- Poljski puškomitraljez kalibra 9 mm s petnaest i dvadeset pet hitaca. Duljina s zalihom 583 mm, bez zalihe 330 mm. Težina …
  • UZORAK u Ilustriranoj enciklopediji oružja:
    61- Čehoslovački puškomitraljez s deset i dvadeset hitaca kalibra 7, 65 mm. Duljina s zalihom 513 mm, bez zalihe 269 mm. ...
  • UZORAK u Ilustriranoj enciklopediji oružja:
    58 P - čehoslovački mitraljez sa trideset metaka kalibra 7,62 mm. Duljina 820 mm. Težina 3140 ...
  • UZORAK u Ilustriranoj enciklopediji oružja:
    58 V - čehoslovački mitraljez sa trideset metaka od 7, 62 mm. Duljina s zalihom 820 mm, bez zalihe 635 mm. Težina …
  • UZORAK u Ilustriranoj enciklopediji oružja:
    52 —1. Vidi CHZET-513. 2. Čehoslovački automatski samoopterećujući karabin od deset metaka od 7,62 mm. Duljina 1003 mm. Težina 4100 ...
  • UZORAK u Ilustriranoj enciklopediji oružja:
    50 - Čehoslovački automatski pištolj, kalibar 7,62 mm. Smanjena kopija CHZET-513. Bio u službi ...
  • UZORAK u Ilustriranoj enciklopediji oružja:
    25-1. Čehoslovački automat sa dvadeset četiri i četrdeset hitaca kalibra 9 mm. Duljina s zalihom 686 mm, bez zalihe 445 mm. Težina …
  • UZORAK u Ilustriranoj enciklopediji oružja:
    23-Čehoslovački automat sa dvadeset četiri i četrdeset hitaca kalibra 9 mm. Duljina 686 mm. Težina 3270 ...
  • UZORAK u Ilustriranoj enciklopediji oružja:
    16/33 - Čehoslovački petometni karabin od 7, 92 mm. Duljina bez bajuneta 995 mm, s bajunetom 1305 mm. Težina …
  • UZORAK
    INDUSTRIJSKI - pogledajte INDUSTRIJSKI MODEL ...
  • UZORAK u Rječniku ekonomskih pojmova:
    - reprezentativna pojedinačna kopija proizvoda koji se koristi za oglašavanje, na izložbama, radi upoznavanja, prikaza potencijalnim ...
  • UZORAK u enciklopedijskom rječniku:
    , -ztsa, m. 1. Indikativni ili pokusni proizvod; uzorak (u 2 vrijednosti). 06 uzoraka tla. Uzorci minerala. Uzorci proizvoda. Industrijski oko. (novi, ...
  • UZORAK u Velikom ruskom enciklopedijskom rječniku:
    UZORAK INDUSTRIJSKI, pogledajte Industrijski ...
  • UZORAK u Potpunoj naglašenoj paradigmi Zaliznjaka:
    uzorak "c, uzorci", uzorak ", uzorak" v, uzorak ", uzorak" m, uzorak "c, uzorci", uzorak "m, uzorci" mi, uzorak ", ...
  • UZORAK u popularnom objašnjenju i enciklopedijskom rječniku ruskog jezika:
    -zts "a, m. 1) (obično što) Indikativna ili probna kopija proizvoda, materijala; dio... tvar, proizvod, davanje ideje ...
  • UZORAK u Rječniku za rješavanje i sastavljanje skeniranih riječi:
    … Za…
  • UZORAK u tezaurusu ruskog poslovnog rječnika:
  • UZORAK u Abramovljevom rječniku sinonima:
    uzorak, prototip, prototip, tip, prototip, ideal, model, izvornik, primjer; model. Prot. ... Pogledajte ideal, primjer, ...
  • UZORAK u rječniku sinonima ruskog jezika:
    Syn: model, uzorak, primjer, uzorak, standard, norma, mjerenje, uzorak, standard, tipični predstavnik, predložak, šablona, ​​prototip, crtež, dizajn, crtež, uzorak, ...
  • UZORAK u Novom objašnjavajućem rječniku ruskog jezika Efremove:
    m. 1) Približna, indikativna ili probna kopija l. proizvod, materijal itd. 2) a) Indikativno primjer smth.... (koje kvalitete, ponašanje, ...

Jedan od novih osnovnih koncepata koji su se pojavili kao rezultat razvoja strojnih metoda obrade informacija, osobito pri prevođenju s jednog jezika na drugi, traženju znanstvenih i tehničkih informacija i stvaranju informacijskog modela poduzeća u automatiziranim sustavima upravljanja , bio je koncept tezaurusa informacijskog sustava. Izraz "tezaurus" podrazumijeva skup znanja o vanjskom svijetu - to je takozvani tezaurus svijeta T. Svi pojmovi vanjskog svijeta, izraženi prirodnim jezikom, čine tezaurus, od kojeg se mogu razlikovati privatni tezaurusi hijerarhijskom podjelom, uzimajući u obzir podređenost pojedinih pojmova ili odvajanjem dijelova općeg tezaurusa svijeta. Tezaurus u sustavima za pretraživanje informacija igra važnu ulogu u pretraživanju traženi dokument po ključnim riječima. Stoga je izgradnja tezaurusa težak i ključan zadatak. Ali ovaj se zadatak također može automatizirati.

Klasifikacija u svojoj najopćenitijoj definiciji predstavlja podjelu i poredak skupova. Zove se raspodjela objekata u klase na temelju zajedničke značajke svojstvene tim pojavama ili objektima i razlikuje ih od objekata i pojava koje čine druge klase. Svaki razred se može podijeliti prema potrebi. Rubrikator je posebna vrsta klasifikacije. Stoga se stvaraju na temelju općih odredbi:
 znanstvena osnova za izgradnju klasifikacije;
 odraz trenutne razine razvoja znanosti;
 dostupnost sustava veza i referenci, kao i referentnog i referentnog aparata (CCA).

Međutim, rubrikator je pragmatična klasifikacija koja se temelji na protoku informacija i potrebama stručnjaka. To je njegova razlika od apriornih klasifikacija kao što su UDC i IPC.

Glavne funkcije klasifikacija, a posebno rubrika su sljedeće:
 tematsko razgraničavanje informacijskih podsustava;
 formiranje informacijskih nizova prema bilo kojem kriteriju;
 sistematizacija informativnog materijala i publikacija;
 trenutno i retrospektivno pretraživanje;
 indeksiranje dokumenata i upita;
 odnos s drugim klasifikacijskim shemama;
 normativne funkcije.

Grade se dijeljenjem pojmova - objekata klasifikacije na temelju uspostavljenih odnosa između atributa tih objekata u skladu s određenim logičkim načelima. Kriterij po kojem se vrši klasifikacija naziva se osnova za podjelu klasifikacije. U klasifikacijama se metode dedukcije i indukcije široko koriste za popravljanje grupa, klasa i identificiranje veza među njima. To je tipično za hijerarhijske klasifikacije. Dubina klasifikacije (broj razina u hijerarhiji) može varirati ovisno o namjeni. Jedna od široko korištenih rubrika je državni rječnik znanstvenih i tehničkih informacija (SRSTI).

GRNTI rubrikator je dizajniran na takav način da je to moguće dijeljenje s drugim klasifikacijama kao što su UDC i IPC. Univerzalna decimalna klasifikacija (UDC) postoji više od 70 godina, ali još uvijek nema premca u svojoj širini distribucije i koristi se u mnogim zemljama svijeta. UDC pokriva čitav univerzum znanja i uspješno se koristi za sistematizaciju i kasnije traženje najrazličitijih izvora informacija.

Osim UDK -a, u praksi se naširoko koristi knjižnična i bibliografska klasifikacija (LBC). LBC je izgrađen na načelima logičke podređenosti i predstavlja primijenjenu klasifikaciju tipa.
V. Ruska Federacija za klasifikaciju izuma i sistematizaciju domaćih zbirki opisa izuma koristi se međunarodna patentna klasifikacija - prilično složena višedimenzionalna klasifikacija, izgrađena prema funkcionalnom i sektorskom načelu. Isti tehnički koncepti mogu se pronaći u IPC -u ili posebnim klasama (prema industriji) ili u funkcionalnim klasama (prema principu rada). Sektorsko načelo raspodjele pojmova uključuje klasifikaciju objekata ovisno o primjeni u određenoj povijesno utemeljenoj grani tehnologije i tehnologije.

Usporedne karakteristike rubrikatora GRNTI, UDC, LBC i IPC prikazane su u tablici 1.

stol 1
Karakteristike rubrikatora GRNTI, UDC, BBK i MPK

Ime

Struktura

Načelo rasporeda podjela

Shema podjele

Hijerarhijski

Industrija

Od općeg do konkretnog

Hijerarhijski

Tematski

Hijerarhijski

Funkcionalnost i industrija

Od općeg do konkretnog

LBC za znanstvene knjižnice

Hijerarhijski

Industrija

Od općeg do specifičnog, prema vrsti


Tako se mogu identificirati glavne značajke rubrikatora i klasifikatora:
Are odlikuje ih primijenjena priroda i sektorska usmjerenost;
Open to su otvoreni sustavi koji ovise o razvoju znanosti i tehnologije, potrebama i zahtjevima stručnjaka;
 anorganski sustavi, kako objekti nastaju i razvijaju se u okolišu i iz njega ulaze u njih. Elementi mogu postojati neovisno izvan sustava. Ova je značajka usko povezana s drugom značajkom;
 minimalni element je koncept vezan za okoliš. Koncept predstavlja sustav definicija;
Between Postoje veze između pojmova okomito (rod-vrsta, cijeli dio) i vodoravno (vrsta-vrsta, dio-dio), što ukazuje na hijerarhiju sustava.

Slijedom toga, struktura i načela organiziranja klasifikacija i rubrika omogućuju automatiziranje procesa izgradnje tezaurusa predmetnog područja metodom dedukcije. Algoritam za konstruiranje tezaurusa metodom dedukcije prikazan je na Sl. 1.

Temelj za formiranje tezaurusa je slika za pretraživanje dokumenta, zadatka ili aplikacije za pretraživanje informacija koju popunjava operater. Stoga je prvi korak istraživanje i analiza aplikacije. U prvoj fazi operater označava temu ili problem koji vas zanima, moguće ključne riječi i njihove sinonime. Kao rezultat toga, dobivamo površno razumijevanje predmetnog područja.

Riža. 1. Algoritam za konstruiranje tezaurusa metodom dedukcije

Osim toga, tezaurus KS ključnih riječi formira se metodom odbitka, za što je potrebno:
 CS niz, koji postavlja sam korisnik, označen na slici 1 kao MP;
 niz KS, izdvojen iz zadatka pretraživanja, odnosno MZ.

Međutim, za potpunije i dublje razumijevanje predmetnog područja, koristimo se postojećim naslovima i klasifikacijskim shemama (GRNTI, UDC, LBC, MPK). Kako bi se povećala pokrivenost predmetnog područja, potrebno je pregledati sva dostupna. Niz rubrikatora predstavlja MR. Algoritam pretraživanja odbitka sastoji se od dva koraka:
1. Pronalaženje generičkih pojmova (slika 2);
2. Pronalaženje specifičnih pojmova unutar generičkih pojmova (slika 3).


Riža. 2. Obrada generičkog koncepta

Učitavamo prvi rubrikator iz niza i organiziramo ciklus za provjeru prisutnosti KS u rubrikatorima koje je unijeo korisnik. Svaki KS se traži na popisu naslova i uspoređuje s generičkim konceptom ili "gnijezdom", a zatim se provjerava stanje - postoji li upućivanje na određene pojmove. Ako postoji takva referenca, tada se KS uspoređuje s terminima vrste. Ako veze nisu pronađene, prijeđite na sljedeći opći koncept. Kada se pregledaju ključne riječi KS, koje je unijeo operator, idemo na niz KS izdvojen iz zadatka. Postupak provjere je sličan - tražimo ZP -ove koji odgovaraju generičkim pojmovima, a zatim njihovo upućivanje na određene pojmove.


Riža. 3. Obrada termina vrste

Imajte na umu da je unutar svakog generičkog koncepta važno pregledati sve dostupne vrste vrsta kako bi se steklo maksimalno razumijevanje problematičnog područja. Rezultat ovih radnji je formiranje niza KS ključnih riječi, što je potpuni tezaurus koji odgovara zadatku traženja informacija ili slike za pretraživanje dokumenta.

Na temelju cjelovitog skupa slika za pretraživanje dokumenata (označi), moguće je izraditi tezauruse grana i jedinstveni klasifikator knjižnice. Očigledno, sam kompletan skup  predstavlja najjednostavniji tezaurus.

Međutim, koristeći kriterij odabira
, (1)
možemo izgraditi tezauruse specifične za industriju. Istodobno, skup svih tezaurusa specifičnih za industriju čini potpuni tezaurus
, (2)
čiji se odjeljci mogu hijerarhijski strukturirati u skladu sa zahtjevima GOST -a prema glavnim klasifikatorima (GRNTI, UDC, BBK, MPK) ili prema internom jedinstvenom klasifikatoru.

Automatizacija procesa izgradnje tezaurusa i klasifikacija omogućuje maksimalno olakšavanje rada operatora koji radi s distribuiranim informacijskih izvora.

Osim za izradu tezaurusa, na temelju slike za pretraživanje dokumenata, predloženi pristup može se koristiti za automatsko sažimanje dokumenata i grupiranje teksta.

Upućivanje na dokumente jedan je od zadataka čiji je cilj pružiti stručnim stručnjacima pouzdane informacije potrebne za donošenje upravljačke odluke o vrijednosti dokumenata zaprimljenih s interneta. Referenciranje je proces transformacije dokumentarnih informacija, koji završava pripremom sažetka, a sažetak je semantički primjeren prikaz glavnog sadržaja primarnog dokumenta, karakteriziran ekonomičnim oblikovanjem znakova, postojanošću jezičnih i strukturne karakteristike i osmišljen je za obavljanje različitih informacijskih i komunikacijskih funkcija u sustavu znanstvenog komuniciranja. Algoritam za sažimanje dokumenata prikazan je na Sl. 4.


Riža. 4. Algoritam za sažimanje dokumenata

Općenito, algoritam uključuje sljedeće glavne faze.
1. Odabir rečenica iz dokumenta, učitanih s Interneta i smještenih u skladištu podataka, vrši se označavanjem interpunkcijskih znakova i spremanjem u niz.
2. Svaka rečenica je podijeljena na riječi odvajanjem separatora i spremljena u niz, a niz je različit za svaku rečenicu.
3. Za svaku rečenicu, za svaku riječ ove rečenice izbrojite broj riječi u drugim rečenicama (prije i poslije). Zbroj ponavljanja za svaku riječ (prije i poslije) bit će težina date rečenice.
4. Navedeni broj rečenica s najvećim ponderiranim koeficijentom i odaberite u sažetku redoslijedom pojavljivanja u tekstu.

Predloženi model za izradu tezaurusa i tematskih kataloga informacijskog sustava teorijska je osnova za automatiziranje semantičkog pretraživanja i omogućuje stručnjaku ne samo obavljanje pretraživačkog rada, već i u automatiziranom načinu rada, apstraktne dokumente dobivene kao rezultat pretraživanje u distribuiranim informacijskim sustavima na Internetu.

Književnost:
1. Barushkova R.I. Sheme razvrstavanja znanstvenih i tehničkih informacija. Udžbenik. džeparac. - M., 1981.- 80-te.
2. Barushkova R.I. Rubrikator kao klasifikacijska shema znanstvenih i tehničkih informacija. Priručnik. - M., 1980.- 38 str.
3. Trusov A.V., Babarykin E.P. Vrednovanje granica područja tematskog zahtjeva za informacijama u distribuiranim informacijskim sustavima. Materijali Sveruske (s međunarodnim sudjelovanjem) konferencije "Informacije, inovacije, investicije", 24.-25. Studenog 2004., Permski / Permski centar za znanost i tehnologiju. - Perm, 2004. - S.76-79.
4. Yatsko V.A. Logički i jezični problemi analize i apstrahiranja znanstvenog teksta. - Abakan: izdavačka kuća države Khakass. Sveučilište, 1996.- 128 str.

Računalna tehnologija

Svezak 12, posebno izdanje 2, 2007

TEHNOLOGIJA ZA STVARANJE TEZAURUSA PREDMETNOG PODRUČJA ZASNOVANOG NA PREDMETNOM INDEKSU ENCIKLOPEDIJE

V. B. Barakhnin

Institut za računalne tehnologije SB RAS, Novosibirsk, Rusija

e-mail: [zaštićena e -pošta]

Novosibirsko državno sveučilište V. A. Nekhaeva, Rusija e-pošta: [zaštićena e -pošta]

Ovaj rad opisuje tehnologiju za stvaranje tezaurusa predmetne domene, koja se temelji na naslovnim predmetima specijalizirane enciklopedije. Takva tehnologija nudi visokokvalitetni opis domene korištenjem pouzdanih izraza čime se omogućuje izgradnja prve faze tezaurusa uz minimalan angažman stručnjaka u ovom području znanja. Predložena tehnologija također sadrži algoritam za izradu tezaurusa i web -aplikaciju koja implementira ovaj algoritam.

Uvod

Jedan od najvažnijih čimbenika koji osigurava uspješnu provedbu integracijskih istraživačkih projekata je učinkovita znanstvena i informacijska podrška. Konkretno, zajednički rad istraživača s nekoliko (štoviše, ne uvijek srodnih) specijalnosti zahtijeva pomnu koordinaciju korištene terminologije, jer se isti pojam u različitim područjima znanosti može označiti različitim pojmovima, a jednim pojmom - različitim pojmovima.

Još jedan izazov informacijsku podršku projekti - stvaranje integrirane kartoteke bibliografskih opisa dokumenata (tj. članaka, knjiga itd.) na temu projekta, sastavljene kombiniranjem resursa istraživača suradnika, od kojih je svaki već prikupio indeks kartona na određena tema tijekom godina njegova rada (trenutno se takvi indeksi karata pohranjuju, u pravilu, na elektroničkim medijima). Kako bi se olakšalo pretraživanje u kartoteci, poželjno je da ključne riječi koje karakteriziraju dokumente budu odabrane, kad god je to moguće, iz jednog rječnika. Za automatsku klasifikaciju dokumenata uključenih u indeks kartica ili koji se u njih mogu unijeti iz elektroničkih baza podataka

© Institut za računalne tehnologije, Sibirski ogranak Ruske akademije znanosti, 2007.

znanstvene publikacije, kao što je baza sažetaka časopisa, "Trenutni sadržaj" itd., čini se prikladnim koristiti algoritam indeksiranja koordinata. Ovaj se algoritam temelji na uzimanju u obzir klasifikacijskih značajki pojmova (riječi i izraza) uključenih u tekst koji karakteriziraju određeno predmetno područje.

Rješenje svih gore navedenih zadataka nemoguće je bez stvaranja rječnika pojmova predmetnog područja, a u ovom rječniku treba uspostaviti veze između pojmova i izvršiti klasifikaciju pojmova. Takav se rječnik naziva tezaurus (vidi detalje u). Tezaurus (ili normativni tezaurus) je referentni rječnik koji sadrži sve leksičke jedinice jezika za pretraživanje informacija - deskriptore (zajedno s ključnim riječima koje se u ovom sustavu za pretraživanje informacija smatraju sinonimima ovih deskriptora), a deskriptori u rječniku moraju biti sistematizirani prema smislu, a semantičke veze među njima izričito su izražene.

Međutim, kompilacija tezaurusa „s prazna ploča"može zahtijevati vrlo značajan radni angažman stručnjaka, koji moraju dovoljno u potpunosti prikupiti sve pojmove koji pokrivaju predmetno područje, složiti se o njihovom značenju, uspostaviti veze i provesti klasifikaciju. Slične poteškoće koje nastaju pri rješavanju važnog, ali još uvijek pomoćnog zadatka su negativno utjecati na izglede za njegovo rješenje.

Razvili smo i implementirali tehnologiju za stvaranje tezaurusa temeljenu na predmetnom indeksu specijaliziranih enciklopedija. Ova tehnologija pruža visoko kvalificiran opis predmetnog područja koristeći pouzdano provjerene izraze, što omogućuje Prva razina izgradnja tezaurusa uz minimalno angažiranje stručnjaka - stručnjaka za zadano područje. U radu je dan detaljan prikaz i opravdanje algoritma. Dolje je kratak opis algoritma, kao i web aplikacije koja ga implementira.

1. Algoritam za stvaranje tezaurusa

Predlaže se korištenje indeksa predmeta specijalizirane enciklopedije (ili nekoliko enciklopedija) kao popis ključnih riječi i izraza za tezaurus. Odabir određene enciklopedije donosi stručnjak za predmetnu materiju, a taj izbor ovisi o ciljevima koji se nastoje stvoriti pri stvaranju tezaurusa. Dakle, za rješavanje složenih ekoloških problema, preporučljivo je koristiti enciklopedije (ili, u njihovom nedostatku, enciklopedijske rječnike) u fizici, kemiji, geologiji, biologiji, medicini, matematici itd., Zatim, barem, kao osnovni popis ključne riječi, koje će se prema potrebi nadopuniti.

Predmetni indeksi većine enciklopedija strukturirani su na sličan način - sadrže pojmove koji su nazivi članaka u enciklopediji, pojmove koji su definirani u člancima, kao i najvažnije rezultate navedene u člancima.

Imena članaka enciklopedije uzimaju se kao deskriptori (tj. Pojmovi koji su nazivi klasa sličnih pojmova), a riječi iz indeksa predmeta nalaze se u odgovarajućim

članci. Glavna prednost ove metode je u tome što ne morate biti stručnjak u određenom predmetnom području da biste ustanovili vrste odnosa među pojmovima - opće znanje dovoljno je za razumijevanje teksta enciklopedije - u procesu su potrebne specifičnije informacije razvrstavanje pojmova uvijek se može izvući iz određenog članka ...

Budući da je stvoreni tezaurus dizajniran za rad pomoću protokola Z39.50, vrste veza uspostavljaju se u skladu s preporukama sheme / l laž, koja razlikuje sljedeće vrste:

BT - veza s roditeljskim izrazom, odnosno s pojmom šireg značenja;

NT je poveznica s podređenim izrazom, odnosno s pojmom užeg značenja. Odnos BT - NT je recipročan;

USE je veza na pojam koji se koristi umjesto toga;

UF - UPOTREBA međusobne povratne informacije;

RT je poveznica koja definira srodni pojam;

LE - odnos između jezično ekvivalentnih pojmova;

FE su potpuno identični pojmovi.

Nadalje, klasifikacija deskriptora provodi se u skladu s odjeljcima ovog područja. Odabir određenog klasifikatora, kao i izbor enciklopedije, provodi stručnjak, a u slučaju korištenja više enciklopedija iz različitih područja, moguće je koristiti nekoliko specijaliziranih klasifikatora. Veze oblika NT, RT, LE (FE) uspostavljaju se između deskriptora i odjeljaka klasifikatora, dok bi klasifikacija trebala, ako je moguće, koristiti odjeljke najniže razine.

Nakon toga, ključnim riječima pridruženim deskriptoru relacijama BT, USE, RT, LE i FE dodjeljuje se isti klasifikacijski broj kao i deskriptoru. Međutim, to ne isključuje takvu situaciju da ako je deskriptor dodijeljen klasi koja nije na najnižoj razini, tada se u kasnijem radu stručnjaka pojmovi povezani s deskriptorom pomoću odnosa BT i USE mogu dodijeliti klasi niže razine. U tom će slučaju navedeni pojmovi sami postati opisnici.

Zbog toga su svi izrazi uključeni u indeks predmeta klasificirani u skladu s odjeljcima ovog područja.

2. Opis rada web aplikacije

Ipak, proces izgradnje tezaurusa u skladu s ovom metodologijom uključuje veliku količinu rutinskog rada i, osim toga, zahtijeva sudjelovanje osobe sa vještinama programiranja. Stoga je, osim metodologije, razvijena web aplikacija koja ima sučelje prilagođeno korisniku i podržava sljedeće funkcije:

1) automatski prijevod informacija s digitaliziranih stranica indeksa predmeta u tablicu baze podataka;

2) isticanje deskriptora u općem popisu pojmova;

3) traženje pojmova povezanih s datim deskriptorom i postavljanje vrsta veza u skladu sa Zthes shemom.

Važno je napomenuti da vještine programiranja nisu potrebne za dovršetak svih gore navedenih operacija.

Razvijena aplikacija je univerzalna, tj. mogu se koristiti za stvaranje tezaurusa različitih tema. U ovom trenutku programer provodi rekonfiguraciju programa iz indeksa predmeta jedne enciklopedije u indeks predmeta druge (i samo u ovoj fazi postupci konstruiranja tezaurusa različitih predmetnih područja mogu se razlikovati), međutim, rad u tijeku je nadopuna programa funkcijama koje korisniku omogućuju izvođenje ove operacije. nema vještine programiranja.

Aplikacija funkcionira na sljedeći način. Digitalizirane stranice indeksa obrađuju se automatski. Korisnik određuje mjesto tekstualne datoteke s podacima, nakon čega se čita po redak i sami izrazi unose u bazu podataka, kao i podatke o brojevima stranica enciklopedije na kojima se nalaze (Sl. . 1).

Deskriptore s općeg popisa ključnih riječi odabire sam korisnik označavajući pojmove za pretraživanje na popisu prikazanom na ekranu. \ ¥ ob-assignpio također podržava funkciju popravka moguće greške(slika 2). Podsjetimo da se svi pojmovi koji se nalaze u članku enciklopedije posvećenoj njoj smatraju povezanim s ovim opisnikom.

Kako bi se olakšalo pretraživanje povezanih pojmova, korisniku se prikazuje samo popis ključnih riječi koje se nalaze na istoj stranici kao i deskriptor koji je odabrao (zapravo smo za to unijeli samo pojmove u bazu podataka i podatke o pomorskim stranicama ). Naravno, budući da članak možda neće zauzeti cijelu stranicu u cjelini, nepotrebni izrazi bit će uključeni u popis. Korisnik uspostavljanjem veza,

Riža. 1. Unos tekstualne datoteke s pojmovima iz indeksa

№ Izrada rječnika deskriptora - Microsoft Internet Explorer!

Uređivanje datoteke Pomoć Usluge Pomoć Favoriti

Q Natrag "©" @ | í | & uR Pretraživanje ^ Favoriti -. v

Adresa; | ¡J§ http: ^ localhost / math_dict / Deskj-_Slovar / Descr / gen_ss.phtml; V ¡¿3 Prijelazne veze y>

fiBár JOQQ- © - I * 1] 0 l de: * - F

1 abakus | 1, 13 1111111

2 Abelov automat | 1, 67 1111111

3 Objekt abelovske skupine | 1, 1149 111 1 | |

4 Abelov diferencijal 11.13-15 I 2, 240 111111

5 Abelov diferencijal, osnova | 1, 13 1111111

6 Abelov diferencijal, djelitelj | 1, 15 | | | | | 1 |

7 Abelov diferencijal norma | 1, 14 1111111

8 Abelov diferencijal, normaliziran | 1, 14 1111111

9 Abelov diferencijal, polarno razdoblje | 1, 14 | | | | | | |

10 Abelov diferencijal, ciklično razdoblje | 1, 14 1111111

11 Abelov idempotent 14, 941 1111111

12 Abelov integral 11.15-17 1111111

13 Abelov integral, Abelov teorem | 1, 17 1111111

14 Abelov integral kanonički | 1.16 ||||||

16 Abelov integral, matrica perioda | 1.16 ||||||

15 Abelov integral normalan | 1, 16 |||||||

17 Abelov integral, polarno razdoblje | 1,16 ||||||| 1S Abelov integral, ciklično razdoblje | 1, 16 | | | | |

19 Abelov potencijal | 2, 239 1111111

20 Abelev a grupa 11.17-20 1111111

21 Potpuno razgradiva abelovska skupina | 1,19 ||||||

22 Abelova skupina djeljiva | 1, 19 |||||||

23 Abelova grupa konačno generirana | 1,18 1111111

24 Abelova skupina, Kulikov kriterij | 1, 18 | | | | | |

25 Abelova skupina, nula | 3.1082 1111111

26 Abelova grupa, periodični dio | 1, 18 111 | |

http: // locdlhostymath_dict / Deskr_Slovar / Descr / goto, phtml? ss 1 + 4 + 1 + A + 1 + 3

j 5tartApache.bat

I Svoj.NET: PHP Edit

J Adobe Photoshop || w

^ Lokalni intranet

EN Sch / m K 21: 0;

Riža. 2. Popis ključnih riječi i deskriptori isticanja

Riža. 3. Izbor povezanih pojmova

Riža. 4. Uspostavljanje vrsta veza.

odabrat će samo dio ključnih riječi s predloženog popisa, međutim, takva automatizacija značajno smanjuje količinu rutinskog rada (slika 3).

Limenka odnosa između deskriptora i ključne riječi određuje se ispunjavanjem odgovarajućeg obrasca (slika 4).

Zaključak

Učinkovitost ovog algoritma i web aplikacije testirana je stvaranjem tezaurusa više odjeljaka predmetnog područja "Matematika" ("Diferencijalne jednadžbe", "Parcijalne diferencijalne jednadžbe", "Numerička analiza", "Mehanika fluida" itd.) .) na temelju predmetnog indeksa "Enciklopedija matematike". Utvrđeno je da je za klasifikaciju pojmova i uspostavu veza između njih dovoljna prvostupnička kvalifikacija (pod uvjetom da je u rijetkim slučajevima u konzultacije uključen stručnjak sa znanstvenom diplomom). To dokazuje visoku učinkovitost razvijenog algoritma.

Bibliografija

Mikhailov A.I., Chernyi A.I., Gilyarevsky P.C. Osnove informatike. Moskva: Nauka, 1968.

Barakhnin V.B. Razvoj tezaurusa predmetnog područja "Matematika" // Mater, konf. "Računanje i informacijska tehnologija u znanosti, tehnologiji i obrazovanju Dio 1. Novosibirsk; Almati; Ust-Kamenogorsk, 2003. Str. 111-115.

Zthes: Z39.50 profil za navigaciju tezaurusom

http://lcweb.loe.gov/z3950/agency/profiles/zthes-04.html

3.1. Koncept tezaurusa

Tezaurus (od grčkog θήσαϋροξ - blago, rezervat) ili ideografski rječnik (od grčkog idea - pojam, prikaz, zamisao i grafo - pišem, opisujem) - u suvremenoj lingvistici: 1) posebna vrsta rječnika općeg ili posebnog vokabular u kojem semantički odnosi između leksičkih jedinica; 2) rječnik za traženje riječi po njezinoj semantičkoj povezanosti s drugim riječima; 3) određeni način organiziranja (pozicioniranja) riječi u rječniku; 4) način organiziranja leksičkog sastava, koji vam omogućuje da ekonomski "modelirate svijet".

U prvom, iskonskom, što znači - spremište, blago, izraz tezaurus koristio je L.V. Shcherba u članku "Iskustvo u općoj leksikografiji" (treća opozicija: tezaurus je običan (objašnjen ili preveden) rječnik). Znanstvenik piše: „Kad kažu tezaurus, danas najčešće misle na„ Thesaurus linguae latinae “, poduzeće pet njemačkih akademija, započelo je davne 1900. godine i još uvijek je s propustima dovedeno samo do slova M. Karakteristična značajka Ova vrsta rječnika sastoji se u činjenici da sadrže sve odlučne riječi koje su se dogodile u danom jeziku barem jednom, te da ispod svake riječi postoje odlučno svi citati iz tekstova koji su dostupni na danom jeziku. Gornja opozicija - tezaurus - običan (objašnjenja ili prijevod) rječnik - temelji se na suprotnosti "jezičnog materijala" i "jezičnog sustava" - koncepata koje sam pokušao potkrijepiti u svom članku "O trostrukom aspektu jezičnih pojava i o eksperiment u lingvistici ".

Drugo značenje ovog pojma povezano je sa nadaleko poznatim rječnikom-tezaurusom "Tezaurus Engleske riječi i izrazi "P.M. Roget (Rogetov tezaurus engleskih riječi i izraza, 1852.) i njegov nastavak, rječnik OV Baranova.

U ovom tumačenju izraz tezaurus označava određeni način organiziranja, slaganja leksičkog sastava u rječniku (vidi treće značenje pojma).

Četvrto značenje pojma tezaurus povezano je s općim priznanjem takvog načina organiziranja leksičkog sastava, koji omogućuje ekonomsko „modeliranje svijeta“. S ovog gledišta, tezaurus -rječnik je "sustavno uređivanje rječnika bilo kojeg znanstvenog ili tehničkog područja, a u najopćenitijem obliku - općeg književnog rječnika, i štoviše, čitavog rječnika danog jezika".

Prema Yu.N. Karaulov, opći jezični tezaurus, koji u strukturu i odnose svojih naslova, odjeljaka, zona, područja fiksira široke mogućnosti neverbalnog povezivanja ideja, osigurava da se uzmu u obzir ljudske vrijednosti.

A.N. Baranov i D.O. Dobrovolsky u predgovoru "Od urednika" do svog "Rječnika -tezaurusa modernih ruskih idioma" daje tezaurusu sljedeću definiciju - posebna vrsta rječnik koji se razlikuje od drugih (osobito objašnjenjskih, dvojezičnih itd.) po načinu organizacije jezične građe. U tezaurusu jezične jedinice nisu prikazane abecednim redom, kao u običnom rječniku, već su grupirane na temelju njihovog značenja.

L.P. Krysin naziva tezaurus (ideografski rječnik) rječnikom objašnjenja posebne vrste, rječnikom “obrnuto”. “Ako je u objasnivačkom rječniku, piše znanstvenik,“ ulaz ”u rječnički zapis riječ, a sadržaj u rječniku tumačenje značenja ove riječi, tada je u ideografskom rječniku“ ulaz ” značenje, ideja (otuda naziv ove vrste rječnika - ideografski), a sadržaj u rječniku je popis riječi koje izražavaju dato značenje. A ako je rječnik objašnjenja nezaobilazno oruđe za razumijevanje teksta, tada se ideografski rječnik može koristiti pri generiranju teksta: vrlo često osoba želi izraziti određenu misao, ali za to ne može pronaći odgovarajuće riječi; ideografski rječnik olakšava ta pretraživanja. Postoje dvije glavne vrste tezaurusa:

jezični tezaurus - rječnik koji sadrži popis riječi prirodnog jezika odabranih kao rezultat smislene analize tekstova i sistematizirane u skladu s usvojenim sustavom klasifikacije;

statistički tezaurus je rječnik za pretraživanje informacija koji sadrži popis riječi odabranih kao rezultat statističke analize tekstova o određenoj temi i grupiranih u unose u rječnik na temelju učestalosti zajedničkog pojavljivanja ovih riječi u istim tekstovima.

Tezauri za pretraživanje informacija (IPT) olakšavaju traženje informacija tijekom njihove automatske obrade. IPT maksimalno otkriva semantičke odnose između leksičkih jedinica. Kao što je navedeno u Državnom standardu za IPT, „jednojezični tezaur za pretraživanje informacija je kontrolirani i mijenjajući se rječnik leksičkih jedinica temeljen na rječniku jednog prirodnog jezika, koji prikazuje semantičke odnose među leksičkim jedinicama i namijenjen je za obradu i pretraživanje informacija”.

Osnovna jedinica IPT -a su pojmovi deskriptori. Abecedni, leksiko-semantički dio IPT-a zbirka je deskriptorskih unosa.

Opisni rječnici namijenjeni su potpunom opisu vokabulara određenog područja i popravljanju svih upotreba u tom području; bilježe sve dostupne relevantne slučajeve. Tipičan primjer opisnog rječnika je Objašnjenje rječnika živoga velikoruskog jezika V.I. Dahl (prvo izdanje u četiri sveska objavljeno je 1863.-1866.). Cilj njegovog tvorca nije bio standardizirati jezik, već potpuno opisati svu raznolikost velikoruskog govora, uključujući njegove dijalektalne oblike narodnog jezika.

Svaki unos u rječniku deskriptora započinje deskriptorom, u kojemu su ispod u članku GOST -a navedeni sinonimi ovog deskriptora, kao i druge leksičke jedinice povezane s glavnim deskriptorom, generički ili asocijativni odnosi.

Dakle, tezaurusi, osobito u elektronički format, jedan su od najučinkovitijih alata za opisivanje pojedinih predmetnih područja.

Čisti tezaurus je rijedak. U stvarnim tezaurima početna ideja je pojednostavljena ili se dodaju dodatne informacije, ali potencijalno potrebne korisniku. Najpoznatiji su danas "Ruski semantički rječnik" Yu.N. Karaulova, "Rječnik istovjetnog imena" N.Yu. Shvedova, "Tematski rječnik ruskog jezika" L.G. Smekhova i drugi.

Sažetak. Pojmovni tezaurus L.V. Shcherba ga je upotrijebio u odnosu na rječnik koji je bilježio, kad god je to moguće, sve kontekste u kojima se zadana riječ javlja. Karakteristična značajka tezaurusa je da sadrže sve riječi koje su se pojavile u danom jeziku barem jednom, a ispod svake riječi nalaze se svi citati iz tekstova dostupnih na danom jeziku. Sadržaj rječnika tezaurusa je jezična građa, a sadržaj običnog rječnika jezična građa i jezični sustav (pojmovi L.V. Shcherbe).

Ovu karakteristiku nadopunjuju sve vrste unakrsnih veza - češće paradigmatskih (istoznačnih ili antonimičnih), koje ukazuju na zajedništvo ili suprotnost značenja. Osim toga, razne vrste izv. veze (tj. sintagma. veze).

Dakle, zadatak tezaurusa (ideografskog rječnika) je dati predodžbu o semantičkoj organizaciji određene kriške jezičnog materijala, prikazujući glavna semantička polja, njihovu unutarnju strukturu i vanjske veze. Tezaurus je jasna demonstracija sustavne prirode jezika, omogućujući vam da vidite mnoge vrste odnosa koji povezuju pojedine jezične jedinice i skupine jedinica.

3.2. Povijest prezentacije konceptualnog znanja o svijetu u obliku tezaurusa

Potreba za slaganjem riječi po sličnosti, susjedstvu, analogiji njihovih značenja osjećala se kroz čitavu promatranu povijest ljudskog mišljenja.

Da bismo otkrili podrijetlo ideje predstavljanja konceptualnog znanja o svijetu u obliku tezaurusa, pomoći će nam se pozivanjem na povijest sastavljanja tezaurusa (ideografski rječnici).

Dakle, u osvit civilizacije, kada su ljudi mogli pismeno izražavati svoje misli samo uz pomoć ideograma i simbola, jedini je mogući rječnik vjerojatno bio onaj u kojemu su riječi bile raspoređene u tematske skupine. Leksikografu je u to doba jednostavno bilo teško pronaći drugi kriterij za klasifikaciju riječi, osim odnosa koji postoje u samoj stvarnosti.

Nažalost, nemamo dokaza o tome jesu li narodi koji su se koristili ideografskim spisom doista imali takve rječnike. Među najstarijim poznatim pokušajima ideografske klasifikacije naziva se Attikai Lexeis iz grčke gramatike, ravnatelj Aleksandrijske knjižnice Aristofan iz Bizanta (umro 180. pr. Kr.).

U II stoljeću. n. NS. pojavljuje se veliko djelo "Onomasticon", koje je na materijalu grčkog jezika sastavio leksikograf i sofist Julius Pollux (pravo ime Polidevkus), rodom iz egipatskog grada Navcratisa. Y. Pollux napisao je nekoliko djela, ali nam je sačuvan samo "Onomasticon" (Pollux Y. Onomasticon. M., 1956.).


Onomasticon se sastoji od 10 knjiga. Knjige su u biti zasebne rasprave i sadrže najvažnije riječi vezane za određenu temu. Dakle, prva knjiga govori o bogovima i kraljevima; u drugom - o ljudima, njihovom životu i fiziološkoj strukturi; u trećem - o srodstvu i građanskim odnosima itd. Riječi u rječniku popraćene su kratkim objašnjenjima. U moderno doba rječnik je prvi put objavljen 1502. u Veneciji.

Između 2. i 3. stoljeća n. NS. izlazi prekrasan sanskrtski rječnik "Amarakosha" (Amarakosha. Pariz, 1839). Njegov autor je staroindijski pjesnik, gramatičar i leksikograf Amara Sina, koji je nazvan "jednim od devet bisera koji krase prijestolje Vikramaditye". Amarakosha, prevedeno na ruski, znači Amarina riznica. Rječnik sadrži 10 tisuća riječi. Radi boljeg pamćenja tumačenja značenja riječi, napisi u rječniku izgrađeni su u obliku stihova. Sav materijal rječnika podijeljen je u 3 knjige. Svaka knjiga sadrži nekoliko poglavlja, a poglavlje je pak, ako je potrebno, podijeljeno u nekoliko odjeljaka. Prva knjiga posvećena je nebu, bogovima i svemu što je s njima izravno povezano. Druga knjiga sadrži riječi vezane za zemlju, naselja, biljke, životinje i čovjeka (prvo se čovjek smatra živim bićem, a zatim društvenim bićem; čitava kastinska struktura suvremenog društva pojavljuje se pred našim očima; svećenici, kao Božji povjerenici, pri samom su vrhu, a ispod su vojska i kraljevi, čak dolje su zemljoposjednici, a na samom dnu su obrtnici, žongleri, sluge itd.). Treća je knjiga zapravo jezična, što je vidljivo iz naslova njezinih šest poglavlja.

Rječnik je postao poznat europskim znanstvenicima tek krajem 18. stoljeća, kada je 1798. njegov prvi dio objavljen u Rimu. U cijelosti je s prijevodom na engleski jezik 1808. godine objavio engleski sanskritolog G.T. Colebrooke. Godine 1839. njegov francuski prijevod A.L. Delonshan (A.L. Deslongchamps). Daljnji razvoj ideje semantičke klasifikacije vokabulara povezane s problemom takozvanog svjetskog jezika.

Sažetak. To je, najopćenitije rečeno, prva faza u razvoju tradicije ideografske klasifikacije vokabulara. Ova se faza može nazvati prapoviješću ideografskih rječnika. Sada je poželjno obratiti se suvremenoj klasifikaciji rječnika tezaurusa.

Lako je vidjeti koliko se opisana djela razlikuju od abecednih rječnika. Ako je u abecednim rječnicima prikaz riječi reguliran takvim uvjetnim i izrazito neutralnim instrumentom kao što je abeceda, tada u izgradnji ideografskog rječnika svjetonazor samog leksikografa dobiva odlučujuću važnost.

3.3. Načela za klasifikaciju rječnika tezaurusa

Kao što je već gore pokazano, problem sastavljanja klasifikacije tezaurusa nije nov i već nekoliko desetljeća privlači pozornost niza domaćih i stranih jezikoslovaca (K. Marello, V. V. Morkovkin, L. P. Stupin, V. V. Dubičinski itd.). Rezultat istraživanja na ovom području bilo je stvaranje alternativnih klasifikacija ovih leksikografskih djela. Jedna od najnovijih klasifikacija temelji se na sljedećim kriterijima: a) vrsta semantičkih veza među rječničkim jedinicama; 2) volumen vokabulara; 3) generalizirani rječnik; 4) razvoj značenja leksema; 5) gramatičko -stilska kvalifikacija leksema; 6) demonstracija funkcioniranja leksema; 7) broj zastupljenih jezika; 8) vrsta semiotičkih sredstava koja se koriste za semantizaciju leksema. Imenovana klasifikacija temelji se na klasifikacijama koje je ranije stvorio O.M. Karpova i I. Burkhanov (Burchanov I. O ideografskom opisu stilski i pragmatički relevantnih aspekata leksičkih značenja. London, 1996); terminologija korištena u klasifikaciji uvedena je u leksikografski aparat


V.V. Morkovkin, Yu.N. Karaulov, K. Marello. Kriterije razvrstavanja formulirao je O.M. Karpova. Istodobno, K. Marello razlikuje tri vrste tezaurusa:

kumulativne, koje su grupiranje riječi bez definiranja njihova značenja;

definitivno, tumačenje svake leksičke jedinice grupiranja riječi;

dvojezični i višejezični tezaurusi za putnike (Marello C. Tezaurus // W.D.D. 1990. V. 2. P. 1083).

Kumulativni tezaurusi ne samo da pružaju priliku za pronalaženje razumljivije, točnije, stilski ispravne riječi u situaciji da se nalaze u određenom semantičkom polju, već također postaju temelj za formiranje tematskih računalnih banaka podataka.

Definitivni tezaurusi mogu sadržavati, uz definiciju značenja, etimološke podatke i citate iz književnih djela, što pokazuje izravnu enciklopedijsku orijentaciju ove vrste tezaurusa. Osim toga, rječnici ove vrste upoznaju korisnika s potrebnim sustavom pojmova, objašnjavaju bit, sličnosti i razlike pojmova, njihove paradigmatske i sintagmatske veze, ponekad pružaju podatke o izgovoru, gramatičkoj, tvorbi riječi i drugim mogućnostima leksičkog jedinice koje označavaju te pojmove.

Dvojezični i višejezični tezaurusi za putnike obično se stvaraju prema tematskim odjeljcima: brojevi, hrana, prijevoz, hoteli itd. s prijevodom ekvivalenata dva ili više jezika.

Za najcjelovitiji prikaz vrsta postojećih rječnika tezaurusa stvorena je višerazinska klasifikacija. Prvo, prema vrsti semantičkih veza između jedinica vokabulara, tezaurusi su podijeljeni u tri velike klase:

1. Asocijativni tezaurus (terminologija Yu.N. Karaulova

2. Sličan tezaurus (terminologija V.V. Morkovkina

3. Ideografski (ideološki) tezaurus (terminologija L.V.Scherbe, V.V. Morkovkina. Navedena tri tipa tezaurusa odražavaju sljedeće tipove semantičkih veza leksema:

1. Značenjsko-sintaksički odnosi, na temelju kojih
riječi se kombiniraju u skupine ili parove, unaprijed određene svojim podrijetlom i postojanjem dvostrukim vezama: semantičkim i sintaktičkim. Značenjske veze riječi uspostavljaju se uglavnom između glagola i pridjeva koji u rečenici obavljaju predikativnu funkciju, te imenica, na primjer:

a) između radnje i organa (instrumenta) pomoću kojih se izvodi: uhvatiti - za ruku, vidjeti - za oko, plivati ​​- brodom itd .;

b) između glagola radnje koji zahtijevaju jedan subjekt i subjekta: lajati - pas, susjedati - konj itd .; c) između glagola i određenog gramatičkog dodatka, koji prvi zahtijevaju: cijepati drva, jesti hranu itd.

Dakle, asocijativni tezaurus je rječnik-tezaurus koji organizira leksičke jedinice na temelju semantičkih i sintaktičkih veza koje među njima postoje te raspoređuje grupe u skladu s grafičkim oblikom središta riječi.

2. Leksičke i semantičke veze. Do ujedinjenja u grupe s ovom vrstom veze dolazi prema glavnom atributu za riječi - leksičkom značenju. Time se uzimaju u obzir i leksiko-gramatičke veze u čijem se obliku ostvaruju pojedina značenja riječi.

Dakle, analogni tezaurus leksikografska je literatura čija je osnovna jedinica makrostruktura leksičko-semantička skupina; grupe su sistematizirane po abecednom redu semantičkih dominantnih.

3. Predmetne ili tematske veze, gdje dolazi do spajanja riječi u jednu skupinu zbog sličnosti ili zajedništva funkcija objekata i procesa označenih riječima: objekti
kućanski predmeti, dijelovi tijela, vrste odjeće, zgrade itd.

Dakle, ideografski tezaurus leksikografsko je djelo koje predstavlja leksičke jedinice unutar predmetnih (tematskih) skupina i organizira ih u hijerarhijsku strukturu osmišljenu za predstavljanje konceptualiziranog znanja o svijetu.

U okviru istog kriterija provodimo daljnju podjelu tipova. Dakle, ideografski tezaurus predstavljen je sa sljedeće 4 vrste:


Ideografski tezaurus sam.

Tematski rječnik.

Sustavni rječnik.

Predmetno-sustavni rječnik


Ideografski tezaurus sam po sebi je posebna vrsta ideografskog rječnika čija je makrostruktura organizirana u skladu s apriornom sinoptičkom kartom koja se nadovezuje na leksički sastav jezika. Za razliku od drugih vrsta ideografskog rječnika, sam ideografski tezaurus karakterizira logična i strogo uređena klasifikacijska struktura temeljena na znanstvenoj taksonomiji, čak i ako je opći rječnik podložan leksikografskom opisu (New Webster "Thesaurus. Landoll, 1991.).

Tematski rječnik posebna je vrsta ideografskog tezaurusa, čija je glavna jedinica makrostruktura tematska skupina, koja uključuje lekseme kombinirane na temelju klasifikacije njihovih oznaka (referenti) i razmatrane sa stajališta njihove relevantnosti na određenu temu.

Sustavni rječnik posebna je vrsta ideografskih tezaurusa čija klasifikacijska struktura ima za cilj predstavljati stvarne semantičke odnose koji postoje između leksičkih jedinica jezika. U svojoj osnovi, klasifikacijska struktura predstavlja leksičku i gramatičku klasifikaciju vokabulara, drugim riječima, njegovu paradigmatsku strukturu, opisanu u smislu podređenosti i sastava.

Tematsko-sustavni rječnik posebna je vrsta ideografskog rječnika, koji je kombinacija tematskog i sustavnog rječnika.

Sažetak. Razmatrana klasifikacija jezičnih tezaura uključuje sljedeće vrste rječnika: analogni tezaurus (terminologija VV Morkovkina); ideografski (ideološki) tezaurus (terminologija L.V.Scherbe i V.V. Morkovkina); izv. prof. tezaurus (terminologija Yu.N. Karaulov). Sljedeći će biti predstavljen pop. tezaurusa i otkrivaju se njihove značajke.

3.4. Popularni tezaurusi i njihove značajke

Najpoznatiji od dostupnih rječnika tezaurusa, kojima ovaj pojam duguje svoje postojanje, nastao je na temelju engleskog jezika; to je stalno preštampani tezaurus P.M. Tezaurus engleskih riječi i izraza Rogera Rogeta (1852).

Važno je napomenuti da je autor Tezaurusa engleskih riječi i izraza u to vrijeme u potpunosti iskoristio svoje iskustvo. "Načelo koje sam slijedio pri razvrstavanju riječi", piše P.M. Roger je isti onaj koji se koristi za razvrstavanje pojedinaca u različita područja prirodne povijesti. Stoga odjeljci koje sam istaknuo odgovaraju prirodnim obiteljima botanike i zoologije, a redovi riječi cementirani su istim odnosima koji ujedinjuju prirodne redove biljaka i životinja. "

P.M. Roger je vjerovao da je uvjerljiva klasifikacija riječi prema njihovom značenju nemoguća sve dok se objekti stvarnosti koji se nazivaju tim riječima ne prouče i ne organiziraju na odgovarajući način. Stoga svoj rad započinje podjelom konceptualnog polja engleskog jezika u četiri velike klase: apstraktni odnosi, prostor, materija i duh (um, volja, osjećaji). Te se klase dalje dijele na niz rodova, koji se pak dijele na određeni broj vrsta.

Među nedostacima ideografskog rječnika P.M. Rogerovi znanstvenici pripisuju sljedeće: 1) ne baš uvjerljivu nomenklaturu osnovnih konceptualnih klasa; 2) apstraktna dosljednost prevladava nad prirodnim vezama riječi; 3) relativna neugodnost korištenja (u velikoj mjeri ovaj se nedostatak ispravlja u sljedećim izdanjima).

U modernoj ruskoj leksikografiji postoji nekoliko rječnika koje treba klasificirati kao rječnike tezaurusa (ideografski rječnici). Ovo je, na primjer, nastalo pod vodstvom Yu.N. Karaulov "Ruski semantički rječnik", "Ruski semantički rječnik" uredio N.Yu. Shvedova, "Tematski rječnik ruskog jezika" L.G. Sayakhova, D.M. Khasanova i V.V. Morkovkina, "Rječnik leksičko-semantičkih skupina ruskih glagola", ur. E.V. Kuznetsova, "Ideografski rječnik ruskog jezika" O.S. Baranov, "Koncept unutarnjeg svijeta čovjeka na ruskom jeziku" V.I. Ubiyko, opsežan obrazovni rječnik "Leksičke osnove ruskog jezika" pod vodstvom V.V. Morkovkin.

Upoznajmo se s nekima od njih.

Rječnik-tezaurus modernih ruskih idioma "uredio A.N. Baranova i D.O. Dobrovolsky uključuje četiri glavna dijela: 1) sinopsis; 2) legenda; 3) glavni dio Rječnika tezaurusa; 4) pokazivači. Svrha sinopsisa je pružiti pregled strukture Glavnog korpusa tezaurusa. Navodi sve svojte s podtaksonima i odgovarajućim paradigmatskim referencama. Glavni korpus Rječnika tezaurusa zbirka je rječničkih zapisa kombiniranih u grupe (svojte) i podgrupe (podtaksoni) u skladu sa značenjem idioma koji su u njima opisani. Svaki članak sadrži idiom i primjere njegove uporabe na suvremenom ruskom jeziku. Sinopsis, Legend, Pointers servisni su dijelovi gore spomenutog Rječnika-tezaurusa, koji korisniku omogućuju brz i učinkovit rad. Legenda se koristi u slučajevima kada primjeri uporabe idioma nisu potrebni, jer reproducira sve informacije osim primjera. Zapravo, ovo je rječnik Rječnika. Jedinice vokabulara su leme. Lema je u ovom slučaju idiom u svom izvornom (rječničkom) obliku i uključuje, ako je moguće, sve njegove bitne varijante. Na primjer, idiom mirovanja dio je leme za označavanje vremena, mirovanje i klizanje na mjestu.

Rječnik sadrži dvije točke. Na kraju knjige nalazi se članak "Teorijski koncept Rječnika-tezaurusa moderne ruske ideomatike", koji detaljno analizira znanstvene značajke ovog projekta.

"Ruski semantički rječnik", nastao pod vodstvom Yu.N. Karaulova uključuje 10 tisuća ruskih riječi, koje su podijeljene u 1600 konceptualnih skupina. Odabir skupina temelji se na ponavljajućim elementima tumačenja riječi u rječnicima objašnjenja: na primjer, "radnja", "svojstvo", "instrument" itd.

"Ruski semantički rječnik", nastao pod vodstvom akademika N.Yu. Shvedova, temelji se na nešto drugačijim načelima tipičnim za sastavljanje ideografskih i objašnjenih rječnika. Prvo, sve riječi jezika ovdje su podijeljene u četiri klase: 1) označavaju jedinice (zamjenice), 2) imenuju (značajne riječi), 3) zapravo povezuju (veznici, prijedlozi, povezuju glagole), 4) klasificiraju (modalne riječi, čestice, uzvici). Drugo, unutar svakog razreda sve su riječi podijeljene na dijelove govora. Treće, unutar svakog dijela govora skupovi i podskupovi se identificiraju na temelju tematske blizine ili, obrnuto, suprotstavljanja značenja riječi.

DUDEN je knjiga sa slikama (crtežima) na lijevoj strani (prema drugom softveru) s numeriranim detaljima (do najmanjih). S desne strane, ovaj numerirani popis popraćen je naslovima (čak i na dva jezika). Na primjer, cijela stranica sadrži željezničku opremu, postaje, kolosijeke. Desno su nazivi strelica, semafora, štaka itd.

"Tematski rječnik ruskog jezika" L.G. Sayakhova, D.M. Khasanova i V.V. Morkovkina sadrži 25 tisuća leksičkih jedinica, grupiranih u tri velike klase: "Čovjek", "Društvo", "Priroda", koje se postupno granaju u manje podrazrede. Na primjer, u klasi "Ljudski" podrazredi "Ljudsko tijelo i organizam", "Ljudski život", " Izgled, ljudski izgled "," Emocionalni izgled osobe "itd. Svaka od potklasa je pak podijeljena na još posebnije:" Emocionalni svijet osobe "-" Mentalna svojstva osobe "-" Temperament "," Lik "-" Opće karakterne osobine "itd. Značenje i upotreba riječi koje pripadaju svakom razredu ilustrirane su najčešćim izrazima. Na primjer, riječ "smijeh", koja se nalazi u podgrupi "izraz osjećaja, emocija" razreda "Osoba", popraćena je naznakom takvih kombinacija s ovom riječju kao veseli smijeh, radostan smijeh, dječji smijeh, prasak u smijeh itd.

Sažetak. Jedan od najučinkovitijih alata za opisivanje pojedinih predmetnih područja, osobito u elektroničkom obliku, su tezaurusi.

Izraz tezaurus odavno se naširoko koristi u lingvistici za označavanje posebna vrsta rječnici, u jednoj ili onoj mjeri koji odražavaju "sliku svijeta", "jezični model svijeta" (prema Yu.N. Karaulovu). Tezaurus kao "riznica" narastao je u svom semantičkom volumenu i dobio novo značenje. Počeli su nazivati ​​rječnik koji ne samo da upija svo leksičko bogatstvo jezika, već ih organizira na određeni logičko-sustavni način. U rječniku tezaurusa riječi se okupljaju u skupine, a do ove kombinacije dolazi na temelju sposobnosti riječi da prenese određeni pojam.

Rječnik tezaurusa oduvijek se u lingvistici smatrao nekom vrstom univerzalnog sustava koji osigurava pohranu kolektivnog (za određeno društvo) znanja o svijetu u verbalnom obliku. Za razliku od drugih rječnika, rječnik tezaurusa čuva ovo znanje u strukturiranom obliku koji odražava naše ideje o "strukturi svijeta".

Najpoznatiji i najpopularniji tezaurusi u današnje vrijeme su engleski Roger Thesaurus, Ideografski rječnik ruskog jezika O.V. Baranova, Ruski semantički rječnik Yu.N. Karaulova, Ruski semantički rječnik akademika N.Yu. Shvedova, DUDEN, Tematski rječnik ruskog jezika L.G. Sayakhova, D.M. Khasanova i V.V. Morkovkin.

U skladu sa zaključcima prvog poglavlja, tezaurus, čijem je sastavljanju i proučavanju posvećen naš rad, ideološki je tematski rječnik "Planinski i pješački turizam". Sastojat će se od vokabulara ruskog i španjolskog jezika.

Stoga je za sastavljanje tezaurusa potrebno riješiti niz problema:

Istaknite pojmove koji opisuju predmetno područje;

Provesti logičku podjelu pojmova u semantičke skupine;

Usporedite pojmove ruskog i španjolskog jezika;

Rasporedite grupe po abecedi.

Metode i algoritam za ručno sastavljanje tezaurusa

Tezaurus za pretraživanje informacija rječnik je koji je ručno sastavio stručni lingvist, stručnjak na području izgradnje rječnika i semantičkih izvora. Prilikom sastavljanja takvog rječnika zadatak je dobiti tezaurusov opis jednog ili više predmetnih područja, dok često postoji korpus tekstova koji je osnova za izradu rječnika. Stručnjak analizira tekstualni korpus i, vođen tehnologijom ručne izrade tezaurusa, sastavlja popis pojmova koji opisuju zadano predmetno područje i uključuje njihov tezaurus kao deskriptore. Nakon toga se pojmovi grupiraju u pojmove te se među njima uspostavljaju hijerarhijski i asocijativni odnosi.

Postupak ručnog stvaranja tezaurusa karakteriziraju takvi nedostaci kao što su visoki troškovi i trajanje stvaranja izvora, uvjetovanost rezultata iz kvalifikacija stručnjaka, nemogućnost ručne analize cijelog korpusa tekstova i neki drugi. Očigledno je da pri ručnom sastavljanju tezaurusa stručnjak mora koristiti postojeće metode dohvaćanja informacija i internetske tražilice- sustavi.

Prije svega, dvojezični tezaurus ne predstavlja prijevod riječi po riječi, njegova struktura je popis leksema na ruskom jeziku koji je organiziran na temelju blizine semantičkog značenja - definicija pojma na ruskom - definicija pojma u strani jezik- popis opcija teksta na stranom jeziku. U tom slučaju, popisi leksičkih jedinica trebali bi biti što potpuniji sa svake strane, uključujući i one izraze koji se obično ne pojavljuju u rječnicima, jer se osobi čine očigledni.

Prilikom stvaranja tradicionalnih dvojezičnih rječnika, glavni cilj je osigurati skup najčešćih prijevoda riječi u različitim tekstovima. Prijevodi su dati kao s marginom, popis prijevoda uključuje i točne prijevode i prijevode sa užim značenjem i sa širim (zbog toga španjolsko-ruski i rusko-španjolski rječnici nisu reverzibilni). Pretpostavlja se da će čitatelj razumjeti kontekst koji prijevod odabrati.

Glavni koraci u sastavljanju tezaurusa su sljedeći:

1) Prethodna obrada korpusa teksta radi isticanja ključnih riječi.

2) Formiranje skupa riječi i izraza za uključivanje u tezaurus i proučavanje odnosa između deskriptora tezaurusa. Stručnjak, vođen ovim skupom, sastavlja popis ključnih pojmova predmetnog područja.

3) Dodjela hijerarhijskih odnosa između deskriptora (u našem slučaju - abecednim redom) i njihova klasifikacija (u našoj studiji, klasifikacija se temelji na semantičkim odnosima između deskriptora).

4) Izgradnja skupa asocijativnih odnosa između deskriptora na ruskom i španjolskom.