Thesaurus: che cos'è. Un dizionario dei sinonimi che è più di un dizionario. Thesauri Algoritmo per la compilazione di un thesaurus di un dizionario

CAMPIONE

Sin: modello, campione, esempio, campione, standard, norma, misurazione, campione, standard, rappresentante tipico, modello, stencil, prototipo, disegno, costruzione, disegno, modello, gestalt, cornice

Thesaurus della lingua russa. 2012

Vedi anche le interpretazioni, i sinonimi, i significati della parola e qual è il SAMPLE in russo nei dizionari, nelle enciclopedie e nei libri di riferimento:

  • CAMPIONE
    HAFDASA 1927 - Pistola automatica argentina calibro 22. Era un esercito...
  • CAMPIONE nell'Enciclopedia illustrata delle armi:
    SPERIMENTALE - copie singole di qualsiasi disegno di armi da fuoco, non accettate per serial ...
  • CAMPIONE nell'Enciclopedia illustrata delle armi:
    MUSHKETA - Fucile a capsule americano del 1849-1855. calibro 58 con canna. Lunghezza 1016...
  • CAMPIONE nell'Enciclopedia illustrata delle armi:
    FUCILE - Fucile a capsule americano 1849-1855 calibro 58. Lunghezza 838...
  • CAMPIONE nell'Enciclopedia illustrata delle armi:
    70 - Pistola automatica cecoslovacca, calibro 7, 65 ...
  • CAMPIONE nell'Enciclopedia illustrata delle armi:
    63 - Mitragliatrice polacca da quindici e venticinque colpi di calibro 9 mm. Lunghezza con calcio 583 mm, senza calcio 330 mm. Il peso …
  • CAMPIONE nell'Enciclopedia illustrata delle armi:
    61 - Mitra cecoslovacca a dieci e venti colpi calibro 7, 65 mm. Lunghezza con calcio 513 mm, senza calcio 269 mm. ...
  • CAMPIONE nell'Enciclopedia illustrata delle armi:
    58 P - Mitragliatrice cecoslovacca da trenta colpi di calibro 7,62 mm. Lunghezza 820mm. Peso 3140...
  • CAMPIONE nell'Enciclopedia illustrata delle armi:
    58 V - Mitragliatrice cecoslovacca da trenta colpi di calibro 7,62 mm. Lunghezza con calcio 820 mm, senza calcio 635 mm. Il peso …
  • CAMPIONE nell'Enciclopedia illustrata delle armi:
    52 —1. Vedere CHZET-513. 2. Carabina automatica cecoslovacca a dieci colpi di 7,62 mm. Lunghezza 1003mm. Peso 4100...
  • CAMPIONE nell'Enciclopedia illustrata delle armi:
    50 - Pistola automatica cecoslovacca, calibro 7, 62 mm. Copia ridotta di CHZET-513. era in servizio...
  • CAMPIONE nell'Enciclopedia illustrata delle armi:
    25 - 1. Mitra cecoslovacco da ventiquattro e quaranta colpi di calibro 9 mm. Lunghezza con calcio 686 mm, senza calcio 445 mm. Il peso …
  • CAMPIONE nell'Enciclopedia illustrata delle armi:
    23 - Mitra cecoslovacco da ventiquattro e quaranta colpi di calibro 9 mm. Lunghezza 686mm. Peso 3270...
  • CAMPIONE nell'Enciclopedia illustrata delle armi:
    16/33 - Carabina caricatore cecoslovacco a cinque colpi di 7, 92 mm. Lunghezza senza baionetta 995 mm, con baionetta 1305 mm. Il peso …
  • CAMPIONE
    INDUSTRIALE - vedi MODELLO INDUSTRIALE ...
  • CAMPIONE nel Dizionario dei termini economici:
    - una copia unica rappresentativa del prodotto utilizzato per la pubblicità, in occasione di mostre, a scopo di familiarizzazione, esposizione a potenziali ...
  • CAMPIONE nel Dizionario Enciclopedico:
    , -ztsa, m 1. Prodotto indicativo o di prova; campione (in 2 valori). 06 campioni di terreno. Campioni di minerali. Campioni di prodotti. Industriale circa. (nuovo, ...
  • CAMPIONE nel grande dizionario enciclopedico russo:
    CAMPIONE INDUSTRIALE, vedere Industriale ...
  • CAMPIONE nel paradigma accentato completo di Zaliznyak:
    campione "c, campioni", campione ", campione" v, campione ", campione" m, campione "c, campioni", campione "m, campioni" mi, campione ", ...
  • CAMPIONE nel Dizionario esplicativo ed enciclopedico popolare della lingua russa:
    -zts "a, m. 1) (di solito cosa) Una copia indicativa o di prova di un prodotto, materiale; parte di... sostanza, prodotto, dare un'idea...
  • CAMPIONE nel Dizionario per la risoluzione e la compilazione di scanword:
    … per …
  • CAMPIONE nel Thesaurus del vocabolario commerciale russo:
  • CAMPIONE nel Dizionario dei sinonimi di Abramov:
    campione, prototipo, prototipo, tipo, prototipo, ideale, modello, originale, esempio; modello. Prot. ... Vedi ideale, esempio, ...
  • CAMPIONE nel dizionario dei sinonimi della lingua russa:
    Syn: modello, campione, esempio, campione, standard, norma, misurazione, campione, standard, rappresentante tipico, modello, stencil, prototipo, disegno, disegno, disegno, modello, ...
  • CAMPIONE nel Nuovo dizionario esplicativo e derivativo della lingua russa di Efremova:
    m.1) Copia approssimativa, indicativa o di prova di un l. prodotto, materiale, ecc. 2) a) Indicativo esempio di smth.... (quali qualità, comportamento, ...

Uno dei nuovi concetti di base che sono apparsi a seguito dello sviluppo di metodi meccanici di elaborazione delle informazioni, in particolare, durante la traduzione da una lingua all'altra, la ricerca di informazioni scientifiche e tecniche e la creazione di un modello informativo di un'impresa nei sistemi di controllo automatizzati , era il concetto di thesaurus del sistema informativo. Il termine "thesaurus" implica un corpo di conoscenze sul mondo esterno - questo è il cosiddetto thesaurus del mondo T. Tutti i concetti del mondo esterno, espressi usando il linguaggio naturale, costituiscono un thesaurus, da cui si possono distinguere i thesauri privati per divisione gerarchica, tenendo conto della subordinazione dei singoli concetti o separando parti del thesaurus generale del mondo. Il thesaurus nei sistemi di recupero delle informazioni svolge un ruolo importante nella ricerca il documento richiesto per parole chiave. Pertanto, la costruzione di un thesaurus è un compito difficile e cruciale. Ma questo compito può anche essere automatizzato.

La classificazione nella sua definizione più generale è un partizionamento e un ordinamento di insiemi. Si chiama distribuzione degli oggetti in classi sulla base di una caratteristica comune inerente a questi fenomeni o oggetti e distinguendoli dagli oggetti e dai fenomeni che compongono altre classi. Ogni classe può essere subclassata secondo necessità. Il rubricatore è un tipo speciale di classificazione. Pertanto, sono creati sulla base di disposizioni generali:
basi scientifiche per costruire una classificazione;
 riflesso dell'attuale livello di sviluppo della scienza;
disponibilità di un sistema di collegamenti e referenze, nonché di un apparato di riferimento e di riferimento (CCA).

Tuttavia, il rubricatore è una classificazione pragmatica basata sui flussi di informazioni e sulle esigenze degli specialisti. Questa è la sua differenza da classificazioni a priori come UDC e IPC.

Le principali funzioni delle classificazioni e, in particolare, del rubricatore sono le seguenti:
 delimitazione tematica dei sottosistemi informativi;
 formazione di array di informazioni secondo qualsiasi criterio;
 sistematizzazione di materiali informativi e pubblicazioni;
 ricerca attuale e retrospettiva;
 indicizzazione di documenti e quesiti;
 relazione con altri schemi di classificazione;
funzioni normative.

Sono costruiti dividendo concetti - oggetti di classificazione sulla base di relazioni stabilite tra gli attributi di questi oggetti secondo determinati principi logici. Il criterio con cui viene effettuata la classificazione è chiamato base per la divisione della classificazione. Nelle classificazioni, i metodi di deduzione e induzione sono ampiamente utilizzati per fissare gruppi, classi e identificare le connessioni tra loro. Questo è tipico delle classificazioni gerarchiche. La profondità della classificazione (il numero di livelli nella gerarchia) può variare a seconda dello scopo. Una delle rubriche ampiamente utilizzate è il rubricatore statale dell'informazione scientifica e tecnica (SRSTI).

Il rubricatore GRNTI è progettato in modo tale che sia possibile condivisione con altre classificazioni come UDC e IPC. La Classificazione Decimale Universale (UDC) esiste da più di 70 anni, ma non ha ancora eguali nella sua ampiezza di distribuzione ed è utilizzata in molti paesi del mondo. L'UDC copre l'intero universo della conoscenza ed è utilizzato con successo per la sistematizzazione e la successiva ricerca di un'ampia varietà di fonti di informazione.

Oltre all'UDC, nella pratica è ampiamente utilizzata la classificazione bibliotecaria e bibliografica (LBC). LBC si basa sui principi della subordinazione logica e rappresenta una classificazione di tipo applicata.
V Federazione Russa per la classificazione delle invenzioni e la sistematizzazione delle raccolte nazionali di descrizioni delle invenzioni, viene utilizzata la classificazione internazionale dei brevetti, una classificazione multidimensionale piuttosto complessa, costruita sul principio funzionale e settoriale. Gli stessi concetti tecnici possono essere trovati in IPC o classi speciali (secondo l'industria) o nelle classi funzionali (secondo il principio di funzionamento). Il principio settoriale della distribuzione dei concetti comporta la classificazione degli oggetti in base all'applicazione in un particolare ramo della tecnologia e della tecnologia storicamente stabilito.

Le caratteristiche comparative del rubricatore GRNTI, UDC, LBC e IPC sono mostrate nella Tabella 1.

Tabella 1
Caratteristiche del rubricatore GRNTI, UDC, BBK e MPK

Nome

Struttura

Il principio della disposizione delle divisioni

Schema di partizionamento

gerarchico

Industria

Dal generale allo specifico

gerarchico

tematico

gerarchico

Funzionale e industriale

Dal generale allo specifico

LBC per biblioteche scientifiche

gerarchico

Industria

Dal generale allo specifico, per specie


Pertanto, è possibile identificare le principali caratteristiche distintive dei rubricatori e dei classificatori:
 sono caratterizzati da natura applicata e focus settoriale;
 si tratta di sistemi aperti che dipendono dallo sviluppo della scienza e della tecnologia, dai bisogni e dalle richieste degli specialisti;
 sistemi inorganici, poiché gli oggetti sorgono e si sviluppano nell'ambiente e da esso entrano in essi. Gli elementi possono esistere indipendentemente al di fuori del sistema. Questa caratteristica è strettamente correlata alla seconda caratteristica;
 l'elemento minimo è il concetto legato all'ambiente. Il concetto rappresenta un sistema di definizioni;
 Esistono connessioni tra i concetti sia verticalmente (genere-specie, parte intera) che orizzontalmente (specie-tipo, parte-parte), che indica la gerarchia dei sistemi.

Di conseguenza, la struttura ei principi di organizzazione delle classificazioni e delle rubriche consentono di automatizzare il processo di costruzione dei thesauri dell'area disciplinare utilizzando il metodo della deduzione. L'algoritmo per la costruzione di un thesaurus utilizzando il metodo della deduzione è mostrato in Fig. 1.

La base per la formazione del thesaurus è l'immagine di ricerca di un documento, un'attività o un'applicazione per la ricerca di informazioni, compilata dall'operatore. Pertanto, il primo passo è quello di ricercare e analizzare l'applicazione. Nella prima fase, l'operatore indica l'argomento o problema di interesse, le possibili parole chiave ei relativi sinonimi. Di conseguenza, otteniamo una comprensione superficiale dell'area tematica.

Riso. 1. Algoritmo per la costruzione di un thesaurus utilizzando il metodo della deduzione

Inoltre, viene formato un thesaurus di parole chiave KS utilizzando il metodo di deduzione, per il quale è necessario:
 array KS, che viene impostato dall'utente stesso, indicato in Figura 1 come MP;
array di KS, estratti dal task di ricerca, rispettivamente MZ.

Tuttavia, per una comprensione più completa e approfondita dell'area tematica, utilizziamo i rubricatori e gli schemi di classificazione esistenti (GRNTI, UDC, LBC, MPK). Al fine di massimizzare la copertura dell'area tematica, è necessario visualizzare tutti quelli disponibili. L'array rubricatore rappresenta MR. L'algoritmo di ricerca per deduzione si compone di due fasi:
1. Trovare concetti generici (Fig. 2);
2. Trovare termini specifici all'interno di concetti generici (Fig. 3).


Riso. 2. Elaborazione di un concetto generico

Carichiamo il primo rubricatore dall'array e organizziamo un ciclo per verificare la presenza di KS nei rubricatori inseriti dall'utente. Ogni KS viene cercato nell'elenco delle intestazioni e confrontato con un concetto generico o "nido", quindi viene verificata la condizione - c'è un riferimento a termini specifici. Se esiste un tale riferimento, il KS viene confrontato con i termini della specie. Se non vengono trovati collegamenti, passare al concetto generico successivo. Quando le parole chiave KS, inserite dall'operatore, sono state visualizzate, vai all'array di KS estratto dal task. La procedura di verifica è simile: stiamo cercando COP che corrispondano a concetti generici e quindi i loro collegamenti a termini specifici.


Riso. 3. Elaborazione dei termini di specie

Si noti che all'interno di ciascun concetto generico, è importante rivedere tutti i termini di specie disponibili per ottenere la massima comprensione dell'area problematica. Il risultato di queste azioni è la formazione di un array di parole chiave KS, che è un thesaurus completo corrispondente a un'attività di ricerca di informazioni o un'immagine di ricerca di un documento.

Sulla base di un set completo di immagini di ricerca dei documenti (denota), è possibile creare thesauri di ramo e un classificatore unificato della libreria. Ovviamente, l'insieme completo  stesso rappresenta il thesaurus più semplice.

Tuttavia, utilizzando il criterio di selezione
, (1)
possiamo costruire thesauri specifici del settore. Allo stesso tempo, l'insieme di tutti i thesauri specifici del settore forma un thesaurus completo
, (2)
le cui sezioni possono essere strutturate gerarchicamente secondo i requisiti del GOST secondo i principali classificatori (GRNTI, UDC, BBK, MPK) o secondo un classificatore unico interno.

L'automazione del processo di costruzione di un thesaurus e classificazione consente di facilitare al massimo il lavoro di un operatore che lavora con distribuito risorse di informazione.

Oltre a costruire un thesaurus, basato sull'immagine di ricerca di un documento, l'approccio proposto può essere utilizzato per il riepilogo automatico di un documento e il raggruppamento di testi.

Il riferimento ai documenti è uno dei compiti volti a fornire a specialisti esperti informazioni affidabili necessarie per prendere una decisione manageriale sul valore dei documenti ricevuti da Internet. La referenziazione è il processo di trasformazione dell'informazione documentaria, che si conclude con la preparazione di un abstract, e un abstract è una presentazione semanticamente adeguata del contenuto principale del documento primario, caratterizzata da una formattazione dei segni economica, la costanza del linguaggio e caratteristiche strutturali ed è progettato per svolgere una serie di funzioni di informazione e comunicazione nel sistema della comunicazione scientifica. L'algoritmo per la sintesi dei documenti è mostrato in Fig. 4.


Riso. 4. Algoritmo per riassumere i documenti

In generale, l'algoritmo include le seguenti fasi principali.
1. La selezione delle frasi dal documento, caricato da Internet e situato nell'archivio dati, viene effettuato evidenziando i segni di punteggiatura e salvandolo nell'array.
2. Ogni frase è divisa in parole separando i separatori e salvarli in un array, e l'array è diverso per ogni frase.
3. Per ogni frase, per ogni parola di questa frase, conta il numero di parole nelle altre frasi (prima e dopo). La somma delle ripetizioni per ogni parola (prima e dopo) sarà il peso della frase data.
4. Il numero specificato di frasi con il fattore di ponderazione massimo e selezionale nell'abstract nell'ordine di apparizione nel testo.

Il modello proposto per la costruzione di un thesaurus e cataloghi tematici di un sistema informativo è una base teorica per automatizzare la ricerca semantica e consente a un esperto non solo di svolgere un lavoro di ricerca, ma anche in modalità automatizzata, di astrarre documenti ottenuti a seguito di un ricerca nei sistemi informativi distribuiti su Internet.

Letteratura:
1. Barushkova R.I. Schemi di classificazione delle informazioni scientifiche e tecniche. Manuale. indennità. - M., 1981 .-- Anni '80.
2. Barushkova R.I. Rubricator come schema di classificazione delle informazioni scientifiche e tecniche. Kit di strumenti. - M., 1980 .-- 38p.
3. Trusov AV, Babarykin E.P. Valutazione dei confini dell'area di una richiesta di informazioni tematiche nei sistemi informativi distribuiti. Materiali della conferenza tutta russa (con partecipazione internazionale) "Informazione, innovazione, investimenti", 24-25 novembre 2004, Perm / Perm Center for Science and Technology. - Perm, 2004. - P.76-79.
4. Yatsko V.A. Problemi logici e linguistici di analisi e astrazione di un testo scientifico. - Abakan: casa editrice dello stato di Khakass. Università, 1996 .-- 128 p.

Tecnologia informatica

Volume 12, Numero Speciale 2, 2007

TECNOLOGIA PER LA CREAZIONE DI UN TESAURO DI UN'AREA MATEMATICA BASATA SULL'INDICE DELLE MATERIE DELL'ENCICLOPEDIA

V. B. Barakhnin

Istituto di tecnologie computazionali SB RAS, Novosibirsk, Russia

e-mail: [e-mail protetta]

V. A. Nekhaeva Novosibirsk State University, Russia e-mail: [e-mail protetta]

Questo lavoro descrive una tecnologia per la creazione di thesaurus del dominio degli oggetti, che si basa sull'intestazione del soggetto per un'enciclopedia specializzata. Tale tecnologia offre una descrizione di alta qualità del dominio dell'oggetto utilizzando termini affidabili, consentendo così di costruire una prima fase del thesaurus con un impegno minimo di esperti in questo particolare campo della conoscenza. La tecnologia proposta contiene anche un algoritmo per la creazione di thesaurus e un'applicazione basata sul web che implementa questo algoritmo.

introduzione

Uno dei fattori più importanti per garantire il successo dell'attuazione dei progetti di ricerca sull'integrazione è un efficace supporto scientifico e informativo. In particolare, il lavoro congiunto di ricercatori di diverse specialità (peraltro, non sempre correlate) richiede un attento coordinamento della terminologia utilizzata, perché lo stesso concetto può essere indicato in diversi campi della scienza con termini diversi e con un termine - concetti diversi.

Un'altra sfida supporto informativo progetti - realizzazione di una scheda integrata delle descrizioni bibliografiche dei documenti (es. articoli, libri, ecc.) sull'argomento del progetto, compilata unendo le risorse dei ricercatori collaboratori, ognuno dei quali ha già accumulato una scheda su un particolare argomento nel corso degli anni (attualmente tali indici delle carte sono conservati, di regola, su supporti elettronici). Per facilitare la ricerca nell'indice delle schede, è auspicabile che le parole chiave che caratterizzano i documenti siano selezionate, ove possibile, da un unico dizionario. Per la classificazione automatica dei documenti inseriti nell'indice della carta o eventualmente inseriti in esso da banche dati elettroniche

© Institute of Computational Technologies, filiale siberiana dell'Accademia delle scienze russa, 2007.

pubblicazioni scientifiche come un database di riviste astratte, "Current Contents", ecc., sembra appropriato utilizzare l'algoritmo di indicizzazione delle coordinate. Questo algoritmo si basa sulla considerazione delle caratteristiche di classificazione dei termini (parole e frasi) inclusi nel testo che caratterizzano una particolare area tematica.

La soluzione di tutti i compiti sopra elencati è impossibile senza creare un dizionario dei termini dell'area disciplinare, e in questo dizionario dovrebbero essere stabiliti i collegamenti tra i termini e dovrebbe essere effettuata la classificazione dei termini. Tale dizionario è chiamato thesaurus (vedi dettagli in). Un thesaurus (o thesaurus normativo) è un dizionario di riferimento contenente tutte le unità lessicali di un linguaggio di information retrieval - descrittori (insieme a parole chiave che all'interno di questo sistema di information retrieval sono considerate sinonimi di questi descrittori), e i descrittori nel dizionario devono essere sistematizzati secondo senso, e le connessioni semantiche tra di loro sono espresse esplicitamente.

Tuttavia, la compilazione del thesaurus "con tabula rasa"può richiedere un contributo di lavoro molto significativo di esperti, che devono raccogliere tutti i termini che coprono sufficientemente l'area tematica, concordare sui loro significati, stabilire collegamenti ed effettuare una classificazione. Analoghe difficoltà che sorgono nel risolvere un compito importante ma ancora ausiliario sono negativamente influenzare le prospettive della sua soluzione.

Abbiamo sviluppato e implementato una tecnologia per la creazione di un thesaurus basato sull'indice per argomenti di enciclopedie specializzate. Questa tecnologia fornisce una descrizione altamente qualificata dell'area tematica utilizzando termini verificati in modo affidabile, consentendo Primo stadio costruire un thesaurus con il minimo coinvolgimento di specialisti - esperti nella determinata area tematica. Una presentazione dettagliata e una giustificazione dell'algoritmo sono fornite nel lavoro. Di seguito è riportata una breve descrizione dell'algoritmo, nonché dell'applicazione web che lo implementa.

1. Algoritmo per la creazione di un dizionario dei sinonimi

Si propone di utilizzare l'indice per argomenti di un'enciclopedia specializzata (o più enciclopedie) come elenco di parole chiave e frasi per il thesaurus. La scelta di una particolare enciclopedia è fatta da uno specialista della materia e questa scelta dipende dagli obiettivi perseguiti durante la creazione del thesaurus. Quindi, per risolvere problemi ambientali complessi, è consigliabile utilizzare enciclopedie (o, in loro assenza, dizionari enciclopedici) in fisica, chimica, geologia, biologia, medicina, matematica, ecc. , quindi, almeno, come elenco di base di parole chiave, che verranno reintegrate se necessario.

Gli indici per argomento della maggior parte delle enciclopedie sono strutturati in modo simile: contengono termini che sono i nomi degli articoli dell'enciclopedia, termini le cui definizioni sono fornite negli articoli, nonché i risultati più importanti menzionati negli articoli.

I nomi degli articoli dell'enciclopedia sono presi come descrittori (cioè i termini che sono i nomi di classi di concetti simili), e le parole dell'indice dei soggetti che si trovano nel corrispondente

articoli. Il vantaggio principale di questo metodo è che non è necessario essere esperti in una determinata area disciplinare per stabilire i tipi di relazioni tra i termini - la conoscenza generale è sufficiente per comprendere il testo dell'enciclopedia - informazioni più specifiche richieste nel processo di i concetti di classificazione possono sempre essere ricavati da un articolo specifico ...

Poiché il thesaurus creato è progettato per funzionare utilizzando il protocollo Z39.50, i tipi di collegamenti sono stabiliti in conformità con le raccomandazioni dello schema / llies, che distingue i seguenti tipi:

BT - connessione con un termine parentale, cioè con un termine di significato più ampio;

NT è un collegamento con un termine figlio, cioè con un termine di significato più ristretto. Il rapporto BT - NT è reciproco;

USE è un collegamento al termine che viene invece utilizzato;

UF - UTILIZZARE il feedback reciproco;

RT è un collegamento che definisce un termine correlato;

LE - relazione tra termini linguisticamente equivalenti;

FE sono termini completamente identici.

Inoltre, la classificazione dei descrittori viene effettuata in conformità con le sezioni di questa area tematica. La scelta di un classificatore specifico, così come la scelta di un'enciclopedia, è effettuata da un esperto e, nel caso di utilizzo di più enciclopedie di diverse aree disciplinari, è possibile utilizzare più classificatori specializzati. Tra i descrittori e le sezioni del classificatore vengono stabiliti collegamenti della forma NT, RT, LE (FE), mentre la classificazione dovrebbe utilizzare, se possibile, sezioni di livello più basso.

Successivamente, alle parole chiave associate al descrittore dalle relazioni BT, USE, RT, LE e FE viene assegnato lo stesso numero di classificazione del descrittore. Tuttavia, ciò non esclude una situazione tale che se il descrittore è assegnato a una classe non del livello più basso, nel successivo lavoro dell'esperto, i termini associati al descrittore dalle relazioni BT e USE possono essere assegnati alla classe di livello inferiore. In questo caso, i termini specificati diventeranno essi stessi descrittori.

Di conseguenza, tutti i termini inclusi nell'indice per argomenti sono classificati in base alle sezioni di questa area tematica.

2. Descrizione del funzionamento dell'applicazione web

Tuttavia, il processo di costruzione di un thesaurus secondo questa metodologia comporta una grande quantità di lavoro di routine e, inoltre, richiede la partecipazione di una persona con capacità di programmazione. Pertanto, oltre alla metodologia, è stata sviluppata un'applicazione web che ha un'interfaccia user-friendly e supporta le seguenti funzioni:

1) traduzione automatica delle informazioni dalle pagine digitalizzate dell'indice delle materie in una tabella di database;

2) evidenziare i descrittori nell'elenco generale dei termini;

3) ricercare termini associati ad un dato descrittore e impostare i tipi di link secondo lo schema Zthes.

È importante notare che non sono necessarie competenze di programmazione per completare tutte le operazioni di cui sopra.

L'applicazione sviluppata è universale, ad es. può essere utilizzato per creare thesauri di varie aree tematiche. Al momento, il programmatore sta eseguendo la conversione del programma dall'indice per argomenti di un'enciclopedia all'indice per argomenti di un'altra (e solo in questa fase i processi di costruzione dei thesauri di diverse aree tematiche possono differire), tuttavia, il lavoro è in corso di integrare il programma con funzioni che consentano all'utente di effettuare tale operazione. non avere capacità di programmazione.

L'applicazione funziona come segue. Le pagine indice digitalizzate vengono elaborate automaticamente. L'utente specifica la posizione del file di testo con i dati, dopodiché viene letto riga per riga e i termini stessi vengono inseriti nel database, nonché informazioni sui numeri delle pagine dell'enciclopedia in cui si trovano (Fig. .1).

I descrittori dall'elenco generale delle parole chiave sono selezionati dall'utente stesso, contrassegnando i termini di ricerca nell'elenco visualizzato sullo schermo. \ ob-appopio supporta anche la funzione fix possibili errori(fig. 2). Ricordiamo che tutti i termini trovati nell'articolo dell'enciclopedia ad esso dedicato sono considerati associati a questo descrittore.

Per facilitare la ricerca di termini correlati, all'utente viene presentato solo un elenco di parole chiave che si trova nella stessa pagina del descrittore che ha scelto (infatti, per questo, abbiamo inserito nel database solo termini e informazioni sui pomori delle pagine ). Naturalmente, poiché l'articolo potrebbe non occupare l'intera pagina, i termini non necessari verranno inclusi nell'elenco. L'utente, effettuando i collegamenti,

Riso. 1. Entrata file di testo con termini dell'indice

№ Creazione del dizionario dei descrittori - Microsoft Internet Explorer!

File Modifica Visualizza Preferiti Servizio Aiuto

Q Indietro "©" @ | í | & uR Cerca ^ Preferiti -. v

Indirizzo; | ¡J§ http: ^ localhost / math_dict / Deskj-_Slovar / Descr / gen_ss.phtml; V ¡¿3 collegamenti di transizione y>

fiBár JOQQ- © - I * 1] 0 l de: * - F

1 Abaco | 1, 13 1111111

2 Automa abeliano | 1, 67 1111111

3 Oggetto raggruppato abeliano | 1, 1149 111 1 | |

4 Differenziale abeliano 11.13-15 I 2, 240 111111

5 Differenziale abeliano, base | 1, 13 1111111

6 Differenziale abeliano, divisore | 1, 15 | | | | | 1 |

7 Normale differenziale abeliano | 1, 14 1111111

8 Differenziale abeliano, normalizzato | 1, 14 1111111

9 Differenziale abeliano, periodo polare | 1, 14 | | | | | | |

10 Differenziale abeliano, periodo ciclico | 1, 14 1111111

11 Abeliano idempotente 14, 941 1111111

12 Integrale abeliano 11.15-17 1111111

13 Integrale abeliano, teorema di Abele | 1, 17 1111111

14 Integrale abeliano canonico | 1.16 ||||||

16 Integrale abeliano, matrice periodo | 1.16 ||||||

15 Integrale abeliano normale | 1, 16 |||||||

17 Integrale abeliano, periodo polare | 1.16 ||||||| 1S Integrale abeliano, periodo ciclico | 1, 16 | | | | |

19 Potenziale abeliano | 2, 239 1111111

20 Abelev un gruppo 11.17-20 1111111

21 Gruppo abeliano completamente scomponibile | 1.19 ||||||

22 Gruppo abeliano divisibile | 1, 19 |||||||

23 Gruppo abeliano finitomente generato | 1.18 1111111

24 Gruppo abeliano, criterio di Kulikov | 1, 18 | | | | | |

25 gruppo abeliano, zero | 3.1082 1111111

26 Gruppo abeliano, parte periodica | 1, 18 111 | |

http: // locdlhostymath_dict / Deskr_Slovar / Descr / goto, phtml? ss 1 + 4 + 1 + A + 1 + 3

j 5tartApache.bat

I Svoj.NET: Modifica PHP

J Adobe Photoshop || w

^ Intranet locale

EN Sch/m K 21: 0;

Riso. 2. Elenco di parole chiave e descrittori di evidenziazione

Riso. 3. Scelta dei termini correlati

Riso. 4. Stabilire i tipi di connessioni.

seleziona solo una parte delle parole chiave dall'elenco proposto, tuttavia, questa automazione riduce significativamente la quantità di lavoro di routine (Fig. 3).

Lo stagno della relazione tra il descrittore e la parola chiave viene specificato compilando l'apposito modulo (Fig. 4).

Conclusione

L'operatività di questo algoritmo e dell'applicazione web è stata testata creando un thesaurus di alcune sezioni dell'area tematica "Matematica" ("Equazioni differenziali", "Equazioni differenziali parziali", "Analisi numerica", "Meccanica dei fluidi", ecc. .) sulla base dell'indice tematico "Enciclopedia della matematica". Si è riscontrato che per la classificazione dei termini e l'instaurazione di collegamenti tra di essi è sufficiente un titolo di laurea (a condizione che in rari casi sia coinvolto nelle consultazioni un esperto con una laurea scientifica). Ciò dimostra l'elevata efficienza dell'algoritmo sviluppato.

Bibliografia

Mikhailov A.I., Cherny A.I., Gilyarevsky P.C. Fondamenti di informatica. Mosca: Nauka, 1968.

Barakhnin V.B. Sviluppo del thesaurus dell'area disciplinare "Matematica" // Mater, conf. "Informatica e tecnologia dell'informazione in scienza, tecnologia e istruzione Parte 1. Novosibirsk, Almaty, Ust-Kamenogorsk, 2003. P. 111-115.

Zthes: un profilo Z39.50 per la navigazione nel thesaurus

http://lcweb.loe.gov/z3950/agency/profiles/zthes-04.html

3.1. Il concetto di thesaurus

Thesaurus (dal greco θήσαϋροξ - tesoro, riserva) o dizionario ideografico (dal greco idea - concetto, presentazione, idea e grafo - scrivo, descrivo) - nella linguistica moderna: 1) un tipo speciale di dizionari di carattere generale o speciale vocabolario, in cui le relazioni semantiche tra elementi lessicali; 2) un dizionario per la ricerca di una parola tramite la sua connessione semantica con altre parole; 3) un certo modo di organizzare (posizionare) le parole nel dizionario; 4) un modo di organizzare la composizione lessicale, che permetta di “modellare il mondo” economicamente.

Nel primo, primordiale, significato - deposito, tesoro, il termine thesaurus era usato da L.V. Shcherba nell'articolo "Esperienza in lessicografia generale" (la terza opposizione: il thesaurus è un dizionario ordinario (esplicativo o tradotto). Scrive lo scienziato: “Quando dicono thesaurus, oggi più spesso significano “Thesaurus linguae latinae ”, un'impresa di cinque accademie tedesche, iniziata nel 1900 e ancora portata con omissioni solo alla lettera M. Un tratto caratteristico Questo tipo di dizionari consiste nel fatto che contengono tutte le parole decisamente avvenute in una data lingua almeno una volta, e che sotto ciascuna parola si trovano decisamente tutte le citazioni dei testi disponibili nella data lingua. L'opposizione di cui sopra - thesaurus - un dizionario ordinario (esplicativo o di traduzione) - si basa sull'opposizione di "materiale linguistico" e "sistema linguistico" - i concetti che ho cercato di sostanziare nel mio articolo "Sul triplice aspetto dei fenomeni linguistici e sull'esperimento in linguistica."

Il secondo significato di questo termine è associato al noto dizionario-tesauro "Thesaurus parole inglesi ed espressioni "P.M. Roget (Roget's Thesaurus of English Words and Phrases, 1852) e la sua continuazione, il dizionario di OV Baranov.

In questa interpretazione, il termine thesaurus denota un certo modo di organizzare, collocando la composizione lessicale nel dizionario (vedi il terzo significato del termine).

Il quarto significato del termine thesaurus è associato al riconoscimento generale di un tale modo di organizzare la composizione lessicale, che consente di "modellare il mondo" economicamente. Da questo punto di vista, un dizionario-thesaurus è "un ordinamento sistematico del vocabolario di qualsiasi campo scientifico o tecnico, e nella forma più generale - vocabolario letterario generale, e inoltre, l'intero vocabolario di una data lingua".

Secondo Yu.N. Karaulov, un thesaurus linguistico generale, che fissa nella struttura e nelle relazioni delle sue intestazioni, sezioni, zone, aree le ampie possibilità di connessione non verbale di idee, assicura che i valori umani siano presi in considerazione.

UN. Baranov e D.O. Dobrovolsky nella prefazione "Dagli editori" al suo "Dizionario-thesaurus degli idiomi russi moderni" dà al thesaurus la seguente definizione: tipo speciale un dizionario che differisce dagli altri (in particolare, esplicativo, bilingue, ecc.) nel modo di organizzare il materiale linguistico. Nel thesaurus, le unità linguistiche non sono presentate in ordine alfabetico, come in un normale dizionario, ma sono raggruppate in base al loro significato.

L.P. Krysin chiama il thesaurus (dizionario ideografico) un dizionario esplicativo di tipo speciale, un dizionario "al contrario". "Se nel dizionario esplicativo, lo scienziato scrive, l'" ingresso "alla voce del dizionario è la parola e il contenuto della voce del dizionario è l'interpretazione del significato di questa parola, quindi nel dizionario ideografico l'" ingresso "è il significato, l'idea (da cui il nome di questo tipo di dizionari - ideografici) e il contenuto di una voce del dizionario è un elenco di parole che esprimono il significato dato. E se il dizionario esplicativo è uno strumento indispensabile per comprendere il testo, allora il dizionario ideografico può essere utilizzato per generare il testo: molto spesso una persona vuole esprimere un certo pensiero, ma non riesce a trovare parole adatte per questo; un dizionario ideografico facilita queste ricerche. Esistono due tipi principali di thesauri:

thesaurus linguistico - dizionario contenente un elenco di parole del linguaggio naturale selezionate a seguito di analisi significative dei testi e sistematizzate secondo il sistema di classificazione adottato;

thesaurus statistico è un dizionario di recupero delle informazioni contenente un elenco di parole selezionate a seguito di analisi statistiche di testi su un argomento specifico e raggruppate in voci di dizionario in base alla frequenza di occorrenza congiunta di tali parole negli stessi testi.

I thesauri per il recupero delle informazioni (IPT) facilitano la ricerca delle informazioni durante la loro elaborazione automatica. L'IPT rivela al massimo le relazioni semantiche tra le unità lessicali. Come affermato nello Standard statale per l'IPT, "un thesaurus monolingue per il recupero delle informazioni è un dizionario controllato e mutevole di unità lessicali basato sul vocabolario di una lingua naturale, che mostra relazioni semantiche tra unità lessicali e destinato all'elaborazione e al recupero delle informazioni".

L'unità di base dell'IPT sono i termini descrittori. La parte alfabetica, lessicale e semantica dell'IPT è una raccolta di voci descrittive.

I dizionari descrittivi sono destinati a una descrizione completa del vocabolario di una certa area e a fissarne tutti gli usi; registrano tutti i casi pertinenti disponibili. Un tipico esempio di dizionario descrittivo è il Dizionario esplicativo della grande lingua russa vivente di V.I. Dahl (la prima edizione in quattro volumi fu pubblicata nel 1863-1866). L'obiettivo del suo creatore non era quello di standardizzare la lingua, ma di descrivere completamente l'intera varietà del grande discorso russo, comprese le sue forme dialettali di volgare.

Ogni voce del dizionario del descrittore inizia con un descrittore, in cui i sinonimi di questo descrittore, così come altre unità lessicali associate al descrittore principale, relazioni generiche o associative, sono riportati di seguito all'interno dell'articolo GOST.

Quindi, thesauri, specialmente in formato elettronico, sono uno degli strumenti più efficaci per descrivere le singole aree tematiche.

Il thesaurus puro è raro. Nei veri thesauri, l'idea iniziale viene semplificata o vengono aggiunte informazioni aggiuntive, ma potenzialmente necessarie per l'utente. I più famosi oggi sono il "Dizionario semantico russo" di Yu.N. Karaulova, "Dizionario del nome identico" N.Yu. Shvedova, "Dizionario tematico della lingua russa" di L.G. Smekhova e altri.

Riepilogo. Il termine thesaurus L.V. Shcherba lo usava in relazione al dizionario, che registrava, quando possibile, tutti i contesti in cui ricorre la parola data. Una caratteristica dei thesauri è che contengono tutte le parole che sono avvenute in una data lingua almeno una volta, e sotto ogni parola ci sono tutte le citazioni dei testi disponibili nella data lingua. Il contenuto del dizionario del thesaurus è materiale linguistico e il contenuto di un dizionario ordinario è materiale linguistico e sistema linguistico (termini di L.V. Shcherba).

Questa caratteristica è completata da collegamenti incrociati di ogni tipo, più spesso paradigmatici (sinonimi o contrari), che indicano la comunanza o l'opposizione dei significati. Inoltre, varie assoc. link (es. link syntagm.).

Il compito del thesaurus (dizionario ideografico) è quindi quello di dare un'idea dell'organizzazione semantica di una certa fetta di materiale linguistico, mostrando i principali campi semantici, la loro struttura interna e le connessioni esterne. Il thesaurus è una chiara dimostrazione della natura sistemica della lingua, permettendo di vedere i molti tipi di relazioni che collegano singole unità linguistiche e gruppi di unità.

3.2. La storia della presentazione della conoscenza concettuale sul mondo sotto forma di thesaurus

La necessità di disporre le parole per somiglianza, contiguità, analogia dei loro significati è stata avvertita lungo tutta la storia osservabile del pensiero umano.

Per tracciare l'origine dell'idea di rappresentare la conoscenza concettuale sul mondo sotto forma di thesaurus, saremo aiutati facendo riferimento alla storia della compilazione dei thesauri (dizionari ideografici).

Quindi, agli albori della civiltà, quando le persone potevano esprimere i propri pensieri per iscritto solo con l'aiuto di ideogrammi e simboli, l'unico dizionario possibile era probabilmente quello in cui le parole erano disposte in gruppi tematici. Era semplicemente difficile per un lessicografo a quel tempo trovare un altro criterio per la classificazione delle parole, se non per le relazioni esistenti nella realtà stessa.

Sfortunatamente, non abbiamo prove del fatto che i popoli che usavano la scrittura ideografica avessero davvero tali dizionari. Tra i più antichi tentativi di classificazione ideografica a noi noti è chiamato Attikai Lexeis della grammatica greca, direttore della Biblioteca di Alessandria Aristofane di Bisanzio (morto nel 180 aC).

Nel II sec. n. NS. appare un'opera importante "Onomasticon", compilata sul materiale della lingua greca dal lessicografo e sofista Giulio Polluce (vero nome Polidevkus), originario della città egiziana di Navcratis. Y. Pollux ha scritto diverse opere, ma solo "Onomasticon" ci è sopravvissuto (Pollux Y. Onomasticon. M., 1956).


Onomasticon è composto da 10 libri. I libri sono essenzialmente trattati separati e contengono le parole più importanti relative a un particolare argomento. Così, il primo libro parla di dei e re; nel secondo - sulle persone, sulla loro vita e struttura fisiologica; nel terzo - sulla parentela e le relazioni civili, ecc. Le parole nel dizionario sono accompagnate da brevi spiegazioni. In tempi moderni, il dizionario è stato pubblicato per la prima volta nel 1502 a Venezia.

Tra II e III secolo n. NS. viene pubblicato il meraviglioso dizionario sanscrito "Amarakosha" (Amarakosha. Paris, 1839). Il suo autore è l'antica poetessa, grammatica e lessicografa indiana Amara Sina, chiamata "una delle nove perle che adornano il trono di Vikramaditya". Amarakosha, tradotto in russo, significa il tesoro di Amara. Il dizionario contiene 10 mila parole. Per una migliore memorizzazione dell'interpretazione dei significati delle parole, le voci del dizionario sono costruite sotto forma di versi. Tutto il materiale del dizionario è diviso in 3 libri. Ogni libro comprende diversi capitoli e il capitolo, a sua volta, se necessario, è diviso in più sezioni. Il primo libro è dedicato al cielo, agli dei ea tutto ciò che è direttamente correlato ad essi. Il secondo libro contiene parole relative alla terra, agli insediamenti, alle piante, agli animali e all'uomo (l'uomo è considerato prima come essere vivente, poi come essere sociale; si presenta ai nostri occhi l'intera struttura castale della società moderna; i sacerdoti, come I confidenti di Dio, sono in cima, e sotto ci sono i militari e i re, anche sotto ci sono i proprietari terrieri, e in fondo ci sono artigiani, giocolieri, servitori, ecc.). Il terzo libro è in realtà linguistico, come risulta dai titoli dei suoi sei capitoli.

Il dizionario divenne noto agli studiosi europei solo alla fine del XVIII secolo, quando nel 1798 fu pubblicata a Roma la sua prima parte. Fu pubblicato integralmente con una traduzione in inglese nel 1808 dal sanscritologo inglese G.T. Colebrooke. Nel 1839, la sua traduzione francese di A.L. Delonshan (AL Deslongchamps). Ulteriori sviluppi idee di classificazione semantica del vocabolario associate al problema della cosiddetta lingua mondiale.

Riepilogo. Questo è, nei termini più generali, il primo stadio nello sviluppo della tradizione della classificazione ideografica del vocabolario. Questa fase può essere definita la preistoria dei dizionari ideografici. Ora è consigliabile rivolgersi alla moderna classificazione dei dizionari thesaurus.

È facile vedere come le opere descritte siano diverse dai dizionari alfabetici. Se nei dizionari alfabetici la presentazione delle parole è regolata da uno strumento così condizionale e altamente neutro come l'alfabeto, allora nella costruzione di un dizionario ideografico, la visione del mondo del lessicografo stesso acquista un'importanza decisiva.

3.3. Principi per la classificazione dei dizionari thesaurus

Come già mostrato sopra, il problema della compilazione di una classificazione dei thesauri non è nuovo e per diversi decenni ha attirato l'attenzione di numerosi linguisti nazionali e stranieri (K. Marello, V.V. Morkovkin, L.P. Stupin, V.V.Dubichinsky, ecc. ). Il risultato della ricerca in questo settore è stata la creazione di classificazioni alternative di queste opere lessicografiche. Una delle ultime classificazioni si basa sui seguenti criteri: a) il tipo di connessioni semantiche tra unità di vocabolario; 2) il volume del vocabolario; 3) vocabolario generalizzato; 4) sviluppo del significato dei lessemi; 5) qualificazione grammaticale e stilistica dei lessemi; 6) dimostrazione del funzionamento dei lessemi; 7) il numero di lingue rappresentate; 8) il tipo di mezzi semiotici utilizzati per la semantizzazione dei lessemi. La classificazione denominata si basa sulle classificazioni create in precedenza da O.M. Karpova e I. Burkhanov (Burchanov I. Sulla descrizione ideografica degli aspetti stilisticamente e pragmaticamente rilevanti dei significati lessicali. Londra, 1996); la terminologia utilizzata nella classificazione è introdotta nell'apparato lessicografico


V.V. Morkovkin, Yu.N. Karaulov, K. Marello. I criteri di classificazione sono stati formulati da O.M. Karpova. Allo stesso tempo, K. Marello distingue tre tipi di thesauri:

cumulativo, che sono raggruppamenti di parole senza definirne il significato;

definitivo, interpretando ogni unità lessicale del raggruppamento di parole;

thesauri bilingue e multilingue per viaggiatori (Marello C. TheThesaurus // W.D.D. 1990. V. 2. P. 1083).

I thesauri cumulativi non solo forniscono l'opportunità di trovare una parola più comprensibile, accurata, stilisticamente corretta in una situazione di essere in un determinato campo semantico, ma diventano anche la base per la formazione di banche dati informatiche tematiche.

I thesauri definitivi possono includere, insieme alla definizione del significato, informazioni etimologiche e citazioni da opere letterarie, che mostrano l'orientamento enciclopedico diretto di questo tipo di thesauri. Inoltre, dizionari di questo tipo introducono l'utente al necessario sistema di concetti, spiegano l'essenza, le somiglianze e le differenze dei concetti, le loro connessioni paradigmatiche e sintagmatiche, a volte forniscono informazioni sulla pronuncia, sulla grammatica, sulla formazione delle parole e su altre possibilità di lessico unità che denotano questi concetti.

I thesauri bilingue e multilingue per i viaggiatori sono generalmente creati secondo sezioni tematiche: numeri, cibo, trasporti, hotel, ecc. con la traduzione di equivalenti di due o più lingue.

Per la visualizzazione più completa delle tipologie di dizionari thesaurus esistenti, viene creata una classificazione multilivello. Innanzitutto, in base al tipo di connessioni semantiche tra unità del vocabolario, i thesauri si dividono in tre grandi classi:

1. Thesaurus associativo (terminologia di Yu.N. Karaulov

2. Un thesaurus simile (terminologia di V.V. Morkovkin

3. Thesaurus ideografico (ideologico) (terminologia di L.V.Scherba, V.V. Morkovkin. I tre tipi di thesaurus citati riflettono rispettivamente i seguenti tipi di connessioni semantiche di lessemi:

1. Relazioni semantico-sintattiche, sulla base delle quali
le parole sono combinate in gruppi o coppie, predeterminate nella loro origine ed esistenza da doppi legami: semantico e sintattico. Le connessioni semantiche delle parole si stabiliscono principalmente tra verbi e aggettivi che svolgono una funzione predicativa in una frase e nomi, ad esempio:

a) tra l'azione e l'organo (strumento) con l'aiuto del quale viene eseguita: afferrare - mano, vedere - occhio, nuotare - barca, ecc .;

b) tra i verbi di azione che richiedono un soggetto e il soggetto: abbaiare - un cane, nitrire - un cavallo, ecc.; c) tra i verbi e una certa aggiunta grammaticale, che i primi richiedono: tagliare la legna, mangiare cibo, ecc.

Quindi, un thesaurus associativo è un dizionario-thesaurus che organizza le unità lessicali sulla base delle connessioni semantiche e sintattiche esistenti tra loro e organizza i gruppi secondo la forma grafica dei centri di parole.

2. Connessioni lessicali e semantiche. L'unificazione in gruppi con questo tipo di connessione avviene secondo l'attributo principale delle parole: significato lessicale. Ciò tiene conto anche delle connessioni lessico-grammaticali, nella forma delle quali si realizzano i significati individuali delle parole.

Così, un analogo thesaurus è un libro di consultazione lessicografico, la cui unità di base della macrostruttura è il gruppo lessico-semantico; i gruppi sono sistemati in ordine alfabetico di dominanti semantiche.

3. Connessioni tematiche o tematiche, in cui la combinazione di parole in un gruppo avviene a causa della somiglianza o comunanza delle funzioni di oggetti e processi indicati dalle parole: oggetti
articoli per la casa, parti del corpo, tipi di abbigliamento, edifici, ecc.

Pertanto, un thesaurus ideografico è un'opera lessicografica che rappresenta unità lessicali all'interno di gruppi di soggetti (tematici) e li organizza in una struttura gerarchica progettata per rappresentare la conoscenza concettualizzata sul mondo.

Nell'ambito dello stesso criterio, effettuiamo un'ulteriore suddivisione dei tipi. Quindi, il thesaurus ideografico è rappresentato dai seguenti 4 tipi:


Un thesaurus ideografico stesso.

Dizionario tematico.

Dizionario sistematico.

Dizionario soggetto-sistematico


Lo stesso thesaurus ideografico è un tipo speciale di vocabolario ideografico, la cui macrostruttura è organizzata secondo una mappa sinottica a priori sovrapposta alla composizione lessicale della lingua. A differenza di altri tipi di vocabolario ideografico, il thesaurus ideografico stesso è caratterizzato da una struttura di classificazione logica e rigorosamente ordinata basata sulla tassonomia scientifica, anche se il vocabolario generale è soggetto a descrizione lessicografica (New Webster "Thesaurus. Landoll, 1991).

Un dizionario tematico è un tipo speciale di thesaurus ideografico, la cui unità principale della macrostruttura è un gruppo tematico, che comprende lessemi combinati sulla base della classificazione delle loro denotazioni (referenti) e considerati dal punto di vista della loro rilevanza a un argomento specifico.

Un dizionario sistematico è un tipo speciale di thesaurus ideografico, la cui struttura di classificazione ha lo scopo di rappresentare le effettive relazioni semantiche che esistono tra le unità lessicali della lingua. Al suo centro, la struttura di classificazione rappresenta la classificazione lessicale-grammaticale del vocabolario, in altre parole, la sua struttura paradigmatica, descritta in termini di subordinazione e composizione.

Un dizionario tematico-sistematico è un tipo speciale di dizionario ideografico, che è una combinazione di un dizionario tematico e sistematico.

Riepilogo. La classificazione considerata dei thesauri linguistici comprende i seguenti tipi di dizionari: thesaurus analogo (terminologia di VV Morkovkin); thesaurus ideografico (ideologico) (terminologia di L.V.Scherba e V.V.Morkovkin); assoc. thesaurus (terminologia di Yu.N. Karaulov). Pop sarà presentato di seguito. vengono rivelati i thesauri e le loro caratteristiche.

3.4. Thesauri popolari e le loro caratteristiche

Il più famoso dei dizionari thesaurus disponibili, a cui questo stesso termine deve la sua esistenza, è stato creato sulla base di di lingua inglese; è un thesaurus costantemente ristampato da P.M. Thesaurus di parole e frasi inglesi di Roger Roget (1852).

È importante notare che l'autore del Thesaurus of English Words and Expressions ha fatto pieno uso della sua esperienza in quel momento. "Il principio che ho seguito nel classificare le parole", scrive P.M. Roger è lo stesso che viene utilizzato per classificare gli individui in varie aree della storia naturale. Pertanto, le sezioni da me evidenziate corrispondono alle famiglie naturali della botanica e della zoologia, e le file di parole sono cementate dalle stesse relazioni che uniscono le file naturali di piante e animali».

P.M. Roger credeva che una classificazione convincente delle parole secondo i loro significati fosse impossibile finché gli oggetti della realtà chiamati queste parole non fossero adeguatamente studiati e organizzati. Inizia quindi il suo lavoro dividendo il campo concettuale della lingua inglese in quattro grandi classi: relazioni astratte, spazio, materia e spirito (mente, volontà, sentimenti). Queste classi sono ulteriormente suddivise in un certo numero di generi, a loro volta suddivisi in un certo numero di specie.

Tra le carenze del dizionario ideografico di P.M. Gli scienziati di Roger attribuiscono quanto segue: 1) nomenclatura non del tutto convincente delle classi concettuali di base; 2) la consistenza astratta prevale sulle connessioni naturali delle parole; 3) il relativo inconveniente d'uso (in larga misura, questa lacuna viene corretta nelle edizioni successive).

Nella moderna lessicografia russa ci sono diversi dizionari che dovrebbero essere classificati come dizionari thesaurus (dizionari ideografici). Questo, ad esempio, creato sotto la guida di Yu.N. Karaulova "Dizionario semantico russo", "Dizionario semantico russo" a cura di N.Yu. Shvedova, "Dizionario tematico della lingua russa" di L.G. Sayakhova, D.M. Khasanova e V.V. Morkovkina, "Dizionario dei gruppi lessicali-semantici di verbi russi", ed. E.V. Kuznetsova, "Dizionario ideografico della lingua russa" di O.S. Baranov, "Il concetto del mondo interiore dell'uomo nella lingua russa" V.I. Ubiyko, un dizionario educativo completo "Base lessicale della lingua russa" sotto la guida di V.V. Morkovkin.

Conosciamone alcuni.

Dizionario-tesauro degli idiomi russi moderni "a cura di A.N. Baranova e D.O. Dobrovolsky comprende quattro parti principali: 1) sinossi; 2) una leggenda; 3) il corpo principale del Dizionario Thesaurus; 4) indicazioni. Lo scopo della Sinossi è fornire una panoramica della struttura del Corpus Principale del Thesaurus. Elenca tutti i taxa con subtaxons e corrispondenti riferimenti paradigmatici. Il corpus principale del Thesaurus Dictionary è una raccolta di voci del dizionario combinate in gruppi (taxa) e sottogruppi (sottotaxons) secondo il significato degli idiomi in essi descritti. Ogni articolo contiene un idioma ed esempi del suo uso nel russo moderno. Sinossi, Legenda, Puntatori sono parti di servizio del summenzionato Dizionario-tesauro, che forniscono all'utente la possibilità di lavorare in modo rapido ed efficiente. La legenda viene utilizzata nei casi in cui non sono necessari esempi dell'uso di idiomi, perché riproduce tutte le informazioni tranne gli esempi. In effetti, questo è il vocabolario del Dizionario. Le unità del vocabolario sono i lemmi. Il lemma in questo caso è un idioma nella sua forma originale (dizionario) e include, se possibile, tutte le sue varianti essenziali. Ad esempio, l'idioma di stare fermi fa parte del lemma per segnare il tempo, stare fermi e scivolare sul posto.

Il dizionario contiene due puntatori. Alla fine del libro c'è un articolo "Il concetto teorico del Dizionario-tesauro dell'ideomatica russa moderna", che analizza in dettaglio le caratteristiche scientifiche di questo progetto.

"Dizionario semantico russo", creato sotto la guida di Yu.N. Karaulova comprende 10 mila parole russe, che sono divise in 1600 gruppi concettuali. La selezione dei gruppi si basa sulla ripetizione di elementi dell'interpretazione delle parole nei dizionari esplicativi: ad esempio "azione", "proprietà", "strumento", ecc.

"Dizionario semantico russo", creato sotto la guida dell'accademico N.Yu. Shvedova, si basa su principi leggermente diversi tipici per la compilazione di dizionari sia ideografici che esplicativi. In primo luogo, tutte le parole della lingua sono qui divise in quattro classi: 1) unità indicanti (pronomi), 2) nominare (parole significative), 3) connettere effettivamente (congiunzioni, preposizioni, verbi di collegamento), 4) classificare (parole modali, particelle, interiezioni). In secondo luogo, all'interno di ogni classe, tutte le parole sono divise in parti del discorso. In terzo luogo, all'interno di ciascuna parte del discorso, vengono identificati insiemi e sottoinsiemi in base alla vicinanza tematica o, al contrario, all'opposizione dei significati delle parole.

DUDEN è un libro con immagini (disegni) sul lato sinistro (secondo diversi software) con dettagli numerati (fino al più piccolo). Sul lato destro, questo elenco numerato è accompagnato da titoli (anche in due lingue). Ad esempio, un'intera pagina contiene apparecchiature ferroviarie, stazioni, binari. Sulla destra ci sono i nomi di frecce, semafori, stampelle, ecc.

"Dizionario tematico della lingua russa" L.G. Sayakhova, D.M. Khasanova e V.V. Morkovkina contiene 25 mila unità lessicali, raggruppate in tre grandi classi: "Uomo", "Società", "Natura", che si ramificano gradualmente in sottoclassi più piccole. Ad esempio, nella classe "Umano" sottoclassi "Corpo e organismo umano", "Vita umana", " Aspetto esteriore, aspetto umano "," Aspetto emotivo di una persona ", ecc. Ciascuna delle sottoclassi, a sua volta, è divisa in quelle ancora più particolari:" Il mondo emotivo di una persona "-" Proprietà mentali di una persona "-" Temperamento "," Carattere "-" Tratti caratteriali generali " ecc. Il significato e l'uso delle parole appartenenti a ciascuna classe sono illustrati dalle frasi più comuni. Ad esempio, la parola "risata", che si trova nel sottogruppo "espressione di sentimenti, emozioni" della classe "Persona", è accompagnata dall'indicazione di tali combinazioni con questa parola come risate allegre, risate gioiose, risate di bambini, scoppio in risate, ecc.

Riepilogo. Uno degli strumenti più efficaci per descrivere le singole aree tematiche, soprattutto in formato elettronico, sono i thesauri.

Il termine thesaurus è stato a lungo ampiamente utilizzato in linguistica per denotare tipo speciale dizionari, in un modo o nell'altro che riflettono "l'immagine del mondo", "il modello linguistico del mondo" (secondo Yu.N. Karaulov). Il thesaurus come “tesoro” è cresciuto nel suo volume semantico e ha acquisito un nuovo significato. Cominciarono a chiamare un dizionario che non solo assorbe tutta la ricchezza lessicale della lingua, ma le organizza in un certo modo logico-sistemico. Nel dizionario del thesaurus, le parole sono riunite in gruppi e questa combinazione avviene sulla base della capacità di una parola di trasmettere un determinato concetto.

Il dizionario Thesaurus è sempre stato considerato in linguistica come una sorta di sistema universale che garantisce l'archiviazione della conoscenza collettiva (per una particolare società) sul mondo in forma verbale. A differenza di altri dizionari, il dizionario thesaurus memorizza questa conoscenza in una forma strutturata che riflette le nostre idee sulla "struttura del mondo".

I thesauri più famosi e popolari al momento sono l'inglese Roger Thesaurus, il dizionario ideografico della lingua russa di O.V. Baranova, dizionario semantico russo Yu.N. Karaulova, Dizionario semantico russo dell'accademico N.Yu. Shvedova, DUDEN, Dizionario tematico della lingua russa L.G. Sayakhova, D.M. Khasanova e V.V. Morkovkin.

In accordo con le conclusioni del capitolo 1, il thesaurus, alla cui compilazione e studio è dedicato il nostro lavoro, è il dizionario tematico ideografico "Turismo di montagna ed escursionismo". Consisterà nel vocabolario delle lingue russa e spagnola.

Pertanto, per comporre un thesaurus, è necessario risolvere una serie di problemi:

Evidenzia i termini che descrivono l'area tematica;

Eseguire una divisione logica dei termini in gruppi semantici;

Confronta i termini delle lingue russa e spagnola;

Disponi i gruppi in ordine alfabetico.

Metodi e algoritmi per la compilazione manuale del thesaurus

Un thesaurus di recupero delle informazioni è un dizionario compilato a mano da un linguista esperto, specialista nel campo della costruzione di dizionari e risorse semantiche. Quando si compila un dizionario di questo tipo, il compito è ottenere una descrizione del thesaurus di una o più aree tematiche, mentre spesso c'è un corpus di testi, che è la base per la creazione di un dizionario. L'esperto analizza il corpus testuale e, guidato dalla tecnologia di costruzione manuale del thesaurus, compila un elenco di termini che descrivono una determinata area tematica e include il loro thesaurus come descrittori. Successivamente, i termini vengono raggruppati in concetti e vengono stabilite relazioni gerarchiche e associative tra di loro.

Il processo di creazione manuale di un thesaurus è caratterizzato da svantaggi come l'alto costo e la durata della creazione di una risorsa, la condizionalità del risultato dalle qualifiche di un esperto, l'impossibilità di analizzare manualmente l'intero corpus di testi e alcuni altri. Ovviamente, quando si compila manualmente un thesaurus, un esperto deve utilizzare i metodi esistenti di recupero delle informazioni e motori di ricerca su Internet- sistemi.

Innanzitutto, un thesaurus bilingue non rappresenta traduzioni parola per parola, la sua struttura è un elenco di lessemi in russo organizzato sulla base della vicinanza del significato semantico - definizione di un concetto in russo - definizione di un concetto in lingua straniera- un elenco di opzioni di testo in una lingua straniera. In questo caso, gli elenchi delle unità lessicali dovrebbero essere il più completi possibile su ciascun lato, comprese quelle espressioni che di solito non sono rappresentate nei dizionari, poiché sembrano ovvie a una persona.

Quando si creano dizionari bilingue tradizionali, l'obiettivo principale è fornire un insieme delle traduzioni più frequenti di una parola in vari testi. Le traduzioni sono fornite come con un margine, l'elenco delle traduzioni include sia traduzioni esatte che traduzioni con un significato più stretto e uno più ampio (ecco perché i dizionari spagnolo-russo e russo-spagnolo non sono reversibili). Si presume che il lettore capirà il contesto di quale traduzione scegliere.

I passaggi principali nella compilazione di un thesaurus sono i seguenti:

1) Pre-elaborazione del corpus testuale al fine di evidenziare le parole chiave.

2) Formazione di un insieme di parole e frasi da inserire nel thesaurus e studio delle relazioni tra i descrittori del thesaurus. L'esperto, guidato da questo insieme, fa un elenco dei concetti chiave dell'area tematica.

3) Allocazione delle relazioni gerarchiche tra i descrittori (nel nostro caso - ordine alfabetico) e la loro classificazione (nel nostro studio, la classificazione si basa su relazioni semantiche tra i descrittori).

4) Costruire un insieme di relazioni associative tra descrittori in russo e spagnolo.