Tesaurus: apa itu. Kamus tesaurus yang lebih dari sekadar kamus. Algoritma Tesauri untuk menyusun tesaurus kamus

SAMPEL

Syn: model, spesimen, contoh, contoh, standar, norma, pengukuran, contoh, standar, perwakilan tipikal, templat, stensil, prototipe, menggambar, desain, menggambar, pola, gestalt, bingkai

Tesaurus bahasa Rusia. 2012

Lihat juga interpretasi, sinonim, arti kata dan apa SAMPEL dalam bahasa Rusia dalam kamus, ensiklopedia, dan buku referensi:

  • SAMPEL
    HAFDASA 1927 - Pistol otomatis kaliber 22 Argentina. Apakah tentara ...
  • SAMPEL dalam Ensiklopedia Senjata Bergambar:
    EKSPERIMENTAL - salinan tunggal dari setiap desain senjata api, tidak diterima untuk serial ...
  • SAMPEL dalam Ensiklopedia Senjata Bergambar:
    MUSHKETA - Senapan kapsul Amerika 1849-1855. kaliber 58 dengan laras. Panjang 1016 ...
  • SAMPEL dalam Ensiklopedia Senjata Bergambar:
    RIFLE - Senapan kapsul Amerika 1849-1855 kaliber 58. Panjang 838 ...
  • SAMPEL dalam Ensiklopedia Senjata Bergambar:
    70 - Pistol otomatis Cekoslowakia, kaliber 7, 65 ...
  • SAMPEL dalam Ensiklopedia Senjata Bergambar:
    63 - Senapan mesin ringan lima belas dan dua puluh lima tembakan Polandia kaliber 9 mm. Panjang dengan stok 583 mm, tanpa stok 330 mm. beratnya…
  • SAMPEL dalam Ensiklopedia Senjata Bergambar:
    61 - senapan mesin ringan Cekoslowakia sepuluh dan dua puluh kaliber 7, 65 mm. Panjang dengan stok 513 mm, tanpa stok 269 mm. ...
  • SAMPEL dalam Ensiklopedia Senjata Bergambar:
    58 P - Senapan mesin tiga puluh tembakan Cekoslowakia kaliber 7,62 mm. Panjang 820mm. Berat 3140...
  • SAMPEL dalam Ensiklopedia Senjata Bergambar:
    58 V - Senapan mesin tiga puluh tembakan Cekoslowakia 7, 62 mm. Panjang dengan stok 820 mm, tanpa stok 635 mm. beratnya…
  • SAMPEL dalam Ensiklopedia Senjata Bergambar:
    52 —1. Lihat CHZET-513. 2. Karabin pemuatan otomatis sepuluh tembakan Cekoslowakia 7,62 mm. Panjang 1003mm. Berat 4100...
  • SAMPEL dalam Ensiklopedia Senjata Bergambar:
    50 - Pistol otomatis Cekoslowakia, kaliber 7, 62 mm. Salinan CHZET-513 yang dikurangi. Sedang dalam pelayanan...
  • SAMPEL dalam Ensiklopedia Senjata Bergambar:
    25 - 1. Senapan mesin ringan Cekoslowakia 24 dan 40 kaliber 9 mm. Panjang dengan stok 686 mm, tanpa stok 445 mm. beratnya…
  • SAMPEL dalam Ensiklopedia Senjata Bergambar:
    23 - Senapan mesin ringan dua puluh empat dan empat puluh tembakan Cekoslowakia kaliber 9 mm. Panjang 686mm. Berat 3270 ...
  • SAMPEL dalam Ensiklopedia Senjata Bergambar:
    16/33 - Karabin magasin lima tembakan Cekoslowakia 7, 92 mm. Panjang tanpa bayonet 995 mm, dengan bayonet 1305 mm. beratnya…
  • SAMPEL
    INDUSTRI - lihat MODEL INDUSTRI ...
  • SAMPEL dalam Kamus Istilah Ekonomi:
    - satu salinan representatif dari produk yang digunakan untuk iklan, di pameran, untuk tujuan pengenalan, tampilan kepada calon ...
  • SAMPEL dalam Kamus Ensiklopedis:
    , -ztsa, m 1. Produk indikatif atau percobaan; sampel (dalam 2 nilai). 06 sampel tanah. Contoh mineral. Contoh produk. Industri tentang. (baru, ...
  • SAMPEL dalam Kamus Besar Ensiklopedis Rusia:
    CONTOH INDUSTRI, lihat Industri ...
  • SAMPEL dalam Paradigma Penuh Aksentuasi oleh Zaliznyak:
    sampel "c, sampel", sampel ", sampel" v, sampel ", sampel" m, sampel "c, sampel", sampel "m, sampel" mi, sampel ", ...
  • SAMPEL dalam Kamus Penjelasan dan Ensiklopedis Populer Bahasa Rusia:
    -zts "a, m. 1) (biasanya apa) Salinan indikatif atau percobaan dari suatu produk, bahan; bagian dari... substansi, produk, memberikan ide ...
  • SAMPEL dalam Kamus untuk memecahkan dan menyusun kata sandi:
    … untuk …
  • SAMPEL dalam Tesaurus Kosakata Bisnis Rusia:
  • SAMPEL dalam Kamus Sinonim Abramov:
    contoh, prototipe, prototipe, jenis, prototipe, ideal, model, asli, contoh; model. Prot. ... Lihat ideal, contoh, ...
  • SAMPEL dalam kamus Sinonim dari bahasa Rusia:
    Syn: model, spesimen, contoh, sampel, standar, norma, pengukuran, sampel, standar, perwakilan tipikal, templat, stensil, prototipe, gambar, desain, gambar, pola, ...
  • SAMPEL dalam kamus penjelasan dan derivasi baru dari bahasa Rusia oleh Efremova:
    m.1) Perkiraan, indikasi atau salinan percobaan dari a l. produk, bahan, dll. 2) a) Indikatif contoh ms.... (kualitas apa, perilaku, ...

Salah satu konsep dasar baru yang muncul sebagai hasil dari pengembangan metode mesin pemrosesan informasi, khususnya, ketika menerjemahkan dari satu bahasa ke bahasa lain, mencari informasi ilmiah dan teknis dan membuat model informasi perusahaan dalam sistem kontrol otomatis , adalah konsep tesaurus sistem informasi. Istilah "tesaurus" menyiratkan kumpulan pengetahuan tentang dunia luar - inilah yang disebut tesaurus dunia T. Semua konsep dunia luar, yang diungkapkan menggunakan bahasa alami, merupakan tesaurus, yang darinya tesauri pribadi dapat dibedakan dengan pembagian hierarkis, dengan mempertimbangkan subordinasi konsep individu atau dengan memisahkan bagian-bagian tesaurus umum dunia. Tesaurus dalam sistem temu kembali informasi memainkan peran penting dalam pencarian dokumen yang diperlukan dengan kata kunci. Oleh karena itu, pembangunan tesaurus adalah tugas yang sulit dan krusial. Tapi tugas ini juga bisa otomatis.

Klasifikasi dalam definisi yang paling umum adalah partisi dan pengurutan himpunan. Ini disebut distribusi objek ke dalam kelas berdasarkan fitur umum yang melekat pada fenomena atau objek ini dan membedakannya dari objek dan fenomena yang membentuk kelas lain. Setiap kelas dapat disubklasifikasikan sesuai kebutuhan. Rubrikator adalah jenis klasifikasi khusus. Oleh karena itu, mereka dibuat berdasarkan ketentuan umum:
dasar ilmiah untuk membangun klasifikasi;
refleksi dari tingkat perkembangan ilmu pengetahuan saat ini;
ketersediaan sistem tautan dan referensi, serta perangkat referensi dan referensi (CCA).

Namun, rubrikator adalah klasifikasi pragmatis berdasarkan arus informasi dan kebutuhan spesialis. Inilah perbedaannya dari klasifikasi apriori seperti UDC dan IPC.

Fungsi utama klasifikasi dan, khususnya, rubrikator adalah sebagai berikut:
delimitasi tematik dari subsistem informasi;
pembentukan susunan informasi dengan kriteria apa pun;
sistematisasi bahan informasi dan publikasi;
pencarian saat ini dan retrospektif;
pengindeksan dokumen dan pertanyaan;
hubungan dengan skema klasifikasi lainnya;
fungsi normatif.

Mereka dibangun dengan membagi konsep - objek klasifikasi berdasarkan hubungan yang ditetapkan antara atribut-atribut objek tersebut sesuai dengan prinsip-prinsip logis tertentu. Kriteria yang digunakan untuk membuat klasifikasi disebut dasar pembagian klasifikasi. Dalam klasifikasi, metode deduksi dan induksi banyak digunakan untuk memperbaiki kelompok, kelas, dan mengidentifikasi hubungan di antara mereka. Ini khas untuk klasifikasi hierarkis. Kedalaman klasifikasi (jumlah level dalam hierarki) dapat bervariasi tergantung pada tujuannya. Salah satu rubrik yang banyak digunakan adalah rubrikator informasi ilmiah dan teknis negara (SRSTI).

Rubrikator GRNTI dirancang sedemikian rupa sehingga memungkinkan membagikan dengan klasifikasi lain seperti UDC dan IPC. Klasifikasi Desimal Universal (UDC) telah ada selama lebih dari 70 tahun, tetapi masih tidak ada bandingannya dalam keluasan distribusi dan digunakan di banyak negara di dunia. UDC mencakup seluruh alam semesta pengetahuan dan berhasil digunakan untuk sistematisasi dan pencarian selanjutnya untuk berbagai sumber informasi.

Selain UDC, perpustakaan dan klasifikasi bibliografi (LBC) banyak digunakan dalam praktik. LBC dibangun di atas prinsip-prinsip subordinasi logis dan mewakili klasifikasi tipe yang diterapkan.
V Federasi Rusia untuk klasifikasi penemuan dan sistematisasi koleksi domestik deskripsi penemuan, klasifikasi paten internasional digunakan - klasifikasi multidimensi yang agak rumit, dibangun sesuai dengan prinsip fungsional dan sektoral. Konsep teknis yang sama dapat ditemukan di IPC atau kelas khusus (menurut industri) atau di kelas fungsional (sesuai dengan prinsip operasi). Prinsip sektoral dari distribusi konsep melibatkan klasifikasi objek tergantung pada penerapannya dalam cabang teknologi dan teknologi tertentu yang telah mapan secara historis.

Perbandingan karakteristik rubrikator GRNTI, UDC, LBC dan IPC ditunjukkan pada Tabel 1.

Tabel 1
Karakteristik rubrikator GRNTI, UDC, BBK dan MPK

Nama

Struktur

Prinsip pengaturan pembagian

Skema partisi

Hirarki

Industri

Dari umum ke khusus

Hirarki

Tematik

Hirarki

Fungsional dan industri

Dari umum ke khusus

LBC untuk perpustakaan ilmiah

Hirarki

Industri

Dari umum ke khusus, berdasarkan spesies


Dengan demikian, ciri khas utama rubrikator dan pengklasifikasi dapat diidentifikasi:
mereka dicirikan oleh sifat terapan dan fokus sektoral;
ini adalah sistem terbuka yang bergantung pada perkembangan ilmu pengetahuan dan teknologi, kebutuhan dan permintaan spesialis;
sistem anorganik, sebagai objek muncul dan berkembang di lingkungan dan dari itu masuk mereka. Elemen dapat eksis secara independen di luar sistem. Fitur ini terkait erat dengan fitur kedua;
elemen minimal adalah konsep yang berkaitan dengan lingkungan. Konsep mewakili sistem definisi;
Ada hubungan antara konsep baik secara vertikal (genus-spesies, seluruh-bagian) dan horizontal (tipe-spesies, bagian-bagian), yang menunjukkan hierarki sistem.

Akibatnya, struktur dan prinsip-prinsip pengorganisasian klasifikasi dan rubrik memungkinkan untuk mengotomatisasi proses membangun tesauri bidang subjek menggunakan metode deduksi. Algoritma untuk membangun tesaurus menggunakan metode deduksi ditunjukkan pada Gambar. 1.

Dasar pembentukan tesaurus adalah gambar pencarian dokumen, tugas atau aplikasi pencarian informasi, diisi oleh operator. Oleh karena itu, langkah pertama adalah meneliti dan menganalisis aplikasi. Pada tahap pertama, operator menunjukkan topik atau masalah yang diminati, kemungkinan kata kunci dan sinonimnya. Akibatnya, kita mendapatkan pemahaman yang dangkal tentang area subjek.

Beras. 1. Algoritma untuk menyusun tesaurus menggunakan metode deduksi

Selain itu, tesaurus kata kunci KS dibentuk dengan metode deduksi, yang diperlukan:
Array CS, yang diatur oleh pengguna sendiri, yang ditunjuk pada Gambar 1 sebagai MP;
array KS, diekstraksi dari tugas pencarian, masing-masing MZ.

Namun, untuk pemahaman yang lebih lengkap dan mendalam tentang bidang studi, kami menggunakan rubrikator dan skema klasifikasi yang ada (GRNTI, UDC, LBC, MPK). Untuk memaksimalkan cakupan area subjek, Anda perlu melihat semua yang tersedia. Array rubrikator mewakili MR. Algoritma pencarian deduksi terdiri dari dua langkah:
1. Menemukan konsep generik (Gbr. 2);
2. Menemukan istilah spesifik dalam konsep generik (Gbr. 3).


Beras. 2. Memproses konsep generik

Kami memuat rubrikator pertama dari larik dan mengatur siklus untuk memeriksa keberadaan KS di rubrikator yang dimasukkan oleh pengguna. Setiap KS dicari dalam daftar judul dan dibandingkan dengan konsep umum atau "sarang", dan kemudian kondisinya diperiksa - apakah ada referensi untuk istilah tertentu. Jika ada referensi seperti itu, maka KS dibandingkan dengan istilah spesies. Jika tidak ada tautan yang ditemukan, lanjutkan ke konsep umum berikutnya. Ketika kata kunci KS, yang dimasukkan oleh operator, dilihat, kami pergi ke array KS yang diekstraksi dari tugas. Prosedur verifikasi serupa - kami mencari COP yang sesuai dengan konsep umum, dan kemudian tautannya ke istilah tertentu.


Beras. 3. Pemrosesan istilah spesies

Perhatikan bahwa dalam setiap konsep generik, penting untuk meninjau semua istilah spesies yang tersedia untuk mendapatkan pemahaman yang maksimal tentang area masalah. Hasil dari tindakan ini adalah pembentukan array kata kunci KS, yang merupakan tesaurus lengkap yang sesuai dengan tugas untuk mencari informasi atau gambar pencarian dokumen.

Atas dasar satu set lengkap gambar pencarian dokumen (menunjukkan), dimungkinkan untuk membuat tesauri cabang dan pengklasifikasi terpadu perpustakaan. Jelas, himpunan lengkap itu sendiri mewakili tesaurus paling sederhana.

Namun, menggunakan kriteria seleksi
, (1)
kita dapat membangun tesauri khusus industri. Pada saat yang sama, himpunan semua tesauri khusus industri membentuk tesaurus lengkap
, (2)
yang bagian-bagiannya dapat disusun secara hierarkis sesuai dengan persyaratan GOST sesuai dengan pengklasifikasi utama (GRNTI, UDC, BBK, MPK) atau menurut pengklasifikasi tunggal internal.

Otomatisasi proses membangun tesaurus dan klasifikasi memungkinkan untuk secara maksimal memfasilitasi pekerjaan operator yang bekerja dengan didistribusikan sumber informasi.

Selain membangun tesaurus, berdasarkan gambar pencarian dokumen, pendekatan yang diusulkan dapat digunakan untuk peringkasan otomatis dokumen dan pengelompokan teks.

Referensi dokumen adalah salah satu tugas yang ditujukan untuk menyediakan spesialis ahli dengan informasi andal yang diperlukan untuk membuat keputusan manajerial tentang nilai dokumen yang diterima dari Internet. Referensi adalah proses mengubah informasi dokumenter, diakhiri dengan persiapan abstrak, dan abstrak adalah presentasi yang memadai secara semantik dari konten utama dokumen utama, yang ditandai dengan pemformatan tanda yang ekonomis, keteguhan linguistik dan karakteristik struktural dan dirancang untuk melakukan berbagai fungsi informasi dan komunikasi dalam sistem komunikasi ilmiah. Algoritma untuk meringkas dokumen ditunjukkan pada Gambar. 4.


Beras. 4. Algoritma untuk meringkas dokumen

Secara umum, algoritma mencakup tahapan utama berikut.
1. Pemilihan kalimat dari dokumen, yang diunggah dari Internet dan terletak di penyimpanan data, dilakukan dengan menyorot tanda baca dan menyimpannya dalam array.
2. Setiap kalimat dibagi menjadi kata-kata dengan memisahkan pemisah, dan menyimpannya ke array, dan array berbeda untuk setiap kalimat.
3. Untuk setiap kalimat, untuk setiap kata dari kalimat ini, hitung jumlah kata dalam kalimat lain (sebelum dan sesudah). Jumlah pengulangan untuk setiap kata (sebelum dan sesudah) akan menjadi bobot kalimat yang diberikan.
4. Tentukan jumlah kalimat dengan faktor pembobotan maksimum dan pilih dalam abstrak sesuai urutan kemunculannya dalam teks.

Model yang diusulkan untuk membangun tesaurus dan katalog tematik dari sistem informasi adalah dasar teoritis untuk mengotomatisasi pencarian semantik dan memungkinkan seorang ahli tidak hanya untuk melakukan pekerjaan pencarian, tetapi juga dalam mode otomatis, untuk mengabstraksi dokumen yang diperoleh sebagai hasil dari pencarian. pencarian dalam sistem informasi terdistribusi di Internet.

Literatur:
1. Barushkova R.I. Skema klasifikasi informasi ilmiah dan teknis. Buku pelajaran. uang saku. - M., 1981 .-- 80-an.
2. Barushkova R.I. Rubrikator sebagai skema klasifikasi informasi ilmiah dan teknis. Perangkat. - M., 1980 .-- 38p.
3. Trusov A.V., Babarykin E.P. Evaluasi batas wilayah permintaan informasi tematik dalam sistem informasi terdistribusi. Materi konferensi All-Rusia (dengan partisipasi internasional) "Informasi, Inovasi, Investasi", 24-25 November 2004, Pusat Perm / Perm untuk Sains dan Teknologi. - Perm, 2004. - hlm. 76-79.
4. Yatsko V.A. Masalah logika dan linguistik analisis dan abstraksi teks ilmiah. - Abakan: penerbit negara bagian Khakass. Universitas, 1996 .-- 128 hal.

Teknologi komputasi

Volume 12, Edisi Khusus 2, 2007

TEKNOLOGI PEMBUATAN THESAURUS AREA MATA PELAJARAN BERDASARKAN INDEKS MATA PELAJARAN ENCYCLOPEDIA

V.B. Barakhnin

Institut Teknologi Komputasi SB RAS, Novosibirsk, Rusia

surel: [dilindungi email]

V. A. Nekhaeva Novosibirsk State University, Rusia email: [dilindungi email]

Karya ini menjelaskan tentang teknologi pembuatan tesaurus domain objek, yang didasarkan pada judul subjek untuk ensiklopedia khusus. Teknologi tersebut menawarkan deskripsi berkualitas tinggi dari domain objek menggunakan istilah yang dapat diandalkan sehingga memungkinkan untuk membangun tesaurus tahap pertama dengan keterlibatan minimal para ahli di bidang pengetahuan khusus ini. Teknologi yang diusulkan juga berisi algoritma pembangunan tesaurus dan aplikasi berbasis web yang mengimplementasikan algoritma ini.

pengantar

Salah satu faktor terpenting yang memastikan keberhasilan pelaksanaan proyek penelitian integrasi adalah dukungan ilmiah dan informasi yang efektif. Secara khusus, kerja bersama para peneliti dari beberapa (apalagi, tidak selalu terkait) spesialisasi memerlukan koordinasi yang cermat dari terminologi yang digunakan, karena konsep yang sama dapat dilambangkan dalam bidang ilmu yang berbeda dengan istilah yang berbeda, dan dengan satu istilah - konsep yang berbeda.

Tantangan lain dukungan informasi proyek - pembuatan indeks kartu terintegrasi dari deskripsi bibliografi dokumen (yaitu artikel, buku, dll.) tentang subjek proyek, yang disusun dengan menggabungkan sumber daya dari peneliti yang berkolaborasi, yang masing-masing telah mengumpulkan indeks kartu pada bidang tertentu topik selama bertahun-tahun (saat ini, indeks kartu tersebut disimpan, sebagai suatu peraturan, di media elektronik). Untuk memudahkan pencarian dalam indeks kartu, diinginkan bahwa kata kunci yang mencirikan dokumen dipilih, bila memungkinkan, dari satu kamus. Untuk klasifikasi otomatis dokumen yang termasuk dalam indeks kartu atau berpotensi dimasukkan ke dalamnya dari basis data elektronik

© Institut Teknologi Komputasi, Cabang Siberia dari Akademi Ilmu Pengetahuan Rusia, 2007.

publikasi ilmiah seperti database jurnal abstrak, "Current Contents", dll, tampaknya tepat untuk menggunakan algoritma pengindeksan koordinat. Algoritma ini didasarkan pada mempertimbangkan fitur klasifikasi istilah (kata dan frasa) yang termasuk dalam teks yang mencirikan area subjek tertentu.

Solusi dari semua tugas yang tercantum di atas tidak mungkin tanpa membuat kamus istilah dari area subjek, dan dalam kamus ini hubungan antara istilah harus ditetapkan dan klasifikasi istilah harus dilakukan. Kamus semacam itu disebut tesaurus (lihat detailnya di). Tesaurus (atau tesaurus normatif) adalah kamus referensi yang berisi semua unit leksikal dari bahasa pencarian informasi - deskriptor (bersama dengan kata kunci yang dalam sistem pencarian informasi ini dianggap sinonim dari deskriptor ini), dan deskriptor dalam kamus harus disistematisasi menurut akal sehat, dan hubungan semantik di antara mereka diungkapkan secara eksplisit.

Namun, kompilasi dari tesaurus "dengan batu tulis kosong"mungkin memerlukan masukan tenaga ahli yang sangat signifikan, yang harus mengumpulkan semua istilah yang cukup mencakup bidang subjek, menyepakati maknanya, membangun tautan dan melakukan klasifikasi. Kesulitan serupa yang timbul dalam menyelesaikan tugas penting tetapi masih bersifat pembantu adalah negatif mempengaruhi prospek penyelesaiannya.

Kami telah mengembangkan dan menerapkan teknologi untuk membuat tesaurus berdasarkan indeks subjek ensiklopedia khusus. Teknologi ini memberikan deskripsi yang sangat berkualitas tentang area subjek menggunakan istilah yang diverifikasi secara andal, memungkinkan Tahap pertama membangun tesaurus dengan sedikit keterlibatan spesialis - ahli di bidang subjek tertentu. Sebuah presentasi rinci dan pembenaran dari algoritma diberikan dalam pekerjaan. Di bawah ini adalah deskripsi singkat tentang algoritma, serta aplikasi web yang mengimplementasikannya.

1. Algoritma untuk membuat tesaurus

Diusulkan untuk menggunakan indeks subjek dari ensiklopedia khusus (atau beberapa ensiklopedia) sebagai daftar kata kunci dan frasa untuk tesaurus. Pilihan ensiklopedia tertentu dibuat oleh spesialis materi pelajaran, dan pilihan ini tergantung pada tujuan yang dicapai saat membuat tesaurus. Jadi, untuk memecahkan masalah lingkungan yang kompleks, disarankan untuk menggunakan ensiklopedia (atau, jika tidak ada, kamus ensiklopedis) dalam fisika, kimia, geologi, biologi, kedokteran, matematika, dll. , kemudian, setidaknya, sebagai daftar dasar kata kunci, yang akan diisi ulang jika perlu.

Indeks subjek dari sebagian besar ensiklopedia disusun dengan cara yang sama - mereka mengandung istilah yang merupakan nama artikel ensiklopedia, istilah yang didefinisikan dalam artikel, serta hasil terpenting yang disebutkan dalam artikel.

Nama-nama artikel ensiklopedia diambil sebagai deskriptor (yaitu, istilah yang merupakan nama kelas dari konsep serupa), dan kata-kata dari indeks subjek ditemukan di yang sesuai

artikel. Keuntungan utama dari metode ini adalah Anda tidak perlu menjadi ahli dalam bidang subjek tertentu untuk menetapkan jenis hubungan antar istilah - pengetahuan umum sudah cukup untuk memahami teks ensiklopedia - informasi yang lebih spesifik diperlukan dalam proses konsep klasifikasi selalu dapat diperoleh dari artikel tertentu ...

Karena tesaurus yang dibuat dirancang untuk bekerja menggunakan protokol Z39.50, jenis tautan dibuat sesuai dengan rekomendasi skema / l kebohongan, yang membedakan jenis berikut:

BT - koneksi dengan istilah orang tua, yaitu dengan istilah makna yang lebih luas;

PB adalah penghubung dengan istilah anak, yaitu dengan istilah yang maknanya lebih sempit. Hubungan BT - NT adalah timbal balik;

USE adalah tautan ke istilah yang digunakan sebagai gantinya;

UF - GUNAKAN umpan balik timbal balik;

RT adalah tautan yang mendefinisikan istilah terkait;

LE - hubungan antara istilah yang setara secara linguistik;

FE adalah istilah yang benar-benar identik.

Selanjutnya, klasifikasi deskriptor dilakukan sesuai dengan bagian dari area subjek ini. Pilihan pengklasifikasi tertentu, serta pilihan ensiklopedia, dilakukan oleh seorang ahli, dan dalam hal menggunakan beberapa ensiklopedia dari bidang studi yang berbeda, dimungkinkan untuk menggunakan beberapa pengklasifikasi khusus. Tautan bentuk NT, RT, LE (FE) dibuat antara deskriptor dan bagian pengklasifikasi, sedangkan klasifikasi harus menggunakan, jika mungkin, bagian dari tingkat terendah.

Setelah itu, kata kunci yang terkait dengan deskriptor dengan relasi BT, USE, RT, LE dan FE diberi nomor klasifikasi yang sama dengan deskriptor. Namun, ini tidak mengecualikan situasi seperti itu jika deskriptor ditugaskan ke kelas yang bukan dari level terendah, maka dalam pekerjaan ahli berikutnya, istilah yang terkait dengan deskriptor oleh hubungan BT dan USE dapat ditetapkan ke kelas dari tingkat yang lebih rendah. Dalam hal ini, istilah yang ditentukan sendiri akan menjadi deskriptor.

Akibatnya, semua istilah yang termasuk dalam indeks subjek diklasifikasikan sesuai dengan bagian dari area subjek ini.

2. Deskripsi operasi aplikasi web

Namun demikian, proses membangun tesaurus sesuai dengan metodologi ini melibatkan sejumlah besar pekerjaan rutin dan, di samping itu, membutuhkan partisipasi seseorang dengan keterampilan pemrograman. Oleh karena itu, selain metodologi, dikembangkan aplikasi web yang memiliki antarmuka yang ramah pengguna dan mendukung fungsi-fungsi berikut:

1) terjemahan otomatis informasi dari halaman digital indeks subjek ke dalam tabel database;

2) menyoroti deskriptor dalam daftar istilah umum;

3) mencari istilah yang terkait dengan deskriptor yang diberikan dan mengatur jenis tautan sesuai dengan skema Zthes.

Penting untuk dicatat bahwa keterampilan pemrograman tidak diperlukan untuk menyelesaikan semua operasi di atas.

Aplikasi yang dikembangkan bersifat universal, yaitu dapat digunakan untuk membuat tesauri dari berbagai bidang studi. Saat ini, programmer sedang melakukan konversi program dari indeks subjek dari satu ensiklopedia ke indeks subjek yang lain (dan hanya pada tahap ini, proses membangun tesauri dari bidang studi yang berbeda dapat berbeda), namun, pekerjaan sedang berlangsung untuk melengkapi program dengan fungsi yang memungkinkan pengguna untuk melakukan operasi ini. tidak memiliki keterampilan pemrograman.

Aplikasi berfungsi sebagai berikut. Halaman indeks digital diproses secara otomatis. Pengguna menentukan lokasi file teks dengan data, setelah itu dibaca baris demi baris dan istilah-istilah itu sendiri dimasukkan ke dalam database, serta informasi tentang nomor halaman ensiklopedia di mana mereka berada (Gbr. .1).

Deskriptor dari daftar umum kata kunci dipilih oleh pengguna sendiri, menandai istilah pencarian dalam daftar yang ditampilkan di layar. \ ob-appopio juga mendukung fungsi perbaikan kemungkinan kesalahan(gambar 2). Ingatlah bahwa semua istilah yang ditemukan dalam artikel ensiklopedia yang didedikasikan untuk itu dianggap terkait dengan deskriptor ini.

Untuk memudahkan pencarian istilah terkait, pengguna hanya disajikan dengan daftar kata kunci yang terletak di halaman yang sama dengan deskriptor yang dipilihnya (sebenarnya, untuk ini, kami hanya memasukkan istilah ke dalam database, dan informasi tentang pomor halaman ). Tentu saja, karena artikel tersebut mungkin tidak memenuhi seluruh halaman secara keseluruhan, istilah yang tidak perlu akan dimasukkan dalam daftar. Pengguna, membuat koneksi,

Beras. 1. Masuk file teks dengan istilah dari indeks

Pembuatan kamus deskriptor - Microsoft Internet Explorer!

Edit File Lihat Favorit Bantuan Layanan

Q Kembali "©" @ | í | & Pencarian Anda ^ Favorit -. v

Alamat; | ¡J§ http: ^ localhost / math_dict / Deskj-_Slovar / Descr / gen_ss.phtml; V ¡¿3 Tautan Transisi y>

fiBár JOQQ- © - I * 1] 0 l de: * - F

1 Sempoa | 1, 13 1111111

2 otomat Abelian | 1, 67 1111111

3 Objek grup Abelian | 1, 1149 111 1 | |

4 Diferensial Abelian 11.13-15 I 2, 240 111111

5 Diferensial Abelian, basis | 1, 13 1111111

6 Diferensial Abelian, pembagi | 1, 15 | | | | | 1 |

7 Normal diferensial Abelian | 1, 14 1111111

8 Diferensial Abelian, dinormalisasi | 1, 14 1111111

9 Diferensial Abelian, periode kutub | 1, 14 | | | | | | |

10 Diferensial Abelian, periode siklik | 1, 14 1111111

11 Idempoten Abelian 14, 941 1111111

12 Integral Abelian 11.15-17 1111111

13 Integral Abelian, Teorema Abel | 1, 17 111111

14 kanonik integral Abelian | 1,16 ||||||

16 Integral Abelian, matriks periode | 1,16 |||||

15 integral normal Abelian | 1, 16 ||||||

17 Integral Abelian, periode kutub | 1.16 ||||||| Integral Abelian 1S, periode siklik | 1, 16 | | | | |

19 Potensi Abelian | 2, 239 1111111

20 Abelev grup 11.17-20 1111111

21 Grup Abelian yang benar-benar dapat diurai | 1,19 ||||||

22 Grup Abelian habis dibagi | 1, 19 |||||||

23 Grup Abelian dihasilkan secara terbatas | 1.18 1111111

24 Grup Abelian, kriteria Kulikov | 1, 18 | | | | | |

25 Grup Abelian, nol | 3.1082 111111

26 Grup Abelian, bagian periodik | 1, 18 111 | |

http: // locdlhostymath_dict / Deskr_Slovar / Descr / goto, phtml? ss 1 + 4 + 1 + A + 1 + 3

j 5tartApache.bat

Saya Svoj.NET: PHP Edit

J Adobe Photoshop || w

^ Intranet lokal

EN Sch / m K 21: 0;

Beras. 2. Daftar kata kunci dan penyorotan deskriptor

Beras. 3. Pilihan istilah terkait

Beras. 4. Menetapkan jenis koneksi.

akan memilih hanya sebagian dari kata kunci dari daftar yang diusulkan, namun, otomatisasi tersebut secara signifikan mengurangi jumlah pekerjaan rutin (Gbr. 3).

Tin hubungan antara deskriptor dan kata kunci ditentukan dengan mengisi formulir yang sesuai (Gbr. 4).

Kesimpulan

Kinerja algoritme ini dan aplikasi web diuji dengan membuat tesaurus dari sejumlah bagian dari area subjek "Matematika" ("Persamaan Diferensial", "Persamaan Diferensial Parsial", "Analisis Numerik", "Mekanika Fluida", dll .) berdasarkan indeks mata pelajaran " Ensiklopedia Matematika ". Ditemukan bahwa untuk klasifikasi istilah dan pembentukan hubungan di antara mereka, kualifikasi sarjana sudah cukup (asalkan dalam kasus yang jarang terjadi seorang ahli dengan gelar ilmiah terlibat dalam konsultasi). Ini membuktikan efisiensi tinggi dari algoritma yang dikembangkan.

Bibliografi

Mikhailov A.I., Chernyi A.I., Gilyarevsky P.C. Dasar Informatika. Moskow: Nauka, 1968.

Barakhnin V.B. Pengembangan tesaurus bidang subjek "Matematika" // Mater, conf. "Komputasi dan teknologi Informasi dalam ilmu pengetahuan, teknologi dan pendidikan Bagian 1. Novosibirsk; Almaty; Ust-Kamenogorsk, 2003. P. 111-115.

Zthes: Profil Z39.50 untuk Navigasi Tesaurus

http://lcweb.loe.gov/z3950/agency/profiles/zthes-04.html

3.1. konsep tesaurus

Tesaurus (dari bahasa Yunani - harta, cadangan) atau kamus ideografik (dari ide Yunani - konsep, presentasi, ide dan grapho - saya menulis, menggambarkan) - dalam linguistik modern: 1) jenis kamus khusus umum atau khusus kosakata, di mana hubungan semantik antara item leksikal; 2) kamus untuk mencari kata berdasarkan hubungan semantiknya dengan kata lain; 3) cara tertentu mengatur (memposisikan) kata-kata dalam kamus; 4) cara mengatur komposisi leksikal, yang memungkinkan Anda untuk "memodelkan dunia" secara ekonomis.

Yang pertama, primordial, artinya - gudang, harta karun, istilah tesaurus digunakan oleh L.V. Shcherba dalam artikel "Pengalaman dalam Leksikografi Umum" (oposisi ketiga: tesaurus adalah kamus biasa (penjelasan atau terjemahan). Ilmuwan menulis: "Ketika mereka mengatakan tesaurus, saat ini mereka paling sering berarti" Thesaurus linguae latinae ", sebuah perusahaan dari lima akademi Jerman, dimulai pada tahun 1900 dan masih membawa dengan penghilangan hanya pada huruf M. Ciri khas Jenis kamus ini terdiri dalam kenyataan bahwa kata-kata itu mengandung semua kata yang tegas yang telah muncul dalam bahasa tertentu setidaknya satu kali, dan bahwa di bawah setiap kata terdapat dengan tegas semua kutipan dari teks-teks yang tersedia dalam bahasa tertentu. Oposisi di atas - tesaurus - kamus biasa (penjelasan atau terjemahan) - didasarkan pada oposisi "materi linguistik" dan "sistem linguistik" - konsep yang saya coba buktikan dalam artikel saya "Tentang tiga aspek fenomena linguistik dan tentang eksperimen dalam linguistik."

Arti kedua dari istilah ini dikaitkan dengan kamus-tesaurus yang dikenal luas "Thesaurus kata-kata Inggris dan ekspresi "P.M. Roget (Tesaurus Kata dan Frasa Bahasa Inggris Roget, 1852) dan kelanjutannya, kamus OV Baranov.

Dalam interpretasi ini, istilah tesaurus menunjukkan cara pengorganisasian tertentu, menempatkan komposisi leksikal dalam kamus (lihat arti ketiga istilah tersebut).

Arti keempat dari istilah tesaurus dikaitkan dengan pengakuan umum tentang cara mengatur komposisi leksikal sedemikian rupa, yang memungkinkan untuk "memodelkan dunia" secara ekonomi. Dari sudut pandang ini, kamus-tesaurus adalah "pengurutan sistematis kosakata bidang ilmiah atau teknis apa pun, dan dalam bentuk paling umum - kosakata sastra umum, dan terlebih lagi, seluruh kosakata bahasa tertentu."

Menurut Yu.N. Karaulov, sebuah tesaurus bahasa umum, memperbaiki struktur dan hubungan judul, bagian, zona, area kemungkinan luas koneksi non-verbal ide, memastikan bahwa nilai-nilai kemanusiaan diperhitungkan.

NS. Baranov dan D.O. Dobrovolsky dalam kata pengantar "Dari Editor" hingga "Kamus-tesaurus idiom Rusia modern" memberikan definisi berikut pada tesaurus - jenis khusus kamus yang berbeda dari yang lain (khususnya, penjelasan, bilingual, dll) dalam cara mengatur materi kebahasaan. Dalam tesaurus, satuan bahasa tidak disajikan dalam urutan abjad, seperti dalam kamus biasa, tetapi dikelompokkan berdasarkan maknanya.

L.P. Krysin menyebut tesaurus (kamus ideografis) sebagai kamus penjelas dari jenis khusus, kamus "sebaliknya". "Jika dalam kamus penjelasan, ilmuwan menulis," pintu masuk "ke entri kamus adalah kata, dan isi entri kamus adalah interpretasi arti kata ini, maka dalam kamus ideografis" input "adalah makna, gagasan (karenanya nama kamus jenis ini - ideografis), dan isi entri kamus adalah daftar kata yang mengungkapkan makna yang diberikan. Dan jika kamus penjelasan adalah alat yang sangat diperlukan untuk memahami teks, maka kamus ideografik dapat digunakan saat membuat teks: sangat sering seseorang ingin mengungkapkan pemikiran tertentu, tetapi tidak dapat menemukan kata yang cocok untuk ini; kamus ideografik membuat pencarian ini lebih mudah. Ada dua jenis utama tesauri:

tesaurus linguistik - kamus yang berisi daftar kata-kata bahasa alami yang dipilih sebagai hasil analisis teks yang bermakna dan disistematisasikan sesuai dengan sistem klasifikasi yang diadopsi;

tesaurus statistik adalah kamus pencarian informasi yang berisi daftar kata yang dipilih sebagai hasil analisis statistik teks pada topik tertentu dan dikelompokkan ke dalam entri kamus berdasarkan frekuensi kemunculan bersama kata-kata ini dalam teks yang sama.

Information retrieval thesauri (IPT) memfasilitasi pencarian informasi selama pemrosesan otomatisnya. IPT secara maksimal mengungkap relasi semantik antar unit leksikal. Sebagaimana dinyatakan dalam Standar Negara untuk IPT, "tesaurus pencarian informasi monolingual adalah kamus unit leksikal yang dikendalikan dan berubah berdasarkan kosakata satu bahasa alami, menampilkan hubungan semantik antara unit leksikal dan dimaksudkan untuk pemrosesan dan pengambilan informasi."

Unit dasar IPT adalah istilah deskriptor. Bagian alfabet, leksikal dan semantik dari IPT adalah kumpulan entri deskriptor.

Kamus deskriptif dimaksudkan untuk deskripsi lengkap tentang kosa kata daerah tertentu dan untuk memperbaiki semua penggunaan di sana; mereka mencatat semua kasus relevan yang tersedia. Contoh khas kamus deskriptif adalah Explanatory Dictionary of the Living Great Russian Language oleh V.I. Dahl (edisi pertama dalam empat volume diterbitkan pada tahun 1863-1866). Tujuan penciptanya bukanlah untuk membakukan bahasa, tetapi untuk sepenuhnya menggambarkan seluruh variasi pidato Rusia Hebat, termasuk bentuk dialek vernakularnya.

Setiap entri kamus deskriptor dimulai dengan deskriptor, di mana sinonim dari deskriptor ini, serta unit leksikal lain yang terkait dengan deskriptor utama, hubungan generik atau asosiatif, diberikan di bawah dalam artikel GOST.

Jadi, tesauri, terutama dalam format elektronik, adalah salah satu alat yang paling efektif untuk menggambarkan bidang subjek individu.

Tesaurus murni jarang terjadi. Dalam tesauri nyata, ide awal disederhanakan atau informasi tambahan ditambahkan, tetapi berpotensi diperlukan bagi pengguna. Yang paling terkenal saat ini adalah "Kamus Semantik Rusia" oleh Yu.N. Karaulova, "Kamus Nama Identik" N.Yu. Shvedova, "Kamus Tematik Bahasa Rusia" oleh L.G. Smekhova dan lainnya.

Ringkasan. Istilah tesaurus L.V. Shcherba menggunakannya dalam kaitannya dengan kamus, yang mencatat, bila memungkinkan, semua konteks di mana kata tersebut muncul. Ciri khas tesauri adalah bahwa mereka mengandung semua kata yang muncul dalam bahasa tertentu setidaknya satu kali, dan di bawah setiap kata terdapat semua kutipan dari teks yang tersedia dalam bahasa tertentu. Isi kamus tesaurus adalah bahan linguistik, dan isi kamus biasa adalah bahan linguistik dan sistem linguistik (istilah L.V. Shcherba).

Karakteristik ini dilengkapi dengan semua jenis tautan silang - lebih sering paradigmatik (sinonim atau antonim), yang menunjukkan kesamaan atau pertentangan makna. Selain itu, berbagai assoc. tautan (yaitu tautan sintaksis).

Dengan demikian, tugas kamus (kamus ideografis) adalah untuk memberikan gambaran tentang organisasi semantik dari bagian tertentu dari bahan linguistik, menunjukkan bidang semantik utama, struktur internal dan koneksi eksternal. Tesaurus adalah demonstrasi yang jelas dari sifat sistemik bahasa, memungkinkan Anda untuk melihat banyak jenis hubungan yang menghubungkan unit linguistik individu dan kelompok unit.

3.2. Sejarah penyajian pengetahuan konseptual tentang dunia dalam bentuk tesaurus

Kebutuhan untuk mengatur kata-kata dengan kesamaan, kedekatan, analogi maknanya dirasakan sepanjang sejarah pemikiran manusia yang dapat diamati.

Untuk menelusuri asal usul gagasan merepresentasikan pengetahuan konseptual tentang dunia dalam bentuk tesaurus, kita akan terbantu dengan merujuk pada sejarah penyusunan tesauri (kamus ideografis).

Jadi, pada awal peradaban, ketika orang dapat mengungkapkan pikiran mereka secara tertulis hanya dengan bantuan ideogram dan simbol, satu-satunya kamus yang mungkin adalah kamus yang kata-kata disusun dalam kelompok tematik. Sulit bagi seorang leksikografer pada waktu itu untuk menemukan kriteria lain untuk klasifikasi kata, kecuali untuk hubungan yang ada dalam realitas itu sendiri.

Sayangnya, kami tidak memiliki bukti apakah orang-orang yang menggunakan tulisan ideografis benar-benar memiliki kamus seperti itu. Di antara upaya paling kuno pada klasifikasi ideografik yang kita kenal disebut Attikai Lexeis dari tata bahasa Yunani, direktur Perpustakaan Alexandria Aristophanes of Byzantium (meninggal 180 SM).

Pada abad II. n. NS. sebuah karya besar "Onomasticon" muncul, disusun berdasarkan materi bahasa Yunani oleh ahli kamus dan sofis Julius Pollux (nama asli Polidevkus), penduduk asli kota Navcratis di Mesir. Y. Pollux menulis beberapa karya, tetapi hanya "Onomasticon" yang bertahan sampai sekarang (Pollux Y. Onomasticon. M., 1956).


Onomasticon terdiri dari 10 buku. Buku pada dasarnya adalah risalah terpisah dan berisi kata-kata paling penting yang terkait dengan topik tertentu. Jadi, buku pertama berbicara tentang dewa dan raja; yang kedua - tentang orang, kehidupan dan struktur fisiologis mereka; di ketiga - tentang kekerabatan dan hubungan sipil, dll. Kata-kata dalam kamus disertai dengan penjelasan singkat. Di zaman modern, kamus pertama kali diterbitkan pada 1502 di Venesia.

Antara abad ke-2 dan ke-3 n. NS. kamus Sansekerta yang indah "Amarakosha" (Amarakosha. Paris, 1839) diterbitkan. Penulisnya adalah penyair, tata bahasa, dan leksikografer India kuno Amara Sina, yang disebut "salah satu dari sembilan mutiara yang menghiasi tahta Vikramaditya." Amarakosha, diterjemahkan ke dalam bahasa Rusia, berarti perbendaharaan Amara. Kamus berisi 10 ribu kata. Untuk menghafal interpretasi makna kata dengan lebih baik, entri kamus dibuat dalam bentuk ayat. Semua materi kamus dibagi menjadi 3 buku. Setiap buku mencakup beberapa bab, dan bab, pada gilirannya, jika perlu, dibagi menjadi beberapa bagian. Buku pertama didedikasikan untuk langit, dewa dan segala sesuatu yang berhubungan langsung dengan mereka. Buku kedua berisi kata-kata yang berhubungan dengan bumi, pemukiman, tumbuhan, hewan dan manusia (pertama, manusia dianggap sebagai makhluk hidup, dan kemudian sebagai makhluk sosial; seluruh struktur kasta masyarakat modern muncul di depan mata kita; imam, sebagai Orang kepercayaan Tuhan, berada di paling atas, dan di bawah adalah militer dan raja, bahkan di bawah adalah pemilik tanah, dan di paling bawah adalah pengrajin, pemain sulap, pelayan, dll). Buku ketiga sebenarnya linguistik, seperti yang terlihat dari judul enam babnya.

Kamus ini baru diketahui oleh para sarjana Eropa pada akhir abad ke-18, ketika pada tahun 1798 bagian pertamanya diterbitkan di Roma. Itu diterbitkan secara lengkap dengan terjemahan ke dalam bahasa Inggris pada tahun 1808 oleh ahli bahasa Sanskerta Inggris G.T. Colebrooke. Pada tahun 1839, terjemahan bahasa Prancisnya oleh A.L. Delonshan (A.L. Deslongchamps). Pengembangan lebih lanjut ide-ide klasifikasi semantik kosa kata yang terkait dengan masalah yang disebut bahasa dunia.

Ringkasan. Ini, dalam istilah yang paling umum, tahap pertama dalam pengembangan tradisi klasifikasi ideografik kosa kata. Tahap ini bisa disebut prasejarah kamus ideografis. Sekarang disarankan untuk beralih ke klasifikasi modern kamus tesaurus.

Sangat mudah untuk melihat betapa berbedanya karya-karya yang dijelaskan dengan kamus abjad. Jika dalam kamus abjad penyajian kata-kata diatur oleh instrumen bersyarat dan sangat netral seperti alfabet, maka dalam pembangunan kamus ideografis, pandangan dunia leksikografer itu sendiri menjadi sangat penting.

3.3. Prinsip untuk klasifikasi kamus tesaurus

Seperti yang telah ditunjukkan di atas, masalah menyusun klasifikasi tesauri bukanlah hal baru dan selama beberapa dekade telah menarik perhatian sejumlah ahli bahasa dalam dan luar negeri (K. Marello, V.V. Morkovkin, L.P. Stupin, V.V.Dubichinsky, dll. ). Hasil penelitian di bidang ini adalah penciptaan klasifikasi alternatif dari karya-karya leksikografis ini. Salah satu klasifikasi terbaru didasarkan pada kriteria berikut: a) jenis koneksi semantik antara unit kosa kata; 2) volume kosakata; 3) kosakata umum; 4) pengembangan makna leksem; 5) kualifikasi gramatikal dan stilistika leksem; 6) demonstrasi fungsi leksem; 7) jumlah bahasa yang diwakili; 8) jenis sarana semiotik yang digunakan untuk semantisasi leksem. Klasifikasi bernama didasarkan pada klasifikasi yang dibuat sebelumnya oleh O.M. Karpova dan I. Burkhanov (Burchanov I. Tentang Deskripsi Ideografis Aspek Gaya dan Pragmatis yang Relevan dari Makna Leksikal. London, 1996); terminologi yang digunakan dalam klasifikasi dimasukkan ke dalam aparatus leksikografis


V.V. Morkovkin, Yu.N. Karaulov, K. Marello. Kriteria klasifikasi dirumuskan oleh O.M. Karpova. Pada saat yang sama, K. Marello membedakan tiga jenis tesauri:

kumulatif, yaitu pengelompokan kata-kata tanpa mendefinisikan maknanya;

definitif, menafsirkan setiap unit leksikal pengelompokan kata;

tesauri bilingual dan multibahasa untuk pelancong (Marello C. TheThesaurus // W.D.D. 1990. V. 2. P. 1083).

Tesauri kumulatif tidak hanya memberikan kesempatan untuk menemukan kata yang lebih mudah dipahami, akurat, benar secara gaya dalam situasi berada di bidang semantik tertentu, tetapi juga menjadi dasar pembentukan bank data komputer tematik.

Tesauri definitif dapat mencakup, bersama dengan definisi makna, informasi etimologis dan kutipan dari karya sastra, yang menunjukkan orientasi ensiklopedis langsung dari jenis tesauri ini. Selain itu, kamus jenis ini memperkenalkan pengguna pada sistem konsep yang diperlukan, menjelaskan esensi, persamaan dan perbedaan konsep, koneksi paradigmatik dan sintagmatiknya, terkadang memberikan informasi tentang pengucapan, tata bahasa, pembentukan kata, dan kemungkinan leksikal lainnya. unit yang menunjukkan konsep-konsep ini.

Tesaurus bilingual dan multibahasa untuk pelancong biasanya dibuat sesuai dengan bagian tematik: angka, makanan, transportasi, hotel, dll. dengan terjemahan padanan dua bahasa atau lebih.

Untuk tampilan paling lengkap dari jenis kamus tesaurus yang ada, dibuat klasifikasi bertingkat. Pertama, menurut jenis hubungan semantik antar unit kosakata, tesauri dibagi menjadi tiga kelas besar:

1. Tesaurus asosiatif (terminologi Yu.N. Karaulov

2. Tesaurus serupa (terminologi V.V. Morkovkin

3. Tesaurus ideografis (ideologis) (terminologi L.V.Scherba, V.V. Morkovkin. Tiga jenis tesaurus yang disebutkan mencerminkan jenis koneksi semantik leksem berikut, masing-masing:

1. Hubungan semantik-sintaksis, atas dasar yang
kata-kata digabungkan menjadi kelompok atau pasangan, ditentukan sebelumnya dalam asal dan keberadaannya oleh ikatan rangkap: semantik dan sintaksis. Koneksi semantik kata-kata dibuat terutama antara kata kerja dan kata sifat yang melakukan fungsi predikatif dalam sebuah kalimat, dan kata benda, misalnya:

a) antara tindakan dan organ (instrumen) yang digunakan untuk melakukannya: ambil - tangan, lihat - mata, berenang - perahu, dll.;

b) antara kata kerja tindakan yang membutuhkan satu subjek, dan subjek: menggonggong - seekor anjing, meringkuk - seekor kuda, dll .; c) antara kata kerja dan tambahan tata bahasa tertentu, yang diperlukan oleh yang pertama: memotong kayu, makan makanan, dll.

Oleh karena itu, tesaurus asosiatif adalah kamus-tesaurus yang mengatur unit leksikal berdasarkan hubungan semantik dan sintaksis yang ada di antara mereka dan mengatur kelompok sesuai dengan bentuk grafik pusat kata.

2. Koneksi leksikal dan semantik. Penyatuan ke dalam kelompok dengan jenis koneksi ini terjadi sesuai dengan atribut utama kata - makna leksikal. Ini juga memperhitungkan koneksi leksiko-gramatikal, dalam bentuk di mana makna individual kata-kata direalisasikan.

Jadi, tesaurus analog adalah buku referensi leksikografis, unit dasar struktur makronya adalah kelompok leksikal-semantik; kelompok-kelompok tersebut disistematisasikan dalam urutan abjad dari dominan semantik.

3. Subyek atau hubungan tematik, dimana penggabungan kata menjadi satu kelompok terjadi karena kesamaan atau kesamaan fungsi objek dan proses yang ditunjukkan oleh kata: objek
barang-barang rumah tangga, bagian tubuh, jenis pakaian, bangunan, dll.

Jadi, tesaurus ideografik adalah karya leksikografis yang mewakili unit leksikal dalam kelompok subjek (tematik) dan mengaturnya ke dalam struktur hierarki yang dirancang untuk mewakili pengetahuan yang dikonseptualisasikan tentang dunia.

Dalam kerangka kriteria yang sama, kami melakukan pembagian jenis lebih lanjut. Dengan demikian, tesaurus ideografik diwakili oleh 4 jenis berikut:


Tesaurus ideografik itu sendiri.

kamus tematik.

Kamus sistematis.

Kamus subjek-sistematis


Tesaurus ideografis itu sendiri adalah jenis khusus kosakata ideografik, yang struktur makronya diatur sesuai dengan peta sinoptik apriori yang ditumpangkan pada komposisi leksikal bahasa. Tidak seperti jenis kosakata ideografik lainnya, tesaurus ideografik itu sendiri dicirikan oleh struktur klasifikasi yang logis dan teratur berdasarkan taksonomi ilmiah, bahkan jika kosakata umum tunduk pada deskripsi leksikografis (New Webster "Thesaurus. Landoll, 1991).

Kamus tematik adalah jenis khusus dari tesaurus ideografik, unit utama dari struktur makro yang merupakan kelompok tematik, yang mencakup leksem yang digabungkan berdasarkan klasifikasi denotasinya (rujukan) dan dipertimbangkan dari sudut pandang relevansinya. ke topik tertentu.

Kamus sistematis adalah jenis khusus dari tesaurus ideografik, struktur klasifikasi yang dimaksudkan untuk mewakili hubungan semantik aktual yang ada antara unit leksikal bahasa. Pada intinya, struktur klasifikasi merepresentasikan klasifikasi leksikal-gramatikal dari kosakata, dengan kata lain, struktur paradigmatiknya, dijelaskan dalam hal subordinasi dan komposisi.

Kamus tematik-sistematis adalah jenis khusus dari kamus ideografik, yang merupakan kombinasi dari kamus tematik dan sistematis.

Ringkasan. Klasifikasi tesauri linguistik yang dipertimbangkan mencakup jenis kamus berikut: tesaurus analog (terminologi VV Morkovkin); tesaurus ideografik (ideologis) (terminologi L.V.Scherba dan V.V. Morkovkin); asosiasi tesaurus (terminologi oleh Yu.N. Karaulov). Pop akan disajikan selanjutnya. tesauri dan fitur-fiturnya terungkap.

3.4. Tesauri populer dan fitur-fiturnya

Kamus tesaurus paling terkenal yang tersedia, di mana istilah ini sendiri berutang keberadaannya, dibuat atas dasar bahasa inggris; itu adalah tesaurus yang terus-menerus dicetak ulang oleh P.M. Tesaurus Kata dan Frasa Bahasa Inggris karya Roger Roget (1852).

Penting untuk dicatat bahwa penulis Thesaurus of English Words and Expressions memanfaatkan sepenuhnya pengalamannya saat itu. “Prinsip yang membimbing saya ketika mengklasifikasikan kata-kata,” tulis P.M. Roger adalah orang yang sama yang digunakan untuk mengklasifikasikan individu di berbagai bidang sejarah alam. Oleh karena itu, bagian-bagian yang saya soroti sesuai dengan keluarga alami botani dan zoologi, dan deretan kata disemen oleh hubungan yang sama yang menyatukan barisan alami tumbuhan dan hewan.

PM. Roger percaya bahwa klasifikasi kata yang meyakinkan menurut artinya tidak mungkin sampai objek realitas yang disebut kata-kata ini dipelajari dan diatur dengan benar. Oleh karena itu, ia memulai karyanya dengan membagi bidang konseptual bahasa Inggris menjadi empat kelas besar: hubungan abstrak, ruang, materi dan roh (pikiran, kehendak, perasaan). Kelas-kelas ini dibagi lagi menjadi sejumlah genera, yang pada gilirannya dibagi lagi menjadi sejumlah spesies tertentu.

Di antara kekurangan kamus ideografis P.M. Ilmuwan Roger mengaitkan hal-hal berikut: 1) tata nama kelas konseptual dasar yang tidak cukup meyakinkan; 2) konsistensi abstrak mendominasi hubungan alami kata-kata; 3) ketidaknyamanan penggunaan yang relatif (sebagian besar, kekurangan ini diperbaiki pada edisi berikutnya).

Dalam leksikografi Rusia modern ada beberapa kamus yang harus diklasifikasikan sebagai kamus tesaurus (kamus ideografis). Ini, misalnya, dibuat di bawah kepemimpinan Yu.N. Karaulov "Kamus Semantik Rusia", "Kamus Semantik Rusia" diedit oleh N.Yu. Shvedova, "Kamus Tematik Bahasa Rusia" L.G. Sayakhova, D.M. Khasanova dan V.V. Morkovkina, "Kamus kelompok leksikal-semantik kata kerja Rusia", ed. E.V. Kuznetsova, "Kamus Ideografis Bahasa Rusia" oleh O.S. Baranov, "Konsep dunia batin manusia dalam bahasa Rusia" V.I. Ubiyko, kamus pendidikan komprehensif "Dasar leksikal bahasa Rusia" di bawah bimbingan V.V. Morkovkin.

Mari berkenalan dengan beberapa di antaranya.

Kamus-tesaurus idiom Rusia modern "diedit oleh A.N. Baranova dan D.O. Dobrovolsky mencakup empat bagian utama: 1) sinopsis; 2) legenda; 3) bagian utama Kamus Tesaurus; 4) penunjuk. Tujuan dari Sinopsis adalah untuk memberikan gambaran tentang struktur Korpus Utama Tesaurus. Ini mencantumkan semua taksa dengan subtakson dan referensi paradigmatik yang sesuai. Korpus utama Kamus Thesaurus adalah kumpulan entri kamus yang digabungkan menjadi kelompok (taxa) dan subkelompok (subtaxon) sesuai dengan makna idiom yang dijelaskan di dalamnya. Setiap artikel berisi idiom dan contoh penggunaannya dalam bahasa Rusia modern. Synopsis, Legend, Pointer adalah bagian layanan dari Kamus-tesaurus yang disebutkan di atas, yang memberi pengguna kemampuan untuk bekerja dengan cepat dan efisien. Legenda digunakan dalam kasus-kasus ketika contoh penggunaan idiom tidak diperlukan, karena itu mereproduksi semua informasi kecuali contoh. Sebenarnya, ini adalah kosakata Kamus. Satuan kosakata adalah lemma. Lemma dalam hal ini adalah idiom dalam bentuk aslinya (kamus) dan mencakup, jika mungkin, semua varian esensialnya. Misalnya, idiom untuk berdiri diam adalah bagian dari lemma untuk menandai waktu, berdiri diam, dan tergelincir di tempat.

Kamus berisi dua petunjuk. Di akhir buku ada artikel "Konsep teoritis Kamus-tesaurus ideomatik Rusia modern", yang menganalisis secara rinci fitur ilmiah dari proyek ini.

"Kamus Semantik Rusia", dibuat di bawah bimbingan Yu.N. Karaulova mencakup 10 ribu kata Rusia, yang dibagi menjadi 1600 kelompok konseptual. Pemilihan kelompok didasarkan pada pengulangan elemen interpretasi kata-kata dalam kamus penjelasan: misalnya, "aksi", "properti", "instrumen", dll.

"Kamus Semantik Rusia", dibuat di bawah kepemimpinan Akademisi N.Yu. Shvedova, didasarkan pada prinsip-prinsip yang sedikit berbeda yang khas untuk kompilasi kamus ideografik dan penjelasan. Pertama, semua kata bahasa dibagi di sini menjadi empat kelas: 1) menunjukkan unit (kata ganti), 2) penamaan (kata-kata penting), 3) benar-benar menghubungkan (konjungsi, preposisi, kata kerja penghubung), 4) mengklasifikasikan (kata modal , partikel, interjeksi). Kedua, dalam setiap kelas, semua kata dibagi menjadi bagian-bagian ucapan. Ketiga, dalam setiap part of speech, set dan subset diidentifikasi berdasarkan kedekatan tematik atau, sebaliknya, oposisi makna kata.

DUDEN adalah buku dengan gambar (drawing) di sisi kiri (menurut software yang berbeda) dengan detail nomor (sampai yang terkecil). Di sebelah kanan, daftar bernomor ini disertai dengan judul (bahkan dalam dua bahasa). Misalnya, seluruh halaman berisi peralatan kereta api, stasiun, trek. Di sebelah kanan adalah nama anak panah, semaphore, kruk, dll.

"Kamus tematik bahasa Rusia" L.G. Sayakhova, D.M. Khasanova dan V.V. Morkovkina berisi 25 ribu unit leksikal, dikelompokkan menjadi tiga kelas besar: "Manusia", "Masyarakat", "Alam", yang bercabang secara bertahap menjadi subkelas yang lebih kecil. Misalnya, di kelas "Manusia" subkelas "Tubuh dan organisme manusia", "Kehidupan manusia", " Penampilan, penampilan manusia "," Penampilan emosional seseorang ", dll. Setiap subkelas, pada gilirannya, dibagi menjadi yang lebih khusus:" Dunia emosional seseorang "-" Sifat mental seseorang "-" Temperamen "," Karakter "-" Karakter umum " dll. Arti dan penggunaan kata-kata milik masing-masing kelas diilustrasikan oleh frasa yang paling umum. Misalnya, kata "tertawa", yang ada dalam subkelompok "ekspresi perasaan, emosi" dari kelas "Orang", disertai dengan indikasi kombinasi dengan kata ini seperti tawa ceria, tawa gembira, tawa anak-anak, ledakan menjadi tawa, dll.

Ringkasan. Salah satu alat yang paling efektif untuk menggambarkan bidang studi individu, terutama dalam format elektronik, adalah tesauri.

Istilah tesaurus telah lama digunakan secara luas dalam linguistik untuk menunjukkan tipe khusus kamus, sampai taraf tertentu mencerminkan "gambaran dunia", "model linguistik dunia" (menurut Yu.N. Karaulov). Tesaurus sebagai "perbendaharaan" telah berkembang dalam volume semantiknya dan memperoleh makna baru. Mereka mulai memanggil kamus yang tidak hanya menyerap semua kekayaan leksikal bahasa, tetapi juga mengaturnya dengan cara logis-sistemik tertentu. Dalam kamus tesaurus, kata-kata disatukan ke dalam kelompok, dan kombinasi ini terjadi atas dasar kemampuan kata untuk menyampaikan konsep tertentu.

Kamus tesaurus selalu dianggap dalam linguistik sebagai semacam sistem universal yang menjamin penyimpanan pengetahuan kolektif (untuk masyarakat tertentu) tentang dunia dalam bentuk verbal. Tidak seperti kamus lain, kamus tesaurus menyimpan pengetahuan ini dalam bentuk terstruktur yang mencerminkan gagasan kita tentang "struktur dunia".

Tesauri yang paling terkenal dan populer saat ini adalah Tesaurus Inggris Roger, Kamus Ideografis Bahasa Rusia oleh O.V. Baranova, Kamus Semantik Rusia Yu.N. Karaulova, Kamus Semantik Rusia Akademisi N.Yu. Shvedova, DUDEN, Kamus Tematik Bahasa Rusia L.G. Sayakhova, D.M. Khasanova dan V.V. Morkovkin.

Sesuai dengan kesimpulan Bab 1, tesaurus, kompilasi dan studi yang menjadi fokus pekerjaan kami, adalah kamus tematik ideografis "Wisata Gunung dan Hiking". Ini akan terdiri dari kosakata bahasa Rusia dan Spanyol.

Jadi, untuk menyusun tesaurus, perlu untuk memecahkan sejumlah masalah:

Sorot istilah yang menggambarkan area subjek;

Melakukan pembagian logis istilah ke dalam kelompok semantik;

Bandingkan istilah bahasa Rusia dan Spanyol;

Susun kelompok berdasarkan abjad.

Metode dan algoritma untuk kompilasi tesaurus manual

Tesaurus temu kembali informasi adalah kamus yang disusun dengan tangan oleh ahli bahasa yang ahli, ahli di bidang pembuatan kamus dan sumber daya semantik. Saat menyusun kamus semacam itu, tugasnya adalah memperoleh deskripsi tesaurus dari satu atau beberapa bidang studi, sementara seringkali ada kumpulan teks yang menjadi dasar untuk membuat kamus. Pakar menganalisis korpus teks dan, dipandu oleh teknologi konstruksi manual tesaurus, menyusun daftar istilah yang menggambarkan area subjek tertentu dan memasukkan tesaurus mereka sebagai deskriptor. Setelah itu, istilah-istilah tersebut dikelompokkan ke dalam konsep dan hubungan hierarkis dan asosiatif dibangun di antara mereka.

Proses pembuatan tesaurus secara manual dicirikan oleh kerugian seperti biaya tinggi dan durasi pembuatan sumber daya, persyaratan hasil pada kualifikasi seorang ahli, ketidakmungkinan menganalisis seluruh kumpulan teks secara manual, dan beberapa lainnya. Jelas, ketika menyusun tesaurus secara manual, seorang ahli perlu menggunakan metode pencarian informasi yang ada dan mesin pencari internet- sistem.

Pertama-tama, tesaurus dwibahasa tidak mewakili terjemahan kata demi kata, strukturnya adalah daftar leksem dalam bahasa Rusia yang disusun berdasarkan kedekatan makna semantik - definisi konsep dalam bahasa Rusia - definisi konsep dalam bahasa Rusia bahasa asing- daftar opsi teks dalam bahasa asing. Dalam hal ini, daftar unit leksikal harus selengkap mungkin di setiap sisi, termasuk ekspresi yang biasanya tidak terwakili dalam kamus, karena tampak jelas bagi seseorang.

Saat membuat kamus dwibahasa tradisional, tujuan utamanya adalah menyediakan satu set terjemahan kata yang paling sering digunakan dalam berbagai teks. Terjemahan diberikan seolah-olah dengan margin, daftar terjemahan mencakup terjemahan yang tepat dan terjemahan dengan makna yang lebih sempit dan yang lebih luas (inilah sebabnya kamus Spanyol-Rusia dan Rusia-Spanyol tidak dapat dibalik). Diasumsikan bahwa pembaca akan memahami konteks terjemahan mana yang akan dipilih.

Langkah-langkah utama dalam menyusun tesaurus adalah sebagai berikut:

1) Pra-pemrosesan korpus teks untuk menyorot kata kunci.

2) Pembentukan satu set kata dan frase untuk dimasukkan dalam tesaurus dan studi hubungan antara deskriptor tesaurus. Pakar, dipandu oleh set ini, membuat daftar konsep kunci dari area subjek.

3) Alokasi hubungan hierarkis antara deskriptor (dalam kasus kami - urutan abjad) dan klasifikasinya (dalam penelitian kami, klasifikasi didasarkan pada hubungan semantik antara deskriptor).

4) Membangun serangkaian hubungan asosiatif antara deskriptor dalam bahasa Rusia dan Spanyol.