Računarska lingvistika: metode, resursi, primjene. Računarska lingvistika kao primijenjena lingvistička disciplina

Kompjuterska lingvistika(takođe: matematički ili kompjuterska lingvistika, engleski kompjuterska lingvistika) - naučni pravac u oblasti matematičkog i kompjuterskog modeliranja intelektualnih procesa kod ljudi i životinja pri kreiranju sistema veštačke inteligencije, koji ima za cilj korišćenje matematičkih modela za opisivanje prirodnih jezika.

Računalna lingvistika se preklapa sa obradom prirodnog jezika. Međutim, u potonjem, naglasak nije na apstraktnim modelima, već na primijenjenim metodama za opisivanje i obradu jezika za kompjuterske sisteme.

Oblast delatnosti računarskih lingvista je razvoj algoritama i aplikativnih programa za obradu lingvističkih informacija.

porijeklo

Matematička lingvistika je grana nauke o veštačkoj inteligenciji. Njegova istorija započela je u Sjedinjenim Američkim Državama 1950-ih. Pronalaskom tranzistora i pojavom nove generacije računara, kao i prvih programskih jezika, počeli su eksperimenti sa mašinskim prevođenjem, posebno ruskih naučnih časopisa. Šezdesetih godina 20. stoljeća slična su istraživanja provedena u SSSR-u (na primjer, članak o prijevodu s ruskog na armenski u zbirci "Problemi kibernetike" za 1964.). Međutim, kvalitet mašinskog prevođenja je još uvek daleko inferiorniji od kvaliteta ljudskog prevođenja.

Od 15. do 21. maja 1958. godine održana je Prva svesavezna konferencija o mašinskom prevođenju u 1. Moskovskom državnom institutu za strane jezike. Na čelu Organizacionog odbora bili su V. Yu. Rozentsveig i izvršni sekretar Organizacionog odbora G. V. Černov. Kompletan program konferencije objavljen je u zborniku „Mašinsko prevođenje i primenjena lingvistika“, knj. 1, 1959 (poznato i kao Bilten Udruženja za mašinsko prevođenje br. 8). Kako se prisjeća V. Yu. Rozentsweig, objavljena zbirka sažetaka sa konferencije stigla je u SAD i tamo ostavila veliki utisak.

Aprila 1959. u Lenjingradu je održana Prva svesavezna konferencija o matematičkoj lingvistici koju su sazvali Lenjingradski univerzitet i Komitet za primenjenu lingvistiku. Glavni organizator konferencije bio je N. D. Andreev. Na skupu je učestvovao veliki broj istaknutih matematičara, posebno S. L. Sobolev, L. V. Kantorovič (kasnije nobelovac) i A. A. Markov (posljednja dvojica su govorila u debati). Na dan otvaranja Konferencije, V. Yu. Rozentsveig je održao uvodni govor „Opšta lingvistička teorija prevođenja i matematička lingvistika“.

Pravci računarske lingvistike

  • Obrada prirodnog jezika obrada prirodnog jezika; sintaktička, morfološka, ​​semantička analiza teksta). Ovo također uključuje:
  1. Korpusna lingvistika, stvaranje i upotreba elektronskih tekstualnih korpusa
  2. Izrada elektronskih rečnika, tezaurusa, ontologija. Na primjer, Lingvo. Rječnici se koriste, na primjer, za automatsko prevođenje, provjeru pravopisa.
  3. Automatsko prevođenje tekstova. Promt je popularan među ruskim prevodiocima. Google Translate je dobro poznati besplatni prevodilac.
  4. Automatsko izdvajanje činjenica iz teksta (izvlačenje informacija) ekstrakcija činjenica, rudarenje teksta)
  5. autoreferencing (engleski) automatski sažetak teksta). Ova funkcija je uključena, na primjer, u Microsoft Word.
  6. Izgradnja sistema upravljanja znanjem. Pogledajte Stručni sistemi
  7. Kreiranje sistema pitanje-odgovor sistemi za odgovaranje na pitanja).
  • optičko prepoznavanje znakova OCR). Na primjer, FineReader
  • Automatsko prepoznavanje govora ASR). Postoji plaćeni i besplatni softver
  • Automatska sinteza govora

Glavna udruženja i konferencije

Studijski programi u Rusiji

vidi takođe

Napišite recenziju na članak "Računarska lingvistika"

Bilješke

Linkovi

  • (esej)
  • - baza znanja o lingvističkim resursima za ruski jezik
  • - otvoreni izvor nekih uslužnih programa računarske lingvistike
  • - online pristup programima računarske lingvistike

Izvod koji karakteriše računarsku lingvistiku

"Uzmi, uzmi dijete", rekao je Pjer, dajući djevojku i zapovjedno i žurno obraćajući se ženi. Vratite ih, vratite ih! skoro je viknuo na ženu, spustivši djevojku koja je vrištala na zemlju, i ponovo se osvrnuo na Francuze i Jermensku porodicu. Starac je već sjedio bos. Mali Francuz je izuo posljednju čizmu i potapšao čizmama jednu o drugu. Starac je, jecajući, rekao nešto, ali Pjer je to samo naslutio; sva njegova pažnja bila je usmerena na Francuza sa kapuljačom, koji je u tom trenutku, polako se ljuljajući, krenuo ka mladoj ženi i, vadeći ruke iz džepova, uhvatio je za vrat.
Lepa Jermenka je nastavila da sedi u istom nepomičnom položaju, sa spuštenim dugim trepavicama, i kao da ne vidi i ne oseća šta joj vojnik radi.
Dok je Pjer trčao tih nekoliko koraka koji su ga delili od Francuza, dugi pljačkaš u kapuljaču već je kidao ogrlicu koja je bila na njoj sa vrata Jermenke, a mlada žena, hvatajući se rukama za vrat, vrisnula je unutra. prodoran glas.
– Laissez cette femme! [Ostavi ovu ženu!] Pierre je graknuo izbezumljenim glasom, zgrabio dugačkog vojnika okruglih ramena za ramena i odbacio ga. Vojnik je pao, ustao i pobegao. Ali njegov drug je, bacivši čizme, izvadio sekač i prijeteći krenuo na Pjera.
Voyons, pas de betises! [Oh dobro! Ne budi glup!] vikao je.
Pjer je bio u tom zanosu bijesa u kojem se ničega nije sjećao i u kojem mu se snaga udeseterostručila. Bacio se na bosonogog Francuza i pre nego što je uspeo da izvuče sekač, već ga je oborio i udario pesnicama. Iz okolne gomile čuli su se odobravajući povici, a u isto vrijeme iza ugla pojavila se konjska patrola francuskih kopljanika. Kopljanici su kasom dojahali do Pjera i Francuza i opkolili ih. Pjer se nije sjećao ničega od onoga što se dalje dogodilo. Sjetio se da je nekoga tukao, da su ga tukli i da je na kraju osjetio da su mu ruke vezane, da oko njega stoji gomila francuskih vojnika i pretresa mu haljinu.
- Il a un poignard, poručniče, [Poručniče, on ima bodež,] - bile su prve reči koje je Pjer razumeo.
Ah, une arme! [Ah, oružje!] - rekao je oficir i okrenuo se bosonogom vojniku koji je odveden sa Pjerom.
- C "est bon, vous direz tout cela au conseil de guerre, [U redu, dobro, sve ćeš reći na suđenju] - rekao je policajac. A onda se okrenuo Pjeru: - Parlez vous francais vous? [Da li? govoriš francuski?]
Pjer je pogledao oko sebe krvavim očima i nije odgovorio. Vjerovatno mu je lice djelovalo jako zastrašujuće, jer je oficir nešto rekao šapatom, a još četiri kopljanika su se odvojila od tima i stala s obje strane Pjera.
Parlez vous francais? policajac mu je ponovio pitanje, držeći se dalje od njega. - Faites venir l "interprete. [Pozovite prevodioca.] - Iza redova je izjahao mali čovek u civilnoj ruskoj haljini. Pjer ga je odmah prepoznao kao Francuza iz jedne od moskovskih radnji po odeći i govoru.
- Il n "a pas l" air d "un homme du peuple, [On ne izgleda kao običan,] - rekao je prevodilac, gledajući Pjera.
– Oh, oh! ca m "a bien l" air d "un des incendiaires", zaprljao je policajac. "Demandez lui ce qu" il est? [Oh oh! mnogo liči na piromana. Pitajte ga ko je on?] dodao je.
- Ko si ti? upitao je prevodilac. „Nadležni bi trebali da vam odgovore“, rekao je.
- Je ne vous dirai pas qui je suis. Je suis votre zatvorenik. Emmenez moi, [neću ti reći ko sam ja. Ja sam tvoj zatvorenik. Odvedi me,] Pjer je iznenada rekao na francuskom.
- Ah ah! reče policajac namršteno. — Marchons!
Oko kopljanika se okupila gomila. Najbliža Pjeru bila je bodljikava žena sa devojkom; kada je zaobilaznica počela, krenula je naprijed.
"Gdje te vode, draga moja?" - ona je rekla. - Djevojka, gdje ću onda djevojku, ako nije njihova! - rekla je baka.
- Qu "est ce qu" elle veut cette femme? [Šta ona hoće?] upitao je policajac.
Pjer je bio kao pijanac. Njegovo zaneseno stanje se dodatno pojačalo pri pogledu na djevojku koju je spasio.
"Ce qu" elle dit? - rekao je. - Elle m "apporte ma fille que je viens de sauver des flammes", rekao je. – Zbogom! [Šta ona želi? Nosi moju kćer koju sam spasio iz požara. Zbogom!] - i on, ne znajući ni sam kako mu je ova besciljna laž pobjegla, odlučnim, svečanim korakom, krenu između Francuza.
Francuska patrola je bila jedna od onih koje su po nalogu Duronela slate raznim ulicama Moskve da suzbijaju pljačku, a posebno da hvataju piromane, koji su, prema opštem mišljenju koje se tog dana pojavilo među Francuzima viših rangova, bili uzrok požari. Obišavši nekoliko ulica, patrola je odvela još pet sumnjivih Rusa, jednog trgovca, dva sjemeništaraca, seljaka i dvorskog čovjeka i nekoliko pljačkaša. Ali od svih sumnjivih ljudi, Pjer se činio najsumnjivijim od svih. Kada su svi dovedeni da prenoće u velikoj kući na Zubovskom valu, u kojoj je uspostavljena stražarnica, Pjer je stavljen posebno pod strogu stražu.

U to vreme u Sankt Peterburgu, u najvišim krugovima, sa većim žarom nego ikada ranije, vodila se složena borba između partija Rumjanceva, Francuza, Marije Fjodorovne, Careviča i drugih, ugušenih, kao i uvek, od strane trube dvorskih dronova. Ali miran, luksuzan, zaokupljen samo duhovima, odrazima života, peterburški život je tekao po starom; i zbog toka ovog života morali su se uložiti veliki napori da se shvati opasnost i teška situacija u kojoj se ruski narod našao. Postojali su isti izlazi, balovi, isto francusko pozorište, isti interesi dvorova, isti interesi službe i intriga. Tek u najvišim krugovima uloženi su napori da se prisjeti teškoće sadašnje situacije. Pričalo se šapatom o tome kako su jedna nasuprot drugoj, u tako teškim okolnostima, djelovale obje carice. Carica Marija Fjodorovna, zabrinuta za dobrobit njoj podređenih dobrotvornih i obrazovnih ustanova, naredila je da se sve ustanove pošalju u Kazan, a stvari ovih institucija su već bile spakovane. Carica Elizaveta Aleksejevna, na pitanje kakve bi naredbe htela da izdaje, sa svojim uobičajenim ruskim patriotizmom udostojila se da odgovori da ne može da naređuje državnim institucijama, jer se to tiče suverena; o istoj stvari koja lično zavisi od nje, udostojila se da kaže da će poslednja napustiti Petersburg.

Sadržaj članka

RAČUNARSKA LINGVISTIKA, smjer u primijenjenoj lingvistici, usmjeren na korištenje kompjuterskih alata - programa, kompjuterskih tehnologija za organiziranje i obradu podataka - za modeliranje funkcionisanja jezika u određenim uslovima, situacijama, problemskim područjima i sl., kao i cjelokupnom djelokrugu rada računara. jezički modeli u lingvistici i srodnim disciplinama. Zapravo, samo u ovom drugom slučaju govorimo o primijenjenoj lingvistici u užem smislu, budući da se kompjutersko modeliranje jezika može smatrati i sferom primjene informatike i teorije programiranja na rješavanje problema nauke o jeziku. U praksi se, međutim, gotovo sve što se odnosi na upotrebu računara u lingvistici naziva računarskom lingvistikom.

Kao poseban naučni pravac, kompjuterska lingvistika se oblikovala 1960-ih godina. Ruski izraz "računarska lingvistika" je paus papir iz engleske računarske lingvistike. Budući da se pridjev računski na ruskom jeziku može prevesti i kao „računarski“, u literaturi se nalazi i pojam „računarska lingvistika“, ali u ruskoj nauci on dobija uže značenje, približavajući se pojmu „kvantitativne lingvistike“. Protok publikacija u ovoj oblasti je veoma visok. Pored tematskih zbirki, časopis Computational Linguistics izlazi kvartalno u Sjedinjenim Državama. Veliki organizacioni i naučni rad obavlja Udruženje za računarsku lingvistiku, koje ima regionalne strukture (posebno evropski ogranak). Svake dvije godine održavaju se međunarodne konferencije o računarskoj lingvistici - COLING. Relevantna pitanja se obično široko predstavljaju i na raznim konferencijama o umjetnoj inteligenciji.

Priručnik za računarsku lingvistiku.

Računarska lingvistika, kao posebna primijenjena disciplina, izdvaja se prvenstveno po svom alatu – tj. o upotrebi kompjuterskih alata za obradu jezičkih podataka. Budući da kompjuterski programi koji modeliraju određene aspekte funkcionisanja jezika mogu koristiti različite programske alate, čini se da nema potrebe govoriti o opštem konceptualnom aparatu računarske lingvistike. Međutim, nije. Postoje opći principi kompjuterskog modeliranja mišljenja, koji su nekako implementirani u bilo koji kompjuterski model. Oni se zasnivaju na teoriji znanja, koja je prvobitno razvijena u oblasti veštačke inteligencije, a kasnije je postala jedan od sekcija kognitivne nauke. Najvažnije konceptualne kategorije računarske lingvistike su takve strukture znanja kao što su "okviri" (konceptualne, ili, kako se kaže, konceptualne strukture za deklarativno predstavljanje znanja o tipiziranoj tematski objedinjenoj situaciji), "scenariji" (konceptualne strukture za proceduralne strukture). predstavljanje znanja o stereotipnoj situaciji ili stereotipnom ponašanju), „planovi“ (strukture znanja koje fiksiraju ideje o mogućim radnjama koje vode ka postizanju određenog cilja). Koncept "scene" usko je povezan sa kategorijom kadra. Kategorija scene se uglavnom koristi u literaturi o računarskoj lingvistici kao oznaka konceptualne strukture za deklarativno predstavljanje situacija i njihovih dijelova koji su aktualizirani u govornom činu i istaknuti jezičkim sredstvima (lekseme, sintaktičke konstrukcije, gramatičke kategorije itd. .).

Određeni organizovani skup struktura znanja formira "model sveta" kognitivnog sistema i njegovog kompjuterskog modela. U sistemima umjetne inteligencije, model svijeta čini poseban blok, koji, ovisno o odabranoj arhitekturi, može uključivati ​​opća znanja o svijetu (u obliku jednostavnih propozicija kao što je „hladno je zimi” ili u obliku pravila proizvodnje „ako vani pada kiša, onda treba da obučeš kabanicu ili uzmeš kišobran“), neke konkretne činjenice („Najviši vrh na svijetu je Everest“), kao i vrijednosti i njihove hijerarhije, ponekad izdvojeni u poseban „aksiološki blok“.

Većina elemenata koncepata alata računarske lingvistike su homonimni: oni istovremeno označavaju neke stvarne entitete ljudskog kognitivnog sistema i načine predstavljanja ovih entiteta koji se koriste u njihovom teorijskom opisu i modeliranju. Drugim riječima, elementi konceptualnog aparata kompjuterske lingvistike imaju ontološke i instrumentalne aspekte. Na primjer, u ontološkom aspektu, podjela deklarativnog i proceduralnog znanja odgovara različitim vrstama znanja koje osoba posjeduje - tzv. znanju ŠTA (deklarativno; kao npr. poznavanje poštanske adrese nekog NN) , s jedne strane, i znanje KAKO (proceduralno; takvo npr. znanje koje vam omogućava da pronađete stan ove NN, čak i bez saznanja njegove formalne adrese) - s druge. U instrumentalnom aspektu, znanje se može otelotvoriti u skupu opisa (opisa), u skupu podataka, s jedne strane, iu algoritmu, instrukciji koju računar ili neki drugi model kognitivnog sistema izvršava, na ostalo.

Pravci računarske lingvistike.

Sfera CL-a je vrlo raznolika i uključuje područja kao što su kompjutersko modeliranje komunikacije, modeliranje strukture fabule, hipertekstualne tehnologije za prezentaciju teksta, mašinsko prevođenje, kompjuterska leksikografija. U užem smislu, problemi CL često se povezuju sa interdisciplinarnom primijenjenom oblasti sa pomalo nesretnim nazivom „obrada prirodnog jezika“ (prijevod engleskog termina Natural Language Processing). Nastala je kasnih 1960-ih i razvila se u okviru naučne i tehnološke discipline "vještačka inteligencija". U svom internom obliku, izraz "obrada prirodnog jezika" pokriva sve oblasti u kojima se računari koriste za obradu jezičkih podataka. U međuvremenu, u praksi se učvrstilo uže shvatanje ovog pojma – razvoj metoda, tehnologija i specifičnih sistema koji obezbeđuju komunikaciju između čoveka i računara na prirodnom ili ograničenom prirodnom jeziku.

Brzi razvoj pravca "obrade prirodnog jezika" pada na 1970-te, što je povezano sa neočekivanim eksponencijalnim rastom broja krajnjih korisnika računara. Budući da je sve korisnike nemoguće naučiti jezike i programske tehnologije, pojavio se problem organizacije interakcije sa kompjuterskim programima. Rješenje ovog problema komunikacije slijedilo je dva glavna puta. U prvom slučaju pokušano je da se programski jezici i operativni sistemi prilagode krajnjem korisniku. Kao rezultat toga, pojavili su se jezici visokog nivoa kao što je Visual Basic, kao i praktični operativni sistemi ugrađeni u konceptualni prostor metafora poznatih ljudima - DESK, BIBLIOTEKA. Drugi način je razvoj sistema koji bi omogućio interakciju sa računarom u određenom problemskom području na prirodnom jeziku ili nekoj njegovoj ograničenoj verziji.

Arhitektura sistema za obradu prirodnog jezika općenito uključuje blok za analizu govorne poruke korisnika, blok za tumačenje poruke, blok za generiranje značenja odgovora i blok za sintezu površinske strukture iskaza. Poseban dio sistema čini komponenta dijaloga, koja sadrži strategije dijaloga, uslove za primjenu ovih strategija, načine za prevazilaženje mogućih komunikacijskih neuspjeha (propusta u komunikacijskom procesu).

Među kompjuterskim sistemima za obradu prirodnog jezika obično se izdvajaju sistemi pitanja-odgovori, interaktivni sistemi za rešavanje problema i povezani sistemi za obradu teksta. U početku su se sistemi pitanje-odgovori počeli razvijati kao reakcija na loš kvalitet kodiranja upita prilikom traženja informacija u sistemima za pronalaženje informacija. Budući da je problemsko područje ovakvih sistema bilo vrlo ograničeno, to je donekle pojednostavilo algoritme za prevođenje upita u formalnu jezičku reprezentaciju i obrnuti postupak za transformaciju formalnog prikaza u izjave prirodnog jezika. Od domaćih razvoja, sistem POET, koji je kreirao tim istraživača na čelu sa E.V. Popovom, spada u programe ovog tipa. Sistem obrađuje zahtjeve na ruskom (sa manjim ograničenjima) i sintetizuje odgovor. Blok dijagram programa pretpostavlja prolazak svih faza analize (morfološke, sintaktičke i semantičke) i odgovarajućih faza sinteze.

Dijaloški sistemi za rješavanje problema, za razliku od sistema prethodnog tipa, imaju aktivnu ulogu u komunikaciji, jer im je zadatak da dobiju rješenje problema na osnovu znanja koje je u njemu prezentirano i informacija koje se mogu dobiti od korisnika. Sistem sadrži strukture znanja koje beleže tipične sekvence radnji za rešavanje problema u datoj problemskoj oblasti, kao i informacije o potrebnim resursima. Kada korisnik postavi pitanje ili postavi određeni zadatak, aktivira se odgovarajuća skripta. Ako nedostaju neke komponente skripte ili nedostaju neki resursi, sistem pokreće komunikaciju. Tako, na primjer, funkcionira sistem SNUKA koji rješava probleme planiranja vojnih operacija.

Povezani sistemi za obradu teksta su prilično raznoliki po strukturi. Njihova zajednička karakteristika se može smatrati široko rasprostranjenom upotrebom tehnologija predstavljanja znanja. Funkcije sistema ove vrste su razumijevanje teksta i odgovaranje na pitanja o njegovom sadržaju. Razumijevanje se ne posmatra kao univerzalna kategorija, već kao proces izdvajanja informacija iz teksta, određen specifičnom komunikativnom intencijom. Drugim riječima, tekst se "čita" samo uz pretpostavku da je potencijalni korisnik taj koji želi da sazna za njega. Dakle, povezani sistemi za obradu teksta nisu nipošto univerzalni, već problemski orijentisani. Tipični primjeri sistema tipa o kojem se raspravlja su sistemi RESEARCHER i TAILOR, koji čine jedan softverski paket koji omogućava korisniku da dobije informacije iz patentnih sažetaka koji opisuju složene fizičke objekte.

Najvažnija oblast računarske lingvistike je razvoj sistema za pronalaženje informacija (IPS). Potonji je nastao kasnih 1950-ih i ranih 1960-ih kao odgovor na nagli porast obima naučnih i tehničkih informacija. Po vrsti pohranjenih i obrađenih informacija, kao i po karakteristikama pretraživanja, IPS se dijele u dvije velike grupe - dokumentarne i činjenične. Dokumentacioni informacioni sistemi čuvaju tekstove dokumenata ili njihove opise (sažetke, bibliografske kartice, itd.). Faktografski IPS se bavi opisom konkretnih činjenica, i to ne nužno u tekstualnom obliku. To mogu biti tabele, formule i druge vrste prezentacije podataka. Postoje i mješoviti IPS koji uključuju i dokumente i činjenične informacije. Trenutno su faktografski informacioni sistemi izgrađeni na bazi tehnologija baze podataka (DB). Da bi se omogućilo pronalaženje informacija u IPS-u, kreirani su posebni jezici za pronalaženje informacija, koji se temelje na tezaurusima za pronalaženje informacija. Jezik za pronalaženje informacija je formalni jezik dizajniran da opiše određene aspekte plana sadržaja dokumenata pohranjenih u IPS-u i zahtjeva. Procedura za opisivanje dokumenta u jeziku za pronalaženje informacija naziva se indeksiranje. Kao rezultat indeksiranja, svakom dokumentu je dodijeljen njegov formalni opis u jeziku za pronalaženje informacija - slika za pretraživanje dokumenta. Slično, upit se indeksira, kojem se dodjeljuje slika pretraživanja upita i recept za pretraživanje. Algoritmi za pronalaženje informacija zasnovani su na poređenju recepta pretraživanja sa slikom pretraživanja upita. Kriterijum za izdavanje dokumenta na zahtjev može se sastojati od potpunog ili djelomičnog podudaranja između slike pretraživanja dokumenta i recepta pretraživanja. U nekim slučajevima, korisnik ima mogućnost da sam formulira kriterije izdavanja. To je određeno njegovom potrebom za informacijama. Deskriptivni jezici za pronalaženje informacija češće se koriste u automatizovanim IS-ovima. Predmet dokumenta je opisan skupom deskriptora. Riječi i termini koji označavaju jednostavne, prilično elementarne kategorije i koncepte problematičnog područja djeluju kao deskriptori. Onoliko deskriptora je uneseno u sliku za pretragu dokumenta koliko ima različitih tema obrađenih u dokumentu. Broj deskriptora nije ograničen, što omogućava da se dokument opiše u višedimenzionalnoj matrici karakteristika. Često se u jeziku za pronalaženje informacija deskriptora nameću ograničenja na kombinovanost deskriptora. U ovom slučaju možemo reći da jezik za pronalaženje informacija ima sintaksu.

Jedan od prvih sistema koji je radio sa jezikom deskriptora bio je američki UNITERM sistem koji je kreirao M. Taube. U ovom sistemu, ključne riječi dokumenta, uniterms, funkcionisale su kao deskriptori. Posebnost ovog IPS-a je u tome što u početku nije postavljen rečnik informacionog jezika, već je nastao u procesu indeksiranja dokumenta i upita. Razvoj modernih sistema za pronalaženje informacija povezan je sa razvojem IPS-a ne-tezaurusnog tipa. Takvi IPS rade sa korisnikom na ograničenom prirodnom jeziku, a pretraga se vrši u tekstovima sažetaka dokumenata, u njihovim bibliografskim opisima, a često i u samim dokumentima. Za indeksiranje u IPS tipa ne-tezaurus koriste se riječi i fraze prirodnog jezika.

Područje računarske lingvistike u određenoj mjeri može uključivati ​​radove iz oblasti kreiranja hipertekstualnih sistema, koji se smatraju posebnim načinom organiziranja teksta, pa čak i kao fundamentalno nova vrsta teksta, suprotstavljena po mnogim svojim svojstvima običnom tekstu nastalom u Gutenbergova tradicija štampanja. Ideja hiperteksta povezana je s imenom Vannevara Busha, savjetnika za nauku predsjednika F. Roosevelta. W. Bush je teorijski potkrepio projekat tehničkog sistema "Memex", koji je omogućio korisniku da povezuje tekstove i njihove fragmente različitim vrstama veza, uglavnom asocijativnim odnosima. Nedostatak kompjuterske tehnologije otežavao je realizaciju projekta, jer se mehanički sistem pokazao previše komplikovanim za praktičnu implementaciju.

Bushova ideja 1960-ih dobila je drugo rođenje u sistemu "Xanadu" T. Nelsona, koji je već pretpostavljao upotrebu kompjuterske tehnologije. "Xanadu" je omogućio korisniku da čita skup tekstova unesenih u sistem na različite načine, u različitim sekvencama, softver je omogućio i da zapamti redoslijed pregledanih tekstova i da izabere gotovo bilo koji od njih u proizvoljnom trenutku . Skup tekstova sa odnosima koji ih povezuju (sistem prijelaza) T. Nelson je nazvao hipertekstom. Mnogi istraživači smatraju stvaranje hiperteksta početkom novog informatičkog doba, nasuprot eri štampe. Linearnost pisanja, koja spolja odražava linearnost govora, pokazuje se kao temeljna kategorija koja ograničava ljudsko razmišljanje i razumijevanje teksta. Svijet značenja je nelinearan, stoga kompresija semantičke informacije u linearnom govornom segmentu zahtijeva korištenje posebnih "komunikacijskih paketa" - podjelu na temu i remu, podjelu plana sadržaja iskaza na eksplicitni (izjava, prijedlog, fokus) i implicitni (pretpostavka, posljedica, implikacija diskursa) slojevi . Odbacivanje linearnosti teksta kako u procesu njegovog predstavljanja čitaocu (tj. u čitanju i razumijevanju), tako iu procesu sinteze, prema teoretičarima, doprinijelo bi „oslobađanju“ mišljenja, pa čak i nastanku njegove nove forme.

U računarskom sistemu hipertekst je predstavljen kao graf, čiji čvorovi sadrže tradicionalne tekstove ili njihove fragmente, slike, tabele, video zapise itd. Čvorovi su povezani raznim odnosima, čije tipove određuju programeri hipertekstualnog softvera ili sam čitač. Relacije definiraju potencijalne mogućnosti kretanja, odnosno navigacije kroz hipertekst. Odnosi mogu biti jednosmjerni ili dvosmjerni. Shodno tome, dvosmjerne strelice omogućavaju korisniku da se kreće u oba smjera, dok jednosmjerne strelice dozvoljavaju korisniku da se kreće samo u jednom smjeru. Lanac čvorova kroz koje čitač prolazi dok gleda komponente teksta formira putanju ili rutu.

Računalne implementacije hiperteksta su hijerarhijske ili mrežne. Hijerarhijska struktura hiperteksta u obliku stabla značajno ograničava mogućnosti prijelaza između njegovih komponenti. U takvom hipertekstu, odnosi između komponenti liče na strukturu tezaurusa zasnovanog na odnosima rod-vrsta. Mrežni hipertekst omogućava korištenje različitih tipova odnosa između komponenti, ne ograničavajući se na odnose rod-vrsta. Prema načinu postojanja hiperteksta razlikuju se statički i dinamički hipertekst. Statički hipertekst se ne mijenja tokom rada; u njemu korisnik može snimiti svoje komentare, ali oni ne mijenjaju suštinu stvari. Za dinamički hipertekst, promjena je normalan oblik postojanja. Tipično, dinamički hipertekstovi funkcionišu gdje je potrebno stalno analizirati tok informacija, tj. u informacijskim uslugama raznih vrsta. Hipertekst je, na primjer, Arizona Information System (AAIS), koji se ažurira mjesečno sa 300–500 sažetaka mjesečno.

Odnose između hipertekstualnih elemenata mogu inicijalno popraviti kreatori, ili se mogu generirati kad god korisnik pristupi hipertekstu. U prvom slučaju govorimo o hipertekstovima rigidne strukture, au drugom slučaju o hipertekstovima meke strukture. Kruta struktura je tehnološki prilično jasna. Tehnologija organizovanja meke strukture treba da se zasniva na semantičkoj analizi blizine dokumenata (ili drugih izvora informacija) jedan drugom. Ovo je netrivijalan zadatak kompjuterske lingvistike. Trenutno je široko rasprostranjena upotreba tehnologija meke strukture na ključnim riječima. Prijelaz s jednog čvora na drugi u hipertekstualnoj mreži vrši se kao rezultat pretraživanja ključnih riječi. Budući da se skup ključnih riječi može svaki put razlikovati, struktura hiperteksta se također mijenja svaki put.

Tehnologija izgradnje hipertekstualnih sistema ne pravi razliku između tekstualnih i netekstualnih informacija. U međuvremenu, uključivanje vizuelnih i audio informacija (video isječci, slike, fotografije, zvučni snimci, itd.) zahtijeva značajnu promjenu korisničkog interfejsa i moćniju softversku i kompjutersku podršku. Takvi sistemi se nazivaju hipermediji ili multimediji. Vidljivost multimedijalnih sistema predodredila je njihovu široku upotrebu u obrazovanju, u stvaranju kompjuterskih verzija enciklopedija. Postoje, na primjer, lijepo izvedeni CD-romovi sa multimedijalnim sistemima za dječje enciklopedije koje izdaje Dorlin Kindersley.

U okviru kompjuterske leksikografije razvijaju se kompjuterske tehnologije za sastavljanje i rad rečnika. Specijalni programi - baze podataka, kompjuterski ormari za datoteke, programi za obradu teksta - omogućavaju vam da automatski generišete rječničke unose, pohranjujete informacije iz rječnika i obrađujete ih. Mnogi različiti kompjuterski leksikografski programi podijeljeni su u dvije velike grupe: programi za podršku leksikografskim radovima i automatski rječnici različitih tipova, uključujući i leksikografske baze podataka. Automatski rečnik je rečnik u posebnom mašinskom formatu dizajniran za upotrebu na računaru od strane korisnika ili računarskog programa za obradu teksta. Drugim riječima, postoji razlika između automatskih rječnika krajnjeg korisnika i automatskih rječnika za programe za obradu teksta. Automatski rječnici namijenjeni krajnjem korisniku, u pogledu interfejsa i strukture rečničkog unosa, značajno se razlikuju od automatskih rečnika uključenih u sisteme mašinskog prevođenja, sisteme za automatsko referenciranje, sisteme za pronalaženje informacija itd. Najčešće su to kompjuterske verzije poznatih konvencionalnih rječnika. Na tržištu softvera postoje kompjuterski analozi eksplanatornih rečnika engleskog jezika (automatski Webster, automatski objašnjeni rečnik engleskog jezika izdavačke kuće Collins, automatska verzija Novog velikog englesko-ruskog rečnika koji su uređivali Yu.D. Apresyan i E.M. Mednikova), postoji i kompjuterska verzija Ožegovljevog rječnika. Automatski rječnici za programe za obradu teksta mogu se nazvati automatskim rječnicima u tačnom smislu. Oni uglavnom nisu namijenjeni prosječnom korisniku. Karakteristike njihove strukture, obim vokabularnog materijala određuju programi koji sa njima komuniciraju.

Kompjuterska simulacija strukture parcele je još jedno obećavajuće područje računarske lingvistike. Proučavanje strukture fabule odnosi se na probleme strukturalne književne kritike (u širem smislu), semiotike i kulturologije. Dostupni kompjuterski programi za modeliranje fabule zasnovani su na tri osnovna formalizma prezentacije fabule - morfološkim i sintaksičkim pravcima za prikaz fabule, kao i na kognitivnom pristupu. Ideje o morfološkoj strukturi strukture radnje sežu do poznatih radova V. Ya. Proppa ( cm.) o ruskoj bajci. Propp je uočio da je uz obilje likova i događaja u bajci ograničen broj funkcija karaktera, te je predložio aparat za opisivanje ovih funkcija. Proppove ideje činile su osnovu kompjuterskog programa TALE, koji simulira generiranje radnje bajke. Algoritam programa TALE zasniva se na nizu funkcija likova u bajci. Zapravo, Proppove funkcije postavljaju skup tipiziranih situacija, poredanih na osnovu analize empirijskog materijala. Mogućnosti povezivanja različitih situacija u pravilima generisanja određene su tipičnim slijedom funkcija – u obliku u kojem se to može utvrditi iz tekstova bajki. U programu su tipični nizovi funkcija opisani kao tipični scenariji za susret likova.

Teorijska osnova sintaksičkog pristupa radnji teksta bile su „gramatike zapleta“, odnosno „narativne gramatike“ (gramatike priče). Pojavili su se sredinom 1970-ih kao rezultat prenošenja ideja generativne gramatike N. Chomskog na opis makrostrukture teksta. Ako su najvažnije komponente sintaksičke strukture u generativnoj gramatici bile verbalne i imenske grupe, onda su u većini gramatika sižea kao osnovne izdvojeni ekspozicija (postavka), događaj i epizoda. U teoriji gramatike plota naširoko se raspravljalo o uvjetima minimalnosti, odnosno ograničenja koja određuju status niza elemenata sižea kao normalnog zapleta. Ispostavilo se, međutim, da je to nemoguće učiniti čisto lingvističkim metodama. Mnoga ograničenja su sociokulturne prirode. Gramatike zapleta, koje su se značajno razlikovale u skupu kategorija u stablu generisanja, dozvoljavale su vrlo ograničen skup pravila za modifikaciju narativne (narativne) strukture.

Početkom 1980-ih, jedan od učenika R. Schenka, V. Lenert, u okviru rada na stvaranju kompjuterskog generatora zapleta, predložio je originalni formalizam emocionalnih jedinica zapleta (Affective Plot Units), koji se pokazao kao moćno oruđe. za predstavljanje strukture parcele. Iako je prvobitno razvijen za sistem veštačke inteligencije, ovaj formalizam se koristio u čisto teorijskim studijama. Suština Lehnertovog pristupa bila je u tome da je radnja opisana kao uzastopna promjena kognitivno-emocionalnih stanja likova. Dakle, fokus Lehnertovog formalizma nije na spoljašnjim komponentama radnje – ekspoziciji, događaju, epizodi, moralu – već na njenim sadržajnim karakteristikama. U tom pogledu, Lehnertov formalizam je djelimično povratak Proppovim idejama.

Računalna lingvistika također uključuje mašinsko prevođenje, koje trenutno doživljava preporod.

književnost:

Popov E.V. Komunikacija sa računarima na prirodnom jeziku. M., 1982
Sadur V.G. Govorna komunikacija sa elektronskim računarima i problemi njihovog razvoja. - U knjizi: Govorna komunikacija: problemi i izgledi. M., 1983
Baranov A.N. Kategorije umjetne inteligencije u lingvističkoj semantici. Okviri i skripte. M., 1987
Kobozeva I.M., Laufer N.I., Saburova I.G. Modeliranje komunikacije u sistemima čovjek-mašina. – Jezička podrška informacionih sistema. M., 1987
Olker H.R. Bajke, tragedije i načini predstavljanja svjetske istorije. - U knjizi: Jezik i modeliranje socijalne interakcije. M., 1987
Gorodetsky B.Yu. Računalna lingvistika: modeliranje jezičke komunikacije
McQueen K. Diskurzivne strategije za sintezu teksta na prirodnom jeziku. – Novo u stranoj lingvistici. Problem. XXIV, Računarska lingvistika. M., 1989
Popov E.V., Preobrazhensky A.B. . Karakteristike implementacije NL-sistema
Preobrazhensky A.B. Stanje razvoja savremenih NL sistema. - Veštačka inteligencija. Book. 1, Komunikacioni sistemi i ekspertni sistemi. M., 1990
Subbotin M.M. Hypertext. Novi oblik pismene komunikacije. — VINITI, Ser. Informatika, 1994, v. 18
Baranov A.N. Uvod u primijenjenu lingvistiku. M., 2000

 Plan:

1. Šta je računarska lingvistika?

2. Predmet i predmet računarske lingvistike

4. Zadaci računarske lingvistike

5. Metode istraživanja računarske lingvistike

6. Povijest i uzroci kompjuterske lingvistike

7. Osnovni pojmovi računarske lingvistike

8. Naučnici uključeni u problem računarske lingvistike

9. Udruženja i konferencije o računarskoj lingvistici

10. Korištena literatura.


Računarska lingvistika - samostalni pravac u primijenjenoj lingvistici, usmjeren na korištenje kompjutera za rješavanje problema vezanih za upotrebu prirodnog jezika. (Schilihina K.M.)


Računalna lingvistika– kao jedna od oblasti primenjene lingvistike, proučava lingvističke osnove računarstva i sve aspekte povezanosti jezika i mišljenja, modeliranje jezika i mišljenja u računarskom okruženju pomoću računarskih programa, a njena interesovanja su u oblasti: 1) optimiziranje komunikacije zasnovane na lingvističkom znanju 2) kreiranje prirodnog jezičkog interfejsa i tipologija razumijevanja jezika za komunikaciju čovjek-mašina 3) kreiranje i modeliranje informacionih kompjuterskih sistema (Sosnina E.P.)


Predmet računarske lingvistike- analiza jezika u njegovom prirodnom stanju u procesu upotrebe ljudi u različitim situacijama komunikacije, kao i kako se mogu formulisati karakteristike jezika.


Zadaci računarske lingvistike:


Metode istraživanja računarske lingvistike:

1. metoda modeliranja- poseban predmet proučavanja koji nije dostupan u direktnom posmatranju. Po definiciji, matematičar K. Shannon, model je reprezentacija objekta u nekom obliku, različitom od oblika njihovog stvarnog postojanja.

2. metoda teorije predstavljanja znanja podrazumeva načine predstavljanja znanja koji su orijentisani na automatsku obradu savremenim računarima.

3. metoda teorije programskog jezika(teorija programskog jezika) je oblast računarstva povezana sa projektovanjem, analizom, karakterizacijom i klasifikacijom programskih jezika i proučavanjem njihovih individualnih karakteristika.


Uzroci računarske lingvistike

1. Pojava kompjutera

2. Problem komunikacije sa računarima nespremnih korisnika


1. Sistem za pretraživanje rječnika razvijen na Berkbeck koledžu u Londonu 1948. godine.

2. Memorandum Warrena Weavera

3. Početak uvođenja prvih računara u oblast mašinskog prevođenja

4. Georgetown projekat 1954. godine


1. ALPAC (Savjetodavni odbor za automatsku obradu jezika) 2. nova faza u razvoju kompjuterskih tehnologija i njihova aktivna upotreba u lingvističkim zadacima 3. stvaranje nove generacije računara i programskih jezika 4. rastuće interesovanje za mašinsko prevođenje 60

-70-ih godina dvadesetog veka


Krajem 80-ih - početkom 90-ih godina dvadesetog veka

    Pojava i aktivan razvoj interneta

  • Brzi rast obima tekstualnih informacija u elektronskom obliku

  • Potreba za automatskom obradom tekstova na prirodnom jeziku


1. PROMT i ABBY (Lingvo) proizvodi 2. Tehnologije mašinskog prevođenja 3. Tehnologije prevodilačke memorije

Moderni komercijalni sistemi

  • Animacija tekstova

  • Komunikacijski modeli

  • Kompjuterska leksikografija

  • Mašinski prevod

  • Korpus tekstova


Analiza tekstova na prirodnom jeziku

3 nivoa strukture teksta:
  • Površinska sintaktička struktura

  • Duboka sintaktička struktura

  • Semantički nivo


Zadatak sinteze je inverzan u odnosu na analizu

Animacija teksta

1. Razmjena tekstova putem vizuelnih slika na ekranu

2. 2 modaliteta ljudskog mišljenja: simbolički i vizuelni.


1. Imitacija komunikacijskog procesa 2. Kreiranje efikasnog modela dijaloga Komunikacijski modeli


Hypertext- poseban način organiziranja i prezentiranja teksta, u kojem se više tekstova ili fragmenata teksta može međusobno povezati različitim vrstama veza.


Razlike između hiperteksta i tradicionalnog teksta

Hypertext

    1. obrada govora

  • 2. obrada pisanog teksta


Obrada govora

1. automatska sinteza govora

A) razvoj sintisajzera tipa "text-to-speech". Uključuje 2 bloka: blok lingvističke obrade teksta i blok akustičke sinteze.

2. automatsko prepoznavanje govora


1) prepoznavanje teksta

2) analiza teksta

3) sinteza teksta


IPS (sistem za pronalaženje informacija)- ovo su softverski sistemi za pohranjivanje, pretraživanje i izdavanje informacija od interesa.

Zakharov V.P. vjeruje u to IPS je uređeni skup dokumenata i informacionih tehnologija dizajniranih za pohranjivanje i preuzimanje informacija - tekstova ili podataka.


3 vrste IPS

3 vrste IPS

    Manual je pretraživanje biblioteke.

  • Mehanizovano IPS su tehnički alati koji osiguravaju odabir potrebnih dokumenata

  • Automatski- traženje informacija pomoću računara


Kompjuterska leksikografija

Kompjuterska leksikografija- jedno od važnih oblasti primenjene lingvistike, bavi se teorijom i praksom sastavljanja rečnika.

U leksikografiji postoje 2 pravca:
  • Tradicionalna leksikografija sastavljanje tradicionalnih rječnika

  • Mašinska leksikografija automatizuje izradu rečnika i rešava probleme razvoja elektronskih rečnika


Zadaci kompjuterske leksikografije

  • Automatsko izvođenje raznih rječnika iz teksta

  • Izrada rječnika koji su elektronske verzije tradicionalnih rječnika ili složenih elektronskih lingvističkih rječnika za tradicionalne rječničke radove, kao što je LINGVO

  • Razvoj teorijskih i praktičnih aspekata sastavljanja specijalnih kompjuterskih rječnika, na primjer, za pronalaženje informacija, mašinsko prevođenje


Mašinski prevod

Mašinski prevod- pretvaranje teksta na jednom prirodnom jeziku u drugi prirodni jezik pomoću računara.

Vrste mašinskog prevođenja
  • FAMT(Potpuno automatizirano mašinsko prevođenje) - potpuno automatski prijevod

  • HAMT(Human Aided Machine Translation) - mašinsko prevođenje uz učešće osobe

  • MAHT(Machine Aided Human Translation) je prijevod koji obavlja osoba koristeći pomoćni softver i jezičke alate.


  • 2) profesionalni poslanik– bolji prijevod s naknadnim ljudskim uređivanjem

  • 3) interaktivni MP- smatra se transferom u posebnim sistemima podrške, odvija se u dijalogu sa kompjuterskim sistemom. Kvaliteta MT-a ovisi o postavkama, resursima, vrsti tekstova.

Korpus tekstova

Korpus tekstova- ovo je zbirka tekstova, koja se zasniva na logičkoj ideji, logičkoj ideji koja objedinjuje ove tekstove.

Jezički korpus- veliki, elektronski predstavljen, unificiran, strukturiran, označen, filološki kompetentan niz jezičnih podataka, dizajniran za rješavanje specifičnih lingvističkih problema.


Reprezentativnost je najvažnije svojstvo korpusa


Svrha jezičkog korpusa je prikazati funkcioniranje jezičnih jedinica u njihovom prirodnom kontekstualnom okruženju



Na osnovu korpusa možete dobiti podatke:

1. o učestalosti gramatičkih kategorija

2. O promjenama frekvencije

3. o promjenama konteksta u različitim vremenskim periodima

5. o zajedničkoj pojavi leksičkih jedinica

6. o karakteristikama njihove kompatibilnosti


Brown Corps


Korpus tekstova - ovo je zbirka tekstova, koja se zasniva na logičkoj ideji, logičkoj ideji koja objedinjuje ove tekstove. Oličenje ove logične ideje: pravila za organizovanje tekstova u korpus, algoritmi i programi za analizu korpusa tekstova, ideologija i metodologija koja je povezana sa tim. Nacionalni korpus predstavlja dati jezik u određenoj fazi (ili fazama) njegovog postojanja iu svoj raznolikosti žanrova, stilova, teritorijalnih i društvenih opcija itd. Osnovni pojmovi računarske lingvistike

    Programski jezici (PL) je klasa umjetnih jezika dizajniranih za obradu informacija pomoću kompjutera. Svaki programski jezik je strog (formalni) sistem znakova kojim se pišu kompjuterski programi. Prema različitim procjenama, trenutno postoji između hiljadu i deset hiljada različitih programskih jezika.

  • Informatika(Računarska nauka) - nauka o zakonitostima evidentiranja, pohranjivanja, obrade, prenošenja i korištenja informacija uz pomoć tehničkih sredstava.



Potražite informacije (Retrieval informacija) je proces pronalaženja takvih dokumenata (tekstova, zapisa i

itd.) koji odgovaraju zahtjevu.

« Sistem za pronalaženje informacija (IPS) je uređeni skup dokumenata (nizovi dokumenata) i informacionih tehnologija dizajniranih za skladištenje i traženje informacija – tekstova (dokumenata) ili podataka (činjenica).

Mašinska leksikografija(računarska leksikografija) bavi se automatizacijom izrade rečnika i rešava probleme razvoja elektronskih

rječnici.

Mašinski prevod je kompjuterska transformacija teksta na jednom

prirodni jezik u tekst koji je po sadržaju ekvivalentan drugom

prirodni jezik.

Hypertext je tehnologija za organizovanje informacija i posebno strukturiranog teksta, podeljenog u zasebne blokove, koji imaju nelinearnu reprezentaciju, za efektivnu prezentaciju informacija u računarskim okruženjima.


    okvir je struktura za predstavljanje deklarativnog znanja o tipiziranoj tematski objedinjenoj situaciji, tj. strukturu podataka o stereotipnoj situaciji.

  • Scenario - ovo je sekvenca od nekoliko epizoda u vremenu, ovo je i prikaz stereotipne situacije ili stereotipnog ponašanja, samo su elementi scenarija koraci algoritma ili instrukcije.
  • Plan - predstavljanje znanja o mogućim radnjama koje su neophodne za postizanje određenog cilja.



Naučnici u oblasti računarske lingvistike:

  • Sovjetski i ruski naučnici: Alexey Lyapunov, Igor Melchuk, Olga Kulagina, Yu.D. Apresyan, N.N. Leontiev, Yu.S. Martemyanov, Z.M. Chaliapin, Igor Boguslavsky, A.S. Narignani, A.E. Kibrik, Baranov A.N.

  • Zapadni naučnici Uloge: Yorick Vilks, Gregory Grevenstette, Gravil Corbett, John Carroll, Diana McCarthy, Luis Marquez, Dan Moldovan, Joachim Nivre, Victor Raskin, Eduard Hovey.


Asocijacije i konferencije iz računarske lingvistike:
  • "dijalog"- glavna ruska konferencija o kompjuterska lingvistika sa međunarodnim učešćem.

Prioritet Dijaloga je kompjutersko modeliranje Ruski jezik. Radni jezici konferencije su ruski i engleski. Kako bi se privukli strani recenzenti, glavni dio prijavljenih radova se dostavlja na engleskom jeziku.

Glavni pravci konferencije:
  • Lingvistička semantika i semantičku analizu

  • Modeli formalnog jezika i njihove primjene

  • Teorijski i kompjuterski leksikografija

  • Metode evaluacije za analizu teksta i sisteme mašinskog prevođenja

  • Korpusna lingvistika. Kreiranje, primjena, evaluacija korpusa

  • Internet kao lingvistički resurs. Lingvističke tehnologije na Internetu

  • Ontologije. Ekstrakcija znanja iz tekstova

  • Kompjuterska analiza dokumenata: sažetak, klasifikacija, Traži

  • Automatska analiza sentimenta tekstova

  • Mašinski prevod

  • komunikacijski modeli. Komunikacija, dijalog i govorni čin

  • Analiza i sinteza govora



2. Udruženje za kompjutersku lingvistiku (ACL) je međunarodno naučno i stručno društvo ljudi koji rade na problemima koji uključuju prirodni jezik i računarstvo. Godišnji sastanak održava se svakog ljeta na lokacijama gdje se provode značajna istraživanja računarske lingvistike. Osnovan 1962. godine, prvobitno nazvan Udruženje za mašinsko prevođenje i računarsku lingvistiku (AMTCL). 1968. ovo je postalo ACL.
  • ACL ima Evropljanin (EACL) i sjevernoameričke (NACL) grane.

  • ACL magazin, Računalna lingvistika, je glavni forum za istraživanje računarske lingvistike i obrade prirodnog jezika. Od 1988. časopis izlazi za ACL MIT Press.
  • ACL serija knjiga, Istraživanje u obradi prirodnog jezika, objavljeno Cambridge University Press.

  • Svake godine ACL i njegova ogranka organiziraju međunarodne konferencije u različitim zemljama.

ACL 2014 održan je u Baltimoru, SAD.

  • Reference:

  • 1. Marchuk Yu.N. Računarska lingvistika: udžbenik / Yu.N. Marchuk - M.: AST: Istok-Zapad, 2007 - 317 str.

  • 2. Shilihina K.M. Osnovi primijenjene lingvistike: udžbenik za specijalnost 021800 (031301) - Teorijska i primijenjena lingvistika, Voronjež, 2006.

  • 3. Boyarsky K.K. Uvod u računarsku lingvistiku. Udžbenik.- Sankt Peterburg: NRU ITMO, 2013.- 72 str.

  • 4. Shchipitsina L.Yu. Informacione tehnologije u lingvistici: udžbenik / L.Yu. Shchipitsina.- M.: FLINTA: nauka, 2013.- 128 str.

  • 5. Sosnina E.P. Uvod u primijenjenu lingvistiku: udžbenik / E.P. Sosnina - 2. izd., ispravljeno. i dodatne - Uljanovsk: UlGTU, 2012. -110 str.

  • 6. Baranov A.N. Uvod u primijenjenu lingvistiku: Udžbenik.- M.: Uvodnik URSS, 2001.- 360 str.

  • 7. Primijenjena lingvistika: Udžbenik / L.V. Bondarko, L.A. Verbitskaya, G.Ya. Martinenko i drugi; Rep. Urednik A.S. Gerd. SPb.: izdavačka kuća S.-Petersburg. Univ., 1996.- 528 str.

  • 8. Šemjakin Yu.I. Počeci računarske lingvistike: Udžbenik. M.: Izdavačka kuća MGOU, A / O "Rosvuznauka", 1992.

  • Timofeeva Maria Kirillovna
    Doktor filoloških nauka, viši naučni saradnik, Laboratorija za logičke sisteme, Institut za matematiku. S.L. Soboleva SB RAS, šef Odseka za fundamentalnu i primenjenu lingvistiku, Institut za humanističke nauke Novosibirskog državnog univerziteta. Diplomirao je na Katedri za matematičku lingvistiku Fakulteta humanističkih nauka Novosibirskog državnog univerziteta.
    Istraživački interesi: filozofske i metodološke osnove lingvistike, logički problemi semantike i pragmatike prirodnog jezika, funkcionalni matematički modeli prirodnog jezika, prirodni i formalni jezici.

    Stukačev Aleksej Iljič
    Kandidat fizičko-matematičkih nauka, vanredni profesor, viši naučni saradnik u Institutu za matematiku. S.L. Soboleva SB RAS, vanredni profesor, Katedra za diskretnu matematiku i informatiku, Mehanički i matematički fakultet, NSU, vanredni profesor, Katedra za fundamentalnu i primenjenu lingvistiku, Institut za humanističke nauke, NSU
    Istraživački interesi: matematička logika, teorija izračunljivosti (generalizovana izračunljivost, izračunljivost u dozvoljenim skupovima, HF-izračunljivost), teorija modela (konstruktivni modeli, efektivne reprezentacije sistema, stepeni reprezentativnosti), izračunljiva analiza. Matematička lingvistika: formalna semantika, Montagueova semantika, distributivna semantika.

    Barahnin Vladimir Borisovič
    Vodeći istraživač Laboratorije informacionih resursa Instituta za računarske tehnologije Sibirskog ogranka Ruske akademije nauka, profesor Katedre za matematičko modeliranje Fakulteta za mehaniku i matematiku Novosibirskog državnog univerziteta, profesor Katedre za Informatički sistemi i opšta informatika Fakulteta informacionih tehnologija Novosibirskog državnog univerziteta.
    Istraživački interesi: izgradnja modela distribuiranih informacionih sistema, kreiranje algoritama za obradu polustrukturiranih tekstualnih dokumenata, automatizacija kompleksne analize poetskih tekstova, metodološka pitanja informatike.

    Bruches Elena Pavlovna
    Student postdiplomskog studija Instituta za informatičke sisteme im. A. P. Ershova SB RAS, asistent Katedre za fundamentalnu i primenjenu lingvistiku Instituta za humanističke nauke Novosibirskog državnog univerziteta, računarski lingvista u kompaniji "OnPositive".
    Istraživačka interesovanja: obrada prirodnog jezika, mašinsko učenje, veštačka inteligencija.

    Pavlovski Evgenij Nikolajevič
    Kandidat fizičkih i matematičkih nauka, član Saveta mladih naučnika i specijalista pri Vladi Novosibirske oblasti, član stručnog saveta Tehnoparka Novosibirskog Akademgorodoka, predsednik organizacionog odbora Sibirskog simpozijuma o nauci o podacima i Inženjerska konferencija.
    Stručni cilj: sistematizacija pristupa formalizaciji poslovnih zahtjeva u velikim data projektima.

    Palčunov Dmitrij Jevgenijevič
    Vodeći istraživač na Institutu za matematiku. S. L. Soboleva SB RAS, šef Katedre za opštu informatiku NSU, šef katedre "Institut za diskretnu matematiku i informatiku", Mehanički i matematički fakultet NSU.
    Istraživački interesi: Dobijeni su fundamentalni rezultati proučavanja Bulovih algebri sa istaknutim idealima (I-algebre).

    Sviridenko Dmitrij Ivanovič
    Zaposlenik Instituta za matematiku Sibirskog ogranka Ruske akademije nauka i Novosibirskog državnog univerziteta, biznismen, organizator i suvlasnik visokotehnoloških kompanija koje posluju u oblasti informacionih, komunikacionih i digitalnih tehnologija. Učestvuje u istraživanju semantičkog modeliranja koje finansira grant Ruske naučne fondacije.
    Istraživački interesi: filozofija, metodologija, primijenjena matematička logika. Autor koncepta i matematičke teorije semantičkog modeliranja, koji su izneli zajedno sa akademicima Ruske akademije nauka S. S. Gončarovim i Yu. L. Eršovim 80-ih godina prošlog veka. Trenutno nastavlja da aktivno razvija metodologiju i matematičku teoriju ovog koncepta, a bavi se i primjenom ovog koncepta u različitim oblastima. Radi na kreiranju metodologije, matematičke teorije i jezika semantičkih pametnih poslova i ugovora, primjenjujući ideje semantičkog modeliranja u odnosu na TRIZ i druge oblasti.

    Savostjanov Aleksandar Nikolajevič
    Vodeći istraživač u Laboratoriji za diferencijalnu psihofiziologiju Istraživačkog instituta za fiziologiju i fundamentalnu medicinu, šef Laboratorije za psihološku genetiku Instituta za citologiju i genetiku Sibirskog ogranka Ruske akademije nauka, profesor Katedre za opštu informatiku Fakulteta informacionih tehnologija NSU, profesor na Katedri za fundamentalnu i primenjenu lingvistiku Humanitarnog instituta NSU.
    Naučna interesovanja: neurofiziologija, psihogenetika, neurolingvistika, metode kompjuterske obrade bioloških signala. Istraživanje je usmjereno na identifikaciju faktora rizika za nastanak i razvoj afektivnih patologija kod ljudi, u zavisnosti od društvenih i klimatskih uslova života. U sklopu istraživanja provode se ekspedicije u različite regije Rusije (Novosibirska oblast, Tyva, Jakutija, Republika Altaj) i susjednih zemalja (Mongolija, Kina) radi prikupljanja biološkog materijala i prikupljanja EEG zapisa u različitim eksperimentalnim uvjetima. Cilj istraživanja je kreiranje dijagnostičkih sistema koji omogućavaju procjenu rizika od narušavanja emocionalne regulacije ljudskog ponašanja u uslovima povećanog stresa.


    1. Aktivnosti na formalizaciji znanja o prirodnom jeziku na različitim nivoima u svrhu njegovog korištenja u računarskim tehnologijama. 2. Područje znanja koje rješava probleme komunikacije čovjeka i računara na prirodnom jeziku. 3. Široka oblast upotrebe kompjuterskih alata – programa, kompjuterskih tehnologija za organizovanje i obradu podataka – za modelovanje funkcionisanja jezika u određenim uslovima, situacijama, problemskim oblastima.


    Umjetna inteligencija je grana informatike, čija je svrha razvoj kompjuterskih sistema sposobnih za obavljanje funkcija koje se tradicionalno smatraju inteligentnim, kao što su razumijevanje prirodnog jezika, logičko zaključivanje, korištenje akumuliranog znanja, učenje, planiranje djelovanja itd.








    3. Izgradnja algoritama za lingvističku analizu - razvoj algoritama za analizu tekstova prirodnog jezika na svim jezičkim nivoima: fonemskom, morfemskom, morfološkom, sintaksičkom, pragmatičkom. Izgradnja stabla sintakse zavisnosti (projekat automatske obrade teksta)


    4. Korpusna lingvistika - bavi se razvojem, stvaranjem i upotrebom tekstualnih (jezičkih) korpusa. Glavna stranica web stranice Nacionalnog korpusa ruskog jezika


    5. Mašinsko prevođenje - pravac naučnog istraživanja koji se odnosi na izgradnju automatskih sistema za prevođenje tekstova sa jednog prirodnog jezika na drugi. Glavna stranica stranice Google-prevodilac


    6. Automatsko sažimanje - kreiranje programa za komprimiranu prezentaciju tekstova na prirodnom jeziku. Usluga izrade eseja na web stranici Visual World


    7. Pretraživanje informacija u punom tekstu - razvoj sistema za pronalaženje informacija sa lingvističkom analizom tekstova informacionog niza i zahtjeva korisnika. Glavna stranica informacija - tražilica Yandex









Podijeli: