2011. december 5.

MSZNY 2011 élménybeszámoló

Pár napja zajlott le a VIII. Magyar Számítógépes Nyelvészeti Konferencia Szegeden (pontosan Dec. 1-2), amin a Weblibnek hála kibicelhettem (későn bukkantunk rá az infóra ahhoz hogy valamit be is tudjak adni, no majd jövőre!). Címszavakban: az előadások színvonalasak voltak, a helyszín (József Attila Tanulmányi és Információs Központ) nekem nagyon bejött, a szervezők (Szegedi Tudományegyetem Informatikai Tanszékcsoportja) kitettek magukért és nagyon jó emberekkel találkoztam (a beszédfelismeréssel foglalkozó kollégákkal eltöltött vacsorát nagyon élveztem!). A továbbiakban teljesen szubjektíven szeretnék kiemelni pár előadást, szeretném azonban hangsúlyozni hogy a többi előadás is remek volt, de nem értek minden témához és sajnos pénteken nem tudtam végig maradni ezért a merítésem koránt sem teljes. Szerencsére nyugodtan szemezgethetek, a konferenciakötet ugyanis elektronikus formában mindenki számára elérhető itt.


Az első nap első témája a többnyelvűség volt. Bevallom fogalmam se volt hogy a SZTAKI Elosztott Rendszerek Osztályán is kőkemény számítógépes nyelvészeti munkák folynak. Szerencsére  Pataki Máté és Vajna Miklós előadásai eloszlatták a ködöt fejemben.

Vajna Miklós a többnyelvű dokumentumok nyelvének megállapításáról tartott egy jó előadást. A téma nagyon "egzotikus" ám nagyon is gyakorlatias problémát ragad meg hiszen egyre többször találkozhatunk többnyelvű dokumentumokkal a világhálón is. A kidolgozott eljárás nagyon ötletes (tessék elolvasni a kötetben) és eredményesnek is tűnik. A tesztekkel kapcsolatban van valami amit nem értek, ugyanis a többnyelvűséget egy adott Wikipedia szócikk változatainak keverésével érték el (magyarán pl. a francia és a magyar Wikipedia Szeged szócikkeit keverték össze meghatározott arányokban), de én még nem találkoztam olyan dokumentummal ami így lett volna többnyelvű... Persze jobb tesztet én se tudok kitalálni.

Pataki Máté a KOPI plágiumkeresőjének egy az ún. fordítási plágiumok keresését lehetővé tevő továbbfejlesztéséről számolt be. Itt megint naiv voltam, persze tudom hogy van plágium (akár akaratlanul, tudatlanságból is lehet ilyet elkövetni!) de arra nem gondoltam hogy az ötletes K-európai diákok anyanyelvükön írt tanulmányokat adnak be a brit egyetemeken. No az ilyen ügyeskedések kiszűrésére szolgál az új fejlesztés. Volt egy kis demo effektus, de ennek ellenére én nekem ez az előadás tetszett a legjobban. A tanulmányt tessék elolvasni!

Az ebéd után a korpusz, ontológia rész következett. Itt A Magyar szóelemtár megalkotása és a Magyar gyökszótár előkészítő munkálatai c. előadást emelném ki, mivel történeti érdekességgel is szolgált. A hatvanas években Debrecenben Papp Ferenc vezetésével a Magyar nyelv értelmező szótárára alapozva hozták létre az első számítógépes magyar gyökszótárat. Ennek lyukkártyái kalandos utat jártak be, a kártyákból szerencsére több másolta is készült, egy részük sajnos annyira megrongálódott hogy használhatatlanná váltak, de szerencsére Prószéky tanár úr és tsai. sikeresen megmentették az adatokat az utókornak és egy táblázatba konvertálták. Igazi élő "oral history" pillanat volt amikor az érintettek is felszólaltak az ügyben! Ezt a kutatási irányt viszi tovább a Tinta Kiadó, ennek munkálataiba pillanthatunk bele az előadás során.

A laptopos bemutatók és poszterek nekem kicsit furcsa volt. Lassú voltam és a poszterek előtt nem tudtam jól vegyülni hogy kérdezni is tudjak pedig Mihálzt Márton Magyar NP-felismerők összehasonlítása c. posztere nagyon felkeltette az érdeklődésemet. A laptopos bemutatókkal is én hibáztam nagyot, mindegyikbe szerettem volna belefigyelni, de csak párhoz fértem igazán oda. Megtanultam a leckét, legközelebb kiválasztok pár posztert és bemutatót előre és nem keringek!

A nap zárása a szintaxis, morfológia és névelem-felismerés jegyében telt. Ebből a blokkból a Magyar nyelvű klinikai dokumentumok előfeldolgozását emelném ki, hiszen ez szemléltett legjobban hogy mennyire "piszkosak" a nyelvi adatok. Mivel nincs mindenki mögött egy dühös nyelvművelő, az aki sokat ír (pl. ilyenek az orvosok) az bizony sokat is hibázik, és az ilyen dokumentumok feldolgozása még nehezebb mint a "rendesen" megírt szövegeké. Siklósi Borbála, Orosz György és Novák Attila tanulmánya már csak ez előbbiek miatt is kötelező olvasmány mindenkinek, de ezen felül is érdekes, tessék olvasni hiszen ingyen elérhető!

Ha már élménybeszámoló, akkor egy kicsit a nem-szakmai részéről is szólnék pár szót. Nagyon örültem hogy sok-sok év után ismét találkoztam Szekrényes István barátommal akivel sokat beszélgettem a HuComTech projektről, melynek keretében készül(t) az első magyar multimodális korpusz. Bizony, beszéltnyelvi korpusz, hang- és videoanyaggal, annotálva szépen! Két volt tanárommal is összefutottam. Bódog Alexa (Pisti barátom kollégája) egy alternatív idegenvezetéssel is színesebbé tette számomra a konferenciát,  Abari Kálmánnal pedig sikerül kétszer is eltévednünk ugyanazon az útvonalon. Nem vagyok egy társasági ember, de nagyon jó szakmai és emberi beszélgetésekben volt részem. A vacsorán nem csak az étel volt remek, hanem a társaság is, a beszédtechnológiai vonalon dolgozó srácok nagyon jó fejek, élmény volt velük dumálni!

Pénteken sajnos nem maradhattam végig, csak a "beszédesek"-ről tudok így beszámolni. Akik ismernek azok tudják hogy ez az a terület amihez nagyon nem értek :D Ennek ellenére élveztem az előadásokat! Inkompetenciám visszatart attól hogy bővebben szóljak, a kötetben ott van minden.

Le a kalappal a szervezők előtt! Köszönet ezért a két napért!

Nincsenek megjegyzések: