ELSW-acttools

Z FI WIKI
Přejít na: navigace, hledání

UIO

Tým:

  • Lukáš Svoboda - hlavní vývojář
  • Petr Jurášek - spolupráce s IS
  • Martin Polák - doplňování domén

Stručný popis

UIO1 je multidoménový systém zodpovídání otázek vyvíjený v Laboratoři zpracování přirozeného jazyka na FI. Umí odpovídat na otázky z domén dopravních spojení, programů kin a divadel, měnových kurzů a Informačního systému Masarykovy univerzity. Odpovídání na otázky se skládá z několika kroků . Po zadání otázky systém identifikuje víceslovné výrazy (mwe). Poté se na základě sémantické znalosti domény pokusí najít odpověď pomocí bezkontextové gramatiky (případně taxonomie zapsané formou rozšířených regulárních výrazů ). Pokud tento krok nevede k nalezení odpovědi, identifikuje v otázce tzv. rámce. Neuspěje-li ani tento krok, přichází na řadu fulltextové vyhledávání na indexovaných stránkách.

  • Podrobněji např. v DP Petra Juráška [1]

Kontakt s ELSW

  • UIO využívá VEZMU pro získávání termů při otázkách v přirozeném jazyce

Možné

Odkazy

Aktuální stav a todo

DEB

Tým: viz DEB

Stručný popis

viz DEB

Kontakt s ELSW

Možné

  • zdroje slovníků pro autorský nástroj
  • XML databáze úložiště ontologií? (x samostatná RDF repository)

Odkazy

viz DEB

Aktuální stav a todo

OLE

Tým:

Stručný popis

Ontology LEarning je projekt zaměřený v prvé řadě na návrh a strojové rozšiřování ontologií, které bude možné efektivně využít v různých aplikačních oblastech v rámci širšího projektu GVP, zabývajícího se automatickým generováním vědeckých portálů. Kromě vývoje nástrojů pro strojové rozšiřování a úpravy doménových ontologií se předpokládá i implementace univerzálního inferenčního modulu pro automatické dokazování nad systémy ontologických znalostních bází.

Kontakt s ELSW

  • využití uložených dat pro vytvoření ontologií
    • testy pro češtinu
  • propojení na gvp

Odkazy

Aktuální stav a todo

  • -not yet-

GVP

Tým:

  • Jan Pomikálek (hlavní vývojář) - probíhá
  • Jindřich Babica (podprojekt Provazování referencí mezi odbornými články)
  • Jan Provazník (podprojekt Inteligentní webcrawling)
  • a další

Stručný popis

  • GVP si klade za cíl alespoň částečně zaplnit mezeru mezi portály, které se týkají vědeckých oborů. Jednotlivé podprojekty vytvářejí systém, který do značné míry zautomatizuje proces tvorby portálu. Uživateli postačí pouze dostatečným způsobem vymezit oblast, na kterou má být portál zaměřen. Oblast bude vymezena jednak množinou inicializačních dat, dále pak korekcemi činnosti systému, které uživatel provede. Výsledkem tedy bude systém učící se z vlastních chyb a tím neustále zdokonalující svou činnost, který uživateli umožní s minimálním úsilím vytvořit vědecký portál, a to jak pro vlastní účely, tak i pro účely jiných uživatelů.

Kontakt s ELSW

  • J.P. je spolupracovník i na ELSW.
  • různé automatické postupy mohou být využity i v jiných oblastech, i v elektronické výuce (extrakce dat, tvorba ontologií...

Odkazy

Inteligentní webcrawling (podprojekt)

  • Dokončená DP.
  • Crawler pro získávání akademických dat. Drží se vědeckých dokumentů, popisů pracovníků, projektů, pracovištích, koferencích... a umožňuje z nich získávat informace a metainformace (z domovské stránky například jméno vědce, kontakt, seznam publikací...).

Provazování referencí mezi odbornými články (podprojekt)

  • Dokončená DP.
  • Využívá algoritmu, který dostane na vstup text citace a databázi článků, ke kterým zná alespoň jejich titulek a seznam autoru, a z těchto dat dokáže určit, na který článek se citace odkazuje.

OLE (podprojekt)

  • Podprojektem je i Ontology LEarning

HTML-extract

Tým:

  • Jiří Sotona (DP) - probíhá

Stručný popis

Kontakt s ELSW

  • příprava, sbírání dat pro korpusy, pro experimenty, do autorského nástroje
  • částečně i anotování textů pro sbírání instancí ontologií

Odkazy

Aktuální stav a todo

BuildCorp & BootCaT

Tým:

  • Jan Pomikálek (PGS) - probíhá
  • a další

Stručný popis

  • BuildCorp umožňuje uživateli přehledně pomocí webového rozhraní vytvořit korpus textů

(mnohem jednodušeji než spouštěním různých řádkových skriptů). Jedná se vlastně o nadstavbu nad těmito nástroji. Umožňuje nahrát jednotlivé dokumenty, jejich preprocessing, přípravu prázdného korpusu, jeho naplnění...

  • Nástroj pro tvorbu tématicky zaměřených korpusu z webu. Na základě zadaných

klíčových slov (která definují zájmovou doménu) jsou vyhledány webové stránky. Z těchto stránek jsou vyextrahovány souvislé texty, ty mohou být označkovány pomocí POS (Part of speech) značkování, provedena lemmatizace a nahrány do korpusu.

    • na základě BuildCorpu, pův. BootCat.

Kontakt s ELSW

  • příprava, sbírání dat pro korpusy - tato data pak můžeme využít
  • možné jiné postupy pro extrakci získávání dat

Odkazy

Aktuální stav a todo

  • -not-yet-

PDF2TXT

Tým:

  • více projektů

Stručný popis

  • Projektů, zabývajících se tímto tématem je více. Hlavním problémem, kterým se musí zabývat autoři převodních nástrojů je špatná podpora znaku jiných než jsou v základní znakové sadě (což je samozřejmě problém v českém textu, který je ale pro nás v elektronické výuce základním zdrojem informací). České znaky pak musí být do dokumentu PDF vpravovány jinak -- těchto postupů je bohužel víc. Porovnáváním jednotlivých možností exportu se zabývala například bakalářská práce Petra Kišše \cite{Kiss2005}. Jako kvalitní existující nástroje identifikuje například
    • PDFbox -- open source knihovna pro programovací jazyk Java. Umí pracovat s Unicode; mimo další práce s PDF umí z PDF také extrahovat text.
    • XPdf -- prohlížeč a extraktor PDF. Extrahuje do textu a jednoduchého HTML, může extrahování dostatečně nastavovat.
    • SolidConverter PDF -- komerční aplikace pro převod dokumentů z PDF (např. do textu, DOC, RDF...)
  • V tuto chvíli probíhá další bakalářská práce, pdf2txt, bohužel je prozatím v úvodních fázích zpracování
  • WebPDFbox -- veřejně přístupná webová aplikace, využívající knihovny PDFbox. BP.


Kontakt s ELSW

  • pro přípravu dat

Odkazy

...