DP:xsotona:Zadání

Z FI WIKI
Přejít na: navigace, hledání

Student bude mit nekolik ukolu:

  • nastudovat pravidla vstupnich formatu pro korpusy uzivane na FI (vertikalni text, metadata), pripadne jinde, jejich format popsat i jinymi pouzivanymi standardy (napr. XML schema, Schematron, RelaxNG...)
  • najít prostředky, algoritmy pro extrakci textové informace z (X)HTML souborů, porovnat jejich použitelnost.
  • vytvorit v Jave nastroj, schopny z obecneho HTML souboru (nebo sady souboru) se pokusit identifikovat zdroj (z hlaviček, explicitních metadat) vyextrahovat text, strukturu dokumentu (pokud to podporuje format, do ktere ho ma vyextrahovane informace prevest) a navíc co nejvice (implicitních) metadat (automaticky). Pokusit se přitom zrušit co nejvíce textu nenesoucího informaci.
    • případně zkusit na text převést i věci, které v samotném textovém obsahu HTML nejsou (ALT obrázků, odkázaný JAVA soubor...?)
  • tento nástroj udělat modulární, aby _šlo_:
    • extrahovat do více výstupních formátů (čistý text, vertikál, zjednodušený HTML, RDF?). Částí řešení by byl jen vertikál a čistý text.
    • pro vstup u serveru, jehož zdroj identifikujeme a má nadefinované vstupní XSLT transformace (BP:Extrakce metadat ze známých zdrojů), tak metadata získat z ní a nehledat je sám...
  • nástroj by měl spolupracovat s existujícími nástroji (tj. předával výsledek např. CorpusBuilderu..., využít existující čistící funkce)
  • jádro, ten základní převod, by měl být přístupný jako java-knihovna
  • zpřístupnit jej navíc jako GUI (kde by bylo možné např. kontrolovat a opravovat chyby ve vstupech, které nejdou udělat automaticky), případně explicitně určit, že v určitém souboru/u všech/nějaké sídlo-podadresář je část souboru nedůležitá apod.)