Corr

Z FI WIKI
Verze z 18. 12. 2006, 15:51; 1166449152 (diskuse | příspěvky)

(rozdíl) ← Starší verze | zobrazit aktuální verzi (rozdíl) | Novější verze → (rozdíl)
Přejít na: navigace, hledání

Nový program pro korekturu textů (corr) - základní verze

Použití:

  • korektura (cizojazyčných) textů
  • korektura studentských prací
  • vytváření korpusů chyb
  • asistence při vytváření textů (možnost vyhledávání chyb z korpusu chyb, statistiky v textu apod.)

Požadavky:

  • ze strany uživatele - obecně
    • možnost používat formáty DOC/RTF (aspoň RTF)
    • možnost používat jiné formáty (TeX)
    • možnost sledování změn (viz MS Word)
    • korektor překlepů
    • možnost vyhledávání výrazů ve slovníku, tezauru apod.
    • možnost vyhledávání slov či kolokací v korpusu (případně word sketches)
    • výpočty nad textem (počet slov, orientační průměrná délka věty, statistické vyhodnocování čitelnosti textu, stoplist, klíčová slova, poměry délek odstavců apod.)
    • snadná instalace (nebo zcela bez instalace)
    • značkování textu za běhu (s možností ruční/poloautomatické desambiguace)
  • ze strany uživatele, který vyznačuje chyby (učitel)
    • široká, ale přehledná nabídka značek pro vyznačení chyby (viz klasifikace chyb z WinCorr)
    • varianty značek pro různé jazyky (alespoň cs a en)
    • jednoduchá možnost ukládat si a zadávat vlastní poznámky (viz Markin)
    • možnost pozitivního hodnocení (často opomíjené! viz Markin)
  • ze strany uživatele, který vyznačuje i opravuje chyby (student)
    • široká, ale přehledná nabídka značek pro vyznačení chyby (viz klasifikace chyb z WinCorr)
    • snadné nalezení správné korekturní značky (nápověda musí být po ruce, seznam dobrých příkladů)
    • program musí studenta nutit používat korekturní značky, ale nesmí bránit v přepsání části textu bez nutnosti vyznačování (jak to zajistit? viz níže)
    • varianty značek pro různé jazyky (alespoň cs a en)
  • ze strany správce korektur (učitel, e-technik, IS)
    • autentizace a autorizace
    • možnost nastavit prostředí pro danou skupinu textů (např. jazyk prostředí, povolené jazyky textů, povolené nástroje apod.)
    • sledování verzí
  • ze strany NLP
    • výstupem programu musí být formát snadno převoditelný do vertikálu
    • možnost přidat k textu metadata (datum, autor, jazyk, mateřský jazyk autora, typ textu, zařazení do oboru...)
    • kontrola duplicity textů (co s vícenásobným odesláním apod.)
    • autentizace a autorizace (do korpusu nelze přidat cokoli)

Návrh řešení:

Klient-server, klient je webový prohlížeč. Je možné využít ISu a odevzdávárny (je potřeba promyslet a prodiskutovat nutné úpravy ISu pro naše potřeby). Viz CorrIs.

Server:

  • se stará o autentizaci a autorizaci
  • nabídne uživateli přednastavené uživatelské prostředí (jazyk prostředí, sadu korekturních značek, povolené nástroje apod.)
  • hlídá well-formedness odeslaných textů
  • spravuje upload textů (správa verzí, kontrola duplicit)
  • nabízí export textu v několika formátech pro další zpracování (RTF, TeX)
  • umožní prohlížet stav textu (po korektuře učitele, korektura studenta, finální korektura apod.)
  • převede texty na vertikál a uloží do patřičného korpusu

Klient:

  • umožňuje vytváření textu
  • umožňuje import textu (RTF, TeX)
  • poskytuje korekturní značky z nastavené sady
  • poskytuje další nástroje (podle toho, co server dovolí) pro zvýšení komfortu při korektuře

Inspirace:

Wincorr a corr.doc (klasifikace chyb, značkování, viz [[1]]), Markin [[2]] (jednodušší značení chyb, možnost vytvářet vlastní poznámky, pozitivní hodnocení), MS Word (funkce ,,sledování změn``).

Realizace:

klientská část

Je to webová aplikace (XHTML+Javascript?), ale XHTML rozšíříme o svoje značky (našeXHTML je tedy XML). Některé věci se nabízejí celkem použitelné (editor TinyMCE).

Pro editaci/korekturu uvažujeme o dvou oddělených režimech. Důvodem je snaha "donutit" uživatele používat korekturní značky, ale zároveň mu nebránit v možnosti přepsat větší část textu. Jak to provést uživatelsky příjemně, ale přitom funkčně, je stále otázka.

serverová část:

Měla by nějak pracovat s databází (kvůli autentizaci a autorizaci - je potřeba vyjednat integraci s ISem).

Musí umět tranformace (minimálně našeXHTML -> RTF, našeXHTML -> TeX, našeXHTML -> vertikál, optimálně ještě TeX -> XHTML a RTF -> XHTML), tady se nabízí převod našeXHTML -> XML a použití XSL. Některé převodníky existují, ale je potřeba zjisit, v jaké kvalitě. Dále to znamená, že našeXHTML je ve skutečnosti XML, server tedy musí zajišťovat kontrolu validity a well-formedness (jinak by transformace stejně nefungovaly).

Musí umět ukládat vertikály do příslušných korpusů (kontrola duplicity, uchovávání metadat), korpusy chyb nemusejí být ostré, ale ideální je, aby už nebyla potřeba žádná další práce.