Citeseer

Z FI WIKI
Přejít na: navigace, hledání

Na strojích kore.fi.muni.cz a apollo.fi.muni.cz jsou přístupné databáze naplněné metadaty z projektu Citeseer [1].
V současnosti databáze obsahuje cca 574 000 záznamů, v tabulce referencí pak něco přes 5.3 milionů

Databáze běží na PostgreSQL 8.0.2

Databáze 1 - citeseer

V současnosti dostupné na strojích kore i apollo
Připojit se na ni lze na kore.fi.muni.cz

  • port 5433
  • uživatel: citeseer
  • heslo: citeseerpass
  • databaze: citeseer.

příklad přihlášení klientem PSQL:

psql -d citeseer -U citeseer -p 5433

příklad nastavení pro jdbc:

URL="jdbc:postgresql://kore.fi.muni.cz:5433/citeseer" 
login="citeseer"
pass="citeseerpass"

Rovněž na apollo.fi.muni.cz

  • port 5432
  • uživatel: citeseer
  • heslo: ctx78rs
  • databaze: citeseer.

příklad přihlášení klientem PSQL:

psql -d citeseer -U citeseer -p 5432

příklad nastavení pro jdbc:

URL="jdbc:postgresql://apollo.fi.muni.cz:5432/citeseer" 
login="citeseer"
pass="ctx78rs"

Datový model:

Soubor:Citeseer erd2.png

Databáze 2 - citeseer_old

Dostupný pouze na kore.fi.muni.cz Datový model je převzat z projektu Vezmu Připojit se na ni lze na kore.fi.muni.cz

  • port 5433
  • uživatel: citeseer
  • heslo: citeseerpass
  • databaze: citeseer_old

příklad přihlášení klientem PSQL:

psql -d citeseer_old -U citeseer -p 5433

příklad nastavení pro jdbc:

URL="jdbc:postgresql://kore.fi.muni.cz:5433/citeseer_old" 
login="citeseer"
pass="citeseerpass"


Datový model:

Db image1.png

Import dat

Vytvoreni databaze

  • prihlasit se jako postgres
spustit
/opt/postgresql-8.0.2/bin/createdb -p 5433 citeseer
  • create skript db
/tmp/citeseer/import_citeseer_new/pripravDB_citeseer.sh
  • moznost zkontrolovat tabulky pres
./psql_connect.sh
prikaz \d - vypise tabulky
prikaz \di - vypise indexy

Úprava vstupních dat

  • pokud ješte nejsou rozbalene a upravene vstupni soubory
rozbalit
tar xvzf /tmp/citeseer/oai_citeseer.tar.gz
  • zkontrolovat cesty ve skriptu
/tmp/citeseer/import_citeseer_new/uprav.sh
  • spustit uprav.sh

Import

  • zkontrolovat nastaveni databaze ve skriptu
/tmp/citeseer/import_citeseer_new/cp.sh
  • parametry jsou implicitne nastaveny na
    • URL=jdbc:postgresql://localhost:5433/citeseer
    • login="postgres"
    • pass="nejake_heslo"
  • zkontrolovat cesty v cp.sh a run.sh
  • Spusteni importu (nohup)
/tmp/siteseer/run.sh

Logy

  • logy v cite.log a error.log
  • zastaveni pres kill <cislo procesu>
  • po ukonceni importu je treba vytvorit indexy ... jinak by dotazy trvaly fakt dlouho
/tmp/citeseer/import_citeseer_new/citeseer_create_index_postgres.sql

Optimalizace výkonu

prihlaste se jako majitel databaze (casto je to postgres)

spustte v klientovi příkaz

VACUUM ANALYZE
  • volitelne si prijdejte indexy vlastni pres CREATE INDEX
  • kontrolujte vykon selectu pres EXPLAIN