Citeseer
Na strojích kore.fi.muni.cz a apollo.fi.muni.cz jsou přístupné databáze naplněné metadaty z projektu Citeseer [1].
V současnosti databáze obsahuje cca 574 000 záznamů, v tabulce referencí pak něco přes 5.3 milionů
Databáze běží na PostgreSQL 8.0.2
Obsah
Databáze 1 - citeseer
V současnosti dostupné na strojích kore i apollo
Připojit se na ni lze na kore.fi.muni.cz
- port 5433
- uživatel: citeseer
- heslo: citeseerpass
- databaze: citeseer.
příklad přihlášení klientem PSQL:
psql -d citeseer -U citeseer -p 5433
příklad nastavení pro jdbc:
URL="jdbc:postgresql://kore.fi.muni.cz:5433/citeseer" login="citeseer" pass="citeseerpass"
Rovněž na apollo.fi.muni.cz
- port 5432
- uživatel: citeseer
- heslo: ctx78rs
- databaze: citeseer.
příklad přihlášení klientem PSQL:
psql -d citeseer -U citeseer -p 5432
příklad nastavení pro jdbc:
URL="jdbc:postgresql://apollo.fi.muni.cz:5432/citeseer" login="citeseer" pass="ctx78rs"
Datový model:
Databáze 2 - citeseer_old
Dostupný pouze na kore.fi.muni.cz Datový model je převzat z projektu Vezmu Připojit se na ni lze na kore.fi.muni.cz
- port 5433
- uživatel: citeseer
- heslo: citeseerpass
- databaze: citeseer_old
příklad přihlášení klientem PSQL:
psql -d citeseer_old -U citeseer -p 5433
příklad nastavení pro jdbc:
URL="jdbc:postgresql://kore.fi.muni.cz:5433/citeseer_old" login="citeseer" pass="citeseerpass"
Datový model:
Import dat
Vytvoreni databaze
- prihlasit se jako postgres
spustit /opt/postgresql-8.0.2/bin/createdb -p 5433 citeseer
- create skript db
/tmp/citeseer/import_citeseer_new/pripravDB_citeseer.sh
- moznost zkontrolovat tabulky pres
./psql_connect.sh prikaz \d - vypise tabulky prikaz \di - vypise indexy
Úprava vstupních dat
- pokud ješte nejsou rozbalene a upravene vstupni soubory
rozbalit tar xvzf /tmp/citeseer/oai_citeseer.tar.gz
- zkontrolovat cesty ve skriptu
/tmp/citeseer/import_citeseer_new/uprav.sh
- spustit uprav.sh
Import
- zkontrolovat nastaveni databaze ve skriptu
/tmp/citeseer/import_citeseer_new/cp.sh
- parametry jsou implicitne nastaveny na
- URL=jdbc:postgresql://localhost:5433/citeseer
- login="postgres"
- pass="nejake_heslo"
- zkontrolovat cesty v cp.sh a run.sh
- Spusteni importu (nohup)
/tmp/siteseer/run.sh
Logy
- logy v cite.log a error.log
- zastaveni pres kill <cislo procesu>
- po ukonceni importu je treba vytvorit indexy ... jinak by dotazy trvaly fakt dlouho
/tmp/citeseer/import_citeseer_new/citeseer_create_index_postgres.sql
Optimalizace výkonu
prihlaste se jako majitel databaze (casto je to postgres)
spustte v klientovi příkaz
VACUUM ANALYZE
- volitelne si prijdejte indexy vlastni pres CREATE INDEX
- kontrolujte vykon selectu pres EXPLAIN