Pasos para realizar los shifts:
Entrar en lxplus, por ejemplo si existe alguien con nombre de cuenta llamado pepito...
ssh pepito@lxplus.cern.ch
en pepito crear un canal seguro de shell con el comando:
ssh trigcomm@lxvoadm
en este punto el encargado de hacer el shift, deberá conocer la contraseña de ésta máquina. Después de esto hay que hacer:
ssh voatlas17
Por ultimo:
source /usr/local/hdebug/latest/setup.sh
Lo anterior debe repetirlo en 3 terminales mas, para asi poder tener un terminal para monitoreo, otro para correr los stream_tags, uno para correr bjobs, y el último para correr sesiones de debugging con ganga.
Iniciando una sesion de monitoreo.
Para esto, usted debera hacer:
/afs/cern.ch/user/t/trigcomm/hdebug_scripts/monitor.sh
Por lo general esto se hace despues de submitir el job. Tambien hay que saber que este monitoreo lo puede hacer cada job si lo configuramos para que el job asi lo haga, si se hace de esta ultima forma, entonces este monitoreo se hace irrelevante (y quizas danino para nuestros intereses).
En algunas etapas del shift uno podra observar que ocurren algunos errores como el siguiente:
RepositoryError: ('Job (8142,) can not be commited because it is probably controlled by other client
Ganga.Utility.logging : WARNING BulkOperationRepositoryError: BulkOperationRepositoryError: ("_commitJobs() command called while committing job (8142,) raised an exception: RepositoryError: ('Job (8142,) can not be commited because it is probably controlled by other client',)",)
Ganga.Utility.logging : WARNING --------------------------------------------------
Ganga.Utility.logging : WARNING ---------- error in user/extension code ----------
Ganga.Utility.logging : WARNING Traceback (most recent call last):
Ganga.Utility.logging : WARNING File "/afs/cern.ch/sw/ganga/install/5.0.0/python/Ganga/GPIDev/Lib/Job/Job.py", line 257, in updateStatus
Ganga.Utility.logging : WARNING self._commit()
Ganga.Utility.logging : WARNING File "/afs/cern.ch/sw/ganga/install/5.0.0/python/Ganga/GPIDev/Lib/Job/Job.py", line 821, in _commit
Ganga.Utility.logging : WARNING self._getRegistry()._flush(objects)
Ganga.Utility.logging : WARNING File "/afs/cern.ch/sw/ganga/install/5.0.0/python/Ganga/GPIDev/Lib/JobRegistry/JobRegistryDev.py", line 572, in _flush
Ganga.Utility.logging : WARNING self.repository.commitJobs(jobs)
Ganga.Utility.logging : WARNING File "/afs/cern.ch/sw/ganga/install/5.0.0/python/Ganga/Core/JobRepository/ARDA.py", line 1026, in commitJobs
Ganga.Utility.logging : WARNING self._commitJobs(jobs, forced_action, deep)
Ganga.Utility.logging : WARNING File "/afs/cern.ch/sw/ganga/install/5.0.0/python/Ganga/Core/JobRepository/ARDA.py", line 690, in _commitJobs
Ganga.Utility.logging : WARNING raise BulkOperationRepositoryError(msg = '\n'.join(msgs), details = details)
Ganga.Utility.logging : WARNING BulkOperationRepositoryError: BulkOperationRepositoryError: ("_commitJobs() command called while committing job (8142,) raised an exception: RepositoryError: ('Job (8142,) can not be commited because it is probably controlled by other client',)",)
Ganga.Utility.logging : WARNING --------------------------------------------------
Ganga.GPIDev.Credentials : WARNING Grid proxy has expired!
en ese caso, hacer
Ctrl c y correr de nuevo el comando
/afs/cern.ch/user/t/trigcomm/hdebug_scripts/monitor.sh
Corriendo un stream_tag sin monitoreo.
Por ejemplo:
hdebug_scripts/90413_RNDM.sh
Que significa sin monitoreo?
RTA> Simplemente que tenemos la siguiente linea de codigo en el archivo de bash anteriormete corrido:
offline_hlt_NoMonitor
en lugar de la linea
offline_hlt
pero, hechemos una mirada en el codigo:
#!/bin/bash
SMKEY=21
HLTKEY=17
L1KEY=2
ganga --no-prompt --config=hdebug_scripts/BEAM.INI \
-o'[PollThread]autostart=True' \
offline_hlt_NoMonitor \
--name=90413_RNDM \
--connection="DBServer=TRIGGERDBDEV2" \
--runno=90413 \
--streamtype=physics \
--streamname=RNDM \
--maxfiles=50 \
--reportdir=/var/www/debug/report \
--cdirhlt=/castor/cern.ch/user/t/trigcomm/hdebug_output/ \
--cdirrecovered=/castor/cern.ch/grid/atlas/DAQ/recovery/ \
--tdaqrelease="tdaq-01-09-01" \
--hltrelease="14.2.21.6,AtlasP1HLT,runtime,32" \
--smkey=$SMKEY \
--hltkey=$HLTKEY \
--l1key=$L1KEY \
--verbose
Viendo los jobs con el comando bjobs.
Hasta el momento existen 16 computadores con 4 nucleos cada uno para realizar este tipo de shifts. Con el comando
bjobs usted podra ver los trabajos que estan corriendo y cuales estan en pendientes. Por ejemplo:
[trigcomm@voatlas17]~% bjobs
JOBID USER STAT QUEUE FROM_HOST EXEC_HOST JOB_NAME SUBMIT_TIME
10375836 trigcom RUN atlastrig voatlas17 lxb8561 *bscript__ Oct 1 19:27
10375839 trigcom RUN atlastrig voatlas17 lxb8562 *bscript__ Oct 1 19:27
10375842 trigcom RUN atlastrig voatlas17 lxb8436 *bscript__ Oct 1 19:27
10375852 trigcom RUN atlastrig voatlas17 lxb8433 *bscript__ Oct 1 19:27
10375858 trigcom RUN atlastrig voatlas17 lxb8562 *bscript__ Oct 1 19:27
10375860 trigcom RUN atlastrig voatlas17 lxb8561 *bscript__ Oct 1 19:27
10375862 trigcom RUN atlastrig voatlas17 lxb8437 *bscript__ Oct 1 19:28
10375868 trigcom RUN atlastrig voatlas17 lxb8562 *bscript__ Oct 1 19:28
10375871 trigcom RUN atlastrig voatlas17 lxb8434 *bscript__ Oct 1 19:28
10375872 trigcom RUN atlastrig voatlas17 lxb8561 *bscript__ Oct 1 19:28
10375875 trigcom RUN atlastrig voatlas17 lxb8438 *bscript__ Oct 1 19:28
10375876 trigcom RUN atlastrig voatlas17 lxb8436 *bscript__ Oct 1 19:28
10375880 trigcom RUN atlastrig voatlas17 lxb8562 *bscript__ Oct 1 19:28
10375882 trigcom RUN atlastrig voatlas17 lxb8436 *bscript__ Oct 1 19:28
10375883 trigcom RUN atlastrig voatlas17 lxb8438 *bscript__ Oct 1 19:28
10375888 trigcom RUN atlastrig voatlas17 lxb8433 *bscript__ Oct 1 19:28
10375889 trigcom RUN atlastrig voatlas17 lxb8562 *bscript__ Oct 1 19:28
10375890 trigcom RUN atlastrig voatlas17 lxb8434 *bscript__ Oct 1 19:28
10375892 trigcom RUN atlastrig voatlas17 lxb8437 *bscript__ Oct 1 19:28
10375893 trigcom RUN atlastrig voatlas17 lxb8436 *bscript__ Oct 1 19:28
10375896 trigcom RUN atlastrig voatlas17 lxb8435 *bscript__ Oct 1 19:28
10375914 trigcom RUN atlastrig voatlas17 lxb8562 *bscript__ Oct 1 19:28
10375918 trigcom RUN atlastrig voatlas17 lxb8434 *bscript__ Oct 1 19:28
10375926 trigcom RUN atlastrig voatlas17 lxb8561 *bscript__ Oct 1 19:28
10375933 trigcom RUN atlastrig voatlas17 lxb8433 *bscript__ Oct 1 19:28
10377533 trigcom RUN atlastrig voatlas17 lxb8435 *bscript__ Oct 1 20:12
10377534 trigcom RUN atlastrig voatlas17 lxb8437 *bscript__ Oct 1 20:12
10377536 trigcom RUN atlastrig voatlas17 lxb8438 *bscript__ Oct 1 20:12
10377537 trigcom RUN atlastrig voatlas17 lxb8436 *bscript__ Oct 1 20:12
10377538 trigcom RUN atlastrig voatlas17 lxb8434 *bscript__ Oct 1 20:12
10377541 trigcom RUN atlastrig voatlas17 lxb8433 *bscript__ Oct 1 20:12
10377543 trigcom RUN atlastrig voatlas17 lxb8561 *bscript__ Oct 1 20:12
10377544 trigcom RUN atlastrig voatlas17 lxb8562 *bscript__ Oct 1 20:12
10377545 trigcom RUN atlastrig voatlas17 lxb8435 *bscript__ Oct 1 20:12
10377546 trigcom RUN atlastrig voatlas17 lxb8437 *bscript__ Oct 1 20:12
10377548 trigcom RUN atlastrig voatlas17 lxb8438 *bscript__ Oct 1 20:12
10377550 trigcom RUN atlastrig voatlas17 lxb8436 *bscript__ Oct 1 20:13
10377552 trigcom RUN atlastrig voatlas17 lxb8433 *bscript__ Oct 1 20:13
10377553 trigcom RUN atlastrig voatlas17 lxb8434 *bscript__ Oct 1 20:13
10377554 trigcom RUN atlastrig voatlas17 lxb8561 *bscript__ Oct 1 20:13
10377555 trigcom RUN atlastrig voatlas17 lxb8562 *bscript__ Oct 1 20:13
10377557 trigcom RUN atlastrig voatlas17 lxb8435 *bscript__ Oct 1 20:13
10377558 trigcom RUN atlastrig voatlas17 lxb8438 *bscript__ Oct 1 20:13
10377559 trigcom RUN atlastrig voatlas17 lxb8437 *bscript__ Oct 1 20:13
10377560 trigcom RUN atlastrig voatlas17 lxb8436 *bscript__ Oct 1 20:13
10377561 trigcom RUN atlastrig voatlas17 lxb8433 *bscript__ Oct 1 20:13
10377563 trigcom RUN atlastrig voatlas17 lxb8434 *bscript__ Oct 1 20:13
10377564 trigcom RUN atlastrig voatlas17 lxb8561 *bscript__ Oct 1 20:13
10377568 trigcom RUN atlastrig voatlas17 lxb8435 *bscript__ Oct 1 20:13
10377569 trigcom RUN atlastrig voatlas17 lxb8437 *bscript__ Oct 1 20:13
10377570 trigcom RUN atlastrig voatlas17 lxb8438 *bscript__ Oct 1 20:13
10377571 trigcom RUN atlastrig voatlas17 lxb8436 *bscript__ Oct 1 20:13
10377574 trigcom RUN atlastrig voatlas17 lxb8433 *bscript__ Oct 1 20:13
10377575 trigcom RUN atlastrig voatlas17 lxb8434 *bscript__ Oct 1 20:13
10377577 trigcom RUN atlastrig voatlas17 lxb8561 *bscript__ Oct 1 20:13
10377578 trigcom RUN atlastrig voatlas17 lxb8435 *bscript__ Oct 1 20:13
10377580 trigcom RUN atlastrig voatlas17 lxb8438 *bscript__ Oct 1 20:13
10377582 trigcom RUN atlastrig voatlas17 lxb8437 *bscript__ Oct 1 20:13
10377583 trigcom RUN atlastrig voatlas17 lxb8434 *bscript__ Oct 1 20:13
10377584 trigcom RUN atlastrig voatlas17 lxb8433 *bscript__ Oct 1 20:13
10377586 trigcom RUN atlastrig voatlas17 lxb8435 *bscript__ Oct 1 20:13
10377587 trigcom RUN atlastrig voatlas17 lxb8438 *bscript__ Oct 1 20:13
10377588 trigcom RUN atlastrig voatlas17 lxb8437 *bscript__ Oct 1 20:13
10377590 trigcom RUN atlastrig voatlas17 lxb8435 *bscript__ Oct 1 20:13
10377592 trigcom PEND atlastrig voatlas17 *bscript__ Oct 1 20:13
10377594 trigcom PEND atlastrig voatlas17 *bscript__ Oct 1 20:13
10377596 trigcom PEND atlastrig voatlas17 *bscript__ Oct 1 20:13
10377601 trigcom PEND atlastrig voatlas17 *bscript__ Oct 1 20:13
10377603 trigcom PEND atlastrig voatlas17 *bscript__ Oct 1 20:13
10377604 trigcom PEND atlastrig voatlas17 *bscript__ Oct 1 20:13
10377608 trigcom PEND atlastrig voatlas17 *bscript__ Oct 1 20:13
10377609 trigcom PEND atlastrig voatlas17 *bscript__ Oct 1 20:13
10377610 trigcom PEND atlastrig voatlas17 *bscript__ Oct 1 20:13
10377611 trigcom PEND atlastrig voatlas17 *bscript__ Oct 1 20:13
10377612 trigcom PEND atlastrig voatlas17 *bscript__ Oct 1 20:13
Depuracion con ganga.
Para iniciar una sesion de depuracion con ganga, hacer:
/afs/cern.ch/user/t/trigcomm> ganga --config=hdebug_scripts/BEAM.INI -i load_debug
luego
jobs
Algunos detalles de ganga.
Para saber que trabajos estan corriendo en una sesion de ganga, hacer:
for j in jobs:
...print "%s, %d, %s" % (j.name,j.id,j.backend.id)
...
Para matar un processo se utiliza:
jobs.select(name='90345_CosmicMuons:offline').kill()
Con esto se puede comprobar si los archivos estan corriendo bien, las que fallen deberan ir en el reporte. Tambien sirve para saber si el CAF esta bien sincronizado con el
Hacer el reporte.
Bueno, aqui un ejemplo de un reporte muy pequeno
To: Jose.Goncalo@cern.ch
Cc: Cristobal.Padilla@cern.ch
Hello,
In this shift were run the following stream tags
name goods/terminated for a total files
-----------------------
90345_CosmicMuons 10/10
90345_IDCosmic 10/10
90345_L1Calo 10/10 for 10 files
90345_MBTS_BCM_LUCID 10/10
90345_RNDM 10/10
90345_TGCwBeam 10/10
-----------------------
90413_CosmicMuons 49/50
90413_IDCosmic 50/50
90413_L1Calo 44/50 for 50 files
90413_L2ForcedAccept 44/44
90413_MBTS_BCM_LUCID 37/41
90413_RNDM
------------------------------
with theirs
Trigger DB Super Master Key = 21
Trigger DB Level1 Prescale Key = 2
Trigger DB HLT Prescale Key = 17
Fernando Quinonez
Enlaces utiles.
https://twiki.cern.ch/twiki/bin/view/Atlas/OfflineMonitoringTriggerShifterInstuctions
https://twiki.cern.ch/twiki/bin/view/Atlas/OfflineHLT
http://pcatdwww.cern.ch/twiki/bin/view/Main/TriggerWhiteBoard
http://www.vub.ac.be/BFUCC/LSF/man/bpeek.1.html
http://voatlas17.cern.ch/report/
--
FernandoAndresQuinonezGranados - 01 Oct 2008