-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathneurodoc_fr.xml
111 lines (81 loc) · 3.55 KB
/
neurodoc_fr.xml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
<tool id="neurodoc" name="clusterisation par K-means axiales" version="0.9.2">
<requirements>
<container type="docker">visatm/neurodoc</container>
</requirements>
<description>sur un fichier de données “document × terme”</description>
<command><![CDATA[
neurodoc -i "$input" -o "$output" -c $clusters --json
#if $metadata
-m "$metadata"
#end if
#if $frequency != 2
-f $frequency
#end if
#if $term != 1.0
-t $term
#end if
#if $document != 0.3
-d $document
#end if
]]></command>
<inputs>
<param name="input" type="data" format="tabular" label="Fichier source “document × terme”" />
<param name="metadata" type="data" format="tabular" optional="true" label="Fichier de métadonnées" />
<param name="clusters" type="integer" value="" min="2" max="200" label="Nombre de clusters" />
<param name="frequency" type="integer" value="2" min="1" label="Fréquence minimale des termes (= nb. de documents)" />
<param name="term" type="float" value="1.0" min="0.0" label="Seuil des termes" />
<param name="document" type="float" value="0.3" min="0.0" label="Seuil des documents" />
</inputs>
<outputs>
<data format="json" name="output" />
</outputs>
<tests>
<test>
<param name="input" value="ndocDocsMots.txt" />
<param name="clusters" value="10" />
<output name="output" file="ndocClusters.xml" />
</test>
</tests>
<help><![CDATA[
Ce programme de clusterisation applique l’algorithme des **K-means axiales** — et une **ACP** — sur un fichier de données *“document × terme”*.
.. class:: warningmark
Ce fichier de données est formé de 2 colonnes séparées par une tabulation et contenant l’identifiant du document et le terme “indexant” ce document, le tout encodé en UTF-8.
.. class:: warningmark
Il y a autant de lignes que de couples *“document — terme”*.
-----
**Options**
Le programme reçoit plusieurs arguments, soit **obligatoires**, soit *optionnels* :
+ **nom du fichier de données** *“document × terme”*
+ **nombre de clusters souhaités**
+ *nom du fichier de métadonnées*
+ *fréquence minimale des termes*, c'est-à-dire le nombre minimum de documents où un terme peut être trouvé (par défaut : 2)
+ *seuil des termes*, c'est-à-dire le poids minimum d'un terme dans un cluster pour y être inclus (par défaut : 1.0)
+ *seuil des documents*, c'est-à-dire le poids minimum d'un document dans un cluster pour y être inclus (par défaut : 0.3)
.. class:: infomark
Pour les deux dernières options, il est préférable de les laisser telles quelles.
-----
**Données d’entrée**
Exemple :
::
GS2_0000067 abrupt transition
GS2_0000067 apparent contrast
GS2_0000067 arc collision
...
GS2_0000067 wide variability
GS2_0000592 anomalous change
GS2_0000592 atomic oxygen
...
-----
**Métadonnées**
Le fichier de métadonnées est formé de colonnes séparées par des tabulations. La première ligne est réservée à l’entête avec le nom des différents champs. Seuls les champs dont le nom apparaît en gras dans la liste suivante seront utilisés :
+ **Filename**
+ **IstexId** ou **Istex Id**
+ **ARK**
+ **DOI**
+ **Title**
+ **Source**
+ **PublicationDate** ou **Publication date**
+ **Author** ou **Authors**
À noter que pour les noms de champ, la casse des caractères n’a pas d’importance. “**IstexId**”, “**istexId**” et “**istexid**” sont acceptés, de même que “**ISTEXID**”.
]]></help>
</tool>