neurodoc_fr.xml

<tool id="neurodoc" name="clusterisation par K-means axiales" version="0.9.2">
  <requirements>
    <container type="docker">visatm/neurodoc</container>
  </requirements>
  <description>sur un fichier de données “document × terme”</description>
  <command><![CDATA[
    neurodoc -i "$input" -o "$output" -c $clusters --json
    #if $metadata
        -m "$metadata"
    #end if
    #if $frequency != 2
        -f $frequency
    #end if
    #if $term != 1.0
        -t $term
    #end if
    #if $document != 0.3
        -d $document
    #end if
  ]]></command>
  <inputs>
    <param name="input" type="data" format="tabular" label="Fichier source “document × terme”" />
    <param name="metadata" type="data" format="tabular" optional="true" label="Fichier de métadonnées" />
    <param name="clusters" type="integer" value="" min="2" max="200" label="Nombre de clusters" />
    <param name="frequency" type="integer" value="2" min="1" label="Fréquence minimale des termes (= nb. de documents)" />
    <param name="term" type="float" value="1.0" min="0.0" label="Seuil des termes" />
    <param name="document" type="float" value="0.3" min="0.0" label="Seuil des documents" />
  </inputs>
  <outputs>
    <data format="json" name="output" />
  </outputs>

  <tests>
    <test>
      <param name="input" value="ndocDocsMots.txt" />
      <param name="clusters" value="10" />
      <output name="output" file="ndocClusters.xml" />
    </test>
  </tests>

  <help><![CDATA[
Ce programme de clusterisation applique l’algorithme des **K-means axiales** — et une **ACP** — sur un fichier de données *“document × terme”*.

.. class:: warningmark

Ce fichier de données est formé de 2 colonnes séparées par une tabulation et contenant l’identifiant du document et le terme “indexant” ce document, le tout encodé en UTF-8. 

.. class:: warningmark

Il y a autant de lignes que de couples *“document — terme”*. 

-----

**Options**

Le programme reçoit plusieurs arguments, soit **obligatoires**, soit *optionnels* :

+ **nom du fichier de données** *“document × terme”* 

+ **nombre de clusters souhaités**

+ *nom du fichier de métadonnées*

+ *fréquence minimale des termes*, c'est-à-dire le nombre minimum de documents où un terme peut être trouvé (par défaut : 2)

+ *seuil des termes*, c'est-à-dire le poids minimum d'un terme dans un cluster pour y être inclus (par défaut : 1.0)

+ *seuil des documents*, c'est-à-dire le poids minimum d'un document dans un cluster pour y être inclus (par défaut : 0.3)

.. class:: infomark

Pour les deux dernières options, il est préférable de les laisser telles quelles. 

-----

**Données d’entrée**

Exemple :

::

      GS2_0000067	abrupt transition
      GS2_0000067	apparent contrast
      GS2_0000067	arc collision
         ...
      GS2_0000067	wide variability
      GS2_0000592	anomalous change
      GS2_0000592	atomic oxygen
         ...

-----

**Métadonnées**

Le fichier de métadonnées est formé de colonnes séparées par des tabulations. La première ligne est réservée à l’entête avec le nom des différents champs. Seuls les champs dont le nom apparaît en gras dans la liste suivante seront utilisés :

+ **Filename**
+ **IstexId** ou **Istex Id**
+ **ARK**
+ **DOI**
+ **Title**
+ **Source**
+ **PublicationDate** ou **Publication date**
+ **Author** ou **Authors**

À noter que pour les noms de champ, la casse des caractères n’a pas d’importance. “**IstexId**”, “**istexId**” et “**istexid**” sont acceptés, de même que “**ISTEXID**”. 


  ]]></help>

</tool>