<html>
  <head>
    <meta content="text/html; charset=utf-8" http-equiv="Content-Type">
  </head>
  <body text="#000000" bgcolor="#FFFFFF">
    You are right, I have manually created the file so I have used
    indentation.<br>
    I will try without them and tell you.<br>
    Thank you.<br>
    <br>
    <div class="moz-cite-prefix">On 06/10/2016 03:43 PM, Hardie, Andrew
      wrote:<br>
    </div>
    <blockquote
      cite="mid:28078EC3FBF1B940A3EF3D0D19BE351D7FB5CEAF@EX-0-MB1.lancs.local"
      type="cite">
      <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
      <meta name="Generator" content="Microsoft Word 14 (filtered
        medium)">
      <style><!--
/* Font Definitions */
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
@font-face
        {font-family:Verdana;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
@font-face
        {font-family:Consolas;
        panose-1:2 11 6 9 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman","serif";
        color:black;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
pre
        {mso-style-priority:99;
        mso-style-link:"HTML Preformatted Char";
        margin:0cm;
        margin-bottom:.0001pt;
        font-size:10.0pt;
        font-family:"Courier New";
        color:black;}
span.HTMLPreformattedChar
        {mso-style-name:"HTML Preformatted Char";
        mso-style-priority:99;
        mso-style-link:"HTML Preformatted";
        font-family:Consolas;
        color:black;}
span.EmailStyle19
        {mso-style-type:personal-reply;
        font-family:"Verdana","sans-serif";
        color:#1F497D;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page WordSection1
        {size:612.0pt 792.0pt;
        margin:72.0pt 72.0pt 72.0pt 72.0pt;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
      <div class="WordSection1">
        <p class="MsoNormal"><span
style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">It
            looks like your input file has whitespace at the start of
            the lines containing the &lt;seg&gt; and &lt;s&gt; elements.<o:p></o:p></span></p>
        <p class="MsoNormal"><span
style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span
style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">Is
            this the case, or is it just an artefact of the email?<o:p></o:p></span></p>
        <p class="MsoNormal"><span
style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span
style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">IF
            there really is whitespace there, that is your problem. XML
            tags should not be preceded on the line by whitespace.<o:p></o:p></span></p>
        <p class="MsoNormal"><span
style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span
style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">best<o:p></o:p></span></p>
        <p class="MsoNormal"><span
style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p> </o:p></span></p>
        <p class="MsoNormal"><span
style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">Andrew.<o:p></o:p></span></p>
        <p class="MsoNormal"><span
style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p> </o:p></span></p>
        <div>
          <div style="border:none;border-top:solid #B5C4DF
            1.0pt;padding:3.0pt 0cm 0cm 0cm">
            <p class="MsoNormal"><b><span
style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;;color:windowtext"
                  lang="EN-US">From:</span></b><span
style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;;color:windowtext"
                lang="EN-US"> <a class="moz-txt-link-abbreviated" href="mailto:cwb-bounces@sslmit.unibo.it">cwb-bounces@sslmit.unibo.it</a>
                [<a class="moz-txt-link-freetext" href="mailto:cwb-bounces@sslmit.unibo.it">mailto:cwb-bounces@sslmit.unibo.it</a>] <b>On Behalf Of </b>Philippe
                Baudrion<br>
                <b>Sent:</b> 10 June 2016 14:41<br>
                <b>To:</b> Open source development of the Corpus
                WorkBench<br>
                <b>Subject:</b> Re: [CWB] Parallel Corpora<o:p></o:p></span></p>
          </div>
        </div>
        <p class="MsoNormal"><o:p> </o:p></p>
        <p class="MsoNormal" style="margin-bottom:12.0pt">Thank you
          Susanne for your quick answer.<br>
          Until now I have only tried automatic indexing through CQPweb.<br>
          I guess I will need to dig a bit more CQP encoding options in
          order to have it work.<br>
          Thank you for putting me on the right track, Philippe <o:p></o:p></p>
        <div>
          <p class="MsoNormal">On 06/10/2016 02:54 PM, Susanne Flach
            wrote:<o:p></o:p></p>
        </div>
        <blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
          <p class="MsoNormal">Dear Philippe, <o:p></o:p></p>
          <div>
            <p class="MsoNormal"><o:p> </o:p></p>
          </div>
          <div>
            <p class="MsoNormal">Have you tried declaring nested XML
              elements with :0 as described in Sec 4?<o:p></o:p></p>
          </div>
          <div>
            <p class="MsoNormal"><a moz-do-not-send="true"
                href="http://cwb.sourceforge.net/files/CWB_Encoding_Tutorial/node5.html">http://cwb.sourceforge.net/files/CWB_Encoding_Tutorial/node5.html</a><o:p></o:p></p>
          </div>
          <div>
            <p class="MsoNormal"><o:p> </o:p></p>
          </div>
          <div>
            <p class="MsoNormal">I’ve never had your problem, but I have
              always used the :0.<o:p></o:p></p>
          </div>
          <div>
            <p class="MsoNormal"><o:p> </o:p></p>
          </div>
          <div>
            <p class="MsoNormal">Best,<o:p></o:p></p>
          </div>
          <div>
            <p class="MsoNormal">Susanne<o:p></o:p></p>
            <div>
              <div>
                <div>
                  <p class="MsoNormal" style="margin-bottom:12.0pt"><br>
                    --<br>
                    Susanne Flach, M.A.<br>
                    Arbeitsbereich Linguistik<br>
                    Institut für Englische Philologie<br>
                    Freie Universität Berlin<br>
                    Habelschwerdter Allee 45<br>
                    14195 Berlin<o:p></o:p></p>
                </div>
                <div>
                  <p class="MsoNormal">NEU! <a moz-do-not-send="true"
                      href="http://userpage.fu-berlin.de/%7Eflach/corpling/">Korpustutorium
                      mit CQP</a><br>
                    <br>
                    <a moz-do-not-send="true"
                      href="http://userpage.fu-berlin.de/%7Eflach/">http://userpage.fu-berlin.de/~flach/</a><br>
                    <br>
                    Raum JK29/223<br>
                    Telefon +49 30 838 72311<o:p></o:p></p>
                </div>
              </div>
            </div>
            <p class="MsoNormal"><o:p> </o:p></p>
            <div>
              <blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
                <div>
                  <p class="MsoNormal">On 10 Jun 2016, at 14:39,
                    Philippe Baudrion &lt;<a moz-do-not-send="true"
                      href="mailto:Philippe.Baudrion@unige.ch">Philippe.Baudrion@unige.ch</a>&gt;
                    wrote:<o:p></o:p></p>
                </div>
                <p class="MsoNormal"><o:p> </o:p></p>
                <div>
                  <div>
                    <p class="MsoNormal">Dear all,<br>
                      I am trying to index the following corpus
                      structure but it is not working. Here is an
                      extract of the corpus:<br>
                      <br>
                      <span style="font-size:10.0pt">&lt;text
                        id="FR_DI_2000_1" organisation="CERD"
                        country="Francia" type="Documento informativo"
                        year="2000" signature="CERD/C/SR.1373"&gt;<br>
                            &lt;s id="1"&gt;<br>
                                &lt;seg lang="fr"&gt;<br>
                        La<br>
                        séance<br>
                        est<br>
                        ouverte<br>
                        à<br>
                        10h05<br>
                        .<br>
                        &lt;/seg&gt;<br>
                                &lt;seg lang="es"&gt;<br>
                        Se<br>
                        declara<br>
                        abierta<br>
                        la<br>
                        sesión<br>
                        a<br>
                        las<br>
                        10.05<br>
                        horas<br>
                        .<br>
                                &lt;/seg&gt;<br>
                            &lt;/s&gt;<br>
                        ...<br>
                        &lt;/text&gt;<br>
                      </span><br>
                      The corresponding files on the disk drive remains
                      empty:<o:p></o:p></p>
                    <pre>&gt; ll /export/data/CQPweb_data/corpus/test_pb_fr_es/<o:p></o:p></pre>
                    <pre>          total 120<o:p></o:p></pre>
                    <pre>          drwxr-xr-x  2 www-data www-data 4096 Jun  6 12:18 ./<o:p></o:p></pre>
                    <pre>          drwxrwxr-x 58 www-data letrint  4096 Jun  6 12:18 ../<o:p></o:p></pre>
                    <pre>          -rw-r--r--  1 www-data www-data    0 Jun  6 12:18 seg_lang.avs<o:p></o:p></pre>
                    <pre>          -rw-r--r--  1 www-data www-data    0 Jun  6 12:18 seg_lang.avx<o:p></o:p></pre>
                    <pre>          -rw-r--r--  1 www-data www-data    0 Jun  6 12:18 seg_lang.rng<o:p></o:p></pre>
                    <pre>          -rw-r--r--  1 www-data www-data    0 Jun  6 12:18 seg.rng<o:p></o:p></pre>
                    <pre>          -rw-r--r--  1 www-data www-data    0 Jun  6 12:18 s_id.avs<o:p></o:p></pre>
                    <pre>          -rw-r--r--  1 www-data www-data    0 Jun  6 12:18 s_id.avx<o:p></o:p></pre>
                    <pre>          -rw-r--r--  1 www-data www-data    0 Jun  6 12:18 s_id.rng<o:p></o:p></pre>
                    <pre>          -rw-r--r--  1 www-data www-data    0 Jun  6 12:18 s.rng<o:p></o:p></pre>
                    <pre>          -rw-r--r--  1 www-data www-data    8 Jun  6 12:18 text_country.avs<o:p></o:p></pre>
                    <pre>          -rw-r--r--  1 www-data www-data    8 Jun  6 12:18 text_country.avx<o:p></o:p></pre>
                    <pre>          -rw-r--r--  1 www-data www-data    8 Jun  6 12:18 text_country.rng<o:p></o:p></pre>
                    <pre>          -rw-r--r--  1 www-data www-data   13 Jun  6 12:18 text_id.avs<o:p></o:p></pre>
                    <pre>          -rw-r--r--  1 www-data www-data    8 Jun  6 12:18 text_id.avx<o:p></o:p></pre>
                    <pre>          -rw-r--r--  1 www-data www-data    8 Jun  6 12:18 text_id.rng<o:p></o:p></pre>
                    <pre>          ...<o:p></o:p></pre>
                    <p class="MsoNormal"><br>
                      The indexing command is as follow:<o:p></o:p></p>
                    <pre>&gt; cwb-encode -xsB -c utf8 -d /export/data/CQPweb_data/corpus/test_pb_fr_es -f /export/data/CQPweb_data/upload/Test-PB-FR_ES.vrt -R "/export/data/CQPweb_data/registry/test_pb_fr_es"  -S text+id+organisation+country+type+year+signature -S s+id -S seg+lang 2&gt;&amp;1<o:p></o:p></pre>
                    <pre>&gt; cwb-makeall -r "/export/data/CQPweb_data/registry" -V TEST_PB_FR_ES 2&gt;&amp;1<o:p></o:p></pre>
                    <pre><o:p> </o:p></pre>
                    <pre><span style="font-size:12.0pt">I guess due to the redundence of the &lt;seg&gt; element it is impossible to correctely index that corpus, but I want to have your opinion on that.<o:p></o:p></span></pre>
                    <pre><span style="font-size:12.0pt">In case it is possible, what would then be the correct indexing command.<o:p></o:p></span></pre>
                    <pre><span style="font-size:12.0pt"><o:p> </o:p></span></pre>
                    <pre><span style="font-size:12.0pt">Thank you for your help, greetings,<o:p></o:p></span></pre>
                    <pre>-- <o:p></o:p></pre>
                    <pre>Baudrion Philippe<o:p></o:p></pre>
                    <pre>Correspondant Informatique<o:p></o:p></pre>
                    <pre><o:p> </o:p></pre>
                    <pre>UNIVERSITE DE GENEVE<o:p></o:p></pre>
                    <pre>Faculté de traduction et d'interprétation<o:p></o:p></pre>
                    <pre>40, bd. du Pont d'Arve<o:p></o:p></pre>
                    <pre>1211 GENEVE 4<o:p></o:p></pre>
                    <pre><o:p> </o:p></pre>
                    <pre>Tél +41 22 379 94 95<o:p></o:p></pre>
                  </div>
                  <p class="MsoNormal">_______________________________________________<br>
                    CWB mailing list<br>
                    <a moz-do-not-send="true"
                      href="mailto:CWB@sslmit.unibo.it">CWB@sslmit.unibo.it</a><br>
                    <a moz-do-not-send="true"
                      href="http://devel.sslmit.unibo.it/mailman/listinfo/cwb">http://devel.sslmit.unibo.it/mailman/listinfo/cwb</a><o:p></o:p></p>
                </div>
              </blockquote>
            </div>
            <p class="MsoNormal"><o:p> </o:p></p>
          </div>
        </blockquote>
        <p class="MsoNormal"><br>
          <br>
          <o:p></o:p></p>
        <pre>-- <o:p></o:p></pre>
        <pre>Baudrion Philippe<o:p></o:p></pre>
        <pre>Correspondant Informatique<o:p></o:p></pre>
        <pre><o:p> </o:p></pre>
        <pre>UNIVERSITE DE GENEVE<o:p></o:p></pre>
        <pre>Faculté de traduction et d'interprétation<o:p></o:p></pre>
        <pre>40, bd. du Pont d'Arve<o:p></o:p></pre>
        <pre>1211 GENEVE 4<o:p></o:p></pre>
        <pre><o:p> </o:p></pre>
        <pre>Tél +41 22 379 94 95<o:p></o:p></pre>
      </div>
    </blockquote>
    <br>
    <pre class="moz-signature" cols="72">-- 
Baudrion Philippe
Correspondant Informatique

UNIVERSITE DE GENEVE
Faculté de traduction et d'interprétation
40, bd. du Pont d'Arve
1211 GENEVE 4

Tél +41 22 379 94 95
</pre>
  </body>
</html>