<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta name="Generator" content="Microsoft Word 14 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
@font-face
        {font-family:Verdana;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman","serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
p.MsoListParagraph, li.MsoListParagraph, div.MsoListParagraph
        {mso-style-priority:34;
        margin-top:0cm;
        margin-right:0cm;
        margin-bottom:0cm;
        margin-left:36.0pt;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman","serif";}
span.EmailStyle17
        {mso-style-type:personal-reply;
        font-family:"Verdana","sans-serif";
        color:#1F497D;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-family:"Calibri","sans-serif";
        mso-fareast-language:EN-US;}
@page WordSection1
        {size:612.0pt 792.0pt;
        margin:72.0pt 72.0pt 72.0pt 72.0pt;}
div.WordSection1
        {page:WordSection1;}
/* List Definitions */
@list l0
        {mso-list-id:1879856652;
        mso-list-type:hybrid;
        mso-list-template-ids:335208780 134807567 134807577 134807579 134807567 134807577 134807579 134807567 134807577 134807579;}
@list l0:level1
        {mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;}
@list l0:level2
        {mso-level-number-format:alpha-lower;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;}
@list l0:level3
        {mso-level-number-format:roman-lower;
        mso-level-tab-stop:none;
        mso-level-number-position:right;
        text-indent:-9.0pt;}
@list l0:level4
        {mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;}
@list l0:level5
        {mso-level-number-format:alpha-lower;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;}
@list l0:level6
        {mso-level-number-format:roman-lower;
        mso-level-tab-stop:none;
        mso-level-number-position:right;
        text-indent:-9.0pt;}
@list l0:level7
        {mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;}
@list l0:level8
        {mso-level-number-format:alpha-lower;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;}
@list l0:level9
        {mso-level-number-format:roman-lower;
        mso-level-tab-stop:none;
        mso-level-number-position:right;
        text-indent:-9.0pt;}
ol
        {margin-bottom:0cm;}
ul
        {margin-bottom:0cm;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="EN-GB" link="blue" vlink="purple">
<div class="WordSection1">
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">run the following command:<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; locate CEQL.pm<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">you will probably find that it is in a different Perl path to the ones listed in your @INC. That is, it will be under
<b>/usr/local/share/perl/5.1x.x</b> instead of <b>/usr/local/share/perl/5.20.2</b><o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">This problem arises when the version of Perl you are running
<i>now</i> (5.20) is newer than the one you <i>were</i> running when you installed the CWB perl modules. (probably 5.16 or 5.18).<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">Solutions:<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoListParagraph" style="text-indent:-18.0pt;mso-list:l0 level1 lfo1"><![if !supportLists]><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D"><span style="mso-list:Ignore">1.<span style="font:7.0pt &quot;Times New Roman&quot;">&nbsp;&nbsp;&nbsp;
</span></span></span><![endif]><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">Quick and dirty: copy the CWB perl modules across from the 5.16/5.18 path to equivalent locales under the 5.20 path<o:p></o:p></span></p>
<p class="MsoListParagraph" style="text-indent:-18.0pt;mso-list:l0 level1 lfo1"><![if !supportLists]><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D"><span style="mso-list:Ignore">2.<span style="font:7.0pt &quot;Times New Roman&quot;">&nbsp;&nbsp;&nbsp;
</span></span></span><![endif]><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">Proper: download CWB-perl again and reinstall from scratch.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">best<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">Andrew.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><b><span lang="EN-US" style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;">From:</span></b><span lang="EN-US" style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;"> cwb-bounces@sslmit.unibo.it [mailto:cwb-bounces@sslmit.unibo.it]
<b>On Behalf Of </b>Katia Karanasiou<br>
<b>Sent:</b> 20 November 2015 15:15<br>
<b>To:</b> cwb@sslmit.unibo.it<br>
<b>Subject:</b> Re: [CWB] Problem with corpora on CQPweb<o:p></o:p></span></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<div>
<div>
<div>
<div>
<div>
<div>
<div>
<div>
<p class="MsoNormal" style="margin-bottom:12.0pt">Hello,<o:p></o:p></p>
</div>
<p class="MsoNormal">Thank you very much for your help.<o:p></o:p></p>
</div>
<p class="MsoNormal">I changed the permissions and now it creates the page for the corpus queries.<o:p></o:p></p>
</div>
<p class="MsoNormal" style="margin-bottom:12.0pt">When i start a query at a specific corpus, it throws the following errors:<br>
<br>
<i>Base class package &quot;CWB::CEQL&quot; is empty.<br>
(Perhaps you need to 'use' the module which defines that package first,<br>
&nbsp;or make that module available in @INC (@INC contains: /etc/perl /usr/local/lib/x86_64-linux-gnu/perl/5.20.2 /usr/local/share/perl/5.20.2 /usr/lib/x86_64-linux-gnu/perl5/5.20 /usr/share/perl5 /usr/lib/x86_64-linux-gnu/perl/5.20 /usr/share/perl/5.20 /usr/local/lib/site_perl
 .).<br>
at ../lib/perl/cqpwebCEQL.pm line 27.<br>
BEGIN failed--compilation aborted at ../lib/perl/cqpwebCEQL.pm line 27<br>
Compilation failed in require at - line 2.</i><o:p></o:p></p>
</div>
<p class="MsoNormal" style="margin-bottom:12.0pt">I've already installed Perl-CWB and i changed @INC to find the specific Perl module ( using export PERL5LIB=/var/www/CQPweb-3.2.1/lib/perl/cqpwebCEQL.pm ).<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal">The CQPweb version is 3.2.1 and i installed the Perl-CWB-2.2.102 .
<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<p class="MsoNormal">Any idea what the problem could be?<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal">Thank you in advance.<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<p class="MsoNormal">Best regards,<o:p></o:p></p>
</div>
<p class="MsoNormal">Katia.<o:p></o:p></p>
<div>
<div>
<div>
<p class="MsoNormal">&nbsp;<o:p></o:p></p>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
</div>
</div>
</div>
<div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<div>
<p class="MsoNormal">On Thu, Nov 19, 2015 at 3:39 PM, &lt;<a href="mailto:cwb-request@sslmit.unibo.it" target="_blank">cwb-request@sslmit.unibo.it</a>&gt; wrote:<o:p></o:p></p>
<p class="MsoNormal">Send CWB mailing list submissions to<br>
&nbsp; &nbsp; &nbsp; &nbsp; <a href="mailto:cwb@sslmit.unibo.it">cwb@sslmit.unibo.it</a><br>
<br>
To subscribe or unsubscribe via the World Wide Web, visit<br>
&nbsp; &nbsp; &nbsp; &nbsp; <a href="http://devel.sslmit.unibo.it/mailman/listinfo/cwb" target="_blank">
http://devel.sslmit.unibo.it/mailman/listinfo/cwb</a><br>
or, via email, send a message with subject or body 'help' to<br>
&nbsp; &nbsp; &nbsp; &nbsp; <a href="mailto:cwb-request@sslmit.unibo.it">cwb-request@sslmit.unibo.it</a><br>
<br>
You can reach the person managing the list at<br>
&nbsp; &nbsp; &nbsp; &nbsp; <a href="mailto:cwb-owner@sslmit.unibo.it">cwb-owner@sslmit.unibo.it</a><br>
<br>
When replying, please edit your Subject line so it is more specific<br>
than &quot;Re: Contents of CWB digest...&quot;<br>
<br>
<br>
Today's Topics:<br>
<br>
&nbsp; &nbsp;1. Problem with corpora on CQPweb (Katia Karanasiou)<br>
&nbsp; &nbsp;2. Re: Problem with corpora on CQPweb (Hardie, Andrew)<br>
&nbsp; &nbsp;3. Re: Problem with corpora on CQPweb (Hannah Kermes)<br>
&nbsp; &nbsp;4. Re: TEITOK (Maarten Janssen)<br>
<br>
<br>
----------------------------------------------------------------------<br>
<br>
Message: 1<br>
Date: Thu, 19 Nov 2015 13:20:20 &#43;0100<br>
From: Katia Karanasiou &lt;<a href="mailto:katia.kar6@gmail.com">katia.kar6@gmail.com</a>&gt;<br>
To: <a href="mailto:cwb@sslmit.unibo.it">cwb@sslmit.unibo.it</a><br>
Subject: [CWB] Problem with corpora on CQPweb<br>
Message-ID:<br>
&nbsp; &nbsp; &nbsp; &nbsp; &lt;CAN8HmPAK&#43;miztjKA3CfsGo=<a href="mailto:yEWGiDPiHWkL_zZivZvFSpQ6SNA@mail.gmail.com">yEWGiDPiHWkL_zZivZvFSpQ6SNA@mail.gmail.com</a>&gt;<br>
Content-Type: text/plain; charset=&quot;utf-8&quot;<br>
<br>
Hello,<br>
<br>
I used &quot;CQPweb Admin Control Panel&quot; -&gt; &quot;Install new Corpus&quot; option for<br>
uploading a new corpus to CQPweb. Although, it encodes the input corpus and<br>
creates index files, it does not appear the corpora on cqp web site.<br>
Does anyone know, which could be the problem?<br>
Thank you.<br>
<br>
Best regards,<br>
Katia<br>
-------------- next part --------------<br>
An HTML attachment was scrubbed...<br>
URL: &lt;<a href="http://devel.sslmit.unibo.it/pipermail/cwb/attachments/20151119/61c6a01b/attachment-0001.html" target="_blank">http://devel.sslmit.unibo.it/pipermail/cwb/attachments/20151119/61c6a01b/attachment-0001.html</a>&gt;<br>
<br>
------------------------------<br>
<br>
Message: 2<br>
Date: Thu, 19 Nov 2015 13:04:00 &#43;0000<br>
From: &quot;Hardie, Andrew&quot; &lt;<a href="mailto:a.hardie@lancaster.ac.uk">a.hardie@lancaster.ac.uk</a>&gt;<br>
To: Open source development of the Corpus WorkBench<br>
&nbsp; &nbsp; &nbsp; &nbsp; &lt;<a href="mailto:cwb@sslmit.unibo.it">cwb@sslmit.unibo.it</a>&gt;<br>
Subject: Re: [CWB] Problem with corpora on CQPweb<br>
Message-ID:<br>
&nbsp; &nbsp; &nbsp; &nbsp; &lt;<a href="mailto:28078EC3FBF1B940A3EF3D0D19BE351D70C9A27F@EX-0-MB1.lancs.local">28078EC3FBF1B940A3EF3D0D19BE351D70C9A27F@EX-0-MB1.lancs.local</a>&gt;<br>
Content-Type: text/plain; charset=&quot;utf-8&quot;<br>
<br>
Have you checked whether the username that the web server runs under has permissions to create folders and symlinks in the main folder of CQPweb?<br>
<br>
best<br>
<br>
Andrew.<br>
<br>
From: <a href="mailto:cwb-bounces@sslmit.unibo.it">cwb-bounces@sslmit.unibo.it</a> [mailto:<a href="mailto:cwb-bounces@sslmit.unibo.it">cwb-bounces@sslmit.unibo.it</a>] On Behalf Of Katia Karanasiou<br>
Sent: 19 November 2015 12:20<br>
To: <a href="mailto:cwb@sslmit.unibo.it">cwb@sslmit.unibo.it</a><br>
Subject: [CWB] Problem with corpora on CQPweb<br>
<br>
Hello,<br>
I used &quot;CQPweb Admin Control Panel&quot; -&gt; &quot;Install new Corpus&quot; option for uploading a new corpus to CQPweb. Although, it encodes the input corpus and creates index files, it does not appear the corpora on cqp web site.<br>
Does anyone know, which could be the problem?<br>
Thank you.<br>
Best regards,<br>
Katia<br>
<br>
-------------- next part --------------<br>
An HTML attachment was scrubbed...<br>
URL: &lt;<a href="http://devel.sslmit.unibo.it/pipermail/cwb/attachments/20151119/fc8cfb54/attachment-0001.html" target="_blank">http://devel.sslmit.unibo.it/pipermail/cwb/attachments/20151119/fc8cfb54/attachment-0001.html</a>&gt;<br>
<br>
------------------------------<br>
<br>
Message: 3<br>
Date: Thu, 19 Nov 2015 14:49:06 &#43;0100<br>
From: Hannah Kermes &lt;<a href="mailto:h.kermes@mx.uni-saarland.de">h.kermes@mx.uni-saarland.de</a>&gt;<br>
To: <a href="mailto:cwb@sslmit.unibo.it">cwb@sslmit.unibo.it</a><br>
Subject: Re: [CWB] Problem with corpora on CQPweb<br>
Message-ID: &lt;<a href="mailto:564DD352.5040906@mx.uni-saarland.de">564DD352.5040906@mx.uni-saarland.de</a>&gt;<br>
Content-Type: text/plain; charset=&quot;windows-1252&quot;; Format=&quot;flowed&quot;<br>
<br>
I once forgot to set permissions or to make it visible.<br>
<br>
Best<br>
Hannah<br>
<br>
Am 19.11.2015 um 14:04 schrieb Hardie, Andrew:<br>
&gt;<br>
&gt; Have you checked whether the username that the web server runs under<br>
&gt; has permissions to create folders and symlinks in the main folder of<br>
&gt; CQPweb?<br>
&gt;<br>
&gt; best<br>
&gt;<br>
&gt; Andrew.<br>
&gt;<br>
&gt; *From:*<a href="mailto:cwb-bounces@sslmit.unibo.it">cwb-bounces@sslmit.unibo.it</a><br>
&gt; [mailto:<a href="mailto:cwb-bounces@sslmit.unibo.it">cwb-bounces@sslmit.unibo.it</a>] *On Behalf Of *Katia Karanasiou<br>
&gt; *Sent:* 19 November 2015 12:20<br>
&gt; *To:* <a href="mailto:cwb@sslmit.unibo.it">cwb@sslmit.unibo.it</a><br>
&gt; *Subject:* [CWB] Problem with corpora on CQPweb<br>
&gt;<br>
&gt; Hello,<br>
&gt;<br>
&gt; I used &quot;CQPweb Admin Control Panel&quot; -&gt; &quot;Install new Corpus&quot; option for<br>
&gt; uploading a new corpus to CQPweb. Although, it encodes the input<br>
&gt; corpus and creates index files, it does not appear the corpora on cqp<br>
&gt; web site.<br>
&gt;<br>
&gt; Does anyone know, which could be the problem?<br>
&gt;<br>
&gt; Thank you.<br>
&gt;<br>
&gt; Best regards,<br>
&gt;<br>
&gt; Katia<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; CWB mailing list<br>
&gt; <a href="mailto:CWB@sslmit.unibo.it">CWB@sslmit.unibo.it</a><br>
&gt; <a href="http://devel.sslmit.unibo.it/mailman/listinfo/cwb" target="_blank">http://devel.sslmit.unibo.it/mailman/listinfo/cwb</a><br>
<br>
-------------- next part --------------<br>
An HTML attachment was scrubbed...<br>
URL: &lt;<a href="http://devel.sslmit.unibo.it/pipermail/cwb/attachments/20151119/e00f5848/attachment-0001.html" target="_blank">http://devel.sslmit.unibo.it/pipermail/cwb/attachments/20151119/e00f5848/attachment-0001.html</a>&gt;<br>
<br>
------------------------------<br>
<br>
Message: 4<br>
Date: Thu, 19 Nov 2015 15:39:40 &#43;0100<br>
From: Maarten Janssen &lt;<a href="mailto:maartenpt@gmail.com">maartenpt@gmail.com</a>&gt;<br>
To: <a href="mailto:cwb@sslmit.unibo.it">cwb@sslmit.unibo.it</a><br>
Subject: Re: [CWB] TEITOK<br>
Message-ID: &lt;<a href="mailto:EF9EC9F5-81F9-4650-868D-786E68E0CDE6@gmail.com">EF9EC9F5-81F9-4650-868D-786E68E0CDE6@gmail.com</a>&gt;<br>
Content-Type: text/plain; charset=utf-8<br>
<br>
Hi Stefan and Andrew,<br>
<br>
thanks for the answers! Here are some responses:<br>
<br>
&gt; TEITOK looks like an excellent tool ? can we put a link to the server on the CWB homepage?<br>
<br>
Of course you can; I would be pleased if you did - the people that are using it seem quite pleased with it, so there is definitely a ?market? for it.<br>
<br>
&gt; Also, having a mostly automated TEI converter program would be really useful.<br>
<br>
TEITOK is not really a TEI converter, and depending on what you want to convert you have to follow a different path:<br>
<br>
- The internal structure TEITOK uses it uses is not really TEI, although it is TEI compliant; there are too many options in TEI to really work with it directly, and what is specifically not used is the P4&#43; style &lt;w&gt; elements where annotation is modeled as text-nodes
 under child nodes. Instead, it uses the ?older? style of &lt;w&gt; where annotations are attributes (to make sure they are always strings), and calls them &lt;tok&gt; rather than &lt;w&gt; to avoid confusion (and since &lt;w&gt; typically excludes punctuation marks, while tokens
 do not). So to use TEITOK, you either have to start from a TEI file that is not tokenized (TEITOK has an XML tokenizer to create TEITOK-style tokenize TEI), or convert the TEI file to TEITOK style (in Ljubljana they wrote an XSLT that does excatly that), after
 which tt-cwb-encode will directly create a CQP corpus for you.<br>
<br>
- tt-cwb-encode can be used to direclty convert most TEI flavours to a CQP corpus (I should provide an&nbsp; example settings file with it to show how to convert a typical &lt;w&gt; style TEI file to CQP), but tt-cwb-encode does not tokenize, so for doing that, you would
 need a file that IS already tokenized (and annotated), and specify exactly which information can be found where in your TEI file.<br>
<br>
&gt;&gt;&gt;&gt; - the technical manual quite explicitly states that structures cannot embed or overlap; however, the logic of .rng files does not seem to invalidate that in any way.<br>
&gt;&gt;<br>
&gt;&gt; *Different* attributes can embed and overlap. But instances of one attribute can't embed with, or overlap with, other instances of the same attribute. And yes, it is not the structure of the binary files but rather the way they are used that prevents that.<br>
&gt;<br>
&gt; Well, the unpublished file format specification ? which I assume you mean by the &quot;logic of .rng files&quot; ? mandates that regions don't nest or overlap: the integer values in a .rng file must form an increasing sequence.&nbsp; If you violate the file format, bad
 things will happen (i.e. undefined behaviour of CQP and the other CWB tools).<br>
<br>
I by now fully implemented it and I can confirm that that is indeed a hard requirement: if you created two overlapping ranges, one from tokens 4-6 with error_type=?agreement? and one from 5-7 with error_type=?collocation? (generated in the example I tried from
 stand-off annotation files where ranges can overlap), then only token 7 will be a ?collocation? error, while 4-6 are only ?agreement? errors. However, at least from simple tests, it does not in any way seem to break CWB - it just ignores any token inside a
 range &lt;x&gt; that was already inside another range &lt;x&gt;.<br>
<br>
&gt;&gt; For that reason, TEITOK since this week uses a custom c&#43;&#43; application to directly build the files needed by cwb-makeall from the XML files.<br>
&gt;<br>
&gt; Does that mean you actually create the binary data files (in uncompressed form) from your application, without going through the appropriate CWB tools?&nbsp; You shouldn't do that, and I can't think of any good reason for doing it.[*]&nbsp; One of the obvious consequences
 is that any file format changes ? such as those envisioned for CWB 4, will completely break your program, and it will be much harder to adapt than if you were using the CWB encoder tools.<br>
&gt;<br>
&gt; If you create .rng files through with the appropriate cwb-s-encode utility, it will stop you from generating overlapping or nested regions.<br>
&gt;<br>
&gt; [*] Ok, there's one fairly good reason if you're dealing with very large corpora: it may be more efficient to write files directly than to open pipes to a large number of cwb-encode and cwb-s-encode backends.&nbsp; But I'm really not sure that this makes up for
 the loss in maintainability and reliability.<br>
<br>
Yes - tt-cwb-encode directly writes binary files; I initially wanted to use cwb-atoi (and later hence cwb-s-encode), but when opening up the code in that, I saw the conversion is so trivial that there was simply not need for the overhead (which would also involve
 making sure the application can be found, etc.). It is a simple function, which can easily be modified to a call to cwb-atoi on a major overhaul, or just implemented slighly differently (a direct copy would not really word since tt-cwb-encode is C&#43;&#43; and not
 C)<br>
<br>
// Write CWB network style<br>
void write_network_number ( int towrite, FILE *stream ) {<br>
&nbsp; &nbsp; &nbsp; &nbsp; int i = htonl(towrite);<br>
&nbsp; &nbsp; &nbsp; &nbsp; fwrite(&amp;i, 4, 1, stream);<br>
};<br>
<br>
The same holds for ranges, although that is of course vaguely more complicated. However, most of the work is in finding out what range to write in the first place, the 10 lines for<br>
void write_range ( int pos1, int pos2, string formkey )<br>
do not really add to the complexity and can also be modified in the future when needed.<br>
<br>
Also - I would hope that if CWB gets a major overhaul, the implementation of ranges could be rethought as well, which would probably mean that even cwb-s-encode would break. Here is a &quot;suggestion?:<br>
<br>
Apart from allowing overlaps and/or nestings, the application of sattributes is hampered by the fact that they are so very different from pattributes, which means many of the nice functions on pattributes are not applicable to sattributes (I think even regex
 is not available for sattributes). In my opinion, the language would become much more expressive by blurring the distinction between p and s, and adopting a notation ala XPath where before the brackets you can indicate the range type (with nothing meaning
 a token), to allow for queries like<br>
<br>
np[case=?nominative|ergative&quot;] [pos=?V.*?]<br>
<br>
and since these are ranges, they can of course nested:<br>
<br>
mwe[type=?name? [pos=?CC&quot;]]<br>
<br>
which seems not only more elegant to me than [pos=?CC?] :: mwe_type=?name? but also should be more expressive...<br>
<br>
The difference with the current search style is not that big (and it should not affect backward compatibility), and since a new file format would require looking up data compeltely differently anyway, it might be worth while to profit from that to treat sattributes
 more like pattributes?. in the current set-up they are very similar behind the screens: the lexicon.idx file is largely the same as the .avx file and the .lexicon mimicks the .avs file, the only real difference being that of course .corpus indicates positions
 and .rng ranges. However, internally they are treated very differently, and there is no range-based variant of .rvs for instance. But from the looks of it, there is little preventing sattributes from being treated mostly like pattributes - and of course, there
 would be major implications when you would try to implement that in the current CWB, but when making dramatic changes anyway, would it not be possible to look into that?<br>
<br>
&gt;&gt;&gt;&gt; - ideally, the CQP tokens would direclty point to indexes in the XML files to make it possible to efficiently extract the matching data directly from the XML files. An inelegant method would be to add two pattributes for this, but would there be any more
 elegant way to link tokens in CQP to ranges in external files?<br>
&gt;&gt;<br>
&gt;&gt; Not any that I can think of.<br>
&gt;<br>
&gt; Nor I.&nbsp; But that's not surprising, given that XML itself doesn't have an elegant way of linking to external files and is forced to use XPointers or other verbose and horrible concoctions.<br>
&gt;<br>
&gt; You could store XML IDs of the relevant elements as p-attributes, or byte offsets into the XML files (for better efficiency and flexibility). None of these solutions is efficient in CWB 3 ? they'll be much better in CWB 4 with &quot;raw string&quot; and &quot;integer&quot; attribute
 types.<br>
<br>
Keeping the IDs is what TEITOK (and CorpusWiki) have done from the start, and is why results from CQL queries link directly to their result in the XML file; however, when showing long lists of results, it would be very nice to be able to show the initial XML
 context rather than the CQP output, since CQP does not do spacing, not does it do typesetting. And every implementation I tried (including writing a dedicated app) still ends up being to slow for internet use: a list of 100 results takes several seconds to
 load, which is not acceptable. So what I was/am looking for is indeed a way to store byte-offsets. But I?ll just either put these in a CQP pattribute then or in an external index (potentially using the CWB format for coherence).<br>
<br>
<br>
<br>
<br>
------------------------------<br>
<br>
_______________________________________________<br>
CWB mailing list<br>
<a href="mailto:CWB@sslmit.unibo.it">CWB@sslmit.unibo.it</a><br>
<a href="http://devel.sslmit.unibo.it/mailman/listinfo/cwb" target="_blank">http://devel.sslmit.unibo.it/mailman/listinfo/cwb</a><br>
<br>
<br>
End of CWB Digest, Vol 106, Issue 18<br>
************************************<o:p></o:p></p>
</div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
</div>
</div>
</body>
</html>