<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:x="urn:schemas-microsoft-com:office:excel" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta name="Generator" content="Microsoft Word 14 (filtered medium)">
<!--[if !mso]><style>v\:* {behavior:url(#default#VML);}
o\:* {behavior:url(#default#VML);}
w\:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
</style><![endif]--><style><!--
/* Font Definitions */
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
@font-face
        {font-family:Verdana;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
@font-face
        {font-family:Consolas;
        panose-1:2 11 6 9 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman","serif";
        color:black;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
pre
        {mso-style-priority:99;
        mso-style-link:"HTML Preformatted Char";
        margin:0cm;
        margin-bottom:.0001pt;
        font-size:10.0pt;
        font-family:"Courier New";
        color:black;}
p.MsoAcetate, li.MsoAcetate, div.MsoAcetate
        {mso-style-priority:99;
        mso-style-link:"Balloon Text Char";
        margin:0cm;
        margin-bottom:.0001pt;
        font-size:8.0pt;
        font-family:"Tahoma","sans-serif";
        color:black;}
span.HTMLPreformattedChar
        {mso-style-name:"HTML Preformatted Char";
        mso-style-priority:99;
        mso-style-link:"HTML Preformatted";
        font-family:Consolas;
        color:black;}
span.BalloonTextChar
        {mso-style-name:"Balloon Text Char";
        mso-style-priority:99;
        mso-style-link:"Balloon Text";
        font-family:"Tahoma","sans-serif";
        color:black;}
span.EmailStyle21
        {mso-style-type:personal;
        font-family:"Verdana","sans-serif";
        color:#1F497D;}
span.EmailStyle22
        {mso-style-type:personal;
        font-family:"Verdana","sans-serif";
        color:#1F497D;}
span.EmailStyle23
        {mso-style-type:personal-reply;
        font-family:"Verdana","sans-serif";
        color:#1F497D;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page WordSection1
        {size:612.0pt 792.0pt;
        margin:72.0pt 72.0pt 72.0pt 72.0pt;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body bgcolor="white" lang="EN-GB" link="blue" vlink="purple">
<div class="WordSection1">
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">Ok, I have checked and there is no bad UTF-8 in the lexicon. This is weird. I will have to investigate further.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">Andrew.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<div>
<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0cm 0cm 0cm">
<p class="MsoNormal"><b><span lang="EN-US" style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;;color:windowtext">From:</span></b><span lang="EN-US" style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;;color:windowtext"> cwb-bounces@sslmit.unibo.it
 [mailto:cwb-bounces@sslmit.unibo.it] <b>On Behalf Of </b>Ruprecht von Waldenfels<br>
<b>Sent:</b> 10 March 2015 12:01<br>
<b>To:</b> Open source development of the Corpus WorkBench<br>
<b>Subject:</b> Re: [CWB] unicode problems with Greek and OCS<o:p></o:p></span></p>
</div>
</div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<div>
<p class="MsoNormal">Thanks, Andrew - <br>
this one? <br>
Ruprecht<br>
<br>
Am 10.03.2015 um 12:55 schrieb Hardie, Andrew:<o:p></o:p></p>
</div>
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">Hi Ruprecht,</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">&nbsp;</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">This is peculiar, the call to cl_string_canonical() which is resulting in the error is using a string it has
<i>taken from the lexicon</i>. But it ought not to be possible for the lexicon to contain bad UTF-8 – cwb-encode ought to disallow it.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">&nbsp;</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">Could you email me, off-list, your lexicon file? The one containing the strings, separated by nulls, not any of the other binary or compressed files.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">&nbsp;</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">best</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">&nbsp;</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">Andrew.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">&nbsp;</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">&nbsp;</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">&nbsp;</span><o:p></o:p></p>
<div>
<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0cm 0cm 0cm">
<p class="MsoNormal"><b><span lang="EN-US" style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;;color:windowtext">From:</span></b><span lang="EN-US" style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;;color:windowtext">
<a href="mailto:cwb-bounces@sslmit.unibo.it">cwb-bounces@sslmit.unibo.it</a> [<a href="mailto:cwb-bounces@sslmit.unibo.it">mailto:cwb-bounces@sslmit.unibo.it</a>]
<b>On Behalf Of </b>Ruprecht von Waldenfels<br>
<b>Sent:</b> 10 March 2015 11:31<br>
<b>To:</b> <a href="mailto:cwb@sslmit.unibo.it">cwb@sslmit.unibo.it</a><br>
<b>Subject:</b> Re: [CWB] unicode problems with Greek and OCS</span><o:p></o:p></p>
</div>
</div>
<p class="MsoNormal">&nbsp;<o:p></o:p></p>
<div>
<p class="MsoNormal">Dear List, <br>
so my second problem, this time with Ancient Greek. I cannot easily reproduce this with a 2-line corpus, because I don't know where the culprit is. I am posting the CWB Output instead, maybe this is already enough.
<br>
<br>
What I am trying to do: I am trying to align three documents, one Greek and two Slavic texts, using the aligVerse structural element. The two Slavic ones align fine, the Greek gives me the following error:
<br>
rvw@rvw-Latitude-E6410:/data/PROIEL$ /opt/CWBUTF8/cwb/utils/cwb-align -r /data/PROIEL/Registry -S aligVerse -o out.align NTESTAMENT_GR NTESTAMENT_MN aligVerse<br>
OPENING NTESTAMENT_GR [147613 tokens, 7497 &lt;aligVerse&gt; regions]<br>
OPENING NTESTAMENT_MN [71935 tokens, 7497 &lt;aligVerse&gt; regions]<br>
OPENING prealignment [NTESTAMENT_GR.aligVerse: 7497 regions, NTESTAMENT_MN.aligVerse: 7497 regions]<br>
LEXICON SIZE: 18085 / 10132<br>
FEATURE: character count, weight=1 ... [1]<br>
FEATURE: Shared words, threshold=40.0%, weight=50 ... [0]<br>
FEATURE: 3-grams, weight=3 ... CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
[21952]<br>
FEATURE: 4-grams, weight=4 ... CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
[614656]<br>
[636609 features allocated]<br>
[520402 entries in source text feature map]<br>
[246622 entries in target text feature map]<br>
PASS 2: Setting character count weight.<br>
PASS 2: Processing shared words (th=40.0%).<br>
PASS 2: Processing 3-grams.<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
PASS 2: Processing 4-grams.<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
PASS 2: Creating character counts.<br>
[checking pointers]<br>
ERROR: fcount1[1387]=24 r-&gt;w2f1[1388]-r-&gt;w2f1[1387]=22 w=``ἥξουσιν''<br>
ERROR: fcount1[1388]=50 r-&gt;w2f1[1389]-r-&gt;w2f1[1388]=52 w=``ἀνακλιθήσονται''<br>
ERROR: fcount1[1783]=24 r-&gt;w2f1[1784]-r-&gt;w2f1[1783]=22 w=``θάνατον''<br>
ERROR: fcount1[1784]=50 r-&gt;w2f1[1785]-r-&gt;w2f1[1784]=52 w=``ἐπαναστήσονται''<br>
ERROR: fcount1[3037]=20 r-&gt;w2f1[3038]-r-&gt;w2f1[3037]=16 w=``δυνατά''<br>
ERROR: fcount1[3039]=48 r-&gt;w2f1[3040]-r-&gt;w2f1[3039]=52 w=``ἀκολουθήσαντές''<br>
ERROR: fcount1[3784]=20 r-&gt;w2f1[3785]-r-&gt;w2f1[3784]=18 w=``ἤλθατε''<br>
ERROR: fcount1[3785]=50 r-&gt;w2f1[3786]-r-&gt;w2f1[3785]=52 w=``ἀποκριθήσονται''<br>
ERROR: fcount1[4459]=32 r-&gt;w2f1[4460]-r-&gt;w2f1[4459]=30 w=``ἐπιθυμίαι''<br>
ERROR: fcount1[4460]=50 r-&gt;w2f1[4461]-r-&gt;w2f1[4460]=52 w=``εἰσπορευόμεναι''<br>
ERROR: fcount1[4998]=20 r-&gt;w2f1[4999]-r-&gt;w2f1[4998]=18 w=``Ἤρξατο''<br>
ERROR: fcount1[4999]=46 r-&gt;w2f1[5000]-r-&gt;w2f1[4999]=48 w=``ἠκολουθήκαμέν''<br>
ERROR: fcount1[5038]=36 r-&gt;w2f1[5039]-r-&gt;w2f1[5038]=34 w=``ἐγγίζουσιν''<br>
ERROR: fcount1[5039]=50 r-&gt;w2f1[5040]-r-&gt;w2f1[5039]=52 w=``εἰσπορευόμενοι''<br>
ERROR: fcount1[7009]=32 r-&gt;w2f1[7010]-r-&gt;w2f1[7009]=30 w=``πλουσίους''<br>
ERROR: fcount1[7010]=46 r-&gt;w2f1[7011]-r-&gt;w2f1[7010]=48 w=``ἀντικαλέσωσίν''<br>
ERROR: fcount1[8582]=20 r-&gt;w2f1[8583]-r-&gt;w2f1[8582]=18 w=``ἐξάγει''<br>
ERROR: fcount1[8583]=50 r-&gt;w2f1[8584]-r-&gt;w2f1[8583]=52 w=``ἀκολουθήσουσιν''<br>
ERROR: fcount1[9942]=20 r-&gt;w2f1[9943]-r-&gt;w2f1[9942]=24 w=``ἅρματι''<br>
ERROR: fcount1[9943]=56 r-&gt;w2f1[9944]-r-&gt;w2f1[9943]=52 w=``ἀναγινώσκοντος''<br>
ERROR: fcount1[10119]=48 r-&gt;w2f1[10120]-r-&gt;w2f1[10119]=44 w=``μεταπέμψασθαί''<br>
ERROR: fcount1[10120]=48 r-&gt;w2f1[10121]-r-&gt;w2f1[10120]=52 w=``εἰσκαλεσάμενος''<br>
ERROR: fcount1[10553]=28 r-&gt;w2f1[10554]-r-&gt;w2f1[10553]=24 w=``ἐτάραξαν''<br>
ERROR: fcount1[10554]=48 r-&gt;w2f1[10555]-r-&gt;w2f1[10554]=52 w=``ἀνασκευάζοντες''<br>
ERROR: fcount1[10622]=24 r-&gt;w2f1[10623]-r-&gt;w2f1[10622]=20 w=``Τρῳάδος''<br>
ERROR: fcount1[10623]=48 r-&gt;w2f1[10624]-r-&gt;w2f1[10623]=52 w=``εὐθυδρομήσαμεν''<br>
ERROR: fcount1[11159]=48 r-&gt;w2f1[11160]-r-&gt;w2f1[11159]=44 w=``ἀποσπασθέντας''<br>
ERROR: fcount1[11160]=52 r-&gt;w2f1[11161]-r-&gt;w2f1[11160]=56 w=``εὐθυδρομήσαντες''<br>
ERROR: fcount1[12054]=20 r-&gt;w2f1[12055]-r-&gt;w2f1[12054]=18 w=``πλάνης''<br>
ERROR: fcount1[12055]=50 r-&gt;w2f1[12056]-r-&gt;w2f1[12055]=52 w=``ἀπολαμβάνοντες''<br>
ERROR: fcount1[12422]=12 r-&gt;w2f1[12423]-r-&gt;w2f1[12422]=10 w=``νοός''<br>
ERROR: fcount1[12423]=50 r-&gt;w2f1[12424]-r-&gt;w2f1[12423]=52 w=``αἰχμαλωτίζοντά''<br>
ERROR: fcount1[14334]=40 r-&gt;w2f1[14335]-r-&gt;w2f1[14334]=38 w=``ἐπαιρόμενον''<br>
ERROR: fcount1[14335]=54 r-&gt;w2f1[14336]-r-&gt;w2f1[14335]=56 w=``αἰχμαλωτίζοντες''<br>
ERROR: fcount1[14641]=40 r-&gt;w2f1[14642]-r-&gt;w2f1[14641]=38 w=``κεκυρωμένην''<br>
ERROR: fcount1[14642]=50 r-&gt;w2f1[14643]-r-&gt;w2f1[14642]=52 w=``ἐπιδιατάσσεται''<br>
ERROR: fcount1[14878]=32 r-&gt;w2f1[14879]-r-&gt;w2f1[14878]=34 w=``προέγραψα''<br>
ERROR: fcount1[14879]=54 r-&gt;w2f1[14880]-r-&gt;w2f1[14879]=52 w=``ἀναγινώσκοντες''<br>
ERROR: fcount1[15698]=36 r-&gt;w2f1[15699]-r-&gt;w2f1[15698]=34 w=``ἐπιστεύθην''<br>
ERROR: fcount1[15699]=46 r-&gt;w2f1[15700]-r-&gt;w2f1[15699]=48 w=``ἐνδυναμώσαντί''<br>
ERROR: fcount1[16170]=32 r-&gt;w2f1[16171]-r-&gt;w2f1[16170]=30 w=``ἀνέξονται''<br>
ERROR: fcount1[16171]=50 r-&gt;w2f1[16172]-r-&gt;w2f1[16171]=52 w=``ἐπισωρεύσουσιν''<br>
ERROR: fcount1[16815]=32 r-&gt;w2f1[16816]-r-&gt;w2f1[16815]=30 w=``ἐνυβρίσας''<br>
ERROR: fcount1[16816]=50 r-&gt;w2f1[16817]-r-&gt;w2f1[16816]=52 w=``Ἀναμιμνῄσκεσθε''<br>
ERROR: fcount1[17621]=40 r-&gt;w2f1[17622]-r-&gt;w2f1[17621]=42 w=``ἀπεσταλμένα''<br>
ERROR: fcount1[17622]=56 r-&gt;w2f1[17623]-r-&gt;w2f1[17622]=54 w=``εἴκοσι τέσσαρες''<br>
ERROR: fcount1[17793]=28 r-&gt;w2f1[17794]-r-&gt;w2f1[17793]=29 w=``μάρτυσίν''<br>
ERROR: fcount1[17794]=93 r-&gt;w2f1[17795]-r-&gt;w2f1[17794]=92 w=``χιλίας διακοσίας ἑξήκοντα''<br>
ERROR: fcount1[17937]=24 r-&gt;w2f1[17938]-r-&gt;w2f1[17937]=26 w=``χαλινῶν''<br>
ERROR: fcount1[17938]=60 r-&gt;w2f1[17939]-r-&gt;w2f1[17938]=58 w=``χιλίων ἑξακοσίων''<br>
ERROR: fcount1[17967]=36 r-&gt;w2f1[17968]-r-&gt;w2f1[17967]=34 w=``καυματίσαι''<br>
ERROR: fcount1[17968]=50 r-&gt;w2f1[17969]-r-&gt;w2f1[17968]=52 w=``ἐκαυματίσθησαν''<br>
<br>
<br>
Again, I would be very thankful for help. <br>
<br>
Best!<br>
Ruprecht<br>
<br>
<br>
<br>
<br>
<br>
Am 10.03.2015 um 12:07 schrieb Ruprecht von Waldenfels:<o:p></o:p></p>
</div>
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<div>
<p class="MsoNormal">Hi Andrew,<br>
YES! This does solve the problem. I was thinking this setting would only concern tokens, not the lemma attribute, but now I understand that this was a wrong assumption. Thank you!<br>
I will now look at the other problem - because that, as it turns out, is unrelated.
<br>
Thanks A LOT!<br>
Ruprecht<br>
Am 10.03.2015 um 12:02 schrieb Hardie, Andrew:<o:p></o:p></p>
</div>
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">Is the context size measured in characters? If so, that would explain the problem, since “characters” = bytes still.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">&nbsp;</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">If changing the context width to a given number of words fixes the issue, then that is the solution.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">&nbsp;</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">I have been working on a patch to fix this, but have not completed it yet.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">&nbsp;</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">Andrew.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">&nbsp;</span><o:p></o:p></p>
<div>
<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0cm 0cm 0cm">
<p class="MsoNormal"><b><span lang="EN-US" style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;;color:windowtext">From:</span></b><span lang="EN-US" style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;;color:windowtext">
<a href="mailto:cwb-bounces@sslmit.unibo.it">cwb-bounces@sslmit.unibo.it</a> [<a href="mailto:cwb-bounces@sslmit.unibo.it">mailto:cwb-bounces@sslmit.unibo.it</a>]
<b>On Behalf Of </b>Ruprecht von Waldenfels<br>
<b>Sent:</b> 10 March 2015 09:54<br>
<b>To:</b> <a href="mailto:cwb@sslmit.unibo.it">cwb@sslmit.unibo.it</a><br>
<b>Subject:</b> [CWB] unicode problems with Greek and OCS</span><o:p></o:p></p>
</div>
</div>
<p class="MsoNormal">&nbsp;<o:p></o:p></p>
<p class="MsoNormal" style="margin-bottom:12.0pt">Dear List,<br>
<br>
I am using CWB 3.4.8 on 64 bit Ubuntu 14.10.<br>
After encoding a text in Old Church Slavonic, I get invalid UTF-8 character errors; I seem to get them only in sgml mode (I also get them during alignment with the Ancient Greek translation source, which might be a related problem, but I am not sure.)<br>
<br>
In order to pinpoint the problem with the Old Church Slavonic text, I have reduced the text in question to two bible verses. The text can be found here:
<a href="http://www.parasolcorpus.org/test.txt">www.parasolcorpus.org/test.txt</a><br>
<br>
I encode the corpus with the following commands:<br>
/opt/CWBUTF8/cwb/utils/cwb-encode -d Data/ntestament_tt -f test.txt -R /data/PROIEL/Registry/ntestament_tt -c utf8 -xsB -P lemma -P id -P alig -P pos -P tag -S aligVerse:0<br>
/opt/CWBUTF8/cwb/utils/cwb-makeall -r /data/PROIEL/Registry NTESTAMENT_TT<br>
<br>
There is no problem in text mode:<br>
<br>
<img border="0" width="653" height="302" id="_x0000_i1025" src="cid:image001.png@01D05B2D.D45AF0D0"><br>
<br>
However, in sgml mode, some lemmas get truncated and do not contain valid utf8 anymore. For example, the lemma of &quot;с҃вщаѩи&quot; is such a token. This problem does NOT appear if I search for this token itself, it ONLY and consistently appears if I search for a different
 token and the problematic token is in the result set:<br>
<img border="0" width="654" height="397" id="_x0000_i1026" src="cid:image002.png@01D05B2D.D45AF0D0"><br>
<br>
To sum up: I get the problem only if I search for a neighboring token in sgml mode. I don't get it if I search for the token itself, and I don't get it in text mode. I have reduced the problem to w 50-token text, and the problem persists.<br>
<br>
Any help would be greatly appreciated!<br>
Best, <br>
Ruprecht<br>
<br>
<br>
<br>
<br>
<br>
<o:p></o:p></p>
<p class="MsoNormal"><br>
<br>
<br>
<br>
<o:p></o:p></p>
<pre>_______________________________________________<o:p></o:p></pre>
<pre>CWB mailing list<o:p></o:p></pre>
<pre><a href="mailto:CWB@sslmit.unibo.it">CWB@sslmit.unibo.it</a><o:p></o:p></pre>
<pre><a href="http://devel.sslmit.unibo.it/mailman/listinfo/cwb">http://devel.sslmit.unibo.it/mailman/listinfo/cwb</a><o:p></o:p></pre>
</blockquote>
<p class="MsoNormal"><br>
<br>
<br>
<br>
<br>
<o:p></o:p></p>
<pre>_______________________________________________<o:p></o:p></pre>
<pre>CWB mailing list<o:p></o:p></pre>
<pre><a href="mailto:CWB@sslmit.unibo.it">CWB@sslmit.unibo.it</a><o:p></o:p></pre>
<pre><a href="http://devel.sslmit.unibo.it/mailman/listinfo/cwb">http://devel.sslmit.unibo.it/mailman/listinfo/cwb</a><o:p></o:p></pre>
</blockquote>
<p class="MsoNormal">&nbsp;<o:p></o:p></p>
<p class="MsoNormal"><br>
<br>
<br>
<o:p></o:p></p>
<pre>_______________________________________________<o:p></o:p></pre>
<pre>CWB mailing list<o:p></o:p></pre>
<pre><a href="mailto:CWB@sslmit.unibo.it">CWB@sslmit.unibo.it</a><o:p></o:p></pre>
<pre><a href="http://devel.sslmit.unibo.it/mailman/listinfo/cwb">http://devel.sslmit.unibo.it/mailman/listinfo/cwb</a><o:p></o:p></pre>
</blockquote>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
</body>
</html>