<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta name="Generator" content="Microsoft Word 14 (filtered medium)">
<!--[if !mso]><style>v\:* {behavior:url(#default#VML);}
o\:* {behavior:url(#default#VML);}
w\:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
</style><![endif]--><style><!--
/* Font Definitions */
@font-face
        {font-family:Wingdings;
        panose-1:5 0 0 0 0 0 0 0 0 0;}
@font-face
        {font-family:Wingdings;
        panose-1:5 0 0 0 0 0 0 0 0 0;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
@font-face
        {font-family:Verdana;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
@font-face
        {font-family:Webdings;
        panose-1:5 3 1 2 1 5 9 6 7 3;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman","serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
p.MsoAcetate, li.MsoAcetate, div.MsoAcetate
        {mso-style-priority:99;
        mso-style-link:"Balloon Text Char";
        margin:0cm;
        margin-bottom:.0001pt;
        font-size:8.0pt;
        font-family:"Tahoma","sans-serif";}
p.MsoListParagraph, li.MsoListParagraph, div.MsoListParagraph
        {mso-style-priority:34;
        margin-top:0cm;
        margin-right:0cm;
        margin-bottom:0cm;
        margin-left:36.0pt;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman","serif";}
span.BalloonTextChar
        {mso-style-name:"Balloon Text Char";
        mso-style-priority:99;
        mso-style-link:"Balloon Text";
        font-family:"Tahoma","sans-serif";
        mso-fareast-language:EN-GB;}
span.EmailStyle20
        {mso-style-type:personal-reply;
        font-family:"Verdana","sans-serif";
        color:#1F497D;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-family:"Calibri","sans-serif";
        mso-fareast-language:EN-US;}
@page WordSection1
        {size:612.0pt 792.0pt;
        margin:72.0pt 72.0pt 72.0pt 72.0pt;}
div.WordSection1
        {page:WordSection1;}
/* List Definitions */
@list l0
        {mso-list-id:1367830607;
        mso-list-type:hybrid;
        mso-list-template-ids:1111635072 1488604862 134807555 134807557 134807553 134807555 134807557 134807553 134807555 134807557;}
@list l0:level1
        {mso-level-start-at:2;
        mso-level-number-format:bullet;
        mso-level-text:-;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        font-family:"Verdana","sans-serif";
        mso-fareast-font-family:Calibri;
        mso-bidi-font-family:"Times New Roman";}
@list l0:level2
        {mso-level-number-format:bullet;
        mso-level-text:o;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        font-family:"Courier New";}
@list l0:level3
        {mso-level-number-format:bullet;
        mso-level-text:\F0A7;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        font-family:Wingdings;}
@list l0:level4
        {mso-level-number-format:bullet;
        mso-level-text:\F0B7;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        font-family:Symbol;}
@list l0:level5
        {mso-level-number-format:bullet;
        mso-level-text:o;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        font-family:"Courier New";}
@list l0:level6
        {mso-level-number-format:bullet;
        mso-level-text:\F0A7;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        font-family:Wingdings;}
@list l0:level7
        {mso-level-number-format:bullet;
        mso-level-text:\F0B7;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        font-family:Symbol;}
@list l0:level8
        {mso-level-number-format:bullet;
        mso-level-text:o;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        font-family:"Courier New";}
@list l0:level9
        {mso-level-number-format:bullet;
        mso-level-text:\F0A7;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        text-indent:-18.0pt;
        font-family:Wingdings;}
ol
        {margin-bottom:0cm;}
ul
        {margin-bottom:0cm;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="EN-GB" link="blue" vlink="purple">
<div class="WordSection1">
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">Well, if the correct output is produced, you can just ignore it. &nbsp;(And I can’t currently think why it
<i>wouldn’t</i> be: I have now remembered why the aligner uses that function, it is for accent-insensitive character comparison, so the fact that some of the comparanda terminate halfway through a character should only have the effect of those comparisons being
 of no use in detecting parallels).<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">If not, you can use the configuration flags to specify that the alignment should not use letter n grams as a feature for alignment, thus avoiding that branch
 of the code. See <b>man cwb-align</b> and in particular the flags -1, -2, etc.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">Fixing this bug is something that needs to be done but is going to be a right royal pain in the neck because it will mean fairly complex checking of the byte
 sequences – so not something I am going to have time for in the near future I’m afraid.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">best<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D">Andrew.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Verdana&quot;,&quot;sans-serif&quot;;color:#1F497D"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><b><span lang="EN-US" style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;">From:</span></b><span lang="EN-US" style="font-size:10.0pt;font-family:&quot;Tahoma&quot;,&quot;sans-serif&quot;"> cwb-bounces@sslmit.unibo.it [mailto:cwb-bounces@sslmit.unibo.it]
<b>On Behalf Of </b>&quot;Andrés Chandía&quot;<br>
<b>Sent:</b> 09 May 2016 15:37<br>
<b>To:</b> Open source development of the Corpus WorkBench<br>
<b>Subject:</b> Re: [CWB] invalid UTF8 string passed to cl_string_canonical...<o:p></o:p></span></p>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
<p class="MsoNormal" style="margin-bottom:12.0pt">yes I use: cwb-encode -c utf8<br>
so, what should I do?<br>
<br>
El Lun, 9 de Mayo de 2016, 15:55, Hardie, Andrew escribió:<o:p></o:p></p>
<div>
<p class="MsoNormal">Is the corpus declared as UTF-8? <o:p></o:p></p>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto">If so, the problem is likely to be that, in testing letter n-grams, the aligner is slicing up UTF characters. (I???m not quite sure why this causes an error with<br>
cl_string_canonical as I wasn???t aware that the aligner used that function??? but possibly I???ve just forgotten).<o:p></o:p></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto">best<o:p></o:p></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto">Andrew.<o:p></o:p></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><strong><span lang="EN-US">From:</span></strong><span lang="EN-US">
<a href="mailto:cwb-bounces@sslmit.unibo.it">cwb-bounces@sslmit.unibo.it</a> [<a href="mailto:cwb-bounces@sslmit.unibo.it">mailto:cwb-bounces@sslmit.unibo.it</a>]<br>
<strong>On Behalf Of </strong>&quot;Andr??s Chand??a&quot;<br>
<strong>Sent:</strong> 09 May 2016 14:31<br>
<strong>To:</strong> Open source development of the Corpus WorkBench<br>
<strong>Subject:</strong> [CWB] invalid UTF8 string passed to cl_string_canonical...</span><o:p></o:p></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto">I'm geting this error message when aligning but I don't know how to deal with it, I just found one comment about it, it didn't help me though, thanks.<br>
<br>
OPENING btcataladeutsch_ca [205899 tokens, 7733 regions]<br>
OPENING btcataladeutsch_de [112264 tokens, 4951 regions]<br>
LEXICON SIZE: 24709 / 19889<br>
FEATURE: character count, weight=1 ... [1]<br>
FEATURE: Shared words, threshold=40.0%, weight=50 ... [6]<br>
FEATURE: 3-grams, weight=3 ... CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
[21952]<br>
FEATURE: 4-grams, weight=4 ... CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
[614656]<br>
[636615 features allocated]<br>
[290636 entries in source text feature map]<br>
[296034 entries in target text feature map]<br>
PASS 2: Setting character count weight.<br>
PASS 2: Processing shared words (th=40.0%).<br>
PASS 2: Processing 3-grams.<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
PASS 2: Processing 4-grams.<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
CL: major error, invalid UTF8 string passed to cl_string_canonical...<br>
PASS 2: Creating character counts.<br>
<br>
_______________________<br>
andr??s chand??a<br>
<a href="http://www.chandia.net" target="_blank" title="Este enlace externo
se abrir? en una nueva ventana"><span style="text-decoration:none"><img border="0" id="_x0000_i1025" src="../images/sec_remove_es_ES.png" alt="chandia.net"></span></a><a href="https://twitter.com/andreschandia" target="_blank" title="Este enlace
externo se abrir? en una nueva ventana"><span style="text-decoration:none"><img border="0" id="_x0000_i1026" src="../images/sec_remove_es_ES.png"></span></a><br>
administrador de:<br>
<a href="http://parles.upf.edu" target="_blank" title="Este enlace externo se abrir? en una nueva ventana">parles.upf</a> |
<a href="http://www.delingua.es" target="_blank" title="Este enlace externo se
abrir? en una nueva ventana">
<br>
delingua</a> | <a href="http://amindterapia.com" target="_blank" title="Este enlace externo se abrir? en una nueva ventana">
amind terapia</a> | <a href="http://koyaktumapuche.net" target="_blank" title="Este enlace externo se abrir? en
una nueva ventana">
<br>
mapuche koyaktu</a> | <a href="http://mail.corporacionkoyaktu.net" target="_blank" title="Este enlace externo se abrir? en una nueva ventana">
mail ong mapuche koyaktu</a> |<br>
<a href="http://mail.psicoaching.net" target="_blank" title="Este
enlace externo se abrir? en una nueva ventana">mail psicoaching</a> |<br>
<span style="font-size:18.0pt;font-family:Webdings;color:#4F6228">P </span><span style="font-size:10.0pt;color:#4F6228">No imprima innecesariamente. ??Cuide el medio ambiente!</span><o:p></o:p></p>
</div>
<p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
<p class="MsoNormal"><br>
<br>
<br>
<br>
<br>
_______________________<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;andrés chandía<br>
<a href="http://www.chandia.net" target="_blank"><span style="text-decoration:none"><img border="0" id="_x0000_i1027" src="http://www.chandia.net/sites/default/files/images/chandia.netd.png" alt="chandia.net"></span></a><a href="https://twitter.com/andreschandia" target="_blank"><span style="text-decoration:none"><img border="0" id="_x0000_i1028" src="http://www.upf.edu/universitat/_img/ico_tw.png"></span></a><br>
administrador de:<br>
<a href="http://parles.upf.edu">parles.upf</a> | <a href="http://www.delingua.es">
delingua</a> | <a href="http://amindterapia.com">amind terapia</a> | <a href="http://koyaktumapuche.net">
mapuche koyaktu</a> | <a href="http://mail.corporacionkoyaktu.net">mail ong mapuche koyaktu</a> |
<a href="http://mail.psicoaching.net">mail psicoaching</a> |<br>
<span style="font-size:18.0pt;font-family:Webdings;color:#4F6228">P </span><span style="font-size:10.0pt;color:#4F6228">No imprima innecesariamente. ¡Cuide el medio ambiente!</span><o:p></o:p></p>
</div>
</body>
</html>