<div dir="ltr">I&#39;ve got a Python library that (besides the usual mixer and kitchensink stuff) can<div>convert many treebank formats (i.e., bracketed format, Negra Export, TigerXML)</div><div>to CQP format.</div><div><br></div><div>My guess is that it&#39;s not too difficult to get to CWB format for reasonably standard</div><div>formats (CoNLL-X/09/12, MMAX2), and plugging a CWB exporter to (say) CoreNLP</div><div>or SpaCy would allow to treat plain text without difficulty, but other formats may pose</div><div>more difficulties.</div><div><br></div><div>Best wishes</div><div>Yannick</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Sep 1, 2015 at 6:29 PM, Mats Rooth <span dir="ltr">&lt;<a href="mailto:mr249@cornell.edu" target="_blank">mr249@cornell.edu</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">



<div style="word-wrap:break-word;color:rgb(0,0,0);font-size:14px;font-family:Calibri,sans-serif">
<div>Is there any effort to distribute scripts or makefiles for building a CWB corpus from distributed corpora?   I’ve done a variety of these, the effort is significant, so it seems a shame to redo it.  There’s also benefit in establishing standard mappings.
 LDC materials are especially relevant for us.</div>
<div><br>
</div>
<div>  — Mats</div><span class="HOEnZb"><font color="#888888">
<div><br>
</div>
<div>Mats Rooth</div>
<div>Professor</div>
<div>Dept. of Linguistics and Faculty of Computing and Information</div>
<div>Cornell University</div>
</font></span></div>

<br>_______________________________________________<br>
CWB mailing list<br>
<a href="mailto:CWB@sslmit.unibo.it">CWB@sslmit.unibo.it</a><br>
<a href="http://devel.sslmit.unibo.it/mailman/listinfo/cwb" rel="noreferrer" target="_blank">http://devel.sslmit.unibo.it/mailman/listinfo/cwb</a><br>
<br></blockquote></div><br></div>