Contengut

La basa textuala occitana BaTelÒc es desvolopada dins lo grop OCRE de la còla Lengas e Lengatge del laboratòri CLLE, Unitat Mixta de Recèrca del CNRS e de l’Universitat de Tolosa Joan Jaurés (Campus del Miralh), jos la direccion de Myriam Bras.

BaTelÒc recampa d’òbras escrichas de mai d’un genre (roman, teatre, poësia, conte, premsa…) del sègle XIXen a l’ora d’ara. Aculhís la variacion grafica e dialectala. La basa aculhís regularament de tèxtes novèls. La tòca es de far créisser l’ensemble de las donadas ja a posita pel domèni occitan en recampant d’òbras escrichas de las epòcas contemporanèa e modèrna, despartidas en genres variats, e representativas de la diversitat dels dialèctes e de las grafias.

L’accès a aquelas donadas es essencial pels estudis linguistics – que sián lexicals, morfologics, sintactics, semantics o discursius ; pels trabalhs en lexicografia – ont son necitas per bastir un diccionari general de la lenga occitana ; per las recèrcas en literatura, en scienças umanas, en didactica e per l’ensenhament de la lenga. Dins un asuèlh pus larg, l’existéncia d’una basa de tèxtes occitans permet de valorizar lo patrimòni occitan e d’afortir la preséncia de la lenga occitana sul oèb.

BaTelÒc a pas per tòca de prepausar un còrpus de referéncia de l’occitan, mas de porgir als utilizadors un ensemble de tèxtes pro larg per que cadun i pòsca seleccionar los tèxtes que li permetran de se bastir son còrpus de trabalh. Se pòt navegar dins BaTelòc mercés a una interfàcia de consultacion, o motor de cèrca. [La cèrca simpla permet de cercar los contèxtes d’emplec d’un mot. La cèrca avancada permet de cercar los contèxtes d’emplec de formas (mots, partidas de mots e sequéncias de mots) dins lo còrpus de trabalh definit per la sesilha.] L’interfàcia permet pas lo telecargament ni la lectura dels tèxtes complets.

Istoric

Lo projècte de bastir une basa textuala per la lenga occitana espeliguèt en 2006 dins lo laboratòri CLLE-ERSS a Tolosa amb l’amira de recampar d’òbras escrichas de mai d’un genre (roman, teatre, poësia, conte, premsa…) del sègle XIXen a l’ora d’ara e d’aculhir la variacion grafica e dialectala (Bras 2006). Causiguèrem de seguir lo modèl de la basa de tèxtes per la lenga francesa, Frantext, en estructurant la basa e en encodant los tèxtes segon los formats estandards de constitucion e de difusion de corpora (format xml, nòrma TEI P5).

Una primièra basa experimentala foguèt mesa en linha en 2008 amb 15 tèxtes fisats per IDECO. L’accès n’èra reservat als membres del projècte, l’amira èra de validar la fachabilitat del projècte (Bras e Thomas 2008, 2011). Puèi la basa aculhiguèt regularament de tèxtes novèls e desvolopèrem un motor de cèrca operacional.

Entre 2012 e 2014, recampèrem dos còrpus especifics dins l’encastre d’un trabalh conjunt amb los laboratòris PLH (literatura) e LISST (antropologia) : un còrpus d’autors de Roergue, e un còrpus de contes literaris.

En 2016, metèrem en linha la primièira version operacionala de la basa amb 95 tèxtes (3,37 milions de mots) de 49 autors diferents. Los dialèctes dels autors son per ara lo lengadocian, lo provençau, lo gascon, l’auvernhàs, lo lemosin e lo vivaro-aupenc. Esperam tanben aculhir de tèxtes en niçarte e dins lo parlar del creissent. Los tèxtes recampats dins la basa son escriches siá en grafia classica, siá en grafia mistralenca, siá dins una grafia mai personala, e se despartisson en genres variats (roman, conte, memòris e cronicas, novèlas, ensag, poesia, ….).

L’accès a aquelas donadas es essencial pels estudis linguistics, que sián lexicals, morfologics, sintactics, semantics o discursius ; pels trabalhs en lexicografia, ont son necitas per bastir un diccionari general de la lenga occitana (Bras e Thomas 2007) ; per las recèrcas en literatura, en scienças umanas, en didactica e per l’ensenhament de la lenga. Dins un asuèlh pus larg, l’existéncia d’una basa de tèxtes occitans permet de valorizar lo patrimòni occitan e d’afortir la preséncia de la lenga occitana sul oèb.

Actualitat

En 2026, BaTelÒc ….

La tòca es de téner d’enriquesir la basa per fin de far créisser l’ensemble de las donadas a posita pel domèni occitan, en recampant d’òbras escrichas de las epòcas contemporanèa e modèrna, despartidas en genres variats, e representativas de la diversitat dels dialèctes e de las grafias.

Una basa per totes

BaTelÒc se vòl una basa dubèrta que pòsca aculhir quina òbra que siá sens condicion de grafia o de varietat de lenga. A pas per tòca de prepausar un còrpus de referéncia de l’occitan, mas de porgir als utilizadors un ensemble de tèxtes pro larg per que cadun i pòsca seleccionar los tèxtes que li permetran de se bastir son còrpus de trabalh. Lo projècte se vòl cooperatiu : cadun pòt venir contributor s’o vòl e prepausar de tèxtes per integrar dins BaTelÒc.

Podètz, se volètz, nos ajudar a completar la basa, en particulièr pels dialèctes, genres o grafias que son pas encara representats, en nos mandant de tèxtes, o en nos signalant un tèxte qu’i aimariatz trobar. Basta de nos escriure : bateloc<at>univ-tlse2.fr