Datalingvistik er den videnskabelige disciplin der beskæftiger sig med natursprogsbehandling i mennesker og navnlig computere. Datalingvistik har dermed som underdiscipliner den datamatiske behandling af fonetiske/fonologiske, morfologiske og syntaktiske data samt diskursdata. Disse data er henholdsvis (sprog)lyde, orddele, ord og sætninger og deres organisering. Da natursprogsbehandling også dækker formel semantik og logik, er dette også emner inden for datalingvistikken.

Kommunikation fra computer til en (for)bruger

En af datalingvistikkens hovedformål har traditionelt været at opstille formelle grammatikker for forskellige aspekter af sproget, dvs. regelsæt der definerer fx den uendelige mængde af et sprogs grammatisk korrekte sætninger uden at overgeneralisere til ugrammatiske sætninger. Tilsvarende regel-baserede modeller har været tilstræbt for diverse andre sprogstrukturelle fænomener.

De mange undtagelser der altid findes til formelle regler man kan stille op for sproglige fænomener har imidlertid ført til en dalende interesse for formelle grammatikker til fordel for undersøgelser af faktiske forekommende sproglige mønstre i store tekstsamlinger (kaldet korpora). Datalingvistikken har dermed taget en drejning hen imod datadreven eller statistisk natursprogsbehandling og korpuslingvistik.

Se også redigér

Eksterne henvisninger redigér