गठनकॉलेजों और विश्वविद्यालयों

कॉर्पस भाषाविज्ञान क्या है?

बस कुछ दशक पहले भाषाई अनुसंधान को स्वचालित करने, वैज्ञानिकों केवल का सपना हो सकता है। काम हाथ से किया गया था, यह छात्रों की एक बड़ी संख्या को आकर्षित करती है, वहाँ है एक पर्याप्त संभावना "लापरवाह" गलतियों, और सबसे महत्वपूर्ण बात - यह सब एक बहुत लंबे समय ले लिया।

साथ कंप्यूटर प्रौद्योगिकी के विकास के आज तेजी से परिमाण के आदेश पर अनुसंधान का संचालन करने के लिए संभव हो गया है, और भाषा के अध्ययन में सबसे होनहार दिशाओं में से एक कोष भाषा विज्ञान है। इसकी मुख्य विशेषता एक एकल डाटाबेस में पाठ जानकारी, जानकारी की बड़ी मात्रा का उपयोग करते हैं, एक विशेष तरीके से है और चिह्नित शरीर कहा जाता है।

तिथि करने के लिए, वहाँ कई विभिन्न भाषाई सामग्री लाखों लोगों से शाब्दिक इकाइयों के अरबों के दसियों में फैले के आधार पर विभिन्न प्रयोजनों के साथ बनाई गई इमारतें हैं। इस दिशा में एक होनहार के रूप में मान्यता प्राप्त है और आवेदन और अनुसंधान प्रयोजनों की ओर महत्वपूर्ण प्रगति को दर्शाता है है। विशेषज्ञों का, एक ही रास्ता या प्राकृतिक भाषा के साथ एक और व्यवहार, यह कम से कम एक बुनियादी स्तर पर ग्रंथों के शरीर के साथ परिचित हो सिफारिश की है।

कोष भाषा विज्ञान का इतिहास

इस प्रवृत्ति के गठन पिछली सदी के शुरुआती 60-ies में ब्राउन शरीर पर संयुक्त राज्य अमेरिका के निर्माण के कारण है। संग्रह शब्द रूप के सभी 1 लाख के ग्रंथों में शामिल हैं, और आज इस आकार के शरीर पूरी तरह से अप्रतिस्पर्धी होगा। यह काफी हद तक कंप्यूटर प्रौद्योगिकी के विकास की गति, साथ ही नए शोध संसाधनों के लिए बढ़ती मांग के कारण है।

90 के दशक कोष भाषा विज्ञान के लिए एक पूर्ण और स्वतंत्र अनुशासन में उभरा में, ग्रंथों का संग्रह तैयार की और दर्जनों भाषाओं के लिए चिह्नित किया गया है। इस अवधि में यह बनाया गया था, उदाहरण के लिए, ब्रिटिश नेशनल कोर्पस 100 मिलियन टोकन।

भाषा विज्ञान के इस क्षेत्र के विकास के साथ, पाठ की मात्रा अधिक से अधिक होते जा रहे हैं (और शब्दकोश इकाइयों के अरबों तक पहुंच), और लेआउट अधिक विविध बनता जा रहा है। तिथि करने के लिए, इंटरनेट अंतरिक्ष लिखा शवों पाया और भाषा, बहुभाषी, और सीखने उन्मुख कलात्मक या शैक्षिक साहित्य, साथ ही कई अन्य प्रजातियों बोला जा सकता है।

आवास क्या हैं

शरीर भाषा विज्ञान में शारीरिक प्रकार कई कारणों से प्रदान की जा सकती। Intuitively, वर्गीकरण के लिए आधार एक पाठ भाषा (रूसी, जर्मन), पहुँच मोड (खुला स्रोत, बंद कर दिया, वाणिज्यिक), स्रोत सामग्री (कथा, वृत्तचित्र, शैक्षिक, पत्रकारिता) की शैली हो सकता है।

दिलचस्प तरीका बोली जाने वाली भाषा की सामग्री उत्पन्न करता है। चूंकि इस तरह के भाषण का जानबूझकर रिकॉर्डिंग उत्तरदाताओं के लिए एक कृत्रिम वातावरण का निर्माण, और जिसके परिणामस्वरूप सामग्री "सहज" नहीं कहा जा सकता, आधुनिक कोष भाषा विज्ञान अन्य तरीके से चला गया है। एक स्वयंसेवी एक माइक्रोफोन के साथ सुसज्जित है, और दिन के दौरान सभी वार्तालापों, जिसमें यह भाग लेता है के रिकार्ड उत्पादन किया। लोग चारों ओर, जाहिर है, पता नहीं हो सकता रोजमर्रा की बातचीत के पाठ्यक्रम में विज्ञान के विकास के लिए योगदान है।

बाद में डेटाबेस में संग्रहीत रिकॉर्ड प्राप्त किया और प्रिंट किया गया पाठ प्रतिलेख प्रकार के साथ कर रहे। इस प्रकार, यह संभव मार्कअप एक मौखिक दैनिक भाषण आवास बनाने के लिए आवश्यक हो जाता है।

आवेदन

जहाँ भी संभव हो भाषा का प्रयोग, और शायद इमारतों ग्रंथों का उपयोग। तरीके भाषा विज्ञान में पतवार लागू करने के लिए हो सकता है:

  • एक कार्यक्रम कुंजी का निर्धारण बनाना, व्यापक रूप से राजनीति और व्यापार में प्रयोग किया जाता है क्रमशः मतदाताओं और ग्राहकों के सकारात्मक और नकारात्मक प्रतिक्रियाओं का ट्रैक रखने के लिए,।
  • शब्दकोशों और अनुवादकों के लिए कनेक्शन सूचना प्रणाली उनके प्रदर्शन में सुधार होगा।
  • अनुसंधान कार्य उस भाषा इकाई, इसके विकास और निकट भविष्य में परिवर्तन की भविष्यवाणी के इतिहास की समझ के लिए योगदान की एक किस्म।
  • सूचना पुनर्प्राप्ति प्रणाली का विकास, रूपात्मक वाक्यात्मक, अर्थ और अन्य सुविधाओं के आधार पर।
  • विभिन्न भाषाई सिस्टम और अन्य लोगों के अनुकूलन।

इमारतों के उपयोग

एक विशिष्ट खोज इंजन के साथ समान संसाधन इंटरफ़ेस और उपयोगकर्ता जानकारी आधार के लिए खोज करने के लिए एक शब्द या शब्दों का संयोजन दर्ज करने के लिए संकेत देता है। इसके अलावा फार्म सटीक क्वेरी उन्नत संस्करण है, जो वास्तव में किसी भी भाषाई मापदंड पर शाब्दिक जानकारी प्राप्त करने के लिए अनुमति देता है का उपयोग कर सकते हैं।

खोज आधार हो सकता है:

  • भाषण के कुछ हिस्सों के एक विशेष समूह की सदस्यता;
  • व्याकरण सुविधाओं;
  • अर्थ विज्ञान;
  • शैलीगत और भावनात्मक रंग।

आप यह भी उदाहरण के लिए, शब्दों का एक दृश्य के लिए खोज मापदंड को जोड़ सकते हैं, वर्तमान काल, पहले व्यक्ति एकवचन है, जो पूर्वसर्ग "में" और कर्म कारक मामले में संज्ञा के बाद आता है में क्रिया की सभी घटनाओं को खोजने के लिए। इस तरह के एक सरल कार्य का हल उपयोगकर्ता के लिए कुछ सेकंड लेता है और निर्दिष्ट क्षेत्रों में केवल कुछ ही माउस क्लिक की आवश्यकता है।

बनाने की प्रक्रिया

खोज अपने आप में सब subcorpus पर किया जा सकता है और एक विशेष रूप से, चुने हुए एक विशेष लक्ष्य को प्राप्त करने में जरूरतों के आधार पर:

  1. पहला कदम को परिभाषित करने के जो ग्रंथों मामले के लिए आधार के रूप में है। व्यावहारिक प्रयोजनों के लिए, यह अक्सर पत्रकारिता, समाचार, ऑनलाइन टिप्पणियों प्रयोग किया जाता है। अनुसंधान परियोजना पैकेज प्रकार की एक विस्तृत विविधता का उपयोग है, लेकिन पाठ कुछ सामान्य जमीन के अनुसार चुना जाना चाहिए।
  2. पूर्व उपचार के अधीन ग्रंथों के परिणामस्वरूप संग्रह, त्रुटियों के सुधार के पाठ के ग्रंथ सूची और अतिरिक्त भाषाई वर्णन द्वारा तैयार है, यदि कोई हो,।
  3. निकाल दिया जाता है सभी गैर-पाठ्य जानकारी: ग्राफिक्स, चित्र, टेबल साफ़ करता है।
  4. टोकन, जो आम तौर पर भाषण कर रहे हैं, आगे की प्रक्रिया के लिए आवंटन है।
  5. अंत में, यह तत्वों की, रूपात्मक वाक्य और अन्य चिह्नों प्राप्त अधिकता ले गए।

उसमें वितरित तत्वों, जिनमें से प्रत्येक भाषण, व्याकरण के हिस्से की पहचान की है और कुछ मामलों, अर्थ विशेषताओं में, की अधिकता के साथ एक वाक्यात्मक संरचना द्वारा किए गए सभी लेन-देन का परिणाम है।

इमारतों बनाने में कठिनाइयाँ

यह समझना महत्वपूर्ण है कि शरीर के लिए एक साथ शब्द या वाक्य का एक सेट डाल करने के लिए पर्याप्त नहीं है महत्वपूर्ण है। एक तरफ, ग्रंथों का संग्रह संतुलित होना चाहिए, वह है, निश्चित अनुपात में ग्रंथों के विभिन्न प्रकार के प्रतिनिधित्व करते हैं। दूसरी ओर - बाड़े की सामग्री को एक विशेष तरीके से स्थान दिया गया है किया जाना चाहिए।

पहली समस्या एक समझौते से हल किया जाता है: उदाहरण के लिए, संग्रह में साहित्यिक ग्रंथों का 60%, वृत्तचित्र का 20% भी शामिल है, एक निश्चित प्रतिशत बोली जाने वाली भाषा, विधान, वैज्ञानिक कार्यों, आदि सही नुस्खा संतुलित शरीर आज मौजूद नहीं है के एक प्रश्न के लिखित प्रतिनिधित्व दिया जाता है ...

दूसरा सवाल, सामग्री लेआउट के विषय में, चुनौतीपूर्ण का समाधान। वहाँ विशेष कार्यक्रम और स्वत: ग्रंथों के अंकन के लिए इस्तेमाल किया एल्गोरिदम हैं, लेकिन वे एक आदर्श परिणाम नहीं देते, अवरोधों पैदा कर सकता है और मैनुअल rework की आवश्यकता है। अवसर और इस समस्या से निपटने के लिए चुनौतियों का एक कागज कोष भाषा विज्ञान के वी पी Zaharova में विस्तार से बताया गया है।

पाठ मार्कअप कई स्तरों है, जो हम नीचे की सूची में कार्यान्वित किया जाता है।

रूपात्मक टैगिंग

स्कूल से, हमें याद रखना है कि रूसी भाषा में, वहाँ भाषण के विभिन्न भागों रहे हैं, और उनमें से प्रत्येक की अपनी विशेषताएं हैं। उदाहरण के लिए, क्रिया झुकाव की श्रेणियों और समय, जिस पर कोई संज्ञा है। बिना किसी हिचकिचाहट के एक देशी वक्ता संज्ञा और संयुग्म क्रियाओं में गिरावट आती है, लेकिन 100 करोड़ के शरीर चिह्नित करने के लिए। शारीरिक श्रम से काम नहीं चलेगा टोकन। सभी आवश्यक कार्यों के कंप्यूटर निष्पादित कर सकते हैं, हालांकि, इस लिए यह सिखाया जाना चाहिए।

आकृति विज्ञान टैगिंग, कंप्यूटर कुछ व्याकरण सुविधाओं होने भाषण के एक खास हिस्से के रूप में प्रत्येक शब्द "समझ" चाहिए। के बाद से रूस (और किसी भी अन्य भाषा) नियमित रूप से नियमों की एक संख्या संचालित होता है, यह रूपात्मक विश्लेषण के लिए एक स्वचालित प्रक्रिया के निर्माण के लिए, एल्गोरिदम के एक नंबर के लिए कार में निवेश संभव है। हालांकि, वहाँ नियम है, साथ ही विभिन्न उलझी कारकों के अपवाद हैं। नतीजतन, आज का शुद्ध कंप्यूटर विश्लेषण 100 मिलियन। इकाइयों के शरीर पर शब्द, मैनुअल rework की आवश्यकता होती है दूर आदर्श से है, और यहां तक कि 4% त्रुटि 4 मिलियन के एक मूल्य अर्जित करता है।।

विस्तृत पुस्तक समस्या Zaharova वी पी "कोर्पस भाषाविज्ञान" वर्णन करता है।

वाक्यात्मक एनोटेशन

पार्स या पार्स करने - एक प्रक्रिया है कि एक वाक्य में शब्दों का संबंध निर्धारित करता है। एल्गोरिदम का एक सेट का उपयोग करते हुए विषय, विधेय, परिवर्धन, भाषण के कई बदल जाता है का पाठ निर्धारित करने के लिए संभव है। पता लगाएं कि कौन शब्द मुख्य अनुक्रम, और जो कर रहे हैं - निर्भर करता है, हम प्रभावी रूप से पाठ से जानकारी निकालने के कर सकते हैं और एक खोज अनुरोध के जवाब में केवल जानकारी हमें दिलचस्प जारी करने के लिए मशीन को पढ़ाने के लिए।

वैसे, आधुनिक खोज इंजन इस का उपयोग जैसे प्रासंगिक प्रश्नों के जवाब में लंबा ग्रंथों के बजाय विशिष्ट संख्या बाहर देने के लिए या "कितनी कैलोरी एक सेब में" "सेंट पीटर्सबर्ग के लिए मास्को से दूरी।" हालांकि, इस प्रक्रिया या अन्य बुनियादी ट्यूटोरियल "कोर्पस भाषा विज्ञान का परिचय" से परामर्श करने की आवश्यकता द्वारा वर्णित की भी मूल बातें समझने के लिए।

अर्थ मार्कअप

शब्द के अर्थ विज्ञान - सरल शब्दों, अर्थ में, है। एक शब्द रोपण टैग की अर्थगत विश्लेषण, उसके अर्थ श्रेणियों और उपश्रेणियों का एक सेट से संबंधित दर्शाती करने के लिए व्यापक रूप से लागू दृष्टिकोण। इस तरह की जानकारी एल्गोरिदम पाठ स्वर, स्वत: संक्षिप्तीकरण और कोष भाषा विज्ञान के अन्य कार्यों के तरीकों का विश्लेषण के अनुकूलन के लिए मूल्यवान है।

पेड़ की "रूट", के एक नंबर एक बहुत व्यापक अर्थ विज्ञान के साथ एक सार शब्द का प्रतिनिधित्व कर रहे हैं। पेड़ नोड्स की एक शाखा के रूप में गठन कर रहे हैं, अधिक से अधिक विशिष्ट शाब्दिक तत्वों से युक्त। उदाहरण के लिए, शब्द "प्राणी" "मानव" और "जानवर" के रूप में ऐसी अवधारणाओं के साथ जुड़ा हो सकता है। वर्गों और जानवरों के प्रकार पर - पहला शब्द विभिन्न व्यवसायों, रिश्तेदारी शर्तों, राष्ट्रीयता, और दूसरे में अपनी शाखाएं जारी रहेगा।

सूचना पुनर्प्राप्ति प्रणाली के उपयोग के

कोष भाषा विज्ञान के उपयोग के क्षेत्रों गतिविधि के विभिन्न क्षेत्रों को कवर किया। आवास तैयार करने और शब्दकोशों के सुधार के लिए उपयोग किया जाता है, स्वचालित अनुवाद प्रणाली,, व्याख्या तथ्यों को पुन: प्राप्त, स्वर और अन्य पाठ प्रसंस्करण का निर्धारण पैदा करते हैं।

इसके अलावा, इस तरह के संसाधनों को सक्रिय रूप से दुनिया भाषाओं और सामान्य रूप में भाषा का कार्य कर के तंत्र के अध्ययन में किया जाता है। पूर्व तैयार जानकारी की बड़ी मात्रा के लिए प्रवेश विकास भाषाओं के रुझान के तेजी से और व्यापक अध्ययन की सुविधा, और स्थिर गठन neologisms भाषण गति परिवर्तन शाब्दिक इकाइयों और दूसरों महत्व देता है।

के बाद से डेटा के इस तरह के बड़ी मात्रा के साथ काम स्वचालन की आवश्यकता है, आज वहाँ कंप्यूटर और कोष भाषा विज्ञान के बीच घनिष्ठ बातचीत है।

रूसी राष्ट्रीय कोर्पस

इस मामले (संक्षिप्त NKRYA) subcorpus के एक नंबर, कार्य की एक विस्तृत विविधता के लिए एक संसाधन के उपयोग के लिए अनुमति देता है शामिल है।

डेटाबेस में सामग्री NKRYA विभाजित हैं:

  • मीडिया '90 के दशक और 2000 के दशक में, दोनों घरेलू और विदेशी में प्रकाशनों के लिए;
  • भाषण की रिकॉर्डिंग;
  • aktsentologicheski चिह्नित ग्रंथों (अर्थात, तनाव के निशान);
  • बोली भाषण;
  • कविता;
  • वाक्यात्मक और अन्य निशान के साथ सामग्री।

सूचना प्रणाली भी में अंग्रेजी, जर्मन, फ्रेंच और कई अन्य भाषाओं (और इसके विपरीत) रूस से काम करता है के समानांतर अनुवाद के साथ Subcorpus भी शामिल है।

इसके अलावा डेटाबेस में वहाँ ऐतिहासिक ग्रंथों का एक वर्ग, अपने विकास के विभिन्न कालों में रूसी में लिखा भाषण का प्रतिनिधित्व करता है। वहाँ भी एक प्रशिक्षण शरीर है, जो रूसी भाषा माहिर में विदेशी नागरिकों के लिए उपयोगी हो सकता है।

रूसी राष्ट्रीय कोर्पस 400 मिलियन शाब्दिक इकाइयां शामिल हैं, और यूरोप निकायों की भाषाओं का एक महत्वपूर्ण हिस्सा से आगे कई मायनों में।

संभावनाओं

इस प्रवृत्ति को मान्यता देने के पक्ष में तथ्य रूसी विश्वविद्यालयों में प्रयोगशाला कोष भाषा विज्ञान का वादा, विदेशी के रूप में भी की उपलब्धता है। इस जानकारी और खोज संसाधनों के ढांचे में के उपयोग और अनुसंधान के साथ उच्च प्रौद्योगिकी, सवाल-जवाब देने सिस्टम के क्षेत्र में कुछ क्षेत्रों के विकास के जरूरत पर जोर देता है, लेकिन यह ऊपर चर्चा की है।

कोष भाषा विज्ञान के आगे विकास के सभी स्तरों पर भविष्यवाणी की है, तकनीकी से और नए एल्गोरिदम कि खोज और प्रसंस्करण जानकारी, कंप्यूटर को सशक्त बनाने की प्रक्रिया का अनुकूलन, और अधिक रैम के कार्यान्वयन के मामले में, और उपभोक्ता को लेकर, क्योंकि उपयोगकर्ताओं को अपने दैनिक में संसाधन के इस प्रकार का उपयोग करने के अधिक से अधिक तरीके हैं जीवन और काम।

अंत में

2017 में पिछली सदी के मध्य में, दूर भविष्य लग रहा था, जहां अंतरिक्ष यान ब्रह्मांड के माध्यम से यात्रा और रोबोट लोगों के लिए सब काम करते हैं। वास्तव में, विज्ञान "सफेद धब्बे" और परेशान सदियों से मानव जाति के सवालों के जवाब देने के लिए बेताब प्रयास कर रही है से परिपूर्ण है। भाषा के कार्य कर प्रश्न यहाँ सम्मान की एक जगह पर कब्जा है, और कैबिनेट और कम्प्यूटेशनल भाषाविज्ञान उन्हें जवाब देने के लिए हमारी मदद कर सकते हैं।

बड़े डेटा सेट के प्रसंस्करण पैटर्न पहले से दुर्गम पता लगा सकते हैं,, विशिष्ट भाषा सुविधाओं के विकास की भविष्यवाणी लगभग वास्तविक समय में शब्दों का निर्माण ट्रैक करने के लिए।

एक व्यावहारिक स्तर पर, वैश्विक बाड़ों, देखा जा सकता है उदाहरण के लिए, सार्वजनिक मूड का आकलन करने के लिए एक संभावित उपकरण के रूप में - इंटरनेट वास्तविक उपयोगकर्ताओं द्वारा बनाई गई एक लगातार अद्यतन दैनिक आधार विभिन्न पाठ है: इस टिप्पणी और समीक्षा, और लेख, और भाषण के कई अन्य रूपों।

इसके अलावा, शरीर के साथ काम कर रहे एक ही हार्डवेयर, कि सूचना पुनर्प्राप्ति में शामिल हैं के विकास में योगदान, हम सेवा "गूगल" या "Yandex", मशीन अनुवाद, इलेक्ट्रॉनिक शब्दकोशों से परिचित हैं।

हम पूरे विश्वास के साथ जोर कर सकते हैं कि कोष भाषा विज्ञान केवल पहला कदम है, और निकट भविष्य में पनपने होगा।

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 hi.birmiss.com. Theme powered by WordPress.